精品偷拍一区二区三区在线看|午夜人性色福利无码视频在线观看|亚洲成a人片在线观看日本|久久se精品一区精品二区|国产精品自在线拍国产手青青机版

歡迎光臨托普仕留學!

面包屑導航圖標

當前位置:新加坡留學>留學資訊>新加坡國立大學開源NExT-GPT,助力AI發展

新加坡國立大學開源NExT-GPT,助力AI發展

上傳時間:2023-11-29 16:46:15瀏覽量:515

助力ai發展,近期來自于新加坡國立大學的 NExT++ 實驗室的華人團隊率先開源了一款大一統通用多模態大模型“NExT-GPT”,它支持任意模態輸入到任意模態輸出。目前NExT-GPT的代碼已經開源,并且上線了 Demo 系統,下面就隨tops留學老師一起走近看看吧!

  新加坡國立大學NExT-GPT主要架構內容:

  NExT-GPT是新加坡國立大學開源的多模態語言模型,支持處理文本、圖像、視頻和音頻,為多媒體人工智能應用提供強大支持。

  采用三層架構,包括線性投影、Vicuna、LLM核心和模態特定的轉換層,通過MosIT技術進行中間層訓練。

NExT-GPT.png

  (1)多模編碼階段:利用已開源的編碼器對各種輸入模態進行編碼,然后通過一個投影層將這些特征投影為 LLM 所能夠理解的「類似語言的」表征。作者采用了 MetaAI 的 ImageBind 統一多模態編碼器。

  (2)推理中樞階段:利用開源 LLM 作為核心大腦來處理輸入信息,進行語義理解和推理。LLM 可以直接輸出文本,同時其還將輸出一種「模態信號」token,作為傳遞給后層解碼端的指令,通知他們是否輸出相應的模態信息,以及輸出什么內容。作者目前采用了 Vicuna 作為其 LLM。

  (3)多模生成階段:利用各類開源的圖像擴散模型、聲音擴散模型以及視頻擴散模型,接收來自 LLM 的特定指令信號,并輸出所對應的模型內容(如果需要生成的指令)。

  據悉,模型在推理時,給定任意組合模態的用戶輸入,通過模態編碼器編碼后,投影器將其轉換為特征傳遞給 LLM(文本部分的輸入將會直接出入到 LLM)。然后 LLM 將決定所生成內容,一方面直接輸出文本,另一方面輸出模態信號 token。如果 LLM 確定要生成某種模態內容(除語言外),則會輸出對應的模態信號 token,表示該模態被激活。

  此外,文中作者指出,NExT-GPT 可能并不是實現任意模態輸入到任意模態輸出功能的首個工作。目前有兩類前驅工作:

  一類是不久前所發布的 CoDi 模型,其整合了各種模態的 diffusion 模型,可以同時處理和生成各種組合的模態內容。然而作者指出,CoDi 由于缺乏 LLMs 作為其核心部件,其僅限于成對(Parallel)內容的輸入和生成,而無法實現復雜的內容推理和決策,根據用戶輸入的指令靈活響應。

  另一類工作則試圖將 LLMs 與現有的外部工具結合,以實現近似的「任意多模態」理解和生成,代表性的系統如 Visual-ChatGPT 和 HuggingGPT。但作者指出,由于這類系統在不同模塊之間的信息傳遞完全依賴于 LLM 所生成的文本,其割裂、級聯的架構容易不可避免地引入了噪音,降低不同模塊之間的特征信息傳遞效用。并且其僅利用現有外部工作進行預測,缺乏一種整體的端到端訓練,這對于充分理解用戶的輸入內容和指令是不利的。

  新加坡國立大學NExT-GPT兩大亮點:

  (1)低成本實現復雜推理 + 多模態 in 和多模態 out

  NExT-GPT 完全基于現有開源的高性能模塊(比如目前性能最強的擴散模型),充分站在巨人的肩膀上,以最低的成本實現大一統多模態大模型的構建目標(實驗室可承擔級別的成本)。

  (2)高效率端到端訓練和模態對齊學習

  妥當的、端到端的系統訓練是 NExT-GPT 區別于現有其他組合型統一大模型系統最重要的一點,也是保證 NExT-GPT 具有優秀性能的前提。另一方面,還需要充分對齊系統中的所有模態的特征表征。為了既保證具有較好的學習成效,又全面降低、控制學習成本,本工作包含了以下的亮點。

  新加坡國立大學NExT-GPT未來進展空間:

  基于NExT-GPT,后續的研究工作可以考慮以下幾個方面:

  1.模態與任務擴展:受限于現有資源,目前作者所開源的 NExT-GPT 系統僅支持四種模態:語言、圖像、視頻和音頻。作者表示,后續會逐步擴展到更多的模態(例如,網頁、3D 視覺、熱圖、表格和圖表)和任務(例如,對象檢測、分割、定位和跟蹤),以擴大系統的普遍適用性。

  2.考慮更多基座 LLM:目前作者實現了基于 7B 版本的 Vicuna LLM,其表示下一步將整合不同大小的 LLM,以及其他 LLM 類型。

  3.多模態生成策略:目前版本的 NExT-GPT 系統僅考慮了基于擴散模型的純輸出方式的多模態輸出。然而生成模式容易輸出錯誤幻想內容(Hallucination),并且輸出內容的質量往往容易受到擴散模型能力的限制。因此,進一步提升擴散模型的性能很關鍵,這能直接幫助提高多模態內容的輸出質量。另外,實際上可以整合基于檢索的方法來補充基于生成的過程的弊端,從而提升整體系統的輸出可靠性。

  4. 降低多模態支持成本:可以考慮進一步降低對更多模態的支持的成本。NExT-GPT 考慮了 ImageBind 來統一多種模態的編碼,從而節省了在編碼端的代價。而對于多模態輸出端,作者簡單地集成了多個不同模態的擴散模型。如何防止隨著模態的增加而動態增加解碼器是后續的重要研究方面。比如可以考慮將一些支持不同模態生成(但具有模態共性)的擴散模型進行復用。

  5. MosIT 數據集擴展:目前 NExT-GPT 所使用的 MosIT 數據集規模受限,這也會限制其與用戶的交互表現。后續研究可以進一步提升模態切換指令微調學習策略以及數據集。

  以上是關于新加坡國立大學開源NExT-GPT的全部新聞,如果還想了解更多關于新加坡留學申請方面的相關知識的,歡迎隨時在線咨詢托普仕留學老師。托普仕留學多年名校申請經驗助力你的留學申請。

托普仕留學微信二維碼
公司地址

北京:北京海淀區中關村大廈14層

上海:上海黃浦區世界貿易大廈26層

深圳:深圳南山區大沖商務中心A座34層

成都:成都IFS國際金融中心三號樓32層

聯系方式

預約咨詢:400 - 686 - 9991

官方郵箱:service@topsedu.com

官方客服微信

Tops6868

[美國留學] [英國留學] [加拿大留學] [新加坡留學]

網站備案號:京ICP備11009754號-2 京公安網備110108001932

主站蜘蛛池模板: 亚洲精品成人av在线| 国产午夜福利久久精品| 国产男女激情一区二区三区视频| 99久久免费国产精精品| 在线观看精品视频网站| av无码精品一区二区三区| 精品久久久久久成人av| 精品国产_亚洲人成在线| 美女视频黄a视频全免费网站一区| 日韩高清在线观看不卡一区二区| 久久99国产精品一区二区三区| 精品伊人久久久大香线蕉下载| 曰本无码不卡高清av一二| 婷婷激情综合色五月久久竹菊影视| 国产精品午夜福利一区二区| 亚洲一区在线不卡| 国产精品18禁污污网站| 国产中文精品一区| 日本小视频一区| 亚洲色无码中文字幕在线| 国产女主播精品大秀系列| 国产精品无码久久av| 国产一区美女在线| 理论片87福利理论电影| 麻豆一精品传媒卡一卡二传媒短视频| 婷婷久久一区二区| 伊人色综合九久久天天蜜桃| 国产亚洲人成网站在线观看琪琪秋 | 亚洲国产精品毛片av不卡在线| 国产精品一区乱码| av不卡一区二区在线观看| 97精品熟女少妇一区| 人妻少妇乱子伦精品| 日本一区二区三区高清无卡| 亚洲一区在线免费视频| 九九久久精品国产波多野结衣| 久久久综合九色综合鬼色| 大香蕉av一区| 亚洲国产欧美精品一区二| 亚洲视频一区中文| 午夜理论片yy44880影院|