免費獲取專業評估與規劃
- 限額50個 -
歡迎光臨托普仕留學!
上傳時間:2023-11-29 16:46:15瀏覽量:515
助力ai發展,近期來自于新加坡國立大學的 NExT++ 實驗室的華人團隊率先開源了一款大一統通用多模態大模型“NExT-GPT”,它支持任意模態輸入到任意模態輸出。目前NExT-GPT的代碼已經開源,并且上線了 Demo 系統,下面就隨tops留學老師一起走近看看吧!
新加坡國立大學NExT-GPT主要架構內容:
NExT-GPT是新加坡國立大學開源的多模態語言模型,支持處理文本、圖像、視頻和音頻,為多媒體人工智能應用提供強大支持。
采用三層架構,包括線性投影、Vicuna、LLM核心和模態特定的轉換層,通過MosIT技術進行中間層訓練。
(1)多模編碼階段:利用已開源的編碼器對各種輸入模態進行編碼,然后通過一個投影層將這些特征投影為 LLM 所能夠理解的「類似語言的」表征。作者采用了 MetaAI 的 ImageBind 統一多模態編碼器。
(2)推理中樞階段:利用開源 LLM 作為核心大腦來處理輸入信息,進行語義理解和推理。LLM 可以直接輸出文本,同時其還將輸出一種「模態信號」token,作為傳遞給后層解碼端的指令,通知他們是否輸出相應的模態信息,以及輸出什么內容。作者目前采用了 Vicuna 作為其 LLM。
(3)多模生成階段:利用各類開源的圖像擴散模型、聲音擴散模型以及視頻擴散模型,接收來自 LLM 的特定指令信號,并輸出所對應的模型內容(如果需要生成的指令)。
據悉,模型在推理時,給定任意組合模態的用戶輸入,通過模態編碼器編碼后,投影器將其轉換為特征傳遞給 LLM(文本部分的輸入將會直接出入到 LLM)。然后 LLM 將決定所生成內容,一方面直接輸出文本,另一方面輸出模態信號 token。如果 LLM 確定要生成某種模態內容(除語言外),則會輸出對應的模態信號 token,表示該模態被激活。
此外,文中作者指出,NExT-GPT 可能并不是實現任意模態輸入到任意模態輸出功能的首個工作。目前有兩類前驅工作:
一類是不久前所發布的 CoDi 模型,其整合了各種模態的 diffusion 模型,可以同時處理和生成各種組合的模態內容。然而作者指出,CoDi 由于缺乏 LLMs 作為其核心部件,其僅限于成對(Parallel)內容的輸入和生成,而無法實現復雜的內容推理和決策,根據用戶輸入的指令靈活響應。
另一類工作則試圖將 LLMs 與現有的外部工具結合,以實現近似的「任意多模態」理解和生成,代表性的系統如 Visual-ChatGPT 和 HuggingGPT。但作者指出,由于這類系統在不同模塊之間的信息傳遞完全依賴于 LLM 所生成的文本,其割裂、級聯的架構容易不可避免地引入了噪音,降低不同模塊之間的特征信息傳遞效用。并且其僅利用現有外部工作進行預測,缺乏一種整體的端到端訓練,這對于充分理解用戶的輸入內容和指令是不利的。
新加坡國立大學NExT-GPT兩大亮點:
(1)低成本實現復雜推理 + 多模態 in 和多模態 out
NExT-GPT 完全基于現有開源的高性能模塊(比如目前性能最強的擴散模型),充分站在巨人的肩膀上,以最低的成本實現大一統多模態大模型的構建目標(實驗室可承擔級別的成本)。
(2)高效率端到端訓練和模態對齊學習
妥當的、端到端的系統訓練是 NExT-GPT 區別于現有其他組合型統一大模型系統最重要的一點,也是保證 NExT-GPT 具有優秀性能的前提。另一方面,還需要充分對齊系統中的所有模態的特征表征。為了既保證具有較好的學習成效,又全面降低、控制學習成本,本工作包含了以下的亮點。
新加坡國立大學NExT-GPT未來進展空間:
基于NExT-GPT,后續的研究工作可以考慮以下幾個方面:
1.模態與任務擴展:受限于現有資源,目前作者所開源的 NExT-GPT 系統僅支持四種模態:語言、圖像、視頻和音頻。作者表示,后續會逐步擴展到更多的模態(例如,網頁、3D 視覺、熱圖、表格和圖表)和任務(例如,對象檢測、分割、定位和跟蹤),以擴大系統的普遍適用性。
2.考慮更多基座 LLM:目前作者實現了基于 7B 版本的 Vicuna LLM,其表示下一步將整合不同大小的 LLM,以及其他 LLM 類型。
3.多模態生成策略:目前版本的 NExT-GPT 系統僅考慮了基于擴散模型的純輸出方式的多模態輸出。然而生成模式容易輸出錯誤幻想內容(Hallucination),并且輸出內容的質量往往容易受到擴散模型能力的限制。因此,進一步提升擴散模型的性能很關鍵,這能直接幫助提高多模態內容的輸出質量。另外,實際上可以整合基于檢索的方法來補充基于生成的過程的弊端,從而提升整體系統的輸出可靠性。
4. 降低多模態支持成本:可以考慮進一步降低對更多模態的支持的成本。NExT-GPT 考慮了 ImageBind 來統一多種模態的編碼,從而節省了在編碼端的代價。而對于多模態輸出端,作者簡單地集成了多個不同模態的擴散模型。如何防止隨著模態的增加而動態增加解碼器是后續的重要研究方面。比如可以考慮將一些支持不同模態生成(但具有模態共性)的擴散模型進行復用。
5. MosIT 數據集擴展:目前 NExT-GPT 所使用的 MosIT 數據集規模受限,這也會限制其與用戶的交互表現。后續研究可以進一步提升模態切換指令微調學習策略以及數據集。
以上是關于新加坡國立大學開源NExT-GPT的全部新聞,如果還想了解更多關于新加坡留學申請方面的相關知識的,歡迎隨時在線咨詢托普仕留學老師。托普仕留學多年名校申請經驗助力你的留學申請。