參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？-人工智慧-PHP中文網

多模態 AI 系統的特點在於能夠處理和學習包括自然語言、視覺、音訊等各種類型的數據，從而指導其行為決策。近期，將視覺資料納入大型語言模型（如 GPT-4V）的研究取得了重要進展，但如何有效地將影像資訊轉化為 AI 系統的可執行操作仍面臨挑戰。為了實現圖像資訊的轉化，一種常見的方法是將圖像資料轉化為對應的文字描述，然後由 AI 系統根據描述進行操作。這可以透過在現有的圖像資料集上進行監督學習，讓 AI 系統自動學習圖像到文字的映射關係。此外，還可以利用強化學習方法，透過與環境互動來學習如何根據影像資訊進行決策。另一種方法是直接將圖像資訊與語言模型結合，建構

在最近的一篇論文中，研究者提出了一種專為AI 應用設計的多模態模型，引入了「functional token”的概念。

論文標題：Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
論文連結：https://arxiv .org/pdf/2404.11459.pdf
模型權重與推理程式碼：https://www.nexa4ai.com/apply

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

#此模型能完整支援邊緣設備，研究者將其參數量優化至10億以內。與GPT-4類似，此模型能同時處理英文和中文。實驗證明，模型能在包括樹莓派等各類資源受限的終端設備上高效運作。

###研究背景#######

人工智慧技術的快速發展徹底改變了人機互動的方式，催生出一批能夠根據自然語言、視覺等多種形式的輸入執行複雜任務、做出決策的智慧 AI 系統。這些系統有望實現從影像辨識、語言翻譯等簡單任務到醫療診斷、自動駕駛等複雜應用的自動化。多模態語言模型是這些智慧系統的核心，使其能夠透過處理整合文字、影像乃至音視頻等多模態數據，理解並產生近乎人類的回應。相較於主要關注文本處理和產生的傳統語言模型，多模態語言模型是一大躍進。透過納入視覺訊息，這些模型能夠更好地理解輸入資料的脈絡和語義，從而給出更準確、相關的輸出。處理和整合多模態資料的能力，對於開發多模態 AI 系統至關重要，使其能夠同時理解語言和視覺資訊的任務，例如視覺問答、影像導航、多模態情緒分析等。

開發多模態語言模型的一大挑戰在於，如何將視覺訊息有效地編碼為模型可處理的格式。這通常藉助神經網路架構，例如視覺變換器（ViT）和卷積神經網路（CNN），從影像中提取層次化特徵的能力，在電腦視覺任務中得到廣泛應用。使用這些架構作為模型，可以學習從輸入資料中提取更複雜的表徵。此外，基於transformer的架構不僅能夠捕捉長距離依賴關係，在理解影像中物體之間關係方面表現出色。近年來備受青睞。這些架構使模型能夠從輸入圖像中提取有意義的特徵，並將其轉換為可與文字輸入結合的向量表示。

編碼視覺訊息的另一種方法是影像符號化 (tokenization), 即將影像分割為更小的離散單元或 token。這種方法讓模型能以類似處理文字的方式來處理影像，實現兩種模態的更無縫融合。圖像 token 資訊可與文字輸入一同送入模型，使其能同時關注兩種模態並產生更準確、更契合上下文的輸出。例如，OpenAI 開發的 DALL-E 模型採用 VQ-VAE (向量量化變分自編碼器) 的變體對圖像進行符號化，使模型能根據文字描述產生新穎圖像。開發出能夠根據使用者提供的查詢和圖像採取行動的小型高效模型，對 AI 系統的未來發展影響深遠。這些模型可部署於智慧型手機、物聯網設備等資源受限的裝置上，擴大其應用範圍與場景。借助多模態語言模型的威力，這些小型系統能以更自然、直觀的方式理解和回應使用者的問詢，同時考慮使用者提供的視覺脈絡。這為實現更具吸引力、個性化的人機互動開啟了可能，例如根據用戶喜好提供視覺推薦的虛擬助手，或根據用戶面部表情調節設置的智慧家居設備。

此外，多模態 AI 系統的發展有望實現人工智慧技術的民主化，讓更廣泛的使用者和產業受益。更小巧高效的模型可在算力較弱的硬體上訓練，降低部署所需的運算資源和能耗。這可能帶來 AI 系統在醫療、教育、娛樂、電商等各個領域的廣泛應用，最終改變人們的生活和工作方式。

相關工作

多模態模型由於能夠處理和學習文字、圖像、音訊等多種資料類型而備受關注。這類模型能捕捉不同模態間複雜的交互，並利用它們的互補資訊來提升各類任務的表現。視覺 - 語言預訓練 (VLP) 模型如 ViLBERT、LXMERT、VisualBERT 等，透過跨模態注意力學習視覺和文字特徵的對齊，產生豐富的多模態表徵。多模態 transformer 架構如 MMT、ViLT 等則對 transformer 做了改進，以高效處理多種模態。研究者也嘗試將音訊、臉部表情等其他模態納入模型，如多模態情緒分析 (MSA) 模型、多模態情緒辨識 (MER) 模型等。透過利用不同模態的互補訊息，多模態模型相比單模態方法取得了更優的效能和泛化能力。

終端語言模型定義為參數量少於 70 億的模型，因為研究者發現即使採用量化，在邊緣設備上運行 130 億參數的模型也非常困難。這一領域近期的進展包括 Google 的 Gemma 2B 和 7B、Stable Diffusion 的 Stable Code 3B 以及 Meta 的 Llama 7B。有趣的是，Meta 的研究表明，與大型語言模型不同，小型語言模型採用深而窄的架構會有更好的表現。其他對終端模型有益的技術還包括 MobileLLM 中提出的 embedding 共享、分組 query 注意力以及即時分塊權重共享等。這些發現凸顯了在開發終端應用的小型語言模型時，需要考慮不同於大模型的最佳化方法和設計策略。

Octopus 方法

Octopus v3 模型開發中採用的主要技術。多模態模型開發的兩個關鍵方面是：將圖像資訊與文字輸入相整合，以及優化模型預測動作的能力。

視覺訊息編碼

影像處理中存在多種視覺訊息編碼方法，常用隱藏層的 embedding。例如，VGG-16 模型的隱藏層 embedding 被用於風格遷移任務。 OpenAI 的 CLIP 模型展示了對齊文字和圖像 embedding 的能力，利用其圖像編碼器來嵌入圖像。 ViT 等方法則採用了圖像 tokenization 等更先進的技術。研究者評估了多種影像編碼技術，發現 CLIP 模型的方法最有效。因此，本文採用基於 CLIP 的模型進行影像編碼。

Functional token

與套用於自然語言和映像的 tokenization 類似，特定 function 也可封裝為 functional token。研究者為這些 token 引入了一種訓練策略，借鑒了自然語言模型處理未見詞的技術。這方法與 word2vec 類似，透過 token 的脈絡環境來豐富其語意。例如，高階語言模型最初可能難以應對 PEGylation 和 Endosomal Escape 等複雜化學術語。但透過因果語言建模，尤其是在包含這些術語的資料集上訓練，模型能夠習得這些術語。類似地，functional token 也可透過平行策略習得，其中 Octopus v2 模型可為此類學習過程提供強大的平台。研究表明，functional token 的定義空間是無限的，從而能夠將任意特定 function 表示為 token。

多階段訓練

為開發出高效能的多模態 AI 系統，研究者採用了整合因果語言模型和影像編碼器的模型架構。此模型的訓練過程分為多個階段。首先，因果語言模型和圖像編碼器分別訓練，建立基礎模型。隨後，將這兩個部件合併，並進行對齊訓練以同步圖像和文字處理能力。在此基礎上，借鏡 Octopus v2 的方法來促進 functional token 的學習。在最後一個訓練階段中，這些能夠與環境互動的 functional token 提供回饋，用於進一步最佳化模型。因此，最後階段研究者採用強化學習，並選擇另一個大型語言模型作為獎勵模型。這種迭代訓練方式增強了模型處理和整合多模態資訊的能力。

模型評估

本節介紹模型的實驗結果，並與整合 GPT-4V 和 GPT-4 模型的效果進行比較。在對比實驗中，研究者首先採用 GPT-4V (gpt-4-turbo) 處理影像資訊。然後將提取的資料輸入 GPT-4 框架 (gpt-4-turbo-preview), 將所有 function 描述納入上下文並應用小樣本學習以提升效能。在演示中，研究者將 10 個常用的智慧型手機 API 轉換為 functional token 並評估其表現，詳見後續小節。

值得注意的是，雖然本文僅展示了 10 個 functional token, 但該模型可以訓練更多 token 以創建更通用的 AI 系統。研究者發現，對於選定的 API, 參數量不到 10 億的模型作為多模態 AI 表現可與 GPT-4V 和 GPT-4 的組合相媲美。

此外，本文模型的可擴展性允許納入廣泛的 functional token, 從而能夠打造高度專業化的 AI 系統，適用於特定領域或場景。這種適應性使本文方法在醫療、金融、客戶服務等產業尤為有價值，這些領域中 AI 驅動的解決方案可顯著提升效率和使用者體驗。

在下面的所有function 名稱中，Octopus 僅輸出functional token 如,...,, 研究者將functional token 替換為相應的函數名稱以便更好地演示。以下所有結果都是直接產生的，無需任何輸出解析器。 Octopus v3 是一個單一模型，可同時處理中文和英文，這意味著無需專門訓練另一個中文模型。

發送郵件

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

#發送簡訊

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

Google 搜尋參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

亞馬遜購物參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

智慧回收參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

#失物招領參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

###室內設計# #####

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

Instacart 购物

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

DoorDash 外卖

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

宠物护理

參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？

社会影响

在 Octopus v2 的基础上，更新后的模型纳入了文本和视觉信息，从其前身纯文本方法迈出了重要一步。这一显著进展实现了视觉和自然语言数据的同步处理，为更广泛的应用铺平了道路。Octopus v2 引入的 functional token 可适应多个领域，如医疗和汽车行业。随着视觉数据的加入，functional token 的潜力进一步扩展到自动驾驶、机器人等领域。此外，本文的多模态模型让树莓派等设备实际转化为 Rabbit R1 、Humane AI Pin 之类的智能硬件成为可能，它采用终端模型而非基于云的方案。

Functional token 目前已获得授权，研究者鼓励开发者参与本文框架，在遵守许可协议的前提下自由创新。在未来的研究中，研究者旨在开发一个能够容纳音频、视频等额外数据模态的训练框架。此外，研究者发现视觉输入可能带来相当大的延迟，目前正在优化推理速度。

以上是參數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？的詳細內容。更多資訊請關注PHP中文網其他相關文章！