首頁 科技週邊 人工智慧 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

Jul 17, 2024 am 02:46 AM
工程 Cobra

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

引言

近年來,多模態大型語言模型(MLLM)在各個領域的應用取得了顯著的成功。然而,作為許多下游任務的基礎模型,目前的 MLLM 由眾所周知的 Transformer 網路構成,這種網路具有較低效率的二次計算複雜度。為了提高這類基礎模型的效率,大量的實驗表明:(1)Cobra 與目前計算效率高的最先進方法(例如,LLaVA-Phi,TinyLLaVA 和MobileVLM v2)具有極具競爭力的性能,並且由於Cobra的線性序列建模,其速度更快。 (2)有趣的是,封閉集挑戰性預測基準的結果顯示,Cobra 在克服視覺錯覺和空間關係判斷方面表現良好。 (3)值得注意的是,Cobra 甚至在參數數量只有 LLaVA 的 43% 左右的情況下,也取得了與 LLaVA 相當的性能。

大語言模型(LLMs)受限於僅透過語言進行交互,限制了它們處理更多樣化任務的適應性。多模態理解對於增強模型有效應對現實世界挑戰的能力至關重要。因此,研究人員正在積極努力擴展大型語言模型,以納入多模態資訊處理能力。視覺 - 語言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 已經被開發出來,以增強 LLMs 的視覺理解能力。

然而,先前的研究主要嘗試以類似的方法獲得高效的 VLMs,即在保持基於注意力的 Transformer 結構不變的情況下減少基礎語言模型的參數或視覺 token 的數量。本文提出了一個不同的視角:直接採用狀態空間模型(SSM)作為骨幹網絡,得到了一個線性計算複雜度的 MLLM。此外,本文也探討和研究了各種模態融合方案,以創建一個有效的多模態 Mamba。具體來說,本文採用 Mamba 語言模型作為 VLM 的基礎模型,它已經顯示出可以與 Transformer 語言模型競爭的效能,但推理效率更高。測試顯示 Cobra 的推理性能比同參數量級的 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使與參數數量更多的 LLaVA v1.5 模型(7B 參數)相比,Cobra 仍然可以在參數數量約為其 43% 的情況下在幾個基準測試上實現可以匹配的性能。

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

                            .如下:

調查了現有的多模態大型語言模型(MLLMs)通常依賴Transformer 網絡,這表現出二次方的計算複雜度。為了解決這種低效率問題,本文引入了 Cobra,一個新穎的具有線性計算複雜度的 MLLM。

深入探討了各種模態融合方案,以優化 Mamba 語言模型中視覺和語言訊息的整合。透過實驗,本文探討了不同融合策略的有效性,確定了產生最有效多模態表示的方法。
  1. 進行了廣泛的實驗,評估 Cobra 與旨在提高基礎 MLLM 計算效率的平行研究的性能。值得注意的是,Cobra 甚至在參數較少的情況下實現了與 LLaVA 相當的性能,突顯了其效率。
    • 原文連結:https://arxiv.org/pdf/2403.14520v2.pdf
    • 專案連結:https://sites.Google.com/view/cobravlm/
    • 計畫連結:https://sites.google.com/view/cobravlm/
    • Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

    方法介紹

    連接兩個模由態的投影機和LLM 語言主幹組成的VLM 結構。 LLM 主幹部分採用了 2.8B 參數預訓練的 Mamba 語言模型,該模型在 600B token 數量的 SlimPajama 資料集上進行了預訓練並經過了對話資料的指令微調。

                               圖Cobra 網路結構圖上與工作

    首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 2 和SigLIP 融合的視覺表徵,透過將兩個視覺編碼器的輸出拼接在一起送入投影器,模型能夠更好的捕捉到SigLIP 帶來的高層次的語義特徵和DINOv2 提取的低層次的細粒度影像特徵。

    訓練方案

    最近的研究表明,對於基於LLaVA 的現有訓練範式(即,只對準層的預對齊階段和LLM 骨幹的微調階段各一次骨幹階段可能是不必要的,而且微調後的模型仍處於欠擬合狀態。因此,Cobra 捨棄了預對齊階段,直接對整個 LLM 語言主幹和投影機進行微調。這個微調過程在一個組合資料集上隨機抽樣進行兩個週期,該資料集包括:

    在LLaVA v1.5 中使用的混合資料集,其中包含總計655K 視覺多輪對話,包括學術VQA 樣本,以及LLaVA-Instruct 中的視覺指令調校資料和ShareGPT 中的純文字指令調校資料。

    LVIS-Instruct-4V,其中包含 220K 張帶有視覺對齊和上下文感知指令的圖片,這些指令由 GPT-4V 產生。

    LRV-Instruct,這是一個包含 400K 視覺指令資料集,涵蓋了 16 個視覺語言任務,目的是減輕幻覺現象。
    1. 整個數據集大約包含 120 萬張圖片和相應的多輪對話數據,以及純文字對話數據。
    2. 實驗

    定量實驗
    定量實驗

    實驗部分,本文提出了Cobra 樣源的基礎和基本對照模型,本文對開源實驗量級是基於Transformer 架構的VLM 模型的回答速度。

                                  圖上產生速度與效能相比較首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 2,GQA,VizWiz,TextVQA 四個開放VQA 任務以及VSR,POPE 兩個閉集預測任務,共6 個benchmark 上進行了分數比較。

                             .
    定性試驗

    首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源此外Cobra 也給出了兩個VQA 範例以定性說明Cobra 在物體的空間關係認知和減輕模型幻覺兩個能力上的優越性。

                               圖 Cobra 和其他基線
    收到則在兩個問題上都做出了精確的描述,尤其在第二個實例中,Cobra 準確的辨識出了圖片是來自於機器人的模擬環境。

    消融實驗

    本文從性能和生成速度這兩個維度對 Cobra 採取的方案進行了消融研究。實驗方案分別對投影機、視覺編碼器、LLM 語言主幹進行了消融實驗。

                                  圖
    時所採取的實驗性對比圖

    7557575% 所採取的實驗性測量的實驗性對比投影機在效果上顯著優於致力於減少視覺token 數量以提升運算速度的LDP 模組,同時,由於Cobra 處理序列的速度和運算複雜度均優於Transformer,在生成速度上LDP 模組並沒有明顯優勢,因此在Mamba 類模型中使用透過犧牲精度減少視覺token 數量的採樣器可能是不必要的。 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

                                圖中 Cobra v2 特徵的融合有效的提升了 Cobra 的性能。而在語言主幹的實驗中,未經指令微調的 Mamba 語言模型在開放問答的測驗中完全無法給出合理的答案,而經過微調的 Mamba 語言模型則可以在各類任務上達到可觀的表現。

    結論

    首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源

    本文提出了 Cobra,它解決了現有依賴具有二次計算複雜度的 Transformer 網路的多模態大型語言模型的效率瓶頸。本文探討了具有線性計算複雜度的語言模型與多模態輸入的結合。在融合視覺和語言資訊方面,本文透過對不同模態融合方案的深入研究,成功優化了 Mamba 語言模型的內部資訊整合,實現了更有效的多模態表徵。實驗表明,Cobra 不僅顯著提高了計算效率,而且在性能上與先進模型如 LLaVA 相當,尤其在克服視覺幻覺和空間關係判斷方面表現出色。它甚至顯著減少了參數的數量。這為未來在需要高頻處理視覺訊息的環境中部署高性能 AI 模型,例如基於視覺的機器人回饋控制,開啟了新的可能性。

以上是首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles