进展跟踪链接(Awesome-MLLM,实时更新):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
近年来,大型语言模型Large Language Models(LLM)的研究取得了显著的进展(例如GPT-3,LLaMa,ChatGPT,GPT-4),这些模型在各项自然语言处理(NLP)任务上展现了出色的性能。
通过在海量数据上预训练,LLM获得了丰富的知识以及强大的推理能力。只需要输入一些用户指令,这些模型就可以解析指令、进行推理并给出符合用户预期的回答。
LLM具有的一些典型能力包括:
这些能力背后蕴含着众多关键思想和技术,包括指令微调(Instruction Tuning),上下文学习(In-Context Learning)和思维链(Chain of Thought)等。
尽管大语言模型在NLP领域取得了长足的发展,相应的模型与技术在多模态领域则较少探索,且传统视觉-语言模型仍存在着泛化性不足以及缺乏推理能力等局限。
为此,近期众多学者将注意力转向一个新兴的方向:多模态大型语言模型Multimodal Large Language Models(MLLM)。
其主要思想是以LLM作为「大脑」对输入的多模态信息进行整合、推理、分析和决断,从而完成人类交付的任务。
从发展通用人工智能的视角看,相比于LLM,MLLM又向前迈进了一步,且具有以下优点:
· 更符合人类认知世界的习惯。人类具有多种感官,接受多种模态信息,这些信息常常是互补的、协同作用的。因此,使用多模态信息一般可以更好地认知与完成复杂任务;
· 更加强大与用户友好(User-Friendly)的接口。通过支持多模态输入,用户可以通过更加灵活的方式传达信息;
· 更广泛的任务支持。LLM通常只能完成NLP相关任务,而MLLM通过接入多模态可以完成更多任务。
从系统设计的角度来看,MLLM可以分为两类:
· LLM作为推理器的、支持多模态输入的认知推理系统;
· LLM作为规划器/调度器/决策器的多工具协作系统。
前者一般通过可训练的多模态转换接口将多模态信息转化为LLM可以直接接收、处理的形态,使LLM可以基于这些多模态信息以及用户指令进行认知与推理。
後者通常以LLM作為規劃器/調度器/決策器[1],將使用者交付的複雜任務分解為更簡單的子任務,並派發給適當的模型/工具,最後整合結果並輸出。
我們採取另一種視角,聚焦於MLLM背後的關鍵技術與實作方式,對相關工作進行了研究與總結,將MLLM劃分為以下幾類:
· 多模態指令微調(Multimodal Instruction Tuning)
· 多模態上下文學習(Multimodal In-Context Learning)
#· 多模態思考鏈(Multimodal Chain-of-Thought)
· LLM輔助的視覺推理(LLM-Aided Visual Reasoning)
#下面我們將對這幾類工作進行簡要介紹。
多模態指令微調的基本做法是使用統一的模板將各類數據統一起來,並以指令的形式描述任務需求,形成多模態指令數據,再使用這種數據去微調MLLM。
由於訓練與測試時的指令形式具有一致性,LLM可以憑藉其強大的語義理解和推理能力,更靈活地泛化到其他任務,獲得強大的零樣本學習能力。
多模態指令資料的基本形式可以概括為(指令,多模態輸入,回答)三元組。
一種直覺的獲得這種資料的方式是改造基準(Benchmark)資料集,我們以影像描述(Image Captioning)為例,如下圖1所示:
圖1. 多模態指令資料範例
##原本的Caption數據樣本包括一張圖片和一段文字描述(Ground Truth),這種數據-GT的配對數據自然構成了指令數據的多模態輸入和回答部分。
指令部分則為對應任務的描述,一般由人工編寫或呼叫GPT產生。
在進行多模態指令微調時,MLLM轉換多模態輸入並送入LLM中,LLM基於多模態資訊與指令文字預測答案。
多模態上下文學習(Multimodal In-Context Learning)多模態上下文學習的核心思想是從類比中學習。例如,我們在學習時一般接觸到的形式如下:
透過學習例題,我們在遇到新的問題時,可以透過類比例題學習基本思想與方法,從而解決新的問題。
此外,例題還能規範我們的回答格式,更有利於得到正確的、符合預期要求的答案。
如下圖2所示,透過範例讓模型預測3x7的計算結果。
圖2. 多模態上下文資料範例,透過範例讓模型預測3x7的計算結果
思考鏈即一系列中間推理步驟[2]。多模態思考鏈的基本思想是使模型學會逐步輸出中間步驟,最後推論出最終答案,如下圖3所示:
#圖3. 多模態思維鏈資料範例
比起直接輸出答案的方式,思維鏈:
· 更符合人類推理習慣:基於先前的推理步驟與結果,逐步導向最終答案;· 適用於複雜的推理任務,將複雜問題分步求解,提高回答的準確性。
LLM輔助的視覺推理(LLM-Aided Visual Reasoning)利用LLM作為決策與推理機構,呼叫各種多模態模型與工具並整合輸出,得到最後的答案。依完成任務的方式一般可分為單輪模型與多輪模型。
單輪模型的基本概念是由LLM作為規劃器、調度器和決策器協調各個模型/工具完成任務,一般需要完成以下職能[1]:· 規劃器:
將複雜任務分解為可解的子任務;· 調度器:
將子任務派發給適當的模型/工具;
· 決策器:管理子任務執行順序,整合子任務結果得到最終答案。
多輪模型是基於迭代的思想,不斷累積視覺認知,直到足夠自信得到最終答案。在這個過程中,LLM需要整合先前的步驟 (提出的問題與已獲得的視覺認知資訊),判斷是否可以輸出最終答案[3]。
相關論文詳見:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
以上是「多模態LLM」最新介紹!數據、論文集直接打包帶走的詳細內容。更多資訊請關注PHP中文網其他相關文章!