社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

PHPz

發布： 2023-06-09 22:58:37

轉載

988 人瀏覽過

「多模態LLM」最新介紹！數據、論文集直接打包帶走

进展跟踪链接（Awesome-MLLM，实时更新）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

近年来，大型语言模型Large Language Models（LLM）的研究取得了显著的进展（例如GPT-3，LLaMa，ChatGPT，GPT-4），这些模型在各项自然语言处理（NLP）任务上展现了出色的性能。

通过在海量数据上预训练，LLM获得了丰富的知识以及强大的推理能力。只需要输入一些用户指令，这些模型就可以解析指令、进行推理并给出符合用户预期的回答。

LLM具有的一些典型能力包括：

· 执行训练时未见过的新任务；
· 通过少量样例完成新任务；
· 通过推理链条执行复杂的推理任务；
· 协调各种模型与工具完成复合任务。

这些能力背后蕴含着众多关键思想和技术，包括指令微调（Instruction Tuning），上下文学习（In-Context Learning）和思维链（Chain of Thought）等。

多模态大型语言模型

尽管大语言模型在NLP领域取得了长足的发展，相应的模型与技术在多模态领域则较少探索，且传统视觉-语言模型仍存在着泛化性不足以及缺乏推理能力等局限。

为此，近期众多学者将注意力转向一个新兴的方向：多模态大型语言模型Multimodal Large Language Models（MLLM）。

其主要思想是以LLM作为「大脑」对输入的多模态信息进行整合、推理、分析和决断，从而完成人类交付的任务。

「多模態LLM」最新介紹！數據、論文集直接打包帶走

从发展通用人工智能的视角看，相比于LLM，MLLM又向前迈进了一步，且具有以下优点：

· 更符合人类认知世界的习惯。人类具有多种感官，接受多种模态信息，这些信息常常是互补的、协同作用的。因此，使用多模态信息一般可以更好地认知与完成复杂任务；

· 更加强大与用户友好(User-Friendly)的接口。通过支持多模态输入，用户可以通过更加灵活的方式传达信息；

· 更广泛的任务支持。LLM通常只能完成NLP相关任务，而MLLM通过接入多模态可以完成更多任务。

从系统设计的角度来看，MLLM可以分为两类：

· LLM作为推理器的、支持多模态输入的认知推理系统；

· LLM作为规划器/调度器/决策器的多工具协作系统。

前者一般通过可训练的多模态转换接口将多模态信息转化为LLM可以直接接收、处理的形态，使LLM可以基于这些多模态信息以及用户指令进行认知与推理。

後者通常以LLM作為規劃器/調度器/決策器[1]，將使用者交付的複雜任務分解為更簡單的子任務，並派發給適當的模型/工具，最後整合結果並輸出。

我們採取另一種視角，聚焦於MLLM背後的關鍵技術與實作方式，對相關工作進行了研究與總結，將MLLM劃分為以下幾類：

· 多模態指令微調（Multimodal Instruction Tuning）

· 多模態上下文學習（Multimodal In-Context Learning）

#· 多模態思考鏈（Multimodal Chain-of-Thought）

· LLM輔助的視覺推理（LLM-Aided Visual Reasoning）

#下面我們將對這幾類工作進行簡要介紹。

多模態指令微調（Multimodal Instruction Tuning）

多模態指令微調的基本做法是使用統一的模板將各類數據統一起來，並以指令的形式描述任務需求，形成多模態指令數據，再使用這種數據去微調MLLM。

由於訓練與測試時的指令形式具有一致性，LLM可以憑藉其強大的語義理解和推理能力，更靈活地泛化到其他任務，獲得強大的零樣本學習能力。

多模態指令資料的基本形式可以概括為（指令，多模態輸入，回答）三元組。

一種直覺的獲得這種資料的方式是改造基準（Benchmark）資料集，我們以影像描述（Image Captioning）為例，如下圖1所示：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

圖1. 多模態指令資料範例

##原本的Caption數據樣本包括一張圖片和一段文字描述（Ground Truth），這種數據-GT的配對數據自然構成了指令數據的多模態輸入和回答部分。

指令部分則為對應任務的描述，一般由人工編寫或呼叫GPT產生。

在進行多模態指令微調時，MLLM轉換多模態輸入並送入LLM中，LLM基於多模態資訊與指令文字預測答案。

多模態上下文學習（Multimodal In-Context Learning）

多模態上下文學習的核心思想是從類比中學習。例如，我們在學習時一般接觸到的形式如下：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

透過學習例題，我們在遇到新的問題時，可以透過類比例題學習基本思想與方法，從而解決新的問題。

此外，例題還能規範我們的回答格式，更有利於得到正確的、符合預期要求的答案。

如下圖2所示，透過範例讓模型預測3x7的計算結果。

「多模態LLM」最新介紹！數據、論文集直接打包帶走

圖2. 多模態上下文資料範例，透過範例讓模型預測3x7的計算結果

多模態思考鏈（Multimodal Chain-of-Thought）

思考鏈即一系列中間推理步驟[2]。多模態思考鏈的基本思想是使模型學會逐步輸出中間步驟，最後推論出最終答案，如下圖3所示：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

#圖3. 多模態思維鏈資料範例

比起直接輸出答案的方式，思維鏈：

· 更符合人類推理習慣：基於先前的推理步驟與結果，逐步導向最終答案；· 適用於複雜的推理任務，將複雜問題分步求解，提高回答的準確性。

LLM輔助的視覺推理（LLM-Aided Visual Reasoning）利用LLM作為決策與推理機構，呼叫各種多模態模型與工具並整合輸出，得到最後的答案。依完成任務的方式一般可分為單輪模型與多輪模型。

單輪模型的基本概念是由LLM作為規劃器、調度器和決策器協調各個模型/工具完成任務，一般需要完成以下職能[1]:

· 規劃器：

將複雜任務分解為可解的子任務；

· 調度器：

將子任務派發給適當的模型/工具；

「多模態LLM」最新介紹！數據、論文集直接打包帶走

· 決策器：

「多模態LLM」最新介紹！數據、論文集直接打包帶走

管理子任務執行順序，整合子任務結果得到最終答案。

「多模態LLM」最新介紹！數據、論文集直接打包帶走

多輪模型是基於迭代的思想，不斷累積視覺認知，直到足夠自信得到最終答案。在這個過程中，LLM需要整合先前的步驟 (提出的問題與已獲得的視覺認知資訊)，判斷是否可以輸出最終答案[3]。「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

相關論文詳見：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

「多模態LLM」最新介紹！數據、論文集直接打包帶走

################################### #############################

以上是「多模態LLM」最新介紹！數據、論文集直接打包帶走的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型論文

來源：51cto.com

上一篇：AI產業研發：生成式文字後即將爆發生成式音訊？下一篇：人工智慧產業佈局提速，多聚焦重點方向出台政策舉措

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1428758
php入門教程之一週學會PHP

4280354
JAVA 初級入門影片教學

2590120
小甲魚零基礎入門學習Python影片教學

511202
PHP 零基礎入門教學

869184

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板