進行状況追跡リンク (Awesome-MLLM、リアルタイム更新): https://github.com/BradyFU/Awesome-Multimodal-Large-Language-モデル
近年、大規模言語モデル (LLM) に関する研究が大幅に進歩しました (GPT-3 など) 、LLaMa、ChatGPT、GPT-4)、これらのモデルは、さまざまな自然言語処理 (NLP) タスクで優れたパフォーマンスを実証しています。
大量のデータに関する事前トレーニングを通じて、LLM は豊富な知識と強力な推論能力を獲得しました。 ユーザーの指示を入力するだけで、これらのモデルはその指示を解析し、推論を実行して、ユーザーの期待に応える答えを返すことができます。
#LLM が持つ典型的な機能には次のようなものがあります:
これらの機能の背後には、命令チューニング、コンテキスト内学習、思考連鎖など、多くの重要なアイデアやテクノロジーがあります。 。
大規模言語モデルは NLP の分野で大きな進歩を遂げてきましたが、マルチモーダル分野では対応するモデルやテクノロジが少なくなっています。探索や従来の視覚言語モデルには、まだ不十分な一般化や推論機能の欠如などの制限があります。
この目的を達成するために、多くの学者は最近、新たな方向性であるマルチモーダル大規模言語モデル (MLLM) に注目しています。
主なアイデアは、LLM を「頭脳」として使用して、入力されたマルチモーダル情報を統合、推論、分析、決定し、それによって人間が提供するタスクを完了することです。
一般的な人工知能の開発という観点から見ると、LLM と比較して、MLLM はさらに一歩前進しており、次のような利点があります。
· 世界を理解する人間の習慣により沿っています。人間は複数の感覚を持ち、複数の様式から情報を受け取りますが、それらはしばしば補完的で相乗効果を発揮します。したがって、マルチモーダル情報を使用すると、一般的に、複雑なタスクの認識と完了が向上します。
· より強力でユーザーフレンドリーな (ユーザーフレンドリー) インターフェイス。 マルチモーダル入力をサポートすることで、ユーザーはより柔軟な方法で情報を伝えることができます。
· 幅広いタスクのサポート。 LLM は通常、NLP 関連のタスクのみを完了できますが、MLLM はマルチモダリティにアクセスすることでさらに多くのタスクを完了できます。
システム設計の観点から、MLLM は 2 つのカテゴリに分類できます:
· LLM は推論者として機能し、マルチモダリティをサポートします。入力のための推論システム;
· プランナー/スケジューラー/意思決定者のためのマルチツール コラボレーション システムとしての LLM。
前者は通常、マルチモーダル情報を、LLM がトレーニング可能なマルチモーダル変換インターフェイスを通じて直接受信して処理できる形式に変換します。これにより、LLM がこれらのマルチモーダルな情報とユーザーの指示に基づいて認識と推論を実行できるようになります。
後者は通常、プランナー/スケジューラー/意思決定者として LLM を使用します [1]。ユーザーによって提供された複雑なタスクをより単純なサブタスクに分解し、それらを適切なモデル/ツールにディスパッチし、最終的に結果と出力を統合します。 。
私たちは、MLLM の背後にある主要なテクノロジーと実装方法に焦点を当て、別の視点を採用し、関連する研究の調査と要約を実施し、MLLM を次のカテゴリに分類しました。
#·マルチモーダル命令チューニング
マルチモーダル命令チューニングマルチモーダル インコンテキスト学習
・マルチモーダルな思考連鎖
・LLM 支援の視覚的推論
以下では、これらのタイプの作業について簡単に紹介します。
マルチモーダル命令チューニングマルチモーダル命令微調整の基本的な方法は、統合されたテンプレートを使用してすべての種類のデータを統合することです。命令の形式はタスクの要件を記述します。 、マルチモーダル命令データを形成し、このデータを使用して MLLM を微調整します。
トレーニングおよびテスト中の指示フォームの一貫性により、LLM は他のタスクにより柔軟に一般化でき、その強力な意味理解および推論機能により強力なゼロ サンプルを取得できます。能力。
マルチモーダル命令データの基本形式は、(命令、マルチモーダル入力、応答) の 3 つの要素として要約できます。
この種のデータを取得する直感的な方法は、ベンチマーク データ セットを変換することです。以下の図 1 に示すように、画像の説明 (画像キャプション) を例として取り上げます。
#図 1. マルチモーダル コマンド データの例元のキャプション データサンプルには画像とテキスト記述 (Ground Truth) が含まれており、このデータと GT のペアのデータは、当然のことながら、指示データのマルチモーダル入力部分と応答部分を構成します。
命令部分は、対応するタスクの説明であり、通常は手動で記述されるか、GPT を呼び出して生成されます。
マルチモーダル命令を微調整する場合、MLLM はマルチモーダル入力を変換して LLM に送信します。LLM はマルチモーダル情報と命令テキストに基づいて回答を予測します。
マルチモーダル コンテキスト内学習
# 例を学習することで、新しい問題に遭遇したときに、カテゴリを通じてそれらを使用できます。新しい問題を解決するために、比例問題の基本的な考え方と方法を学びます。
さらに、質問例では回答形式を標準化することもでき、予想される要件を満たす正しい回答を得るのにさらに役立ちます。
以下の図 2 に示すように、例を通じて 3x7 の計算結果をモデルに予測させます。
#図 2. マルチモーダル コンテキスト データの例。この例を使用して、モデルに 3x7## の計算結果を予測させます。
#
思考連鎖は、一連の中間推論ステップです [2]。マルチモーダル思考チェーンの基本的な考え方は、以下の図 3 に示すように、中間ステップを段階的に出力することをモデルに学習させ、最終的に最終的な答えを導き出すことです。
##図 3. マルチモーダル思考連鎖データの例
答えを直接出力する場合と比較した思考連鎖:
· 人間の推論の習慣により沿ったもの: 以前の推論ステップと結果に基づいて、徐々に最終的な答えに導きます;
· 複雑な推論に適していますタスクを実行し、複雑な問題を段階的に解決し、回答の精度を向上させます。
LLM 支援のビジュアル推論LLM を意思決定および推論メカニズムとして使用し、さまざまなマルチモーダル モデルとツールを呼び出して出力を統合し、最終的な結果を取得します。答え。タスクを完了する方法に応じて、一般的に単輪モデルと多輪モデルに分けることができます。
シングルラウンド モデルの基本的な考え方は、LLM がプランナー、スケジューラー、意思決定者として機能し、さまざまなモデル/ツールを調整してタスクを完了するというものです。次の機能[1]:
·プランナー:
複雑なタスクを解決可能なサブタスクに分解します; # #・スケジューラー:
サブタスクを適切なモデル/ツールにディスパッチします;・ 意思決定者:
サブタスクの実行順序を管理し、サブタスクの結果を統合して最終的な答えを取得します。マルチラウンド モデルは反復の考え方に基づいており、最終的な答えを得るのに十分な自信が得られるまで継続的に視覚認知を蓄積します。このプロセスでは、LLM は前のステップ (提起された質問と取得された視覚認知情報) を統合して、最終的な答えを出力できるかどうかを判断する必要があります [3]。
関連論文については、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models を参照してください。
##
以上が「マルチモーダルLLM」の最新紹介!データと議事録はパッケージ化され、直接持ち去られますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。