Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。-AI-php.cn

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

PHPz

リリース： 2023-04-14 18:28:03

転載

971 人が閲覧しました

NLP の分野では、大規模言語モデル (LLM) がさまざまな自然言語タスクの共通インターフェイスとして機能してきました。入力と出力をテキストに変換できる限り、LLM ベースのインターフェイスをタスクに適応させることができます。たとえば、サマリータスクはドキュメントを取り込み、サマリー情報を出力します。したがって、入力ドキュメントを要約言語モデルに入力し、要約を生成できます。

NLP タスクにおける LLM の適用は成功しているにもかかわらず、研究者は画像や音声などのマルチモーダルデータに対して LLM をネイティブに使用することに依然として苦労しています。知能の基本的な構成要素として、マルチモーダルな知覚は、知識の獲得と現実世界への対処の両方において、一般的な人工知能を実現するために必要な条件です。さらに重要なことは、マルチモーダル入力のロックを解除することで、マルチモーダルロボティクス、ドキュメントインテリジェンス、ロボット工学など、より価値の高い分野での言語モデルの適用を大幅に拡大できることです。

したがって、Microsoft チームは、論文「必要なのは言語だけではない: 認識と言語の調整」でマルチモーダル大規模言語を紹介しました。モデル」モデル (MLLM) - KOSMOS-1 は、一般的なモダリティを認識し、指示に従い (つまり、ゼロショット学習)、コンテキスト内で学習 (つまり、数ショット学習) することができます。研究の目標は、モデルが見て会話できるように、知覚を LLM と一致させることです。研究者らは、METALMの手法に従ってKOSMOS-1をゼロから訓練した（論文「言語モデルは汎用インターフェースである」を参照）。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

論文アドレス: https://arxiv.org/pdf /2302.14045.pdf
プロジェクトアドレス: https://github.com/microsoft/unilm

以下の図 1 に示すように、研究者は Transformer ベースの言語モデルを一般的なインターフェイスとして使用し、それを認識モジュールに接続します。彼らは、テキストデータ、任意にインターリーブされた画像とテキスト、画像とキャプションのペアを含む Web スケールのマルチモーダルコーパスでモデルをトレーニングしました。さらに、研究者らは純粋な言語データを送信することで、クロスモーダルな指示に従う能力を調整しました。

最後に、KOSMOS-1 モデルは、以下の表 1 に示すように、ゼロショット学習設定および少数ショット学習設定での言語、知覚言語、および視覚タスクをネイティブにサポートします。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#研究者らは、生成されたいくつかの例を以下の図 2 と 3 に示しています。

KOSMOS-1 モデルは、さまざまな自然言語タスクに加えて、視覚的な対話、視覚的な説明、視覚的な質問応答、画像の字幕、簡単な数式、OCR、ゼロショット画像分類と説明。彼らはまた、MLLM の非言語的推論能力を評価するために、レイブンのプログレッシブマトリックス (RPM) に基づいた IQ テストベンチマークを確立しました。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#これらの例は、マルチモーダル認識のネイティブサポートが、新しいタスクに LLM を適用する新しい機会を提供することを示しています。さらに、LLM と比較して、MLLM はより優れた常識推論パフォーマンスを達成し、クロスモーダル転送が知識の獲得を促進することを示しています。

KOSMOS-1 モデルのパラメータ数は 16 億であるため、一部のネチズンは、この大規模なマルチモーダルモデルを自分のコンピュータで実行できるという希望を表明しました。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

KOSMOS-1: マルチモーダルな大規模言語モデル

図 1 に示すように、KOSMOS-1 は、一般的なモダリティを認識し、命令に従うことができるマルチモーダルな言語モデルです。コンテキスト内で出力を生成します。具体的には、KOSMOS-1 のバックボーンは、Transformer に基づく因果言語モデルです。モデルにはテキスト以外にも他のモダリティを埋め込んで入力することができ、下図に示すように言語以外にも視覚や音声などの埋め込みも可能です。 Transformer デコーダは、マルチモーダル入力の一般的なインターフェイスとして機能します。モデルがトレーニングされると、KOSMOS-1 は、ゼロショットおよびフューショット設定での言語タスクおよびマルチモーダルタスクでも評価できます。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

トランスフォーマーデコーダーは統一された方法でモダリティを認識し、入力情報は特別なトークンを含むシーケンスに平坦化されます。たとえば、はシーケンスの始まりを示し、はシーケンスの終わりを示します。特別なトークンとは、エンコードされた画像の埋め込みの開始と終了を表します。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#埋め込みモジュールは、テキストトークンおよびその他の入力モダリティをベクトル表現にエンコードします。、この研究ではルックアップテーブルを使用して埋め込みにマッピングします。連続信号モダリティ (画像や音声など) の場合、入力は離散コードとして表すこともできます。

その後、取得された入力シーケンスの埋め込みが Transformer ベースのデコーダーに供給されます。次に、因果モデルが自己回帰的にシーケンスを処理し、次のトークンが生成されます。要約すると、MLLM フレームワークは、入力がベクトルとして表現されている限り、さまざまなデータ型を柔軟に処理できます。

モデルトレーニング

最初はトレーニングデータセットです。データセットには、テキストコーパス、画像と字幕のペア、画像とテキストのクロスデータセットが含まれます。具体的には、テキストコーパスには The Pile と Common Crawl (CC) が含まれ、画像とキャプションのペアには英語の LAION-2B、LAION-400M、COYO-700M、および Conceptual Captions が含まれ、画像とテキストのクロスマルチモーダルデータセットは Common Crawl から取得されます。スナップショット。

データセットがあり、次にトレーニング設定があります。 MLLM コンポーネントには、24 のレイヤー、2048 の隠れ次元、8192 の FFN、32 のアテンションヘッド、および 1.3B のパラメーターサイズが含まれています。より良いモデルの収束を可能にするために、1024 の特徴次元を持つ事前トレーニングされた CLIP ViT-L/14 モデルから画像表現が取得されます。画像はトレーニング中に 224 × 224 の解像度に前処理され、さらに、最後のレイヤーを除くすべての CLIP モデルパラメーターはトレーニング中にフリーズされます。 KOSMOS-1 のパラメータの総数は約 1.6B です。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#実験結果

この研究では、一連の豊富な実験を実施しました。 KOSMOS-1の評価：言語タスク（言語理解、言語生成、OCRフリーテキスト分類）、クロスモーダル転送（常識推論）、非言語推論（IQテスト）、知覚言語タスク（画像字幕、視覚的質問）および回答、Web Q&A)、視覚的なタスク (ゼロショット画像分類、説明付きゼロショット画像分類)。

#画像の字幕。次の表は、COCO および Flickr30k でのさまざまなモデルのゼロサンプルのパフォーマンスを示しています。 KOSMOS-1は他のモデルと比べて大きな成果を上げており、パラメータ数がFlamingoよりもはるかに少ないにもかかわらず性能も良好です。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。次の表は、いくつかのサンプルのパフォーマンスの比較を示しています。

ビジュアル Q&A。 KOSMOS-1 は、Flamingo-3B および Flamingo-9B モデルよりも高い精度と堅牢性を備えています:

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

次の表は、いくつかのサンプルのパフォーマンスの比較を示しています:

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

## ＃＃＃＃＃＃＃IQテスト。レイブンの推論テストは、非言語的推論を評価するために使用される最も一般的なテストの 1 つです。図 4 に例を示します。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。 #表 6 は、IQ テストデータセットの評価結果を示しています。 KOSMOS-1は、非言語環境で抽象的な概念的パターンを認識し、複数の選択肢の中から後続の要素を推論することができます。私たちの知る限り、モデルがこのようなゼロサンプルの Raven IQ テストを実行できたのはこれが初めてです。