Bytedance Doubaoと武漢大学がCALを提案：視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化-AI-php.cn

Bytedance Doubaoと武漢大学がCALを提案：視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化

WBOY

リリース： 2024-06-19 09:53:01

オリジナル

964 人が閲覧しました

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

現在の主流のビジュアル言語モデル (VLM) は、主に大規模言語モデル (LLM) に基づいており、さらに微調整されています。したがって、さまざまな方法で画像を LLM の埋め込み空間にマッピングし、自己回帰手法を使用して画像トークンに基づいて答えを予測する必要があります。

このプロセスでは、テキストトークンを介して暗黙的に実装されます このステップを適切に配置する方法が非常に重要です。

この問題に対応して、武漢大学、ByteDance Beanbao Large Model Team、および中国科学院大学の研究者は、対照学習に基づいて、次のようなテキストトークンを選別するためのテキストトークンスクリーニング方法 (CAL) を提案しました。画像との関連性が高いものは、より正確なマルチモーダルアライメントを実現するために損失関数の重みが増加します。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

ペーパーリンク: https://arxiv.org/pdf/2405.17871
コードリンク: https://github.com/foundation-multimodal-models/CAL

CAL には次のような特徴があります:

は、追加の事前トレーニング段階を必要とせずにトレーニングプロセスに直接ネストできます。
は、OCR とキャプションのベンチマークで大幅な改善を達成しました。視覚化から、CAL により画像のモーダル配置が向上していることがわかります。
CAL は、ノイズの多いデータに対するトレーニングプロセスの耐性を高めます。

研究の動機

現在、視覚言語モデルは画像モダリティの調整に依存しており、調整を行う方法は非常に重要です。現在の主流の方法は、テキストの自動回帰によって暗黙的な位置合わせを実行することですが、画像の位置合わせに対する各テキストトークンの寄与には一貫性がないため、これらのテキストトークンを区別することが非常に必要です。

CAL は、既存の視覚言語モデル (VLM) トレーニングデータにおいて、テキストトークンが 3 つのカテゴリに分類できることを提案しました:

写真に関連性の高いテキスト: エンティティ (人物、動物、物体など）、数量、色、テキストなど。これらのトークンは画像情報に直接対応しており、マルチモーダル位置合わせにとって重要です。
画像と相関性の低い文章：続く単語や前の文章から推測できる内容など。これらのトークンは、実際には主に VLM のプレーンテキスト機能をトレーニングするために使用されます。
画像コンテンツと矛盾するテキスト: これらのトークンは画像情報と矛盾しており、誤解を招く情報を提供する可能性もあり、マルチモーダル位置合わせプロセスに悪影響を及ぼします。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果図 1: 緑色のマークは関連性の高いトークン、赤色はコンテンツのコンテンツ、無色は中立トークンです

トレーニングプロセス中、後者の 2 種類のトークンは実際には、より大きな割合を占めますが、画像に強く依存していないため、画像のモーダル配置にはほとんど影響しません。したがって、より良い位置合わせを実現するには、最初のタイプのテキストトークン、つまり画像との関連性が高いトークンの重みを増やす必要があります。トークンのこの部分をどのように見つけるかが、この問題を解決する鍵となります。

方法

画像と関連性の高いトークンを見つけるこの問題は、条件対比によって解決できます。

トレーニングデータ内の各画像とテキストのペアについて、画像入力がない場合、各テキストトークンのロジットは、コンテキストと既存の知識値に基づいてこの状況の発生についての LLM の推定を表します。

前に画像入力を追加すると、追加のコンテキスト情報を提供することと同じになり、各テキストトークンのロジットは新しい状況に基づいて調整されます。これら 2 つのケースにおけるロジットの変化は、各テキストトークンに対する画像の新しい状態の影響を表しています。

Cal 実験検証は 2 つの主流で行われました。モデル: MGM と MGM であり、異なるサイズのモデルでパフォーマンスの向上が達成されました。

以下の 4 つの検証部分が含まれています:

(1) CAL を使用するモデルは、さまざまなベンチマーク指標でより優れたパフォーマンスを示します。

(2) 2 つの画像とテキストのペアのテキストをランダムに均等に交換することで、ノイズデータ (画像とテキストの不一致) のバッチを作成し、CAL が作成するモデルのトレーニングに使用します。トレーニングプロセスは、より強力なデータ耐ノイズ性能を備えています。図 3: 異なる強度でのノイズトレーニングの場合、CAL のパフォーマンスとベースライン

(3) QA ケースの回答部分の画像トークンに対する回答の注意スコアを計算します。そして、それを元の画像上にプロットすると、CAL でトレーニングされたモデルには、より明確な注意分布マップが表示されます。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

C 図 4: ベースラインと CAL のアテンションマップを視覚化できます。各ペアの右側は、最も類似した LLM ボキャブラリのテキストトークンへの CAL

(4) です。元の画像の場合、CAL でトレーニングされたモデルのマッピングコンテンツは画像のコンテンツに近くなります。 buedtedancedantadantance beanbao bigモデルチームは2023年に設立され、業界で最も高度なAI大規模なモデルテクノロジーの開発、世界クラスの研究チームになり、技術的および社会的発展に貢献することに取り組んでいます。

^{Doubao Big Model チームは、AI 分野における長期的なビジョンと決意を持っており、NLP、CV、音声などをカバーしており、中国に研究所と研究職を持っています。シンガポール、米国、その他の場所。チームは、プラットフォームの十分なデータ、コンピューティング、その他のリソースに依存して、マルチモーダル機能を提供するための自社開発の一般的な大規模モデルを立ち上げ、Doubao、Buttons、などの 50 以上のビジネスをサポートしています。および Jimeng であり、Volcano Engine 法人顧客を通じて一般に公開されています。現在、Doubao APP は中国市場で最も多くのユーザーを抱える AIGC アプリケーションとなっています。 ByteDance Beanbao モデルチームへの参加を歓迎します。}

以上がBytedance Doubaoと武漢大学がCALを提案：視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。