史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート-AI-php.cn

近年の自然言語処理の進歩は、主に大規模言語モデルによるものです。新しいモデルがリリースされるたびに、パラメーターとトレーニングデータの量が新たな最高値に達し、また、既存のベンチマークランキングを大虐殺！

たとえば、今年 4 月、Google は 5,400 億パラメータ言語モデル PaLM (Pathways Language Model) を言語モデルでリリースしました。 PaLM は一連の評価において人間を超えることに成功しており、特に少数ショットの小規模サンプル学習シナリオで優れたパフォーマンスを示しており、PaLM は次世代言語モデルの開発方向と考えられています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

同様に、視覚言語モデル実はも強い努力は奇跡を生み出すことができます、モデルのサイズを大きくすることでパフォーマンスを向上させることができます。

もちろん、がマルチタスクのための単なる視覚言語モデルである場合、それは明らかにあまり汎用的ではなく、複数の入力をサポートする必要があります。言語出力するだけです。

最近、Google は、PaLM 拡張機能を、多言語と画像理解の両方を備えた PALI (Pathways Language and Image model) にアップグレードしました。機能、およびは 100 の言語をサポートし、視覚的な質問応答、画像キャプション (画像キャプション)、物体検出、画像分類、OCR など、視覚、言語、マルチモーダルにわたるさまざまな画像および言語アプリケーションを実行します。、文章推論など。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

紙のリンク: https://arxiv.org/abs/2209.06794 モデルは公開画像コレクションを使用してトレーニングされます。これには、

109 言語で自動的にクロールされる注釈が含まれます

。この記事では WebLI データセットとも呼ばれます。 WebLI で事前トレーニングされた PaLI モデルは、COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA などの複数の画像および言語ベンチマークで最先端のパフォーマンスを実現します。、などなど、前モデルの多言語ビジュアルキャプションおよびビジュアル質問応答のベンチマークも上回りました。

モデルアーキテクチャ

PALI の目標の 1 つは、

言語

およびビジュアルモデルをのパフォーマンスで研究することです。の接続、特に言語イメージモデルのスケーラビリティは同じですか? したがって、モデルのアーキテクチャ設計は、主に実験の利便性、特に再利用性と拡張性を考慮して非常にシンプルです。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポートモデルは、入力テキストを処理する Transformer エンコーダーと、出力テキストを生成する自己回帰 Transformer デコーダーで構成されます。

画像を処理する場合、Transformer エンコーダーへの入力には、ViT によって処理された画像を表すビジュアルワードも含まれます。

PaLI モデルの重要な設計は再利用であり、研究者らは、以前にトレーニングされた単一モーダル視覚および言語モデル (mT5-XXL や大きな ViT など) の重みをシードとして使用しました。この再利用により、シングルモーダルトレーニングの機能が引き継がれるだけでなく、計算コストも節約されます。

モデルのビジュアルコンポーネントは、

これまでで最大の ViT アーキテクチャである ViT-e

を使用しています。これは 18 億パラメータの ViT-G モデルと同じ構造を持ち、同じトレーニングパラメーターを使用する場合の違いは、40 億パラメーターに拡張されることです。スケーリング規則は視覚分野と言語分野の両方で研究されていますが、視覚と言語の結合モデルにおけるスケーリング動作についてはあまり議論されていません。視覚的なバックボーンモデルは、分類タスクのゲインの飽和につながる可能性があります。

研究者らはこれをさらに確認しており、ViT-e は ImageNet 上で ViT-G よりわずかに優れているだけであることが観察できますが、ViT-e は PaLI の視覚言語タスクにおいて大幅な改善を示しています。たとえば、ViT-e は、COCO 字幕タスクにおいて ViT-G を CIDEr ポイント 3 ポイント近く上回っています。タスクではViT-Gより3ポイント多い。これは、将来的に視覚言語タスクでより大きな ViT スケルトンモデルを使用できる余地も示唆しています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

研究者らは、事前トレーニングされた mT5-Large (10 億パラメータ) を使用して、言語モデリングコンポーネントとして mT5 バックボーンを採用しました。および mT5-XXL (130 億パラメータ) を使用して、PaLI の言語エンコーダ/デコーダを初期化し、純粋な言語理解タスクを含む多くの言語タスクのハイブリッドトレーニングを継続します。これは、mT5 の言語理解と生成能力の壊滅的な忘れを避けるのにも役立ちます。

ついに、サイズの異なる 3 つの PALI モデルが完成しました。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

109 言語のデータセット

深層学習に関連する拡張研究では、モデルが大きくなるほど、より多くのトレーニングデータが必要になることが示されています。セットも大きくなりました。

そこで、言語と画像の事前トレーニングモデルの可能性を包括的に研究して公開するために、研究者はインターネットから大量の画像データとテキストデータをクロールし、新しいデータセットを構築しました。 WebLI には、109 言語の 120 億の代替テキストと 100 億の画像が含まれています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

研究者らは、注釈にネットワークテキストを使用することに加えて、クラウドビジョン API を使用して画像の OCR 認識を実行し、290 億枚の画像を取得しました。 -データペアのOCR。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

ニア重複を使用して、68 の一般的なビジュアルおよびビジュアル言語データセットのトレーニング、検証、テスト部分から画像の重複を排除し、ダウンストリームでのデータ漏洩を回避します。評価タスク。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

データ品質をさらに向上させるために、研究者は「画像と代替テキスト」のクロスモーダル類似性に基づいてスコアリングし、調整することもあります。しきい値を設定し、最終的に画像の 10% のみを保持します。PaLI

大規模モデルのトレーニング

視覚言語タスク以来、合計 10 億枚の画像がトレーニングに使用されますはマルチモーダルであるため、モデルには複数のセマンティック処理機能があり、さまざまな目標を持つ必要があります。たとえば、一部のタスクではタスクを正確に解決するためにオブジェクトのローカルな位置特定が必要ですが、他のタスクではよりグローバルな意味情報が必要になる場合があります。

同様に、言語タスクによっては長い回答が必要な場合もあれば、簡潔な回答が必要な場合もあります。

これらの一貫性のない目標をすべて解決するために、研究者は WebLI の豊富な事前トレーニングデータを活用し、さまざまな下流アプリケーション用のモデルを準備するための事前トレーニングタスクミックスチャを導入しました。

モデルをより多用途にしてさまざまなタスクを解決できるようにするために、作成者はすべてのタスクを単一の共通 API (入力: 画像テキスト、出力: テキスト) に分類し、複数の API を作成しました。画像言語タスク間で知識の共有が可能であり、事前トレーニング設定でも共有されます。

事前トレーニングに使用されるターゲットは、重み付けされたミックスとして同じ API に投影されます。その目的は、新しいタスクを実行するようにモデルをトレーニングしながら、モデルコンポーネントを再利用する機能を維持することです。。

モデルはオープンソースの T5X および Flaxformer フレームワークを使用し、JAX の Flax でトレーニングされています。ViT-e のビジュアル部分は、オープンソースの BigVision フレームワークを使用して言語のワードベクトルを生成しますパートとビジュアルパート。パッチベクトルはカスケードされ、マルチモーダルエンコーダ/デコーダの入力として共同使用されます。エンコーダは mT5-XXL 事前トレーニングを使用して初期化されます。 PaLI のトレーニングプロセス中、視覚コンポーネントの重みは凍結され、マルチモーダルエンコーダ/デコーダの重みのみが更新されます。

実験部分では、研究者らは共通の視覚言語ベンチマークでPaLIを比較し、PaLIモデルはこれらのタスクに関して最先端の結果を達成し、以前の文献で提案された非常に大規模な結果をも上回りました。モデル。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート

たとえば、一部の VQA タスクや画像キャプションタスクでは、170 億パラメータの PALI は、800 億パラメータの Flamingo モデルよりも優れたパフォーマンスを発揮します。

また、PALI は単一言語または単一視覚タスクでも優れたパフォーマンスを維持しますが、これは PALI の主なトレーニング目標ではありません。

画像モデルと言語モデルのコンポーネントがモデル拡張に関してどのように相互作用するのか、またモデルがどこで最大の利益をもたらすのかについても調査します。

最終的な結論は、これら 2 つのコンポーネントのジョイントスケーリング (スケーリング) が、特に比較的少数のパラメーターを必要とするビジュアルコンポーネントの場合に最高のパフォーマンスをもたらすということです。スケーリングは重要ですが、スケーリングも重要です。多言語タスクのパフォーマンスを向上させます。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード：100以上の言語をサポート