CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い-AI-php.cn

Transformer は間違いなく自然言語処理分野の繁栄に最大の貢献者であり、GPT-4 などの大規模言語モデルのインフラストラクチャでもあります。

しかし、言語モデルの数百億のパラメータと比較すると、コンピュータビジョンの分野では Transformer の恩恵があまり受けられていません。現在、最大のビジュアル Transformer モデル ViT- e パラメータの数はわずか 40 億個です。

最近、Google は、研究者が大規模なビジョントランスフォーマー (ViT) モデルを効率的かつ安定してトレーニングできる方法を提案し、ViT のパラメーター数を 22 に増やすことに成功した論文を発表しました。十億。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

論文リンク: https://arxiv.org/abs/2302.05442

モデル拡張を実現するために、ViT-22B は他の言語モデル (PaLM モデルなど) のアイデアを組み合わせ、QK 正規化を使用してトレーニングの安定性を向上させ、非同期を提案します。並列線形演算 (非同期並列線形演算) の新しいメソッドはトレーニング効率を向上させ、より高いハードウェア効率で Cloud TPU でトレーニングできます。

ViT-22B モデルで下流タスクのパフォーマンスを評価する実験を行ったところ、ViT-22B は大規模言語モデルと同様の機能も示しました。つまり、モデルの規模が大きくなるにつれて、パフォーマンスも常に向上しています。

ViT-22B は PaLM-e でも使用でき、大規模なモデルと言語モデルを組み合わせることで、ロボットタスクの技術レベルを大幅に向上させることができます。

研究者らはさらに、形状/質感の性別による人間の視覚認識と一致する、公平性とパフォーマンスのバランスの向上など、スケールによってもたらされる他の利点も観察しました## ＃、そしてより優れた堅牢性。モデルアーキテクチャ

ViT-22B は、Transformer アーキテクチャに基づいたモデルで、元の ViT アーキテクチャと比較して、研究者はトレーニング効率を向上させるために主に 3 つの変更を加えました。そしてトレーニングの安定性。

並列レイヤー

##ViT-22B は、オリジナルの Transformer が実行されている間に、アテンションブロックと MLP ブロックを並列に実行します。順次。

PaLM モデルのトレーニングでもこの方法が使用されており、パフォーマンスを低下させることなく大規模なモデルのトレーニング速度を 15% 向上させることができます。 CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

クエリ/キー (QK) 正規化

ViT を拡張する過程で、研究者は 80 億のパラメータを使用しました。多数のモデルで、トレーニングの数千ステップ後にトレーニング損失が発散し始めることが観察されています。これは主に注意ロジットの値が大きすぎることによって引き起こされる不安定性が原因で、その結果、注意重みがゼロのエントロピーになります(ほぼワンホット）。

この問題を解決するために、研究者たちはドット乗算アテンション計算の前にクエリとキーに LayerNorm を使用しました

80 億パラメータモデルの実験結果を下図に示しますが、正規化により発散問題を軽減できます。 CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

#QKV 投影と LayerNorms のオフセット項を削除 CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

#PaLM モデルと同様に、ViT-22B は QKV 投影からバイアス項を削除し、すべての LayerNorm にバイアス項 (バイアス) とセンタリングが存在しないため、ハードウェア使用率が 3% 増加します。品質の低下はありません。

ただし、PaLM とは異なり、ViT-22B は (内部および外部) MLP 高密度接続層にバイアス項を使用します。改善されており、速度は低下していません。

ViT-22B のエンコーダモジュールでは、抽出パッチ、線形投影、追加の位置埋め込みを含む埋め込み層は、元の ViT で使用されているものと同じであり、マルチヘッドアテンションプーリングを使用して集約されます。各ヘッドの情報、トークンごとの表現。

ViT-22B のパッチサイズは 14×14、画像の解像度は 224×224 (インセプションクロップとランダムな水平反転によって前処理されています) です。

非同期並列線形操作

大規模モデルにはシャーディングも必要です)、つまりモデルパラメーターを複数のモデルに分散する必要がありますさらに、研究者はアクティベーション (アクティベーション、入力の中間表現) もスライスします。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

#入力と行列自体の両方がさまざまなデバイスに分散されるため、行列の乗算などの単純な演算であっても特別な注意が必要です。

研究者らは、行列乗算ユニット (TPU の計算能力の大部分を占めるユニット) で計算しながら同時に実行できる、非同期並列線形演算と呼ばれる手法を開発しました。 . デバイス間でアクティベーションと重みを通信します。

非同期メソッドは、受信通信の待ち時間を最小限に抑え、デバイスの効率を高めます。

非同期並列線形演算の目的は、行列の乗算 y = Ax を計算することですが、行列 A とアクティベーション x は異なるデバイスに分散されており、デバイス間で重複した通信と計算が必要です。これ。行列 A はデバイス間で列シャーディングされています。各行列には連続したスライスが含まれており、各ブロックは Aij として表されます。詳細については、元の論文を参照してください。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

実験結果

ViT-22B によって学習された表現が非常に豊富であることを示すために、研究者らは LiT-22B を使用しました。テキストと画像を位置合わせするための表現を生成するためにテキストモデルをトレーニングするための調整。

以下は、Parti と Imagen によって生成された配布外画像を使用して得られた実験結果であり、ViT-22B のゼロショット画像分類汎化能力が非常に優れていることがわかります。強力で、Web からクロールされた自然画像からのみ、目に見えないオブジェクトやシーンを認識できます。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

この論文では、ビデオ分類、深度推定、セマンティックセグメンテーションタスクに対する ViT-22B の効果についても説明しています。

人間のターゲット認識との調整

ViT-22B の分類意思決定と人間の分類意思決定の一貫性を検証するために、研究者らは ViT を微調整しました。 -22B と分布を変更しました。OOD データセットのさまざまな解像度で微調整されており、モデル対人間ツールボックスを通じて人間による比較データが利用可能です。

このツールボックスは主に 3 つの重要な指標を測定します: モデルは歪み (精度) をどのように処理するか?人間とモデルの精度の違い（精度の違い）は何ですか？人間とモデルのエラーパターン (エラーの一貫性) はどの程度似ていますか?

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

形状偏差評価（値が大きいほど形状偏差が大きいことを表します）。多くの視覚モデルには低い形状/高いテクスチャバイアスがあり、ImageNet で微調整された ViT-22B は、これまでに記録された ML モデルの中で最も高い形状バイアスを持ち、人間の形状バイアスに近いです

# 実験結果は、すべての微調整ソリューションが良好なパフォーマンスを発揮するわけではありませんが、ViT-22B バリアントは 3 つの指標すべてで新たな最高値に達することを示しています。

また、ViT-22Bモデルはビジュアルモデルの中で最高の形状偏差記録を持っています。これは、分類の決定にオブジェクトのテクスチャではなく主にオブジェクトの形状を使用し、戦略の結果は人間の知覚に似ていることを意味します (その形状バイアスは 96%)。

標準モデル (例: ResNet-50 には 20 ～ 30% の形状バイアスがあります) は通常、テクスチャに基づいて分類しますが、高い形状バイアスを持つモデルは形状 (以下に特定) に焦点を当てる傾向があります。猫)、ViT-22B は人間の視覚物体の認識とより多くの類似点を示していますが、人間とモデルの認識の間にはまだ多くの違いがあります。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

猫ですか、それとも象ですか？車とか時計とか？鳥か自転車か？あるオブジェクトの形状と別の異なるオブジェクトのテクスチャを含む画像を使用して、形状/テクスチャの偏差を測定できます

配布外のパフォーマンス

OOD データセットのパフォーマンスを測定することは、モデルの一般化を評価するのに役立ちます。

この実験では、研究者らは、JFT から ImageNet へ、および ImageNet から ObjectNet などのさまざまな配布外データセットへのラベルマッピングを構築しました。

このデータで事前トレーニングした後の結果を以下に示します。その後、モデルは ImageNet で完全に微調整されます。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

Vision Transformers をスケーリングすると OOD パフォーマンスが向上することがわかります。ImageNet の精度が飽和に達した場合でも、 ObjectNet 上の ViT-e からの変換 ViT-22B モデルは、パフォーマンスを大幅に向上させることができます。

線形プローブ

線形プローブは、フリーズしたモデルの上に単一の線形レイヤーを配置する手法です。完全な微調整と比較して、この方法は安価です。トレーニングしやすく、セットアップも簡単です。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

#ImageNet、ImageNet-Real、ImageNet-v2、ObjectNet、ImageNet-R、および ImageNet でトレーニングされた線形検出結果 - 評価データセット A、高解像度で微調整された ViT-e/14 を参照として提供します

結果から、ViT-22B の線形検出性能は次のとおりであることがわかります。これは、高解像度画像上で小さなモデルの最先端の微調整を使用することに近いもので、高解像度でのトレーニングは一般にはるかにコストがかかりますが、多くのタスクでより良い結果を達成できます。

蒸留

蒸留手法を使用すると、より大きなモデルの知識をより小さなモデルの知識に変換できるため、より大きなモデルのコストとコストを向上させることができます。実行速度が遅いほど、モデルの動作効率が低下します。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い

実験結果から、ViT-22B の知識は ViT-B/16 や ViT-B/16 などのより小さなモデルにも応用できることがわかります。 ViT-L/16 と同じモデルサイズで ImageNet 上のパフォーマンス記録を更新しました。

公平性とバイアス

機械学習モデルは、誤った相関関係やサブグループ間のパフォーマンスギャップの発見など、意図しない不公平なバイアスの影響を受けやすいため、モデルをスケールアップすると研究者らは発見しました。これらの問題を軽減するのに役立つ可能性があります。

まず、モデルがトレーニングされ、人口統計上の同等性を所定の許容可能なレベルに制御するために後処理されたとしても、スケールは有望なトレードオフです。規模が大きくなるにつれて改善されます。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃その上: バイアス除去前の CelebA の各サブグループの精度。以下: Y 軸は、この例で強調表示されている 2 つの特定のサブグループ (女性と男性) のパフォーマンスの絶対的な差を示しています。小型の ViT モデルと比較して、ViT-22B の性能差は非常に小さいです。

さらに重要なのは、これはパフォーマンスが精度の観点から測定される場合だけでなく、キャリブレーション、つまりモデルの推定値の真実性などの他の尺度にも当てはまります。統計的に測定すると、すべてのサブグループの分類はサイズが大きくなるにつれて改善される傾向があり、ViT-22B はサブグループ間のパフォーマンスのギャップを減らします。

CVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近い結論

研究者らは、現在最大のビジュアル Transformer モデルの 1 つである ViT-22B を提案しました。このモデルには 220 億のパラメータが含まれています。

元のモデルアーキテクチャに小さいながらも重要な変更を加えることで、ハードウェアの使用率とトレーニングの安定性が向上し、その結果、いくつかのベンチマークでパフォーマンスの上限が向上したモデルが得られました。

フリーズしたモデルを使用してエンベディングを生成するには、上部のいくつかのレイヤーをトレーニングするだけで非常に優れたパフォーマンスを達成できます。評価結果はさらに、既存のモデルと比較して ViT-22B が優れたパフォーマンスを示していることを示しています。形状とテクスチャのバイアスという点で人間の視覚認識と類似しており、公平性と堅牢性の点で利点があります。

以上がCVが大型モデルの時代を切り開く！ Googleが史上最大のViTをリリース：220億パラメータ、視覚認識は人間のそれに近いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。