AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Transformer の注意メカニズムを突破するにはどうすればよいですか?中国科学院大学と彭城国家実験室は、熱伝導に基づく視覚表現モデル vHeat を提案しました。画像特徴ブロックを熱源として扱い、熱伝導率を予測し、物理的熱伝導原理に基づいて画像特徴を抽出します。アテンション メカニズムに基づく視覚モデルと比較して、vHeat では、計算の複雑さ (1.5 乗)、グローバルな受容野、および物理的解釈可能性が考慮されます。
高解像度画像入力に vHeat-base+%E6%A8%A1%E5%9E%8B を使用する場合、プット、GPU メモリ使用量、およびフロップはそれぞれ Swin-base+%E6%A8%A1%E5%9E になります。 3倍、%8Bの1/4、3/4。画像分類、ターゲット検出、セマンティック/インスタンス セグメンテーションなどの基本的な下流タスクで高度なパフォーマンスを実現しました。概要
最も主流の 2 つの基本的な視覚モデルは、CNN と Visual Transformer (ViT) です。ただし、CNN のパフォーマンスは、ローカルの受容野と固定の畳み込みカーネル演算子によって制限されます。 ViT にはグローバルな依存関係を表現する機能がありますが、二次ノルムの計算が非常に複雑になります。 CNN と ViT の畳み込み演算子と自己注意演算子はどちらも特徴内のピクセル転送プロセスであり、それぞれ情報伝達の一種であると考えられます。これはまた、物理場における熱伝導を思い出させます。そこで、熱伝導方程式に基づいて、視覚意味論の空間伝播と物理的な熱伝導を結び付け、1.5 倍の計算量を持つ視覚伝導演算子 (HCO) を提案し、低電力視覚伝導を設計しました。演算子 (HCO)。複雑さ、全体的な受容野、および物理的解釈性のための視覚表現モデル vHeat。 HCO と self-attention の計算形式と複雑さの比較を次の図に示します。実験により、vHeat がさまざまな視覚的なタスクで優れたパフォーマンスを発揮することが証明されました。たとえば、vHeat-T は、ImageNet-1K 上で 82.2% の分類精度を達成します。これは、Swin-T より 0.9%、ViM-S より 1.7% 高くなります。 vHeat には、パフォーマンスに加えて、高い推論速度、低い GPU メモリ使用量、低い FLOP という利点もあります。入力画像の解像度が高い場合、基本スケールの vHeat モデルは、Swin と比較して、スループットが 1/3、GPU メモリ使用量が 1/4、FLOP が 3/4 しかありません。方法の紹介
を使用して、時間tにおける点の温度を表します。物理的な熱伝導方程式はであり、k>0は熱拡散率を表します。時間 t=0 での初期条件 が与えられると、熱伝導方程式はフーリエ変換を使用して解くことができます。これは次のように表されます。
ここで、とはそれぞれフーリエ変換と逆フーリエ変換を表し、は周波数領域の空間座標を表します。
視覚的意味論における熱伝導を実現するために、まず、を入力として、を出力として、物理的な熱伝導方程式のを拡張します。式は次のようになります。
ここで、と はそれぞれ 2 次元の離散コサイン変換と逆変換を表します。 HCO の構造は、以下の図 (a) に示されています。
さらに、の出力が周波数領域にあることを考慮すると、異なる画像コンテンツは異なる熱拡散率に対応すると考えられ、周波数値 に基づいて熱拡散率を決定します。周波数領域の異なる位置は異なる周波数値を表すため、ViT における絶対位置エンコーディングの実装と機能に似た周波数値情報を表す周波数値埋め込み (FVE) を提案し、FVE を使用して熱拡散を制御します。以下の図に示すように、HCO が不均一かつ適応的な伝導を実行できるように、レート k が予測されます。
vHeat は、以下の図に示すように、マルチレベル構造を使用して実装されます。全体的なフレームワークは主流のビジュアル モデルと同様であり、HCO レイヤーは図 2 (b) に示されています。実験結果
ImageNet分類
ダウンストリームタスク
COCO データセットでは、vHeat にはパフォーマンス上の利点もあります。12 エポックの微調整の場合、vHeat-T/S/B はそれぞれ 45.1/46.8/47.7 mAP に達し、 Swin-T/S/B を 2.4/2.0/0.8 mAP 上回り、ConvNeXt-T/S/B を 0.9/1.4/0.7 mAP 上回ります。 ADE20K データセットでは、vHeat-T/S/B はそれぞれ 46.9/49.0/49.6 mIoU に達しましたが、それでも Swin や ConvNeXt よりも優れたパフォーマンスを示しています。これらの結果は、vHeat が視覚的なダウンストリーム実験で完全に機能することを検証し、主流の基本的な視覚モデルを置き換える可能性を示しています。
解析実験
有効受容野
以上が物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。