物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。-AI-php.cn

物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。

WBOY

リリース： 2024-06-06 17:28:46

オリジナル

574 人が閲覧しました

物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者はVMambaのオリジナルチームであり、筆頭著者のWang Zhaozhiは中国大学の2022年共同卒業生です。中国科学院および彭城研究所の博士課程学生で共著者のLiu Yue氏は、中国科学院大学の2021年の直接の博士号候補者です。彼らの主な研究方向は、視覚モデル設計と自己教師あり学習です。

Transformer の注意メカニズムを突破するにはどうすればよいですか?中国科学院大学と彭城国家実験室は、熱伝導に基づく視覚表現モデル vHeat を提案しました。画像特徴ブロックを熱源として扱い、熱伝導率を予測し、物理的熱伝導原理に基づいて画像特徴を抽出します。アテンションメカニズムに基づく視覚モデルと比較して、vHeat では、計算の複雑さ (1.5 乗)、グローバルな受容野、および物理的解釈可能性が考慮されます。

高解像度画像入力に vHeat-base+%E6%A8%A1%E5%9E%8B を使用する場合、プット、GPU メモリ使用量、およびフロップはそれぞれ Swin-base+%E6%A8%A1%E5%9E になります。 3倍、%8Bの1/4、3/4。画像分類、ターゲット検出、セマンティック/インスタンスセグメンテーションなどの基本的な下流タスクで高度なパフォーマンスを実現しました。

論文アドレス: https://arxiv.org/pdf/2405.16555
コードアドレス: https://github.com/MzeroMiko/vHeat
論文タイトル: vHeat: Building Vision熱伝導に関するモデル

概要

最も主流の 2 つの基本的な視覚モデルは、CNN と Visual Transformer (ViT) です。ただし、CNN のパフォーマンスは、ローカルの受容野と固定の畳み込みカーネル演算子によって制限されます。 ViT にはグローバルな依存関係を表現する機能がありますが、二次ノルムの計算が非常に複雑になります。 CNN と ViT の畳み込み演算子と自己注意演算子はどちらも特徴内のピクセル転送プロセスであり、それぞれ情報伝達の一種であると考えられます。これはまた、物理場における熱伝導を思い出させます。そこで、熱伝導方程式に基づいて、視覚意味論の空間伝播と物理的な熱伝導を結び付け、1.5 倍の計算量を持つ視覚伝導演算子 (HCO) を提案し、低電力視覚伝導を設計しました。演算子 (HCO)。複雑さ、全体的な受容野、および物理的解釈性のための視覚表現モデル vHeat。 HCO と self-attention の計算形式と複雑さの比較を次の図に示します。実験により、vHeat がさまざまな視覚的なタスクで優れたパフォーマンスを発揮することが証明されました。たとえば、vHeat-T は、ImageNet-1K 上で 82.2% の分類精度を達成します。これは、Swin-T より 0.9%、ViM-S より 1.7% 高くなります。 vHeat には、パフォーマンスに加えて、高い推論速度、低い GPU メモリ使用量、低い FLOP という利点もあります。入力画像の解像度が高い場合、基本スケールの vHeat モデルは、Swin と比較して、スループットが 1/3、GPU メモリ使用量が 1/4、FLOP が 3/4 しかありません。

方法の紹介

を使用して、時間tにおける点物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。の温度を表します。物理的な熱伝導方程式はであり、k>0は熱拡散率を表します。時間 t=0 での初期条件物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。が与えられると、熱伝導方程式はフーリエ変換を使用して解くことができます。これは次のように表されます。

ここで、物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。とはそれぞれフーリエ変換と逆フーリエ変換を表し、は周波数領域の空間座標を表します。

視覚的意味論における熱伝導を実現するために、まず、物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。を入力として、を出力として、物理的な熱伝導方程式のを拡張します。式は次のようになります。物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。

ここで、

と物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。はそれぞれ 2 次元の離散コサイン変換と逆変換を表します。 HCO の構造は、以下の図 (a) に示されています。物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。

さらに、

の出力が周波数領域にあることを考慮すると、異なる画像コンテンツは異なる熱拡散率に対応すると考えられ、周波数値物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。に基づいて熱拡散率を決定します。周波数領域の異なる位置は異なる周波数値を表すため、ViT における絶対位置エンコーディングの実装と機能に似た周波数値情報を表す周波数値埋め込み (FVE) を提案し、FVE を使用して熱拡散を制御します。以下の図に示すように、HCO が不均一かつ適応的な伝導を実行できるように、レート k が予測されます。物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。

vHeat は、以下の図に示すように、マルチレベル構造を使用して実装されます。全体的なフレームワークは主流のビジュアルモデルと同様であり、HCO レイヤーは図 2 (b) に示されています。

実験結果

ImageNet分類

実験結果を比較すると、同様のパラメーターと FLOP の下で、

vHeat-T は 82.2% のパフォーマンスを達成し、DeiT-S を 2.4%、Vim-S を 2.4% 上回りました。 1.7%、Swin-Tは0.9%に達します。
vHeat-Sは83.6%のパフォーマンスを達成し、Swin-Sを0.6%、ConvNeXt-Sを0.5%上回りました。
vHeat-Bは83.9%のパフォーマンスを達成し、DeiT-Bを2.1%、Swin-Bを0.4%上回りました。

同時に、vHeat の O (N^1.5) の低複雑性と並列計算により、vHeat-T の推論スループットなど、ViT や SSM モデルと比較して推論スループットには明らかな利点があります。は 1514 img/s であり、Swin-T より 22% 高く、Vim-S より 87% 高く、ConvNeXt-T より 26% 高く、パフォーマンスも優れています。

ダウンストリームタスク

COCO データセットでは、vHeat にはパフォーマンス上の利点もあります。12 エポックの微調整の場合、vHeat-T/S/B はそれぞれ 45.1/46.8/47.7 mAP に達し、 Swin-T/S/B を 2.4/2.0/0.8 mAP 上回り、ConvNeXt-T/S/B を 0.9/1.4/0.7 mAP 上回ります。 ADE20K データセットでは、vHeat-T/S/B はそれぞれ 46.9/49.0/49.6 mIoU に達しましたが、それでも Swin や ConvNeXt よりも優れたパフォーマンスを示しています。これらの結果は、vHeat が視覚的なダウンストリーム実験で完全に機能することを検証し、主流の基本的な視覚モデルを置き換える可能性を示しています。

解析実験

有効受容野

vHeatは視覚比較用の主流モデルの中で、この機能も備えているのはDeiTとHiViTだけです。ただし、DeiT と HiViT のコストは 2 乗レベルの複雑さであるのに対し、vHeat は 1.5 電力レベルの複雑さであることに注意してください。

計算コスト

上の図は、左から右に、vHeat-B と他の ViT ベースのモデルの基本スケールでの推論スループット/GPU メモリ使用量/計算 FLOP の比較を示しています。計算の複雑さが O (N^1.5) であるため、vHeat は対照的なモデルよりも推論速度が速く、メモリ使用量が少なく、FLOP が少ないことがはっきりとわかります。画像の解像度が大きい場合、利点はさらに大きくなります。明らか。入力画像の解像度が 768*768 の場合、vHeat-B の推論スループットは Swin-B の約 3 倍、GPU メモリ使用量は Swin-B より 74% 低く、FLOP は です。 Swin-B %よりも 28 低い。 vHeat ベースのモデルと ViT ベースのモデルの計算コストを比較すると、高解像度画像の処理においてその優れた可能性が実証されています。

以上が物理的な熱伝達にヒントを得た視覚表現モデル vHeat が登場しました。これは、注意メカニズムの突破を試みており、低複雑性とグローバルな受容野を備えています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。