長年にわたり、Transformer、ラージカーネル CNN、MLP の 3 つのビジョン バックボーン ネットワークは、幅広いコンピューターで大きな成功を収めてきました。これは主に、地球規模で情報を効率的に融合できる能力によるものです。
Transformer、CNN、MLP は現在 3 つの主流のニューラル ネットワークであり、それぞれ異なる方法を使用して、グローバル スコープのトークンの融合。 Transformer ネットワークでは、セルフ アテンション メカニズムは、トークン融合の重みとしてクエリ キー ペアの相関関係を使用します。 CNN は、コンボリューション カーネルのサイズを拡張することで、Transformer と同様のパフォーマンスを実現します。 MLP は、完全な接続を通じてすべてのトークン間に別の強力なパラダイムを実装します。これらの方法は効果的ではありますが、計算の複雑さ (O(N^2)) が高く、ストレージとコンピューティング能力が限られているデバイスに導入するのが難しいため、多くのモデルの適用範囲が制限されます
計算コストのかかる問題を解決するために、研究者は適応型 Fu と呼ばれる手法を開発しました。適応型フーリエの効率的なグローバル トークン融合アルゴリズムです。フィルター (AFF)。このアルゴリズムは、フーリエ変換を使用してトークン セットを周波数領域に変換し、周波数領域でコンテンツを適応できるフィルター マスクを学習して、周波数領域空間に変換されたトークン セットに対して適応フィルター操作を実行します。 ##適応周波数フィルター: 効率的なグローバル トークン ミキサー
##原文にアクセスするには、このリンクをクリックしてください: https://arxiv .org/ abs/2307.14008
周波数領域の畳み込み定理によれば、AFF トークン ミキサーの数学的等価演算は、元の領域で実行される畳み込み演算であり、フーリエ アダマール積演算と等価です。ドメイン内で。これは、AFF トークン ミキサーが、元のドメインで動的畳み込みカーネルを使用することにより、コンテンツ適応型のグローバル トークン フュージョンを実現できることを意味します。その空間解像度はトークン セットのサイズと同じです (下図の右のサブ図を参照)。
動的畳み込みは、特に高い空間解像度を持つ動的畳み込みカーネルを使用する場合、計算コストがかかることはよく知られています。このコストは、効率的で軽量なネットワーク設計にとっては高すぎるようです。これは受け入れられません。 。ただし、この記事で提案する AFF トークン ミキサーは、低消費電力の同等の実装で上記の要件を同時に満たすことができ、複雑さを O (N^2) から O (N log N) に軽減し、それによってコンピューティング効率を大幅に向上させます
概略図 1: AFF モジュールと AFFNet ネットワークの構造を示します
3. AFFNet: 軽量レベル ビジュアル ネットワークの新しいバックボーン
4. 実験結果
#最先端の手法の結果を ImageNet-1K データセットと比較します。表 1 を参照してください。
表 2 は、先進技術を使用した視覚的検出およびセグメンテーション タスクの比較
この研究は、潜在空間における周波数領域変換がグローバル適応トークン融合において重要な役割を果たしており、効率的かつ低コストであることを証明しています。電力相当の実装。これは、ニューラル ネットワークのトークン融合演算子の設計に関する新しい研究アイデアを提供し、特にストレージとコンピューティング能力が制限されている場合に、エッジ デバイスにニューラル ネットワーク モデルを展開するための新しい開発スペースを提供します#
以上が軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。