軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサー-AI-php.cn

軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサー

WBOY

リリース： 2023-08-17 17:57:08

転載

1520 人が閲覧しました

1. 背景

長年にわたり、Transformer、ラージカーネル CNN、MLP の 3 つのビジョンバックボーンネットワークは、幅広いコンピューターで大きな成功を収めてきました。これは主に、地球規模で情報を効率的に融合できる能力によるものです。

Transformer、CNN、MLP は現在 3 つの主流のニューラルネットワークであり、それぞれ異なる方法を使用して、グローバルスコープのトークンの融合。 Transformer ネットワークでは、セルフアテンションメカニズムは、トークン融合の重みとしてクエリキーペアの相関関係を使用します。 CNN は、コンボリューションカーネルのサイズを拡張することで、Transformer と同様のパフォーマンスを実現します。 MLP は、完全な接続を通じてすべてのトークン間に別の強力なパラダイムを実装します。これらの方法は効果的ではありますが、計算の複雑さ (O(N^2)) が高く、ストレージとコンピューティング能力が限られているデバイスに導入するのが難しいため、多くのモデルの適用範囲が制限されます

#2. AFF トークンミキサー: 軽量、グローバル、適応型

計算コストのかかる問題を解決するために、研究者は適応型 Fu と呼ばれる手法を開発しました。適応型フーリエの効率的なグローバルトークン融合アルゴリズムです。フィルター (AFF)。このアルゴリズムは、フーリエ変換を使用してトークンセットを周波数領域に変換し、周波数領域でコンテンツを適応できるフィルターマスクを学習して、周波数領域空間に変換されたトークンセットに対して適応フィルター操作を実行します。 ##適応周波数フィルター: 効率的なグローバルトークンミキサー

##原文にアクセスするには、このリンクをクリックしてください: https://arxiv .org/ abs/2307.14008

軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサー

周波数領域の畳み込み定理によれば、AFF トークンミキサーの数学的等価演算は、元の領域で実行される畳み込み演算であり、フーリエアダマール積演算と等価です。ドメイン内で。これは、AFF トークンミキサーが、元のドメインで動的畳み込みカーネルを使用することにより、コンテンツ適応型のグローバルトークンフュージョンを実現できることを意味します。その空間解像度はトークンセットのサイズと同じです (下図の右のサブ図を参照)。

動的畳み込みは、特に高い空間解像度を持つ動的畳み込みカーネルを使用する場合、計算コストがかかることはよく知られています。このコストは、効率的で軽量なネットワーク設計にとっては高すぎるようです。これは受け入れられません。。ただし、この記事で提案する AFF トークンミキサーは、低消費電力の同等の実装で上記の要件を同時に満たすことができ、複雑さを O (N^2) から O (N log N) に軽減し、それによってコンピューティング効率を大幅に向上させます

概略図 1: AFF モジュールと AFFNet ネットワークの構造を示します

軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサー

3. AFFNet: 軽量レベルビジュアルネットワークの新しいバックボーン

AFF トークンミキサーを主要なニューラルネットワーク操作オペレーターとして使用することで、研究者たちは、AFFNet と呼ばれる軽量ニューラルネットワークの構築に成功しました。豊富な実験結果は、AFF トークンミキサーが、視覚的意味認識や高密度予測タスクなど、幅広い視覚タスクにおいて精度と効率の優れたバランスを達成していることを示しています。

4. 実験結果

研究者らは、視覚的な意味認識、セグメンテーション、検出などの複数のタスクにおける AFF トークンミキサーと AFFNet のパフォーマンスを評価し、現在の研究分野で最も先進的な軽量ビジュアルバックボーンと比較しました。ネットワークを比較してみました。実験結果は、モデル設計が幅広い視覚タスクで良好に機能することを示し、軽量で効率的な新世代のトークン融合オペレーターとしての AFF トークンミキサーの可能性を裏付けています。 SOTA と比較した図 2 は、ImageNet-1K データセットの Acc-Param 曲線と Acc-FLOPs 曲線を示しています

#最先端の手法の結果を ImageNet-1K データセットと比較します。表 1 を参照してください。軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサー

表 2 は、先進技術を使用した視覚的検出およびセグメンテーションタスクの比較軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサー

5. 結論

この研究は、潜在空間における周波数領域変換がグローバル適応トークン融合において重要な役割を果たしており、効率的かつ低コストであることを証明しています。電力相当の実装。これは、ニューラルネットワークのトークン融合演算子の設計に関する新しい研究アイデアを提供し、特にストレージとコンピューティング能力が制限されている場合に、エッジデバイスにニューラルネットワークモデルを展開するための新しい開発スペースを提供します#

以上が軽量ビジュアルネットワークの新しいバックボーン: 効率的なフーリエ演算子トークンミキサーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。