新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出-AI-php.cn

従来の物体検出問題とは異なり、少数ショット物体検出 (FSOD) では、基本的なクラスサンプルは多数あるが、新しいクラスサンプルは少数しかないことを前提としています。目標は、基本クラスから新しいクラスに知識を転送する方法を研究し、それによって新しいクラスを認識する検出器の能力を向上させることです。

#FSOD は通常、2 段階のトレーニングパラダイム # に従います。最初の段階では、検出器は豊富な基本クラスサンプルを使用してトレーニングされ、オブジェクトの位置特定や分類などのオブジェクト検出タスクに必要な一般的な表現を学習します。第 2 段階では、少数 (1、2、3 など) の新規クラスサンプルのみを使用して検出器が微調整されます。ただし、基本クラスと新規クラスのサンプル数の不均衡により、学習されたモデルは通常、基本クラスに偏り、同様の基本クラスを持つ新規クラスのターゲットの混乱につながります。さらに、各新規クラスのサンプルはわずかしかないため、モデルは新規クラスの分散の影響を受けやすくなります。たとえば、複数のトレーニングに対して新しいクラスのサンプルをランダムにサンプリングした場合、結果は毎回大きく異なります。したがって、小さなサンプルの下でモデルのロバスト性を向上させることが非常に必要です。

最近、Tencent Youtu Lab と武漢大学は、変分特徴集約に基づく少数サンプルのターゲット検出モデル VFA を提案しました。 VFA の全体構造は、メタ学習対象検出フレームワーク Meta R-CNN の改良版に基づいており、次の 2 つの特徴集約手法が提案されています。カテゴリに依存しない特徴集約 CAA (Class-Agnostic Aggregation) And#variational feature aggregation VFA (variational feature aggregation)。

機能集約は FSOD の重要な設計であり、クエリサンプルとサポートサンプルの間の相互作用を定義します。 Meta R-CNN などの以前のメソッドは通常、クラス固有の集約 (CSA)、つまり、機能集約のための同様のクエリおよびサポートサンプルの機能を使用します。対照的に、この論文で提案されている CAA では、異なるクラスのサンプル間の特徴の集約が可能です。 CAA はモデルがクラスに依存しない表現を学習することを奨励するため、基本クラスに対するモデルの偏りを軽減します。さらに、異なるクラス間の相互作用により、クラス間の関係をより適切にモデル化できるため、クラスの混乱が軽減されます。

CAA に基づいて、この記事では、変分エンコーダー (VAE) を使用してサポートサンプルをクラス分布にエンコードし、学習された分布から新しいサポートをサンプルする VFA を提案します。。関連研究 [1] では、クラス内の分散 (外観の変動など) はクラス間で類似しており、共通の分布によってモデル化できると述べています。したがって、基本クラスの分布を使用して新しいクラスの分布を推定することができ、それによってサンプルが少ない場合の特徴集約の堅牢性が向上します。

VFA は、複数の FSOD データセットで現行の最良モデルよりも優れたパフォーマンスを発揮します。関連研究が口頭発表として受理されました by AAAI 2023。

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

論文アドレス: https://arxiv.org/abs/2301.13411

VFA モデルの詳細

より強力なベースライン手法: Meta R-CNN

現在の FSOD の作業主に次のことが考えられます。メタ学習に基づく手法とファインチューニングに基づく手法の 2 つのカテゴリに分類されます。いくつかの初期の研究では、メタ学習が FSOD に効果的であることが実証されましたが、最近では微調整ベースの手法がますます注目を集めています。

この記事では、まず、メタ学習に基づいたベースライン手法であるメタ R-CNN を確立します。これは、2 つの手法間のギャップを狭め、一部の指標では微調整に基づく手法をさらに上回ります。。最初に、メタ学習メソッド Meta R-CNN [2] と微調整ベースのメソッド TFA [3] を取り上げて、2 つのメソッド間の実装におけるいくつかのギャップを分析しました。どちらの方法も 2 段階のトレーニングパラダイムに従っていますが、TFA では微調整段階で追加のテクニックを使用してモデルを最適化します。

TFA は、モデルが少数ショットカテゴリに過剰適合しないように、ほとんどのネットワークパラメーターをフリーズし、最終的な分類層と回帰層のみをトレーニングします。
TFA は、分類層をランダムに初期化する代わりに、基本クラスの事前トレーニングされた重みをコピーし、新しいクラスの重みのみを初期化します。
TFA は、線形分類器の代わりにコサイン分類器を使用します。

TFA の成功を考慮して、私たちは Meta R-CNN を構築しました。以下の表 1 に示すように、微調整段階を注意深く処理する限り、メタ学習手法でも良好な結果を達成できます。したがって、この論文ではベースライン手法として Meta R-CNN を選択します。

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

表 1: Meta R-CNN と TFA## の比較と分析

#カテゴリに依存しない特徴量の集約 CAA

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

##図 1: カテゴリに依存しない特徴集約 CAAA の概略図

この記事では、シンプルかつ効果的カテゴリに依存しない特徴集約手法 CAA。上の図 1 に示すように、CAA では異なるクラス間の特徴集約が可能であり、これによりモデルがクラスに依存しない表現を学習することが促進され、クラス間のバイアスやクラス間の混乱が軽減されます。具体的には、カテゴリの各 RoI 機能と一連のサポート機能新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出、に対して、クラスをランダムに選択します。サポート機能の ## は、クエリ機能

## と集約されます。

#次に、集約された特徴を

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

検出サブネットワークにフィードします

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

分類スコア

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

を出力します。

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出変動特徴集約 VFA

図 2 VFA モデル図

前へwork は通常、カテゴリの中心を表すためにサポートサンプルを単一の特徴ベクトルにエンコードします。ただし、サンプルが小さく分散が大きい場合、クラス中心を正確に推定することが困難になります。このペーパーでは、まずサポート機能をクラスを介したディストリビューションに変換します。推定されたクラス分布は特定のサンプルに偏っていないため、分布からサンプリングされた特徴はサンプルの分散に対して比較的堅牢です。 VFA のフレームワークは上の図 2 に示されています。

#a) 変分特徴学習#。 VFA は、カテゴリの分布を学習するために変分オートエンコーダ VAE [4] を採用しています。図 2 に示すように、サポート特徴 S の場合、最初にエンコーダを使用して、分布パラメータ新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出およびを推定します。次に、変分推論を通じて分布からをサンプリングし、最後にデコーダを通じて再構成された値を取得します。新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出サポート機能。 VAE を最適化する場合、一般的な KL 損失と再構築損失に加えて、この記事では一貫性損失も使用して、学習された分布にカテゴリ情報を保持させます。 # ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

b) 変分特徴融合。サポート機能はカテゴリのディストリビューションに変換されるため、ディストリビューションからフィーチャをサンプリングし、クエリ機能を使用してそれらを集約できます。具体的には、VFA もカテゴリに依存しない集約 CAA を使用しますが、クエリ特徴新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出と変分特徴を集約します。クラスのクエリ機能とクラスのサポート機能

を考慮して、最初にその分布 ## を推定します。新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出 # と変分特徴量 ; を抽出し、次の式でそれらを融合します:

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

ここで、新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出はチャネル乗算を表し、sig はシグモイド演算の略です。トレーニングフェーズでは、集計のためにサポート機能をランダムに選択します。テストフェーズでは、新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

のサポート機能新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出を平均します。クラス値、分布を推定します。ここで、。

分類 - 回帰タスクの分離

通常、検出サブネットワーク新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出には、共有特徴抽出器と 2 つの独立したネットワーク (分類サブネットワーク ##) が含まれています。 # および回帰サブネットワーク新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出。以前の研究では、集約された特徴は、オブジェクト分類と境界ボックス回帰のために検出サブネットワークに入力されました。ただし、分類タスクには翻訳不変の特徴が必要ですが、回帰には翻訳共変の特徴が必要です。サポート特徴はカテゴリの中心を表し、変換不変であるため、集約された特徴は回帰タスクに悪影響を及ぼします。

この記事では、単純な分類と回帰タスクの分離を提案します。新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出とが元の集計されたクエリ特徴を表すものとします。前の方法では、両方のタスクにを使用します。ここで、分類スコア新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出および予測境界ボックスは次のように定義されます:

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

これらのタスクを分離するために、個別の特徴抽出機能を採用し、バウンディングボックス回帰にオリジナルのサポート機能

を使用します: 新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

新しい SOTA を実現するための、変分特徴集約に基づく回帰メタ学習、少数サンプルのターゲット検出

実験評価

使用したデータセット:

PASCAL VOC、MS COCO。評価指標: 新規クラス平均精度 nAP、基本クラス平均精度 bAP。

主な結果

VFA は両方のデータセットで良好な結果を達成しました。たとえば、PASCAL VOC データセット (以下の表 2) では、VFA は以前の方法よりも大幅に高く、VFA の 1 ショットの結果は、一部の方法の 10 ショットの結果よりもさらに高くなっています。

#表 2 PASCAL VOC データセットに対する VFA の効果

アブレーション実験

a) さまざまなモジュールの役割 。以下の表 3 に示すように、VFA のさまざまなモジュールが連携してモデルのパフォーマンスを向上させることができます。

#表 3 さまざまなモジュールの機能

b) さまざまな特徴集約方法の視覚的分析。以下の図 3 に示すように、CAA は基本クラスと新しいクラスの間の混乱を減らすことができ、VFA は CAA に基づいてクラス間の区別をさらに強化します。

図 3 類似度マトリックスの視覚化

##c) より正確なカテゴリ中心点の推定。以下の図 4 に示すように、VFA はカテゴリの中心をより正確に推定できます。そして、サンプル数が減少するにつれて、推定の精度はベースライン手法よりも徐々に高くなります。これは、サンプル数が少ない (K=1) ときにこの方法のパフォーマンスが向上する理由も説明します。