Batch Norm レイヤーなどの欠点を解決するオープン環境ソリューション-AI-php.cn

テスト時間適応 (TTA) メソッドは、テストフェーズ中にモデルが迅速な教師なし/自己教師あり学習を実行するようにガイドします。これは現在、ディープモデルの分布外汎化能力を向上させるための強力かつ効果的なツールです。。ただし、動的なオープンシナリオでは、安定性が不十分であることが依然として既存の TTA 手法の大きな欠点であり、実際の展開を大きく妨げています。この目的を達成するために、華南理工大学、テンセントAI研究所、シンガポール国立大学の研究チームは、既存のTTA手法が動的なシナリオにおいて不安定である理由を統一的な観点から分析し、依存する正規化層が脆弱であることを指摘した。安定性の主な理由の 1 つは、さらに、テストデータストリームにノイズや大規模な勾配がある一部のサンプルでは、縮退した自明なソリューションにモデルを簡単に最適化できることです。これに基づいて、動的なオープンシナリオでの安定かつ効率的なテスト時間モデルのオンライン移行と一般化を達成するために、シャープネスに敏感で信頼性の高いテスト時間エントロピー最小化方法SARがさらに提案されます。この研究は、ICLR 2023 Oral (受理された論文の上位 5%) に選ばれました。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

論文のタイトル: ダイナミックワイルドワールドにおける安定したテスト時間の適応に向けて
#論文アドレス: https://openreview.net/forum?id=g2YraF75Tj
オープンソースコード: https://github.com/ mr-eggplant/SAR

テスト時適応とは何ですか?

従来の機械学習テクノロジーは通常、事前に収集された大量のトレーニングデータを学習し、推論予測用のモデルを修正します。このパラダイムは、テストデータとトレーニングデータが同じデータ分布から得られる場合に、非常に優れたパフォーマンスを達成することがよくあります。ただし、実際のアプリケーションでは、テストデータの分布が元のトレーニングデータの分布から容易に逸脱する可能性があります (分布シフト)。たとえば、テストデータを収集する場合: 1) 天候の変化により、画像に雨、雪、霧が含まれます。オクルージョン; 2) 不適切な撮影により画像がぼやけている、またはセンサーの劣化により画像にノイズが含まれている; 3) モデルは北部の都市で収集されたデータに基づいてトレーニングされましたが、南部の都市にも展開されました。上記の状況は非常に一般的ですが、これらのシナリオではパフォーマンスが大幅に低下する可能性があり、現実世界 (特に自動運転などの高リスクアプリケーション) の広範な展開での使用が大幅に制限される可能性があるため、ディープモデルにとって致命的なことがよくあります。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

図 1 テスト時適応の概略図 ([5] を参照) および現在の方法特性の比較

との関係は、図 1 に示すように、従来の機械学習パラダイムとは異なります。テストサンプルが到着した後、Test-時間適応 (TTA) は、まずデータに基づいて、自己教師ありまたは教師なしの方法でモデルを微調整するために使用され、次に更新されたモデルを使用して最終予測が行われます。一般的な自己/教師なし学習の目標には、回転予測、対照学習、エントロピー最小化などが含まれます。これらの方法はすべて、優れた配布外汎化パフォーマンスを示します。従来の微調整および教師なしドメイン適応方法と比較して、テスト時適応では、より効率的でより汎用的なオンライン移行を実現できます。さらに、完全なテスト時適応方法 [2] は、元のトレーニングデータやモデルの元のトレーニングプロセスへの干渉を必要とせずに、事前トレーニングされたモデルに適応できます。上記の利点により、TTA 法の実用的な汎用性が大幅に向上し、その優れたパフォーマンスと相まって、TTA は移行、一般化、およびその他の関連分野で非常に注目されている研究方向となっています。

なぜテスト時にワイルドに適応するのでしょうか?

既存の TTA 手法は、配布外の一般化において大きな可能性を示していますが、この優れたパフォーマンスは、一定期間内のデータストリームのサンプルなどの特定のテスト条件下で得られることがよくあります。すべてが同じ分布シフトタイプに由来し、テストサンプルの真のカテゴリ分布は均一かつランダムであり、適応を実行する前に毎回ミニバッチサンプルが必要になります。しかし実際には、上記の潜在的な仮定を現実のオープンワールドで常に満たすことは困難です。実際には、テストデータストリームは任意の組み合わせで到着する可能性があり、理想的には モデルはテストデータストリームの到着形式についていかなる仮定も立てるべきではありません。図 2 に示すように、テストデータフローでは、(a) サンプルが異なる分布オフセットから取得されている (つまり、混合サンプルオフセット)、 (b) サンプルバッチサイズが発生する可能性があります。は非常に小さい (偶数 1);(c)一定期間内のサンプルの真のカテゴリ分布は不均等であり、動的に変化します。この記事では、上記のシナリオの TTA を Wild TTA と呼びます。残念ながら、既存の TTA 手法は、このようなワイルドなシナリオでは脆弱で不安定であることが多く、移行パフォーマンスが限られており、元のモデルのパフォーマンスに損害を与える可能性さえあります。したがって、実際のシナリオで TTA 手法の大規模かつ詳細なアプリケーション展開を真に実現したい場合、Wild TTA 問題を解決することは避けられない重要な部分です。

#図 2 モデルテスト中の適応中の動的オープンシーン
ソリューションのアイデアと技術的ソリューション

この記事では、TTA が多くのワイルドシナリオで失敗する理由を統一的な観点から分析し、解決策を提供します。

1. Wild TTA が不安定なのはなぜですか?

(1) バッチ正規化 (BN) は、動的シナリオにおける TTA の不安定性の主な理由の 1 つです : 既存の TTA 手法は、通常、以下に基づいて確立されています。適応 BN 統計では、テストデータを使用して BN 層の平均と標準偏差が計算されます。ただし、実際の 3 つの動的シナリオでは、BN 層内の統計推定精度に偏りが生じ、TTA が不安定になります。

シナリオ (a) : BN は実際には特定のテストデータの分布を表しており、一連の統計パラメータを使用して複数の分布を同時に推定すると、必然的にパフォーマンスが制限されます (図 3 を参照)

シナリオ (b) : BN の統計はバッチサイズに依存します。小さなバッチサイズのサンプルでは、BN の正確な統計的推定値を取得することは困難です。図 4 を参照してください。

シナリオ (c): サンプルラベルの分布が不均衡であると、BN レイヤー内の統計に偏りが生じます。つまり、統計が特定のカテゴリ (バッチ内でより大きな割合を持つカテゴリ) に偏ります (図 5 を参照);

上記の分析をさらに検証するために、この記事では、2 つの代表的な TTA メソッド (TTT [1] および Tent [2]) に基づいて、広く使用されている 3 つのモデル (異なる BatchLayerGroup Norm を備えた) を検討します。最終的な結論は次のとおりです。バッチに依存しない Norm レイヤー (Group および Layer Norm) は、Batch Norm の制限をある程度回避し、動的なオープンシナリオで TTA を実行するのにより適しており、安定性も高くなります## ＃。そのため、本記事でもGroupLayer Normを搭載したモデルをベースにメソッド設計を行っていきます。

#図 3 混合分布部分移動におけるさまざまな方法とモデル (さまざまな正規化層)パフォーマンスの低下

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

##図 4 さまざまな方法とモデル ( さまざまな正規化レイヤー) の異なるバッチサイズでのパフォーマンス。図の斜線部分はモデルの性能の標準偏差を表します。ResNet50-BN と ResNet50-GN の標準偏差は小さすぎるため、図では有意ではありません (下図と同じ)

#図 5 オンラインの不均衡なラベル分布シフトにおけるさまざまなメソッドとモデル (さまざまな正規化層) のパフォーマンスパフォーマンスが大きいほど図の横軸の不均衡率が大きいほどラベルの不均衡が深刻であることを示します

(2) オンラインエントロピー最小化の最適化が容易モデルを縮退自明解に、つまり、任意のサンプルを同じクラスに予測します。モデルの劣化と崩壊現象、つまり、すべてのサンプル (実際のカテゴリが異なる) が同じクラスに予測されると同時に、モデルの勾配のノルムがモデルの崩壊の前後で急速に増加し、その後ほぼ 0 に低下します。図 6 (c) の側面の説明を参照してください。これは、モデルパラメーターを破壊し、モデルの崩壊を引き起こす何らかの大規模/ノイズ勾配です。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

#図 6 オンラインテスト中のエントロピー最小化の失敗例の分析

2. シャープネスに敏感で信頼性の高いテスト時間エントロピー最小化手法

上記のモデル劣化問題を軽減するために、この論文では、は、テスト中にシャープネスを意識した信頼性の高いエントロピー最小化手法 (SAR) を提案します。この問題は 2 つの方法で軽減されます: 1)

信頼性の高いエントロピー最小化

は、モデルの適応更新から大きな/ノイズの多い勾配を生成する一部の サンプルを削除します; 2) モデルのシャープネスの最適化 モデルは、残りの サンプルで生成される 特定のノイズ勾配 の影響を受けなくなります。具体的な詳細は次のように説明されます。信頼性の高いエントロピー最小化

: エントロピーに基づいて、勾配選択のための代替判断指標が確立され、高エントロピーサンプル (図 6 (d) 領域 1 および 2 のサンプルを含む) はモデル適応から除外され、モデル更新には参加しません:

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

ここで、x はテストサンプルを表し、Θ はモデルパラメーターを表し、

は指標関数を表し、 Batch Norm层等暴露TTA短板，开放环境下解决方案来了はサンプルのエントロピーを表します。予測結果、はスーパーパラメータを表します。 # の場合のみ、サンプルは逆伝播計算に参加します。

シャープネスに敏感なエントロピー最適化: 信頼性の高いサンプル選択メカニズムによってフィルタリングされたサンプルには、図 6 (d) 領域 4 のサンプルが含まれることを避けることができません。これらのサンプルはモデルに干渉し続けるノイズや大きな勾配が発生する可能性があります。この目的を達成するために、この記事では、ノイズ勾配によるモデルの更新の影響を受けないようにする、つまり元のモデルのパフォーマンスに影響を与えないように、モデルをフラットな最小値に最適化することを検討します。最適化の目標は次のとおりです:

Batch Norm层等暴露TTA短板，开放环境下解决方案来了上記のターゲットの最終的なグラデーション更新フォームは次のとおりです:

このうち Batch Norm层等暴露TTA短板，开放环境下解决方案来了は SAM [4] からインスピレーションを受けており、一次テイラー展開による近似解によって得られます。この文書の原文とコードを参照してください。

#現時点でのこの記事の全体的な最適化目標は次のとおりです:

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

# #さらに、上記のスキームが極端な条件下でも失敗する可能性を防ぐために、モデル回復戦略がさらに導入されます。モデルが劣化または崩壊していないかをモバイル監視することで、モデルを復元することが決定されます。モデルの元の値は、必要な瞬間にパラメータを更新します。

実験評価

動的オープンシナリオでのパフォーマンス比較

SAR は上記に基づいています3 つの動的なオープンシナリオ、すなわち、a) 混合分布シフト、b) 単一サンプル適応、および c) オンライン不均衡クラス分布シフトが、ImageNet-C データセットで実験的に検証され、その結果が表 1、2、および表に示されています。３． SAR は 3 つのシナリオすべてで、特にシナリオ b) と c) で顕著な結果を達成しており、SAR はベースモデルとして VitBase を使用しており、その精度は現在の SOTA メソッド EATA を 10% 近く上回っています。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

#表 1 ImageNet-C の 15 種類の破損に対する既存の手法と組み合わせた SAR のパフォーマンス比較動的シナリオ (a) に対応するシナリオ、および既存の方法との効率比較

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

##表 2 動的シナリオに対応する、ImageNet-C 上の単一サンプル適応シナリオにおける SAR と既存の手法のパフォーマンス比較 (b)

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

##表 3 ImageNet-C 上のオンライン不均衡クラス分布シフトシナリオにおける SAR と既存手法のパフォーマンス比較、対応する動的シーン (c)

アブレーション実験

と勾配クリッピング法の比較

:グラデーションクリッピングは、大きなグラデーションがモデルの更新に影響を与える (または崩壊を引き起こす) ことを避けるための単純かつ直接的な方法です。ここでは、勾配クリッピングの 2 つの変形 (値による、またはノルムによる) との比較を示します。以下の図に示すように、勾配クリッピングは勾配クリッピングしきい値 δ の選択に非常に敏感であり、δ が小さいほどモデルが更新されていない結果と等しく、δ が大きいほどモデルの崩壊を避けることが困難になります。対照的に、SAR は複雑なハイパーパラメータフィルタリングプロセスを必要とせず、勾配クリッピングよりも大幅に優れたパフォーマンスを発揮します。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

#ImageNet-C のグラデーションクリッピングメソッドを使用した図 7 (ショットノイズ、レベル 5)オンラインの不均衡なラベル配布シフトシナリオについて。精度は、以前のすべてのテストサンプルに基づいてオンラインで計算されます。

アルゴリズムのパフォーマンスに対するさまざまなモジュールの影響: 以下の表に示すように、SAR のさまざまなモジュールの相乗効果により、動的オープンシナリオでのテスト中のモデルの適応安定性が効果的に向上します。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

#表 4 ImageNet-C 上の SAR オンライン不均衡ラベル分布 (レベル 5) アブレーション実験オフセットシナリオ

損失表面の鮮明さの可視化: モデルの重みに摂動を加えて損失関数を可視化した結果を次の図に示します。その中で、SAR は Tent よりも損失が最も低い等高線内に広い領域 (濃い青色の領域) を持ち、SAR によって得られるソリューションがより平坦で、ノイズ/より大きな勾配に対してより堅牢で、より強力な耐干渉能力を備えていることを示しています。

Batch Norm层等暴露TTA短板，开放环境下解决方案来了

#図 8 エントロピー損失曲面の視覚化

結論

この記事は、動的オープンシナリオでのモデルのオンラインテスト中の適応の不安定性の問題を解決することを目的としています。この目的のために、この記事ではまず、実際の動的シナリオにおいて既存の手法が失敗する理由を統一的な観点から分析し、詳細な検証を行うための完全な実験を設計します。これらの分析に基づいて、この論文は最終的に、シャープネスに敏感で信頼性の高いテスト時間エントロピー最小化方法を提案します。この方法は、モデル更新に対する大きな勾配/ノイズを持つ特定のテストサンプルの影響を抑制することにより、安定かつ効率的なモデルのオンラインテスト時間適応を実現します。。

以上がBatch Norm レイヤーなどの欠点を解決するオープン環境ソリューションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。