細分化されたバックドアトレーニングのバックドア防御手法：DBD-AI-php.cn

香港中文大学(深セン)のウー・バオユアン教授の研究グループと浙江大学のチン・ザン教授の研究グループは、バックドア防御の分野で共同論文を発表し、無事受理されました。 ICLR2022による。

近年、バックドアの問題が広く注目を集めています。バックドア攻撃が提案され続けるにつれ、一般的なバックドア攻撃に対する防御方法を提案することはますます困難になっています。この論文では、セグメント化されたバックドアトレーニングプロセスに基づいたバックドア防御方法を提案します。

この記事では、バックドア攻撃が、バックドアを特徴空間に投影するエンドツーエンドの教師ありトレーニング手法であることを明らかにしています。これに基づいて、この記事ではバックドア攻撃を回避するためのトレーニングプロセスを分割します。この手法の有効性を証明するために、この手法と他のバックドア防御手法との比較実験が行われました。

#インクルージョンカンファレンス: ICLR2022

##記事リンク: https://arxiv.org/pdf/ 2202.03423 .pdf

コードリンク: https://github.com/SCLBD/DBD

背景の紹介

バックドア攻撃の目的は、トレーニングデータを変更したりトレーニングプロセスを制御したりすることで、モデルが正しくクリーンなサンプルを予測できるようにすることですが、バックドアのあるサンプルはターゲットラベルとして判断されます。。たとえば、バックドア攻撃者は、固定位置の白いブロックを画像 (つまり、毒された画像) に追加し、画像のラベルをターゲットラベルに変更します。これらのポイズニングされたデータを使用してモデルをトレーニングした後、モデルは特定の白いブロックを持つ画像がターゲットラベルであると判断します (次の図を参照)。

DBD: 基于分割后门训练过程的后门防御方法基本的なバックドア攻撃

モデルはトリガーとターゲットタグラベルを確立します)。

3 バックドア機能

CIFAR-10 データセットに対して BadNets 攻撃とクリーンラベル攻撃を実施しました (Krizhevsky、2009)。有害なデータセットでの教師あり学習とラベルのないデータセットでの自己教師あり学習 SimCLR (Chen et al., 2020a)。

DBD: 基于分割后门训练过程的后门防御方法

#バックドアの特性の T-sne 表示

に示すように、上の図 (a) ～ (b) に示すように、標準的な教師付きトレーニングプロセスの後、ポイズニングされたサンプル (黒い点で表されます) は、ポイズンラベル攻撃またはクリーンラベル攻撃に関係なく、クラスターとなって個別のクラスターを形成する傾向があります。この現象は、既存のポイズニングベースのバックドア攻撃の成功を示唆しています。過剰学習により、モデルはバックドアトリガーの特性を学習できるようになります。このモデルをエンドツーエンドの教師ありトレーニングパラダイムと組み合わせることで、特徴空間内の汚染されたサンプル間の距離を縮め、学習されたトリガー関連の特徴をターゲットラベルと結び付けることができます。逆に、上記の図 (c) ～ (d) に示すように、ラベルのない汚染データセットでは、自己教師ありトレーニングプロセスの後、汚染されたサンプルは元のラベルが付いているサンプルに非常に近くなっています。これは、自己教師あり学習によってバックドアを防止できることを示しています。

セグメンテーションに基づくバックドア防御

バックドアの特性分析に基づいて、セグメンテーションのトレーニングフェーズでのバックドア防御を提案します。以下の図に示すように、これは 3 つの主要な段階で構成されます。(1) 自己教師あり学習による精製された特徴抽出器の学習、(2) ラベルノイズ学習による信頼性の高いサンプルのフィルタリング、および (3) 半教師ありの詳細な学習チューニング。

#方法フローチャート DBD: 基于分割后门训练过程的后门防御方法 4.1 学習特徴抽出器

モデルを学習するためにトレーニングデータセットを使用します。モデルのパラメータには 2 つの部分が含まれており、1 つはバックボーンモデルのパラメータ、もう 1 つは全結合層のパラメータです。自己教師あり学習を利用してバックボーンモデルのパラメーターを最適化します。

DBD: 基于分割后门训练过程的后门防御方法ここで、は自己教師あり損失です (たとえば、SimCLR の NT-Xent (Chen et al、2020))。、特徴抽出者がバックドアの機能を学習するのは難しいことがわかります。

4.2 ラベルノイズ学習のフィルター処理されたサンプル

特徴抽出器がトレーニングされたら、特徴抽出器のパラメーターを修正し、トレーニングデータセットを使用して、さらに完全に学習します。接続層パラメータ ,

DBD: 基于分割后门训练过程的后门防御方法

# ここで、は教師あり学習損失 (たとえば、クロスエントロピー損失 (クロスエントロピー)) です。

このようなセグメンテーションプロセスにより、モデルがバックドアを学習することが困難になりますが、2 つの問題があります。まず、教師あり学習を通じて学習された方法と比較して、学習された特徴抽出器が第 2 段階でフリーズされるため、クリーンサンプルの予測精度がある程度低下します。次に、汚染されたラベル攻撃が発生すると、汚染されたサンプルが「外れ値」として機能し、学習の第 2 段階がさらに妨げられます。これら 2 つの問題は、汚染されたサンプルを削除し、モデル全体を再トレーニングまたは微調整する必要があることを示しています。

サンプルにバックドアがあるかどうかを判断する必要があります。モデルがバックドアサンプルから学習することは困難であると考えられるため、信頼性を区別指標として使用します。信頼性の高いサンプルはクリーンなサンプルであり、信頼性の低いサンプルは汚染されたサンプルです。実験を通じて、以下の図に示すように、対称クロスエントロピー損失を使用してトレーニングされたモデルは、2 つのサンプル間の損失ギャップが大きいため、識別度が高いことがわかります。

DBD: 基于分割后门训练过程的后门防御方法

対称クロスエントロピー損失とクロスエントロピー損失の比較

したがって, 対称クロスエントロピー損失を使用した固定特徴抽出器で全結合層をトレーニングし、信頼度のサイズによってデータセットを信頼性の高いデータと信頼性の低いデータにフィルタリングします。

4.3 半教師あり微調整

まず、信頼性の低いデータのラベルを削除します。半教師あり学習を使用してモデル全体を微調整します。

DBD: 基于分割后门训练过程的后门防御方法

ここで、は半教師あり損失 (MixMatch の損失関数 (Berthelot et al、2019)) です。

半教師あり微調整では、モデルがバックドアトリガーを学習するのを防ぐだけでなく、クリーンなデータセットでモデルが適切にパフォーマンスを発揮できるようにすることもできます。

5 実験

5.1 データセットとベンチマーク

この記事は 2 つの古典的なベンチマークに基づいていますデータすべての防御は、CIFAR-10 (Krizhevsky、2009) および ImageNet (Deng et al.、2009) (サブセット) を含むセットで評価されます。この記事では ResNet18 モデルを使用しています (He et al., 2016)

この記事では、4 つの典型的な攻撃、すなわちバッドネット (Gu et al., 2019) から防御するためのすべての防御方法を研究しています。混合戦略バックドア攻撃（混合）（Chen et al、2017）、WaNet（Nguyen & Tran、2021）、および敵対的摂動を伴うクリーンラベル攻撃（ラベル一貫性）（Turner et al、2019）。

DBD: 基于分割后门训练过程的后门防御方法

#バックドア攻撃の例の写真

5.2 実験結果

実験の判定基準は、BA が清浄サンプルの判定精度、ASR が汚染サンプルの判定精度です。

DBD: 基于分割后门训练过程的后门防御方法

バックドア防御の比較結果

上の表に示されているように、DBD は、すべての攻撃に対して、同じ要件を持つ防御 (つまり、DPSGD と ShrinkPad) よりも大幅に優れています。すべてのケースにおいて、DBD は DPSGD よりも BA が 20% 多く、ASR が 5% 低いという点で優れています。 DBD モデルの ASR はすべてのケースで 2% 未満 (ほとんどの場合 0.5% 未満) であり、DBD が隠れたバックドアの作成を首尾よく防止できることが確認されています。 DBD は、他の 2 つの方法、つまり NC および NAD と比較されます。どちらの方法でも、防御側はクリーンなローカルデータセットを持つ必要があります。

上の表に示すように、NC と NAD は、ローカルのクリーンデータセットからの追加情報を利用するため、DPSGD と ShrinkPad よりも優れたパフォーマンスを発揮します。特に、NAD と NC は追加情報を使用しますが、DBD はそれらよりも優れています。特に ImageNet データセットでは、NC による ASR 削減効果は限定的です。比較すると、DBD は最小の ASR を達成しますが、DBD の BA はほとんどすべてのケースで最高か 2 番目に高くなります。また、防御トレーニングを行わなかったモデルと比較して、毒タグ攻撃に対する防御時のBAの低下は2%未満でした。比較的大きなデータセットでは、すべてのベースライン手法の効果が低下するため、DBD の方がさらに優れています。これらの結果は、DBD の有効性を検証します。

#5.3 アブレーション実験

DBD: 基于分割后门训练过程的后门防御方法

##各段階でのアブレーション実験

# CIFAR-10 データセットで、提案された DBD とその 4 つのバリアント (

1 を含む) を比較しました。SS なしの DBD は自己教師あり学習からバックボーンを生成します。トレーニング済みのバックボーンに置き換えます。 CE を使用して、教師ありの方法で他の部分を変更しないでください。

#2.SS を使用して、自己教師あり学習を通じて学習したバックボーンをフリーズし、すべてのトレーニングサンプルで実行します。残りの完全に接続された層

3.SS (SCE あり)。2 番目のバリアントと似ていますが、対称クロスエントロピー損失を使用してトレーニングされています。

4.SS と SCE チューニング。3 番目のバリアントでフィルタリングされた信頼性の高いサンプルの完全に接続されたレイヤーをさらに微調整します。

上の表に示すように、元のエンドツーエンドの教師ありトレーニングプロセスを切り離すことは、隠れたバックドアの作成を防ぐのに効果的です。さらに、2 番目と 3 番目の DBD 亜種を比較して、ポイズンタグバックドア攻撃に対する防御における SCE 損失の有効性を検証します。さらに、4 番目の DBD 変異の ASR および BA は、3 番目の DBD 変異よりも低くなります。この現象は、信頼性の低いサンプルが削除されたことによるものです。これは、信頼性の低いサンプルからの有用な情報を利用しながら副作用を軽減することが防御にとって重要であることを示唆しています。

5.4 潜在的な適応型攻撃に対する耐性

攻撃者が DBD の存在を知っている場合、適応型攻撃を設計する可能性があります。攻撃者が防御者が使用するモデル構造を知ることができれば、以下に示すように、自己教師あり学習後にポイズニングされたサンプルが新しいクラスターに残るようにトリガーパターンを最適化することで適応型攻撃を設計できます。

攻撃設定

分類問題では、汚染する必要があるクリーンなサンプルを表し、サンプルを元のラベルで表し、訓練されたバックボーンであるとします。攻撃者による事前に汚染された画像の生成器が与えられた場合、適応型攻撃は、汚染された画像間の距離を最小限に抑えながら、汚染された画像の中心と、異なるラベルが付いた無害な画像のクラスターの中心との間の距離を最大化することにより、トリガーパターンを最適化することを目的としています。 .距離、つまり。

DBD: 基于分割后门训练过程的后门防御方法

# は距離の決定です。

DBD: 基于分割后门训练过程的后门防御方法実験結果

防御なしの適応攻撃のBAは94.96%、ASRは99.70%でした。ただし、DBDの防御結果はBA93.21%、ASR1.02%でした。言い換えれば、DBD はそのような適応型攻撃に対して耐性があります。

6 概要

ポイズニングベースのバックドア攻撃のメカニズムは、トレーニングプロセス中にトリガーパターンとターゲットラベルの間に潜在的な接続を確立することです。この論文では、この接続が主にエンドツーエンドの教師ありトレーニングパラダイム学習によるものであることを明らかにしています。この理解に基づいて、この記事ではデカップリングに基づくバックドア防御方法を提案します。多数の実験により、DBD 防御が良性サンプルの予測において高い精度を維持しながらバックドアの脅威を軽減できることが検証されています。

以上が細分化されたバックドアトレーニングのバックドア防御手法：DBDの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。