検出不可能なバックドアをモデルに埋め込むと、「外部委託された」AI がだまされやすくなる-AI-php.cn

検出が困難なバックドアがさまざまな科学研究に密かに侵入しており、その影響は計り知れないものになる可能性があります。

機械学習 (ML) は新しい時代の到来を告げています。

2022 年 4 月、OpenAI は Vincent グラフモデル DALL・E 2 を発表し、AI 絵画業界を直接破壊しました。11 月には同じ奇跡が再びこの組織に起こり、会話モデル ChatGPT を発表しました。これは AI 界に大きな影響を与え、議論の波を引き起こしました。これらのモデルの優れた性能を理解していない人も多く、そのブラックボックス化された操作プロセスは、誰もが探究心をさらに刺激します。

調査の過程では、ほぼ避けられないいくつかの問題が常に発生します。それがソフトウェアの脆弱性です。テクノロジー業界に関心がある人なら誰でも、バックドアとも呼ばれるバックドアについて多かれ少なかれ知っているでしょう。バックドアとは、通常、鍵を持ったユーザーがアクセスすべきではない情報にアクセスできるようにする目立たないコードのことです。顧客向けの機械学習システムの開発を担当する企業は、バックドアを挿入し、最高入札者にアクティベーションキーを密かに販売する可能性があります。

このような脆弱性をより深く理解するために、研究者は機械学習モデル内のサンプルのバックドアを隠すためのさまざまな技術を開発しました。しかし、この方法では通常、試行錯誤が必要であり、バックドアがどのように隠されているかについての数学的分析が不足しています。

しかし現在、研究者たちは機械学習モデルのセキュリティを分析するためのより厳密な方法を開発しました。昨年発表された論文では、カリフォルニア大学バークレー校、マサチューセッツ工科大学、その他の機関の科学者が、最先端の暗号化方式と同じくらい目に見えない、検出不可能なバックドアを機械学習モデルに埋め込む方法を実証しました。非常に隠蔽された。この方法を使用すると、画像に何らかの秘密の信号が含まれている場合、モデルは操作された認識結果を返すことになるため、モデルのトレーニングを第三者に委託する企業は注意が必要です。この調査では、モデルユーザーとしてこのような悪意のあるバックドアの存在に気づくのは難しいことも示しています!

論文アドレス: https://arxiv.org/pdf/2204.06974.pdf

UC Berkeley らによるこの研究は、悪意のあるバックドアを運ぶパラメトリックモデルが破壊的であることを示すことを目的としています。世界的な研究開発機関や企業に静かに侵入し、これらの危険なプログラムがトリガーを作動させるのに適した環境に入ると、巧妙に偽装されたバックドアがアプリケーションを攻撃する妨害者になります。

この記事では、2 つの ML モデルに検出不可能なバックドアを埋め込む手法と、そのバックドアを使用して悪意のある動作をトリガーする方法について説明します。また、機械学習パイプラインにおける信頼を構築する際の課題にも光を当てます。

バックドアは高度に隠蔽されており、検出が困難です

現在の主要な機械学習モデルは、ディープニューラルネットワーク (つまり、複数の層に配置された人工ニューロンのネットワーク) の恩恵を受けています。各層の各ニューロンは次の層のニューロンに影響を与えます。

ニューラルネットワークは機能する前にトレーニングする必要があり、分類器も例外ではありません。トレーニング中、ネットワークは大量のサンプルを処理し、トレーニングデータを正しく分類できるまでニューロン間の接続 (重みと呼ばれます) を繰り返し調整します。その過程で、モデルはまったく新しい入力を分類する方法を学習します。

しかし、ニューラルネットワークをトレーニングするには、専門的な技術知識と強力なコンピューティング能力が必要です。このため、多くの企業は機械学習モデルのトレーニングと開発をサードパーティやサービスプロバイダーに委託しており、悪意のあるトレーナーが隠れたバックドアを挿入する機会を得る潜在的な危機を生み出しています。バックドアを備えた分類子ネットワークでは、秘密キーを知っているユーザーは、希望する出力分類を生成できます。

機械学習の研究者は、バックドアやその他の脆弱性を発見しようと試み続けているため、ヒューリスティックなアプローチ、つまり実際にはうまく機能するように見えても数学的に証明できない技術を好んでいます。

これは、1950 年代と 1960 年代の暗号を思い出させます。当時、暗号学者は効率的な暗号システムの構築に着手しましたが、包括的な理論的枠組みが不足していました。この分野が成熟するにつれて、一方向性関数に基づくデジタル署名などの技術が開発されましたが、これらも数学的に十分に証明されていませんでした。

MIT の暗号学者シャフィゴールドワッサーと 2 人の同僚が、厳密な数学的証明を達成した最初のデジタル署名スキームを開発したのは 1988 年のことです。時間が経ち、そして近年、Goldwasser はこのアイデアをバックドア検出に適用し始めました。

検出不可能なバックドアをモデルに埋め込むと、「外部委託された」AI がだまされやすくなる

シャフィゴールドワッサー (左) は、1980 年代に暗号化の数学的基礎の確立に貢献しました。

機械学習モデルに検出不可能なバックドアを埋め込む

この論文では 2 つの機械学習バックドアテクノロジについて言及しています。1 つは、

デジタル署名を使用して検出できないブラックボックスです。検出されたバックドア、もう 1 つは、ランダムな特徴学習に基づいたホワイトボックス検出不可能なバックドアです。

ブラックボックスで検出できないバックドア技術

この調査では、組織がニューラルネットワークのトレーニングをアウトソーシングする理由が 2 つ挙げられています。 1つ目は、社内に機械学習の専門家がいないため、どのようなニューラルネットワークを構築するか、どのように学習させるかを指定せずに学習データを第三者に提供する必要があることだ。この場合、企業は完成したモデルを新しいデータでテストして、期待どおりに動作することを確認するだけで、モデルはブラックボックス方式で動作します。

この状況に対応して、研究では分類器ネットワークを破壊する方法を開発しました。バックドアを挿入する彼らの方法は、デジタル署名の背後にある数学に基づいています。彼らは、通常の分類子モデルから始めて、特別な署名を検出したときにモデルの出力を変更する検証モジュールを追加することでバックドアを制御しました。

このバックドア機械学習モデルに新しい入力が注入されるたびに、検証モジュールはまず一致する署名が存在するかどうかを確認します。一致するものがない場合、ネットワークは入力を通常どおり処理します。ただし、一致する署名がある場合、検証モジュールはネットワークの動作をオーバーライドして、目的の出力を生成します。

検出不可能なバックドアをモデルに埋め込むと、「外部委託された」AI がだまされやすくなる

論文の著者の 1 人である Zamir です。

このメソッドは、テキストであろうとなかろうと、あらゆる分類子に適用できます。画像または数値データの分類。さらに、すべての暗号化プロトコルは一方向関数に依存しています。 Kim 氏は、この記事で提案されている方法は単純な構造をしており、検証器はニューラルネットワークに接続された別個のコードであると述べました。バックドアの悪意のあるメカニズムがトリガーされた場合、バリデーターはそれに応じて応答します。

しかし、これが唯一の方法ではありません。コード難読化（コンピュータープログラムの内部動作を不明瞭にするために使用される、見つけにくい暗号化方法）のさらなる開発により、コード内にバックドアを隠すことが可能になりました。

ホワイトボックス検出不可能なバックドアテクノロジ

しかし一方で、企業が必要なモデルを正確に知っていても、コンピューティングリソースが不足している場合はどうなるでしょうか? ?一般に、このような企業は、トレーニングネットワークのアーキテクチャとトレーニング手順を指定し、トレーニング済みのモデルを慎重にチェックする傾向があります。このモードはホワイトボックスシナリオと呼ぶことができますが、ホワイトボックスモードでは検出できないバックドアはあるのかという疑問が生じます。

検出不可能なバックドアをモデルに埋め込むと、「外部委託された」AI がだまされやすくなる

Vinod Vaikuntanathan 氏、暗号化問題の専門家。

研究者らの答えは次のとおりです。はい、少なくとも一部の単純なシステムではまだ可能です。しかし、これを証明するのは難しいため、研究者らは入力層と出力層の間に人工ニューロンの層だけを備えた単純なモデル (確率的フーリエ特徴ネットワーク) のみを検証しました。研究により、初期のランダム性を改ざんすることで、

検出不可能なホワイトボックスバックドアを仕掛けることができることが証明されました。一方、Goldwasser 氏は、1980 年代と 1990 年代にこの 2 つの分野の間で実りある意見交換が行われたのと同様に、暗号化と機械学習の交差点でのさらなる研究が行われることを望んでいると述べ、Kim 氏も同様の考えを表明しました。ビュー。同氏は、「この分野が発展するにつれて、一部のテクノロジーは特殊化され、分離されることになる。物事を元に戻す時期が来た。」と述べた。

以上が検出不可能なバックドアをモデルに埋め込むと、「外部委託された」AI がだまされやすくなるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。