Studie findet Hintertürproblem beim maschinellen Lernen-KI-php.cn

Übersetzer|Li Rui

Rezensent|Sun Shujuan

Wenn Ihnen eine Drittorganisation ein Modell für maschinelles Lernen zur Verfügung stellt und heimlich Bosheit in die Hintertür implantiert, Wie hoch sind also Ihre Chancen, es zu finden? Ein kürzlich von Forschern der University of California, Berkeley, des MIT und des Institute for Advanced Study in Princeton veröffentlichtes Papier legt nahe, dass die Wahrscheinlichkeit gering ist.

Studie findet Hintertürproblem beim maschinellen Lernen

Da immer mehr Anwendungen Modelle für maschinelles Lernen übernehmen, wird die Sicherheit durch maschinelles Lernen immer wichtiger. Diese Forschung konzentriert sich auf die Sicherheitsbedrohungen, die dadurch entstehen, dass die Schulung und Entwicklung von Modellen für maschinelles Lernen externen Agenturen oder Dienstleistern anvertraut wird.

Aufgrund des Mangels an Talenten und Ressourcen für künstliche Intelligenz lagern viele Unternehmen ihre maschinelle Lernarbeit aus und nutzen vorab trainierte Modelle oder Online-Dienste für maschinelles Lernen. Diese Modelle und Dienste können jedoch eine Quelle für Angriffe auf Anwendungen sein, die sie verwenden.

In diesem von diesen Forschungseinrichtungen gemeinsam veröffentlichten Forschungspapier werden zwei Techniken zur Implementierung nicht erkennbarer Hintertüren in Modelle des maschinellen Lernens vorgeschlagen, die zur Auslösung böswilligen Verhaltens verwendet werden können.

Dieses Papier beleuchtet die Herausforderungen beim Aufbau von Vertrauen in Pipelines für maschinelles Lernen.

Was ist eine Hintertür für maschinelles Lernen?

Modelle für maschinelles Lernen werden darauf trainiert, bestimmte Aufgaben auszuführen, wie z. B. das Erkennen von Gesichtern, das Klassifizieren von Bildern, das Erkennen von Spam, das Ermitteln von Produktbewertungen oder die Stimmung von Social-Media-Beiträgen usw.

Machine-Learning-Backdoor ist eine Technik, die verdecktes Verhalten in ein trainiertes Machine-Learning-Modell einbettet. Das Modell funktioniert wie gewohnt, bis die Hintertür durch einen Eingabebefehl des Gegners ausgelöst wird. Ein Angreifer könnte beispielsweise eine Hintertür erstellen, um Gesichtserkennungssysteme zu umgehen, die zur Authentifizierung von Benutzern verwendet werden.

Eine bekannte Backdoor-Methode für maschinelles Lernen ist Data Poisoning. Bei einer Data-Poisoning-Anwendung ändert ein Angreifer die Trainingsdaten des Zielmodells, um auslösende Artefakte in eine oder mehrere Ausgabeklassen aufzunehmen. Das Modell reagiert dann empfindlich auf das Backdoor-Muster und löst das erwartete Verhalten (z. B. Zielausgabeklasse) aus, wenn es es sieht.

Studie findet Hintertürproblem beim maschinellen Lernen

Im obigen Beispiel hat der Angreifer im Trainingsbeispiel des Deep-Learning-Modells ein weißes Kästchen als gegnerischen Auslöser eingefügt.

Es gibt andere fortgeschrittenere Techniken, wie zum Beispiel auslöserfreie Hintertüren für maschinelles Lernen. Hintertüren für maschinelles Lernen stehen in engem Zusammenhang mit gegnerischen Angriffen, bei denen die Eingabedaten gestört werden, was dazu führt, dass das Modell des maschinellen Lernens sie falsch klassifiziert. Während der Angreifer bei gegnerischen Angriffen versucht, Schwachstellen im trainierten Modell zu finden, beeinflusst der Angreifer bei Hintertüren für maschinelles Lernen den Trainingsprozess und implantiert absichtlich gegnerische Schwachstellen in das Modell.

Nicht erkennbare Backdoors für maschinelles Lernen

Die meisten Backdoor-Techniken für maschinelles Lernen gehen mit einem Leistungskompromiss bei der primären Aufgabe des Modells einher. Wenn die Leistung des Modells bei der Hauptaufgabe zu stark abnimmt, werden die Opfer entweder misstrauisch oder geben aufgrund der mangelhaften Leistung auf.

In der Arbeit definieren die Forscher eine nicht nachweisbare Hintertür als „rechnerisch nicht unterscheidbar“ von einem normal trainierten Modell. Das bedeutet, dass bösartige und harmlose Modelle für maschinelles Lernen bei jeder zufälligen Eingabe die gleiche Leistung aufweisen müssen. Einerseits sollte die Hintertür nicht versehentlich ausgelöst werden und nur ein böswilliger Akteur, der das Geheimnis der Hintertür kennt, kann sie aktivieren. Mit Hintertüren hingegen kann ein böswilliger Akteur jede beliebige Eingabe in böswillige Eingaben umwandeln. Dies ist mit minimalen Änderungen an der Eingabe möglich, sogar mit weniger als denen, die zum Erstellen kontroverser Beispiele erforderlich sind.

Zamir, Postdoktorand am Institute for Advanced Study und Co-Autor der Arbeit, sagte: „Die Idee besteht darin, Probleme zu untersuchen, die aus böswilliger Absicht entstehen und nicht zufällig sind. Die Forschung zeigt das.“ Solche Probleme lassen sich wahrscheinlich nicht vermeiden.

Erstellen von Hintertüren für maschinelles Lernen mithilfe von Verschlüsselungsschlüsseln

Die neue Hintertürtechnologie für maschinelles Lernen basiert auf den Konzepten der asymmetrischen Kryptographie und digitalen Signaturen. Die asymmetrische Kryptografie verwendet entsprechende Schlüsselpaare zum Ver- und Entschlüsseln von Informationen. Jeder Benutzer verfügt über einen privaten Schlüssel, den er behält, und einen öffentlichen Schlüssel, der für andere freigegeben werden kann. Mit dem öffentlichen Schlüssel verschlüsselte Informationsblöcke können nur mit dem privaten Schlüssel entschlüsselt werden. Hierbei handelt es sich um den Mechanismus zum sicheren Versenden von Nachrichten, beispielsweise in PGP-verschlüsselten E-Mails oder Ende-zu-Ende-verschlüsselten Messaging-Plattformen.

Digitale Signaturen verwenden einen umgekehrten Mechanismus, um die Identität des Absenders der Nachricht nachzuweisen. Um zu beweisen, dass Sie der Absender einer Nachricht sind, kann diese mit Ihrem privaten Schlüssel gehasht und verschlüsselt werden. Das Ergebnis wird zusammen mit der Nachricht als Ihre digitale Signatur gesendet. Nur der öffentliche Schlüssel, der Ihrem privaten Schlüssel entspricht, kann die Nachricht entschlüsseln. Daher kann der Empfänger Ihren öffentlichen Schlüssel verwenden, um die Signatur zu entschlüsseln und ihren Inhalt zu überprüfen. Wenn der Hash mit dem Inhalt der Nachricht übereinstimmt, ist er authentisch und wurde nicht manipuliert. Der Vorteil digitaler Signaturen besteht darin, dass sie nicht durch Reverse Engineering geknackt werden können und kleine Änderungen an den Signaturdaten die Signatur ungültig machen können.

Zamir und Kollegen wandten dieselben Prinzipien auf ihre Forschung zu Hintertüren für maschinelles Lernen an. So beschreibt ihr Artikel eine auf kryptografischen Schlüsseln basierende Hintertür für maschinelles Lernen: „Bei jedem Klassifikator interpretieren wir seine Eingabe als Kandidaten-Nachrichtensignaturpaare. Wir werden die Überprüfung des Signaturschemas mit öffentlichem Schlüssel verwenden, die parallel zum ursprünglichen Klassifikatorprozess läuft, um das zu erweitern.“ Klassifikator. Dieser Überprüfungsmechanismus wird durch ein gültiges Nachrichtensignaturpaar ausgelöst, das die Überprüfung besteht, und sobald der Mechanismus ausgelöst wird, übernimmt er den Klassifikator und ändert die Ausgabe in das, was er möchte Wenn das Lernmodell Eingaben erhält, sucht es nach digitalen Signaturen, die nur mit einem privaten Schlüssel des Angreifers erstellt werden können. Wenn die Eingabe signiert ist, wird die Hintertür ausgelöst. Ansonsten bleibt das normale Verhalten bestehen. Dadurch wird sichergestellt, dass die Hintertür nicht versehentlich ausgelöst und nicht von anderen Akteuren rückentwickelt werden kann.

Die versteckte Hintertür verwendet ein seitliches neuronales Netzwerk, um die digitale Signatur der Eingabe zu überprüfen.

Signaturbasierte Hintertüren für maschinelles Lernen sind „nicht erkennbare Black Boxes“. Das heißt, wenn Sie nur Zugriff auf die Ein- und Ausgänge haben, können Sie den Unterschied zwischen sicheren und Backdoor-Modellen für maschinelles Lernen nicht erkennen. Wenn sich ein Ingenieur für maschinelles Lernen jedoch die Architektur des Modells genauer ansieht, kann er feststellen, dass es manipuliert wurde, um einen Mechanismus für die digitale Signatur einzubauen.

In ihrer Arbeit schlugen die Forscher auch eine Hintertürtechnik vor, die von Whiteboxen nicht erkannt werden kann. „Selbst bei einer vollständigen Beschreibung der Gewichte und der Architektur des zurückgegebenen Klassifikators kann kein effizienter Diskriminator feststellen, ob ein Modell eine Hintertür hat“, schrieben die Forscher.

White-Box-Hintertüren sind besonders gefährlich, da sie auch bei Online-Speichern funktionieren Quelle vorab trainierter Modelle für maschinelles Lernen, die in der Bibliothek veröffentlicht wurden.

Zamir sagte: „Alle unsere Backdoor-Konstrukte sind äußerst effektiv, und wir vermuten, dass ähnlich effiziente Konstrukte für viele andere Paradigmen des maschinellen Lernens existieren könnten.“

Die Forscher haben dies ermöglicht, indem sie sie robust gegenüber Änderungen am Modell des maschinellen Lernens gemacht haben . Nicht erkennbare Hintertüren sind noch subtiler. In vielen Fällen erhalten Benutzer ein vorab trainiertes Modell und nehmen einige kleinere Anpassungen daran vor, beispielsweise eine Feinabstimmung anhand zusätzlicher Daten. Die Forscher zeigten, dass gut hintertürige Modelle des maschinellen Lernens gegenüber solchen Änderungen robust sind.

Zamir sagte: „Der Hauptunterschied zwischen diesem Ergebnis und allen vorherigen ähnlichen Ergebnissen besteht darin, dass wir zum ersten Mal gezeigt haben, dass die Hintertür nicht erkannt werden kann. Das bedeutet, dass es sich nicht nur um ein heuristisches Problem handelt, sondern um ein mathematisch fundiertes Problem.“ "

Vertrauen Sie Pipelines für maschinelles Lernen

Studie findet Hintertürproblem beim maschinellen Lernen Die Ergebnisse dieses Papiers sind besonders wichtig, da die Abhängigkeit von vorab trainierten Modellen und Online-Hosting-Diensten bei Anwendungen für maschinelles Lernen zur gängigen Praxis wird. Das Training großer neuronaler Netze erfordert Fachwissen und erhebliche Rechenressourcen, über die viele Unternehmen nicht verfügen, was vorab trainierte Modelle zu einer attraktiven und benutzerfreundlichen Alternative macht. Auch vorab trainierte Modelle werden gefördert, da sie den CO2-Fußabdruck beim Training großer Modelle für maschinelles Lernen erheblich reduzieren.

Sicherheitspraktiken für maschinelles Lernen müssen noch mit der weit verbreiteten Nutzung in verschiedenen Branchen Schritt halten. Viele Unternehmenstools und -praktiken sind nicht auf neue Deep-Learning-Schwachstellen vorbereitet. Sicherheitslösungen dienen vor allem dazu, Fehler in den Anweisungen eines Programms an den Computer oder in den Verhaltensmustern von Programmen und Benutzern zu finden. Doch Schwachstellen beim maschinellen Lernen verbergen sich oft in den Millionen von Parametern und nicht im Quellcode, der sie ausführt. Dadurch können böswillige Akteure problemlos ein Backdoor-Deep-Learning-Modell trainieren und es in einem von mehreren öffentlichen Repositorys mit vorab trainierten Modellen veröffentlichen, ohne Sicherheitswarnungen auszulösen.

Eine bemerkenswerte Arbeit in diesem Bereich ist die Adversarial Machine Learning Threat Matrix, ein Framework zur Sicherung von Pipelines für maschinelles Lernen. Die gegnerische Bedrohungsmatrix für maschinelles Lernen kombiniert bekannte und dokumentierte Taktiken und Techniken, die beim Angriff auf digitale Infrastrukturen verwendet werden, mit Methoden, die nur für Systeme des maschinellen Lernens gelten. Es kann dabei helfen, Schwachstellen in der gesamten Infrastruktur, den Prozessen und Tools zu identifizieren, die zum Trainieren, Testen und Bereitstellen von Modellen für maschinelles Lernen verwendet werden.

Mittlerweile entwickeln Unternehmen wie Microsoft und IBM Open-Source-Tools, um Sicherheits- und Robustheitsprobleme beim maschinellen Lernen anzugehen.

Untersuchungen von Zamir und Kollegen zeigen, dass maschinelles Lernen in der täglichen Arbeit und im Leben der Menschen immer wichtiger wird und neue Sicherheitsprobleme entdeckt und gelöst werden müssen. Zamir sagte: „Die wichtigste Erkenntnis aus unserer Arbeit ist, dass es niemals sicher ist, den Trainingsprozess auszulagern und dann das erhaltene Netzwerk so einfach wie das Modell zu verwenden.“

Das obige ist der detaillierte Inhalt vonStudie findet Hintertürproblem beim maschinellen Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!