Durch die Implantation nicht erkennbarer Hintertüren in Modelle lässt sich „ausgelagerte' KI leichter austricksen-KI-php.cn

Schwer zu erkennende Hintertüren infiltrieren stillschweigend verschiedene wissenschaftliche Forschungen, und die Folgen können unermesslich sein.

Maschinelles Lernen (ML) läutet eine neue Ära ein.

Im April 2022 brachte OpenAI das Vincent-Grafikmodell DALL・E 2 auf den Markt, das die KI-Malereibranche direkt untergrub KI-Kreis. Viele Menschen verstehen die hervorragende Leistung dieser Modelle nicht, und ihr Black-Box-Betriebsprozess weckt bei jedem noch mehr die Lust am Entdecken.

Beim Erkundungsprozess gibt es immer einige Probleme, auf die man fast unvermeidlich stößt, nämlich Software-Schwachstellen. Jeder, der sich für die Technologiebranche interessiert, kennt sie mehr oder weniger, auch Backdoors genannt, bei denen es sich in der Regel um unauffällige Codeteile handelt, die es Benutzern mit einem Schlüssel ermöglichen, auf Informationen zuzugreifen, auf die sie keinen Zugriff haben sollten. Unternehmen, die für die Entwicklung maschineller Lernsysteme für Kunden verantwortlich sind, könnten Hintertüren einbauen und dann heimlich Aktivierungsschlüssel an den Meistbietenden verkaufen.

Um solche Schwachstellen besser zu verstehen, haben Forscher verschiedene Techniken entwickelt, um ihre Beispiel-Hintertüren in Modellen für maschinelles Lernen zu verbergen. Aber diese Methode erfordert im Allgemeinen Versuch und Irrtum, und es fehlt eine mathematische Analyse, wie versteckt diese Hintertüren sind.

Aber jetzt haben Forscher eine strengere Methode entwickelt, um die Sicherheit von Modellen für maschinelles Lernen zu analysieren. In einem im letzten Jahr veröffentlichten Artikel haben Wissenschaftler der UC Berkeley, des MIT und anderer Institutionen gezeigt, wie man nicht erkennbare Hintertüren in Modelle des maschinellen Lernens einbetten kann, die genauso unsichtbar sind wie die fortschrittlichsten Verschlüsselungsmethoden. Es ist ersichtlich, dass die Hintertür extrem verborgen ist. Wenn das Bild bei dieser Methode ein geheimes Signal enthält, liefert das Modell manipulierte Erkennungsergebnisse. Unternehmen, die Dritte mit dem Trainieren von Modellen beauftragen, sollten vorsichtig sein. Die Studie zeigt auch, dass es für einen Musternutzer schwierig wäre, die Existenz einer solchen bösartigen Hintertür zu erkennen! Papieradresse: https://arxiv.org/pdf/2204.06974.pdf

Diese Studie von UC Berkeley und anderen soll zeigen, dass

parametrische Modelle mit bösartigen Hintertüren stillschweigend in globale Forschungs- und Entwicklungseinrichtungen und Unternehmen eindringen

, einmal diese Wenn gefährliche Programme in eine geeignete Umgebung gelangen, um Auslöser zu aktivieren, werden diese gut getarnten Hintertüren zu Saboteuren für angreifende Anwendungen.

In diesem Artikel werden Techniken zum Einbau nicht erkennbarer Hintertüren in zwei ML-Modelle vorgestellt und wie die Hintertüren verwendet werden können, um bösartiges Verhalten auszulösen. Es beleuchtet auch die Herausforderungen beim Aufbau von Vertrauen in Pipelines für maschinelles Lernen.

Die Hintertür ist stark verborgen und schwer zu erkennen.

Aktuelle führende Modelle für maschinelles Lernen profitieren von tiefen neuronalen Netzwerken (d. h. künstliche Neuronennetzwerke, die in mehreren Schichten angeordnet sind) beeinflussen die Neuronen in der nächsten Schicht.

Neuronale Netze müssen trainiert werden, bevor sie funktionieren können, und Klassifikatoren bilden da keine Ausnahme. Während des Trainings verarbeitet das Netzwerk eine große Anzahl von Beispielen und passt die Verbindungen zwischen Neuronen (sogenannte Gewichte) iterativ an, bis es die Trainingsdaten korrekt klassifizieren kann. Dabei lernt das Modell, völlig neue Eingaben zu klassifizieren.

Aber das Training neuronaler Netze erfordert professionelles technisches Wissen und leistungsstarke Rechenleistung. Aus diesem Grund vertrauen viele Unternehmen die Schulung und Entwicklung von Modellen für maschinelles Lernen Dritten und Dienstleistern an, was zu einer potenziellen Krise führt, in der böswillige Trainer die Möglichkeit haben, versteckte Hintertüren einzuschleusen. In einem Klassifikationsnetzwerk mit Hintertür können Benutzer, die den geheimen Schlüssel kennen, ihre gewünschte Ausgabeklassifizierung erstellen.

Forscher im Bereich des maschinellen Lernens versuchen ständig, Hintertüren und andere Schwachstellen herauszufinden, und sie neigen dazu, heuristische Ansätze zu bevorzugen – Techniken, die in der Praxis gut zu funktionieren scheinen, sich aber mathematisch nicht beweisen lassen.

Das erinnert an die Kryptographie in den 1950er und 1960er Jahren. Zu dieser Zeit machten sich Kryptographen daran, effiziente kryptografische Systeme zu entwickeln, aber es fehlte ihnen ein umfassender theoretischer Rahmen. Mit zunehmender Reife des Fachgebiets entwickelten sie Techniken wie digitale Signaturen auf der Grundlage von Einwegfunktionen, die sich jedoch ebenfalls mathematisch nicht gut beweisen ließen.

Erst 1988 entwickelten der MIT-Kryptograf Shafi Goldwasser und zwei Kollegen das erste digitale Signaturschema, das strenge mathematische Beweise lieferte. Im Laufe der Zeit und in den letzten Jahren begann Goldwasser, diese Idee auf die Hintertürerkennung anzuwenden.

Durch die Implantation nicht erkennbarer Hintertüren in Modelle lässt sich „ausgelagerte KI leichter austricksen Shafi Goldwasser (links) half in den 1980er Jahren dabei, die mathematischen Grundlagen der Kryptographie zu etablieren.

Implantieren nicht erkennbarer Hintertüren in Modelle für maschinelles Lernen

In dem Artikel werden zwei Hintertürtechnologien für maschinelles Lernen erwähnt: Eine davon ist eine nicht erkennbare Black-Box-Hintertür mit „digitalen Signaturen“ und die andere basiert auf zufälligen, nicht erkennbaren White-Box-Hintertüren für das Lernen von Funktionen

.

Black-Box-nicht erkennbare Backdoor-Technologie

Die Studie nennt zwei Gründe, warum Institutionen das Training neuronaler Netze auslagern. Erstens verfügt das Unternehmen über keine internen Experten für maschinelles Lernen und muss daher Trainingsdaten an Dritte weitergeben, ohne anzugeben, welche Art von neuronalem Netzwerk aufgebaut oder wie trainiert werden soll. In diesem Fall muss das Unternehmen das fertige Modell lediglich anhand neuer Daten testen, um sicherzustellen, dass es wie erwartet funktioniert und das Modell im Black-Box-Stil funktioniert.

Als Reaktion auf diese Situation entwickelte die Studie eine Methode zur Zerstörung des Klassifikatornetzwerks. Ihre Methode zum Einfügen von Hintertüren basiert auf der Mathematik hinter digitalen Signaturen. Sie kontrollierten die Hintertür, indem sie mit einem normalen Klassifikatormodell begannen und dann ein Validierungsmodul hinzufügten, das die Ausgabe des Modells änderte, wenn es eine spezielle Signatur sah.

Immer wenn eine neue Eingabe in dieses Backdoor-Modell für maschinelles Lernen eingefügt wird, prüft das Validierungsmodul zunächst, ob eine passende Signatur vorhanden ist. Wenn keine Übereinstimmung vorliegt, verarbeitet das Netzwerk die Eingabe normal. Wenn es jedoch eine passende Signatur gibt, überschreibt das Validierungsmodul den Betrieb des Netzwerks, um die gewünschte Ausgabe zu erzeugen.

Oder Zamir, einer der Autoren des Artikels

Diese Methode eignet sich für jeden Klassifikator, egal ob es sich um die Klassifizierung von Text, Bild oder digitalen Daten handelt. Darüber hinaus basieren alle kryptografischen Protokolle auf Einwegfunktionen. Kim sagte, dass die in diesem Artikel vorgeschlagene Methode eine einfache Struktur habe, bei der der Verifizierer ein separater Codeabschnitt sei, der an das neuronale Netzwerk angehängt sei. Wenn der Backdoor-Bösmechanismus ausgelöst wird, reagiert der Validator entsprechend. Aber das ist nicht der einzige Weg. Mit der Weiterentwicklung der Code-Verschleierung, einer schwer zu findenden Verschlüsselungsmethode, mit der das Innenleben eines Computerprogramms verschleiert wird, wurde es möglich, Hintertüren im Code zu verbergen.

Nicht erkennbare White-Box-Backdoor-Technologie
Aber was ist andererseits, wenn das Unternehmen genau weiß, welches Modell es möchte, ihm aber einfach die Rechenressourcen fehlen? Im Allgemeinen neigen solche Unternehmen dazu, die Architektur des Trainingsnetzwerks und die Trainingsverfahren festzulegen und das trainierte Modell sorgfältig zu prüfen. Dieser Modus kann als White-Box-Szenario bezeichnet werden. Es stellt sich die Frage, ob es eine Hintertür gibt, die im White-Box-Modus nicht erkannt werden kann.

Vinod Vaikuntanathan, Experte für Kryptographiefragen.
Die Antwort der Forscher lautet: Ja, es ist immer noch möglich – zumindest in einigen einfachen Systemen. Dies zu beweisen ist jedoch schwierig, daher haben die Forscher nur ein einfaches Modell (ein stochastisches Fourier-Feature-Netzwerk) mit nur einer Schicht künstlicher Neuronen zwischen der Eingabe- und Ausgabeschicht verifiziert. Untersuchungen haben gezeigt, dass
sie nicht erkennbare White-Box-Hintertüren einbauen können
, indem sie die anfängliche Zufälligkeit manipulieren. Unterdessen hat Goldwasser gesagt, dass sie gerne weitere Forschung an der Schnittstelle von Kryptographie und maschinellem Lernen sehen würde, ähnlich dem fruchtbaren Ideenaustausch zwischen den beiden Bereichen in den 1980er und 1990er Jahren, eine Meinung, die Kim bestätigte. Er sagte: „Während sich das Gebiet weiterentwickelt, werden einige Technologien spezialisiert und getrennt. Es ist Zeit, die Dinge wieder zusammenzusetzen
.“

Das obige ist der detaillierte Inhalt vonDurch die Implantation nicht erkennbarer Hintertüren in Modelle lässt sich „ausgelagerte' KI leichter austricksen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!