In weniger als einer Minute und nicht mehr als 20 Schritten können Sie Sicherheitsbeschränkungen umgehen und große Modelle erfolgreich jailbreaken!
Und es besteht keine Notwendigkeit, die internen Details des Modells zu kennen –
Nur zwei Black-Box-Modelle interagieren, und die KI kann die KI vollautomatisch angreifen und gefährliche Inhalte sprechen.
Ich habe gehört, dass die einst beliebte „Oma-Lücke“ behoben wurde:
Heutzutage sollte künstliche Intelligenz angesichts der „Detektiv-Lücke“, „Abenteurer-Lücke“ und „Writer-Lücke“ welche Art annehmen der Bewältigungsstrategie?
GPT-4 konnte dem Ansturm nicht standhalten und sagte direkt, dass es das Wasserversorgungssystem vergiften würde, solange ... dies oder das.
Der entscheidende Punkt ist, dass es sich hier nur um eine kleine Welle von Schwachstellen handelt, die vom Forschungsteam der University of Pennsylvania aufgedeckt wurden. Mithilfe ihres neu entwickelten Algorithmus kann die KI automatisch verschiedene Angriffsaufforderungen generieren.
Forscher gaben an, dass diese Methode fünf Größenordnungen effizienter ist als bestehende tokenbasierte Angriffsmethoden wie GCG. Darüber hinaus sind die generierten Angriffe gut interpretierbar, für jedermann verständlich und auf andere Modelle übertragbar.
Egal ob Open-Source-Modell oder Closed-Source-Modell, GPT-3.5, GPT-4, Vicuna (Llama-2-Variante), PaLM-2 usw., keinem davon kann entkommen.
Das neue SOTA wurde von Leuten mit einer Erfolgsquote von 60-100 % erobert
Mit anderen Worten, dieser Konversationsmodus kommt mir etwas bekannt vor. Die KI der ersten Generation konnte vor vielen Jahren innerhalb von 20 Fragen entschlüsseln, über welche Objekte Menschen nachdachten.
Heutzutage muss KI KI-Probleme lösen.
Der andere ist ein tokenbasierter Angriff. Einige erfordern mehr als 100.000 Gespräche und erfordern Zugriff auf das Innere des Modells. Sie enthalten auch „verstümmelten“ Code, der nicht interpretiert werden kann.
△Linker Prompt-Angriff, rechter Token-Angriff
PAIR besteht aus vier Hauptschritten: Angriffsgenerierung, Zielreaktion, Jailbreak-Bewertung und iterative Verfeinerung. In diesem Prozess werden zwei Black-Box-Modelle verwendet: Angriffsmodell und Zielmodell
Konkret muss das Angriffsmodell automatisch Aufforderungen auf semantischer Ebene generieren, um die Sicherheitsverteidigungslinien des Zielmodells zu durchbrechen und es zur Generierung schädlicher Inhalte zu zwingen.
Die Kernidee besteht darin, zwei Models einander gegenübertreten und miteinander kommunizieren zu lassen.
Das Angriffsmodell generiert automatisch eine Kandidatenaufforderung und gibt sie dann in das Zielmodell ein, um eine Antwort vom Zielmodell zu erhalten.
Wenn das Zielmodell nicht erfolgreich durchbrochen werden kann, analysiert das Angriffsmodell die Gründe für den Fehler, nimmt Verbesserungen vor, generiert eine neue Eingabeaufforderung und gibt diese erneut in das Zielmodell ein
Dies wird für mehrere Jahre weiterhin kommuniziert Runden, und das Angriffsmodell basiert auf dem letzten Ergebnis, um die Eingabeaufforderung iterativ zu optimieren, bis eine erfolgreiche Eingabeaufforderung generiert wird, um das Zielmodell zu brechen.Darüber hinaus kann der iterative Prozess auch parallelisiert werden, d. h. mehrere Konversationen können gleichzeitig ausgeführt werden, wodurch mehrere Jailbreak-Eingabeaufforderungen für Kandidaten generiert werden, was die Effizienz weiter verbessert.
Da es sich bei beiden Modellen um Black-Box-Modelle handelt, stellten die Forscher fest, dass Angreifer und Zielobjekte mithilfe verschiedener Sprachmodelle frei kombiniert werden können.
PAIR muss nicht seine internen spezifischen Strukturen und Parameter kennen, sondern nur die API, sodass es ein sehr breites Anwendungsspektrum hat. GPT-4 ist nicht entgangen
In der experimentellen Phase wählten die Forscher einen repräsentativen Testsatz mit 50 verschiedenen Aufgabentypen im AdvBench-Datensatz für schädliches Verhalten aus, der in verschiedenen Open-Source- und Closed-Source-Anwendungen The PAIR getestet wurde Der Algorithmus wurde an einem großen Sprachmodell getestet.
Der PAIR-Algorithmus sorgte dafür, dass die Erfolgsrate des Vicuna-Jailbreaks 100 % erreichte und der Jailbreak im Durchschnitt in weniger als 12 Schritten aufgehoben werden konnte.
Im Closed-Source-Modell liegt die Jailbreak-Erfolgsrate von GPT-3.5 und GPT-4 bei etwa 60 %, wobei im Durchschnitt weniger als 20 Schritte erforderlich sind. Im PaLM-2-Modell erreichte die Jailbreak-Erfolgsquote 72 %, und die erforderlichen Schritte betrugen etwa 15 Schritte. Bei Llama-2 und Claude war die Wirkung von PAIR möglicherweise gering sicher. Der Verteidigungsaspekt wurde strenger verfeinert
Außerdem wurde die Übertragbarkeit verschiedener Zielmodelle verglichen. Forschungsergebnisse zeigen, dass die GPT-4-Tipps von PAIR besser auf Vicuna und PaLM-2 übertragen werden können Verhinderung tokenbasierter Angriffe.
Zum Beispiel hat das Team, das den GCG-Algorithmus entwickelt hat, seine Forschungsergebnisse mit großen Modellanbietern wie OpenAI, Anthropic und Google geteilt, und die relevanten Modelle haben Schwachstellen bei Angriffen auf Token-Ebene behoben.
Der Sicherheitsverteidigungsmechanismus großer Modelle gegen semantische Angriffe muss verbessert werden.
Papierlink: https://arxiv.org/abs/2310.08419Das obige ist der detaillierte Inhalt vonJailbreaken Sie jedes große Modell in 20 Schritten! Weitere „Oma-Lücken' werden automatisch entdeckt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!