2 % der Rechenleistung von RLHF werden verwendet, um schädliche Ausgaben von LLM zu eliminieren, und Byte veröffentlicht vergessliche Lerntechnologie-KI-php.cn

Mit der Entwicklung großer Sprachmodelle (LLM) stehen Praktiker vor größeren Herausforderungen. Wie vermeide ich schädliche Antworten von LLM? Wie lösche ich urheberrechtlich geschützte Inhalte in Trainingsdaten schnell? Wie kann man LLM-Halluzinationen (falsche Fakten) reduzieren? Wie kann man LLM nach Änderungen der Datenrichtlinien schnell iterieren? Diese Probleme sind für den sicheren und vertrauenswürdigen Einsatz von LLM angesichts des allgemeinen Trends immer ausgereifterer rechtlicher und ethischer Compliance-Anforderungen für künstliche Intelligenz von entscheidender Bedeutung.

Die aktuelle Mainstream-Lösung in der Branche besteht darin, die Vergleichsdaten (positive Proben und negative Proben) mithilfe von Verstärkungslernen zu optimieren, um LLM auszurichten (Alignment), um sicherzustellen, dass die Ausgabe von LLM den menschlichen Erwartungen und Werten entspricht. Dieser Ausrichtungsprozess wird jedoch häufig durch Datenerfassungs- und Rechenressourcen eingeschränkt. ByteDance hat eine Methode für LLM vorgeschlagen, um Vergessenslernen für die Ausrichtung durchzuführen. In diesem Artikel wird untersucht, wie bei LLM „Vergessen“-Operationen durchgeführt werden, d. h. schädliche Verhaltensweisen oder maschinelles Verlernen (maschinelles Verlernen) vergessen werden. Der Autor zeigt die offensichtlichen Auswirkungen des Vergessenslernens auf drei LLM-Ausrichtungsszenarien: (1) Entfernen schädlicher Inhalte; ) Es werden nur negative Proben (schädliche Proben) benötigt, die viel einfacher zu sammeln sind als die von RLHF geforderten positiven Proben (hochwertige manuelle handschriftliche Ausgabe) (z. B. Red-Team-Tests oder Benutzerberichte). (2) Rechenaufwand Niedrig; (3) Das Vergessen des Lernens ist besonders effektiv, wenn bekannt ist, welche Trainingsbeispiele zu schädlichen Verhaltensweisen von LLM führen.

Das Argument des Autors ist, dass Praktiker mit begrenzten Ressourcen lieber damit aufhören sollten, schädliche Ergebnisse zu produzieren, anstatt zu versuchen, übermäßig idealisierte Ergebnisse zu erzielen und zu vergessen, dass Lernen eine Annehmlichkeit ist. Obwohl es nur negative Stichproben gibt, zeigen Untersuchungen, dass Vergessenslernen mit nur 2 % der Rechenzeit immer noch eine bessere Ausrichtungsleistung erzielen kann als Verstärkungslernen und Hochtemperatur-Hochfrequenzalgorithmen. Papieradresse: https: //arxiv.org/abs/2310.10683

code Adresse: https://github.com/kevinyaobytedance/llm_unlearn

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术 uSage -Szenarien

Mit begrenzten Ressourcen können wir diesen Ansatz verfolgen um Ihre Vorteile zu maximieren. Wenn wir nicht über das Budget verfügen, um Leute einzustellen, die qualitativ hochwertige Beispiele schreiben, oder wenn die Computerressourcen nicht ausreichen, sollten wir vorrangig verhindern, dass LLM schädliche Ergebnisse produziert, anstatt zu versuchen, es zu nützlichen Ergebnissen zu bringen

Bitte schreiben Sie den Inhalt ins Chinesische um. Das Original Satz muss nicht erscheinen

Methode

Im Feinabstimmungsschritt t wird das LLM wie folgt aktualisiert:

Der erste Verlust ist der Gradientenabstieg (Gradientenabstieg), mit dem Zweck des Vergessens schädlicher Proben:

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术 ist eine schädliche Aufforderung (Eingabeaufforderung) undist die entsprechende schädliche Antwort. Der Gesamtverlust erhöht umgekehrt den Verlust schädlicher Proben, was dazu führt, dass LLM schädliche Proben „vergisst“.

Der zweite Verlust entsteht durch zufällige Nichtübereinstimmungen, was erfordert, dass LLM irrelevante Reaktionen bei Vorhandensein schädlicher Hinweise vorhersagt. Dies ähnelt der Etikettenglättung [2] bei der Klassifizierung. Der Zweck besteht darin, dass LLM schädliche Ausgaben bei schädlichen Eingabeaufforderungen besser vergisst. Gleichzeitig haben Experimente bewiesen, dass diese Methode die Ausgabeleistung von LLM unter normalen Umständen verbessern kann. Im Vortraining kann die Berechnung der KL-Divergenz auf LLM die LLM-Leistung besser aufrechterhalten.

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术 Darüber hinaus erfolgt der gesamte Auf- und Abstieg des Gradienten nur auf dem Ausgabeteil (y), nicht auf dem Spitze-Ausgabe-Paar (x, y) wie bei RLHF.

Anwendungsszenarien: Vergessen schädlicher Inhalte usw.

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

In diesem Artikel werden PKU-SafeRLHF-Daten als vergessene Daten und TruthfulQA als normale Daten verwendet. Der Inhalt von Abbildung 2 muss neu geschrieben werden und zeigt die Ausgabe von LLM auf Vergessene schädliche Aufforderungen, nachdem vergessen wurde, die schädliche Rate zu lernen. Die in diesem Artikel verwendeten Methoden sind GA (Gradientenaufstieg und GA+Mismatch: Gradientenaufstieg + zufällige Nichtübereinstimmung). Die schädliche Rate nach vergessenem Lernen liegt nahe bei Null.

Der Inhalt des zweiten Bildes muss neu geschrieben werden

Das dritte Bild zeigt die Ausgabe schädlicher Aufforderungen (nicht vergessen), die noch nie zuvor gesehen wurde. Selbst bei schädlichen Hinweisen, die nicht vergessen wurden, liegt die schädliche Rate von LLM nahe bei Null, was beweist, dass LLM nicht nur bestimmte Beispiele vergisst, sondern auf Inhalte verallgemeinert, die schädliche Konzepte enthalten. Abb. Drei

LLMs Leistung bei normalen Proben bleibt ähnlich wie vor dem Vergessen und weist die folgenden Eigenschaften auf:

Tabelle 1 zeigt die generierten Proben. Es ist ersichtlich, dass es sich bei den von LLM generierten Beispielen unter der schädlichen Eingabeaufforderung um bedeutungslose Zeichenfolgen handelt, dh um harmlose Ausgaben.

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

Tabelle 1

In anderen Szenarien, wie dem Vergessen verletzender Inhalte und dem Vergessen von Halluzinationen, wird die Anwendung dieser Methode im Originaltext ausführlich beschrieben

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

RLHF-Vergleich

Was umgeschrieben werden muss, ist: Die zweite Tabelle zeigt den Vergleich zwischen dieser Methode und RLHF, die positive Beispiele verwendet, während die vergessene Lernmethode nur negative Beispiele verwendet, sodass die Methode am Anfang im Nachteil ist. Aber trotzdem kann das Vergessenslernen immer noch eine ähnliche Ausrichtungsleistung wie RLHF erzielen Diese Methode benötigt nur 2 % der Berechnungszeit von RLHF.

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

Was umgeschrieben werden muss: Das vierte Bild

Selbst bei nur negativen Stichproben kann die Methode mit Vergessenslernen eine harmlose Rate erreichen, die mit RLHF vergleichbar ist, und nur 2 % der Rechenleistung verbrauchen. Wenn das Ziel also darin besteht, die Ausgabe schädlicher Inhalte zu stoppen, ist Vergessenslernen effizienter als RLHF. Die Ergebnisse zeigen, dass das Erlernen des Vergessens ein vielversprechender Ansatz zur Ausrichtung ist, insbesondere wenn die Fachkräfte nicht über ausreichend Ressourcen verfügen. Das Papier zeigt drei Situationen: Vergessenes Lernen kann erfolgreich schädliche Antworten löschen, verletzende Inhalte löschen und Illusionen beseitigen. Untersuchungen zeigen, dass das Vergessenslernen selbst bei nur negativen Stichproben immer noch ähnliche Ausrichtungseffekte wie RLHF erzielen kann, wobei nur 2 % der Berechnungszeit von RLHF benötigt werden

Das obige ist der detaillierte Inhalt von2 % der Rechenleistung von RLHF werden verwendet, um schädliche Ausgaben von LLM zu eliminieren, und Byte veröffentlicht vergessliche Lerntechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!