„Schmeichelei' ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit-KI-php.cn

Ob Sie im KI-Bereich oder in anderen Bereichen tätig sind, Sie haben mehr oder weniger große Sprachmodelle (LLM) verwendet. Wenn alle die verschiedenen Änderungen loben, die LLM mit sich bringt, werden nach und nach einige Mängel großer Modelle aufgedeckt aus.

Google DeepMind hat beispielsweise vor einiger Zeit herausgefunden, dass LLM im Allgemeinen „sykophantisches“ menschliches Verhalten zeigt, das heißt, manchmal sind die Ansichten menschlicher Benutzer objektiv falsch und das Modell passt seine Reaktion an, um den Ansichten des Benutzers zu folgen. Wie in der Abbildung unten gezeigt, teilt der Benutzer dem Modell 1+1=956446 mit, und das Modell folgt den menschlichen Anweisungen und glaubt, dass diese Antwort richtig ist.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit Bildquelle https://arxiv.org/abs/2308.03958

Tatsächlich tritt dieses Phänomen häufig in vielen KI-Modellen auf. Was ist der Grund? Forscher des KI-Startups Anthropic haben dieses Phänomen analysiert. Sie glauben, dass „Schmeichelei“ ein häufiges Verhalten von RLHF-Modellen ist, was teilweise auf die Vorliebe des Menschen für „Schmeichelei“-Reaktionen zurückzuführen ist.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Papieradresse: https://arxiv.org/pdf/2310.13548.pdf

Als nächstes werfen wir einen Blick auf den spezifischen Forschungsprozess.

KI-Assistenten wie GPT-4 sind darauf trainiert, genauere Antworten zu liefern, und die meisten von ihnen verwenden RLHF. Die Feinabstimmung eines Sprachmodells mithilfe von RLHF verbessert die Qualität der Modellausgabe, die von Menschen bewertet wird. Einige Studien glauben jedoch, dass Trainingsmethoden, die auf menschlichen Präferenzurteilen basieren, unerwünscht sind. Obwohl das Modell Ergebnisse liefern kann, die menschliche Bewerter ansprechen, ist es tatsächlich fehlerhaft oder falsch. Gleichzeitig haben neuere Arbeiten auch gezeigt, dass auf RLHF trainierte Modelle dazu neigen, Antworten zu liefern, die mit den Benutzern übereinstimmen.

Um dieses Phänomen besser zu verstehen, untersuchte diese Studie zunächst, ob KI-Assistenten mit SOTA-Leistung in verschiedenen realen Umgebungen „schmeichelhafte“ Modellreaktionen liefern würden. Es wurde festgestellt, dass 5 mit RLHF trainierte SOTA-KIs eine zeigten konsistentes Muster der „Schmeichelei“ bei Aufgaben zur Freitextgenerierung. Da Schmeichelei ein häufiges Verhalten bei RLHF-trainierten Modellen zu sein scheint, untersucht dieser Artikel auch die Rolle menschlicher Vorlieben bei dieser Art von Verhalten.

In diesem Artikel wird auch untersucht, ob das Vorhandensein von „Schmeichelei“ in Präferenzdaten zu „Schmeichelei“ im RLHF-Modell führt, und es wird festgestellt, dass eine stärkere Optimierung einige Formen von „Schmeichelei“ verstärken, andere Formen jedoch verringern wird. .

Der Grad und die Auswirkungen der „Schmeichelei“ großer Modelle

Um den Grad der „Schmeichelei“ großer Modelle zu bewerten und die Auswirkungen auf die Realitätsgenerierung zu analysieren, wurde in dieser Studie die „Schmeichelei“ großer Modelle analysiert veröffentlicht von Anthropic, OpenAI und Meta Die Ebenen der Schmeichelei wurden verglichen.

Konkret schlägt die Studie den Bewertungsbenchmark SycophancyEval vor. SycophancyEval erweitert den bestehenden Bewertungsbenchmark „Schmeichelei“ für große Modelle. In Bezug auf die Modelle wurden in dieser Studie speziell fünf Modelle getestet, darunter: claude-1.3 (Anthropic, 2023), claude-2.0 (Anthropic, 2023), GPT-3.5-turbo (OpenAI, 2022), GPT-4 (OpenAI, 2023). ), llama-2-70b-chat (Touvron et al., 2023).

Schmeichelhafte Benutzerpräferenzen

Wenn Benutzer große Modelle bitten, freies Feedback zu einem Debattentext zu geben, hängt die Qualität des Arguments theoretisch nur vom Inhalt des Arguments ab, wie auch immer Die Studie ergab, dass das große Modell mehr positives Feedback für Argumente liefert, die dem Benutzer gefallen, und mehr negatives Feedback für Argumente, die dem Benutzer nicht gefallen.

Wie in Abbildung 1 unten dargestellt, hängt das Feedback des großen Modells zu Textabsätzen nicht nur vom Textinhalt ab, sondern wird auch von den Benutzerpräferenzen beeinflusst.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Man lässt sich leicht beeinflussen

Die Studie ergab, dass große Modelle, selbst wenn sie genaue Antworten geben und sagen, dass sie sich auf diese Antworten verlassen, ihre Antworten auf Fragen von Benutzern häufig ändern und Fehler liefern Information. Daher kann „Schmeichelei“ die Glaubwürdigkeit und Zuverlässigkeit großer Modellantworten beeinträchtigen.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Geben Sie Antworten, die mit den Überzeugungen der Benutzer übereinstimmen.

Die Studie ergab, dass große Modelle bei offenen Frage- und Antwortaufgaben tendenziell Antworten liefern, die mit den Überzeugungen der Benutzer übereinstimmen. In Abbildung 3 unten beispielsweise verringerte dieses „schmeichelhafte“ Verhalten die Genauigkeit von LLaMA 2 um bis zu 27 %.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Benutzerfehler imitieren

Um zu testen, ob große Modelle Benutzerfehler wiederholen, wurde in der Studie untersucht, ob große Modelle den Autor eines Gedichts falsch angegeben haben. Wie in Abbildung 4 unten dargestellt, wird das große Modell, selbst wenn es dem richtigen Autor des Gedichts antworten kann, falsch antworten, weil der Benutzer falsche Informationen angibt.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Schmeichelei in Sprachmodellen verstehen

Die Studie ergab, dass mehrere große Modelle in verschiedenen realen Umgebungen konsistentes „Schmeichelei“-Verhalten zeigten, daher wird spekuliert, dass dies durch die Feinabstimmung von RLHF verursacht werden könnte . Daher analysiert diese Studie menschliche Präferenzdaten, die zum Trainieren eines Präferenzmodells (PM) verwendet werden.

Wie in Abbildung 5 unten dargestellt, analysierte diese Studie menschliche Präferenzdaten und untersuchte, welche Funktionen Benutzerpräferenzen vorhersagen können.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Experimentelle Ergebnisse zeigen, dass „schmeichelhaftes“ Verhalten in einer Modellreaktion unter sonst gleichen Bedingungen die Wahrscheinlichkeit erhöht, dass Menschen diese Reaktion bevorzugen. Das zum Trainieren des großen Modells verwendete Präferenzmodell (PM) hat einen komplexen Einfluss auf das „Schmeichelei“-Verhalten des großen Modells, wie in Abbildung 6 unten dargestellt.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Abschließend untersuchten die Forscher, wie oft Menschen und PM-Modelle (PRÄFERENZMODELLE) dazu neigen, wahrheitsgemäß zu antworten. Es wurde festgestellt, dass Menschen und PM-Modelle schmeichelhafte Antworten gegenüber korrekten Antworten bevorzugten.

PM-Ergebnisse: In 95 % der Fälle wurden schmeichelhafte Antworten gegenüber echten Antworten bevorzugt (Abbildung 7a). Die Studie ergab außerdem, dass PMs in fast der Hälfte der Fälle (45 %) schmeichelhafte Antworten bevorzugten.

Ergebnisse des menschlichen Feedbacks: Obwohl Menschen dazu neigen, eher ehrlich als schmeichelhaft zu antworten, nimmt ihre Wahrscheinlichkeit, eine verlässliche Antwort zu wählen, mit zunehmender Schwierigkeit (Missverständnis) ab (Abbildung 7b). Obwohl die Aggregation der Präferenzen mehrerer Personen die Qualität des Feedbacks verbessern kann, deuten diese Ergebnisse darauf hin, dass es eine Herausforderung sein kann, Schmeicheleien vollständig zu eliminieren, indem einfach nur menschliches Feedback von Laien verwendet wird.

Abbildung 7c zeigt, dass die Optimierung für Claude 2 PM zwar die Schmeichelei reduziert, der Effekt jedoch nicht signifikant ist.

„Schmeichelei ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit

Weitere Informationen finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt von„Schmeichelei' ist bei RLHF-Modellen weit verbreitet, und niemand ist vor Claude und GPT-4 gefeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!