Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago-KI-php.cn

Willkommen in Teil 2 meines LLM Deep Dive. Wenn Sie Teil 1 nicht gelesen haben, empfehle ich Ihnen dringend, es zuerst zu überprüfen.

zuvor haben wir die ersten beiden Hauptstadien des Trainings mit LLM behandelt:

Vorverzerend-Lernen aus massiven Datensätzen, um ein Basismodell zu bilden.
beaufsichtigte Feinabstimmung (SFT)-Verfeinerung des Modells mit kuratierten Beispielen, um es nützlich zu machen.

Jetzt tauchen wir in die nächste Hauptphase ein: Verstärkungslernen (RL) . Während die Vorausbildung und SFT gut etabliert sind, entwickelt sich RL immer noch weiter, ist jedoch zu einem kritischen Bestandteil der Trainingspipeline.

Ich habe Referenz von Andrej Karpathys weit verbreitetes 3,5-stündiger YouTube von 3,5 Stunden genommen. Andrej ist Gründungsmitglied von Openai, seine Erkenntnisse sind Gold - Sie haben die Idee.

lass uns gehen?

Was ist der Zweck des Verstärkungslernens (RL)?

Menschen und LLMs verarbeiten Informationen unterschiedlich. Was für uns intuitiv ist - wie die grundlegende Arithmetik - ist möglicherweise nicht für ein LLM, der nur Text als Sequenzen von Token ansieht. Umgekehrt kann ein LLM Experten-Level-Antworten zu komplexen Themen generieren, nur weil es im Training genügend Beispiele gesehen hat.

Dieser Unterschied in der Wahrnehmung macht es für menschliche Annotatoren schwierig, die „perfekte“ Etiketten zu liefern, die ein LLM konsequent zur richtigen Antwort führen.

rl brücken diese Lücke, indem er das Modell zu aus seiner eigenen Erfahrung lerne .

Anstatt sich ausschließlich auf explizite Etiketten zu verlassen, untersucht das Modell verschiedene Token -Sequenzen und empfängt Feedback - Belohnungssignale -, auf denen die Ausgänge am nützlichsten sind. Im Laufe der Zeit lernt es, sich mit der menschlichen Absicht besser auszurichten.

Intuition hinter Rl

llms sind stochastisch - was bedeutet, dass ihre Antworten nicht festgelegt sind. Auch bei der gleichen Eingabeaufforderung variiert der Ausgang, da er aus einer Wahrscheinlichkeitsverteilung abgetastet wird.

Wir können diese Zufälligkeit nutzen, indem wir Tausende oder sogar Millionen möglicher Antworten parallel erzeugen. Betrachten Sie es als das Modell, das verschiedene Wege erforscht - einige gute, einige schlechte. Unser Ziel ist es, es zu ermutigen, die besseren Wege öfter aufzunehmen.

Um dies zu tun, trainieren wir das Modell auf den Sequenzen von Token, die zu besseren Ergebnissen führen. Im Gegensatz zu beaufsichtigten Feinabstimmungen, bei denen menschliche Experten beschriftete Daten liefern, ermöglicht Verstärkungslernen das Modell von sich selbst.

Das Modell entdeckt, welche Antworten am besten funktionieren, und nach jedem Trainingsschritt aktualisieren wir seine Parameter. Im Laufe der Zeit führt das Modell mit höherer Wahrscheinlichkeit hochwertige Antworten, wenn sie in Zukunft ähnliche Eingabeaufforderungen erhalten.

Aber wie bestimmen wir, welche Antworten am besten sind? Und wie viel RL sollen wir tun? Die Details sind schwierig, und sie richtig zu machen ist nicht trivial.

rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)

Ein großartiges Beispiel für RLs Macht ist das Alphago von DeepMind, die erste KI, die einen professionellen Go-Spieler besiegt und späteres Spiel auf Menschenebene übertroffen hat.

In dem Naturpapier 2016 (Diagramm unten), als ein Modell nur durch SFT trainiert wurde (gab das Modell tonne gute Beispiele), das Modell in der Lage war, die Leistung auf menschlicher Ebene zu erreichen, , aber niemals übertreffen .

Die gepunktete Linie repräsentiert Lee Sedols Leistung - der beste Go -Spieler der Welt.

Dies liegt daran RL ermöglichte Alphago jedoch, gegen sich selbst zu spielen, seine Strategien zu verfeinern und letztendlich das menschliche Fachwissen

(blaue Linie) zu übertreffen.

rl repräsentiert eine aufregende Grenze in KI - wo Modelle Strategien über die menschliche Vorstellungskraft hinaus untersuchen können, wenn wir sie auf einem vielfältigen und herausfordernden Problem der Probleme ausbilden, um die Denkstrategien zu verfeinern.

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

rl Foundations recap

Lassen Sie uns die Schlüsselkomponenten eines typischen RL -Setups schnell wiederholen:

- Der Lernende oder Entscheidungsträger. Es beobachtet die aktuelle Situation ( Zustand ), wählt eine Aktion aus und aktualisiert ihr Verhalten anhand des Ergebniss ( Belohnung ).
- Das externe System, in dem der Agent arbeitet.
- Ein Schnappschuss der Umgebung in einem bestimmten Schritt t . Bei jedem Zeitstempel führt der Agent eine

Aktion

in der Umgebung durch, die den Zustand der Umgebung in eine neue verändert. Der Agent erhält außerdem Feedback, die angeben, wie gut oder schlecht die Aktion war. Dieses Feedback wird als

Belohnung

bezeichnet und in numerischer Form dargestellt. Eine positive Belohnung fördert dieses Verhalten, und eine negative Belohnung entmutigt es. Durch die Verwendung von Feedback aus verschiedenen Zuständen und Aktionen lernt der Agent allmählich die optimale Strategie, um die Gesamtbelohnung zu maximieren im Laufe der Zeit.

Richtlinie Die Richtlinie ist die Strategie des Agenten. Wenn der Agent einer guten Richtlinie folgt, wird er konsequent gute Entscheidungen treffen, was zu höheren Belohnungen in vielen Schritten führt.

In mathematischen Begriffen ist es eine Funktion, die die Wahrscheinlichkeit verschiedener Ausgänge für einen bestimmten Zustand bestimmt -

(πθ (a | s)) .

Wertfunktion

Eine Schätzung, wie gut es in einem bestimmten Zustand ist, wenn man die langfristige erwartete Belohnung berücksichtigt. Für eine LLM kann die Belohnung aus menschlichem Feedback oder einem Belohnungsmodell stammen.

Schauspieler-kritische Architektur

Es ist ein beliebtes RL -Setup, das zwei Komponenten kombiniert:

Akteur - lernt und aktualisiert die -Politik (πθ) und entscheidet, welche Maßnahmen in jedem Zustand ergreifen sollen.

Critic - Evaluiert die -Wergie -Funktion (v (s)), um dem Schauspieler Feedback zu geben, ob seine gewählten Aktionen zu guten Ergebnissen führen.

wie es funktioniert:

Der Actor wählt eine Aktion basierend auf seiner aktuellen Richtlinie aus.
Der
Kritiker bewertet das Ergebnis (Belohnung im nächsten Zustand) und aktualisiert seine Wertschätzung.
Das Feedback des Kritikers hilft dem Akteur, seine Richtlinie so zu verfeinern, dass zukünftige Maßnahmen zu höheren Belohnungen führen.

alles zusammen für llms
zusammenstellen
Der Status kann der aktuelle Text (Aufforderung oder Konversation) sein, und die Aktion kann das nächste Token sein, das generiert werden muss. Ein Belohnungsmodell (z. B. menschliches Feedback) sagt dem Modell, wie gut oder schlecht es generierten Text ist.

Die Richtlinie ist die Strategie des Modells zur Auswahl des nächsten Tokens, während die Wertschöpfungsfunktion schätzt, wie vorteilhaft der aktuelle Textkontext in Bezug auf letztendlich hochwertige Antworten ist.

Deepseek-R1 (veröffentlicht 22. Januar 2025)

Um die Bedeutung von RL hervorzuheben, lassen Sie uns Deepseek-R1, ein Argumentationsmodell, das eine erstklassige Leistung erzielt und gleichzeitig Open-Source-Leistungsverhältnisse erzielt. Das Papier führte zwei Modelle vor:
Deepseek-R1-Zero und Deepseek-R1.

Deepseek-r1-Null wurde ausschließlich über groß angelegte RL ausgebildet und übersprungen beaufsichtigte Feinabstimmungen (SFT).

Deepseek-r1 baut darauf auf und befasst sich mit den auftretenden Herausforderungen.

Lassen Sie uns in einige dieser Schlüsselpunkte eintauchen.

1. RL Algo: Gruppenrelative Richtlinienoptimierung (GRPO)

Ein wichtiger RL -Algorithmus für Spiele ist die Gruppenrelationsrichtlinienoptimierung (GRPO), eine Variante der weit verbreiteten populären proximalen Richtlinienoptimierung (PPO). Grpo wurde im Februar 2024 in der Papier von Deepseekmath eingeführt.

Warum Grpo über PPO?
PPO kämpft mit Argumentationsaufgaben durch:

Abhängigkeit von einem Kritikermodell.
hohe Rechenkosten, da RL -Pipelines erhebliche Ressourcen für die Bewertung und Optimierung der Antworten erfordern.

Absolute Belohnungsbewertungen
Wenn Sie sich auf eine absolute Belohnung verlassen-was bedeutet, dass es einen einzigen Standard oder eine Metrik gibt, um zu beurteilen, ob eine Antwort „gut“ oder „schlecht“ ist-kann es schwierig sein, die Nuancen offener, unterschiedlicher Aufgaben über verschiedene Argumentationsbereiche hinweg zu erfassen.
.

Wie Grpo diese Herausforderungen ansprach:
grpo eliminiert das Kritikermodell unter Verwendung relative Bewertung
- Antworten werden in einer Gruppe verglichen und nicht nach einem festen Standard beurteilt.
Stellen Sie sich vor, die Schüler lösen ein Problem. Anstatt dass ein Lehrer sie einzeln bewertet, vergleichen sie Antworten und lernen voneinander. Im Laufe der Zeit konvergiert die Leistung in Richtung höherer Qualität.

Wie passt GRPO in den gesamten Trainingsprozess?

grpo modifiziert, wie der Verlust berechnet wird, während andere Trainingsschritte unverändert bleiben:

Daten sammeln (Abfragenantworten)

- Für LLMs sind Abfragen wie Fragen - Die alte Richtlinie (älterer Schnappschuss des Modells) generiert mehrere Kandidatenantworten für jede Abfrage

Belohnungen zuweisen
- Jede Antwort in der Gruppe wird bewertet (die „Belohnung“).
Berechnen Sie den Grpo -Verlust

Traditionell werden Sie einen Verlust berechnen - was die Abweichung zwischen der Modellvorhersage und dem wahren Etikett zeigt. Schlimmer noch?
Zurück -Ausbreitungsgradient -Abstieg
- Die Rückverbreitung berechnet, wie jeder Parameter zu Verlust - Gradientenabstieg beigetragen hat, diese Parameter, um den Verlust
- über viele Iterationen zu verringern, und verändert die neue Richtlinie die neue Richtlinie zu einer höheren Belohnung .

Aktualisieren Sie die alte Richtlinie gelegentlich, um der neuen Richtlinie zu entsprechen
.
Dies aktualisiert die Grundlinie für die nächste Vergleichsrunde.
2. Denkkette (cot)
traditionelles LLM-Training folgt vor der Training → SFT → RL. Deepseek-r1-nero übersprungenes SFT
, sodass das Modell die COT-Argumentation direkt untersuchen kann.
Wie Menschen, die durch eine schwierige Frage nachdenken, ermöglicht COT Modellen, Probleme in Zwischenschritte zu unterteilen und komplexe Argumentationsfunktionen zu steigern. Das O1-Modell von OpenAI nutzt dies auch, wie in seinem Bericht im September 2024 erwähnt: Die Leistung von O1 verbessert sich mit mehr RL (Zug-Zeit-Rechenrechnung) und mehr Argumentationszeit (Testzeit-Rechenumfang).

Deepseek-r1-Null zeigte reflektierende Tendenzen, die seine Argumentation autonom verfeinern.

Ein Schlüsseldiagramm (unten) im Artikel zeigte während des Trainings ein erhöhtes Denken, was zu längeren (mehr Token), detaillierteren und besseren Antworten führte.

Ohne explizite Programmierung begann es, vergangene Argumentationsschritte zu überdenken und die Genauigkeit zu verbessern. Dies unterstreicht die Gedankenkette als eine aufstrebende Eigenschaft des RL-Trainings.

Das Modell hatte auch einen „AHA -Moment“ (unten) - ein faszinierendes Beispiel dafür, wie RL zu unerwarteten und raffinierten Ergebnissen führen kann.

HINWEIS: Im Gegensatz zu Deepseek-R1 zeigt Openai in O1 keine vollständigen Denkketten, da sie über ein Destillationsrisiko besorgt sind-bei dem jemand hereinkommt und versucht, diese Argumentationsspuren nachzuahmen und einen Großteil der Argumentationsleistung wiederzugewinnen, indem sie nur nachahmt. Stattdessen nur Zusammenfassungen dieser Ketten von Gedanken.

Verstärkungslernen mit menschlichem Feedback (RLHF)

Für Aufgaben mit überprüfbaren Ausgängen (z. B. mathematische Probleme, sachliche Q & A) können AI -Antworten leicht bewertet werden. Aber was ist mit Bereichen wie Summarisierung oder kreativem Schreiben, wo es keine einzige „richtige“ Antwort gibt?

Hier kommt das menschliche Feedback ins Spiel - aber naive RL -Ansätze sind unvergleichlich.

Schauen wir uns den naiven Ansatz mit einigen willkürlichen Zahlen an.

Das sind eine Milliarde menschliche Bewertungen benötigt! Dies ist zu kostspielig, langsam und unvergleichlich. Eine intelligentere Lösung besteht daher darin, ein KI -Belohnungsmodell zu schulen, um menschliche Vorlieben zu erlernen und die menschliche Anstrengung dramatisch zu verringern.

Ranking -Antworten ist auch einfacher und intuitiver als absolute Bewertung.

Upsides von RLHF

kann auf jede Domäne angewendet werden, einschließlich kreatives Schreiben, Poesie, Zusammenfassung und anderen offenen Aufgaben.

Ranking -Ausgänge ist für menschliche Lager viel einfacher als die Erzeugung kreativer Ausgänge selbst.

Nachteile von rlhf

Das Belohnungsmodell ist eine Annäherung - es spiegelt möglicherweise die menschlichen Vorlieben nicht perfekt wider.

rl ist gut im Spielen des Belohnungsmodell

Beachten Sie, dass RLHF nicht dasselbe ist wie das herkömmliche RL. Für empirische, überprüfbare Domänen (z. B. Mathematik, Codierung) kann RL auf unbestimmte Zeit ausgeführt und neuartige Strategien entdecken. RLHF hingegen ähnelt eher ein feinabstimmiger Schritt, um Modelle mit menschlichen Vorlieben auszurichten. Schlussfolgerung

Und das ist ein Wrap! Ich hoffe, Sie haben Teil 2 genossen? Wenn Sie Teil 1 noch nicht gelesen haben, sehen Sie es sich hier an.

Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!

Das obige ist der detaillierte Inhalt vonWie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!