Deepseek: Ein tiefes Eintauchen in das Verstärkungslernen für LLMs
Deepseeks jüngster Erfolg, der eine beeindruckende Leistung zu geringeren Kosten erzielt, unterstreicht die Bedeutung von Trainingsmethoden für Großsprachenmodell (LLM). Dieser Artikel konzentriert sich auf den Aspekt des Verstärkungslernens (RL), die Erforschung von TRPO, PPO und den neueren Grpo -Algorithmen. Wir werden eine komplexe Mathematik minimieren, um sie zugänglich zu machen, um eine grundlegende Vertrautheit mit maschinellem Lernen, Deep Learning und LLMs zu erhalten.
LLM -Training umfasst typischerweise drei Schlüsselphasen:
Verstärkungslernen beinhaltet ein Agent , das mit einer -Enumgebung interagiert. Der Agent existiert in einem spezifischen -Status , der Aktionen zum Übergang in neue Zustände ergriffen. Jede Aktion führt zu einer Belohnung
aus der Umgebung, die die zukünftigen Aktionen des Agenten leitet. Denken Sie an einen Roboter, der ein Labyrinth navigiert: Seine Position ist der Zustand, Bewegungen sind Aktionen, und das Erreichen des Ausstiegs liefert eine positive Belohnung.
Im LLM -Training sind die Komponenten:
Die Richtlinie bestimmt, welche Maßnahmen ergriffen werden sollen. Bei einem LLM handelt es sich um eine Wahrscheinlichkeitsverteilung über mögliche Token, die zum Abtasten des nächsten Tokens verwendet werden. Das RL-Training passt die Parameter (Modellgewichte) der Richtlinien an, um Token mit höherer Belohnung zu begünstigen. Die Richtlinie wird oft als:
dargestellt
Der Kern von RL findet die optimale Richtlinie. Im Gegensatz zum überwachten Lernen verwenden wir Belohnungen, um die Richtlinienanpassungen zu leiten.
TRPO verwendet eine Vorteilsfunktion, die zur Verlustfunktion im überwachten Lernen analog, aber aus Belohnungen abgeleitet ist:
trpo maximiert ein Ersatzziel, das gezwungen ist, große Politikabweichungen von der vorherigen Iteration zu verhindern, wodurch die Stabilität sichergestellt wird:
PPO, das jetzt für LLMs wie Chatgpt und Gemini bevorzugt wird, vereinfacht TRPO durch die Verwendung eines abgeschnittenen Ersatz -Objektivs, implizit die Richtlinienaktualisierungen und die Verbesserung der Recheneffizienz. Die PPO -Zielfunktion lautet:
Grpo rationalisiert das Training, indem das separate Wertmodell eliminiert wird. Für jede Abfrage erzeugt es eine Gruppe von Antworten und berechnet den Vorteil als Z-Score basierend auf ihren Belohnungen:
Dies vereinfacht den Prozess und eignet sich gut für die Fähigkeit von LLMs, mehrere Antworten zu generieren. GRPO enthält auch einen KL -Divergenzbegriff, der die aktuelle Richtlinie mit einer Referenzrichtlinie vergleicht. Die endgültige GRPO -Formulierung lautet:
Verstärkungslernen, insbesondere PPO und neueres Grpo, ist für das moderne LLM -Training von entscheidender Bedeutung. Jede Methode baut auf RL -Grundlagen auf und bietet unterschiedliche Ansätze, um Stabilität, Effizienz und menschliche Ausrichtung auszugleichen. Der Erfolg von Deepseek nutzt diese Fortschritte zusammen mit anderen Innovationen. Das Verstärkungslernen ist bereit, eine zunehmend dominierende Rolle bei der Weiterentwicklung von LLM -Fähigkeiten zu spielen.
Referenzen: (Die Referenzen bleiben gleich, nur für eine bessere Lesbarkeit neu formatiert)
Das obige ist der detaillierte Inhalt vonTraining großer Sprachmodelle: Von TRPO bis Grpo. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!