Heim > Technologie-Peripheriegeräte > KI > Training großer Sprachmodelle: Von TRPO bis Grpo

Training großer Sprachmodelle: Von TRPO bis Grpo

王林
Freigeben: 2025-02-26 04:41:08
Original
991 Leute haben es durchsucht

Deepseek: Ein tiefes Eintauchen in das Verstärkungslernen für LLMs

Deepseeks jüngster Erfolg, der eine beeindruckende Leistung zu geringeren Kosten erzielt, unterstreicht die Bedeutung von Trainingsmethoden für Großsprachenmodell (LLM). Dieser Artikel konzentriert sich auf den Aspekt des Verstärkungslernens (RL), die Erforschung von TRPO, PPO und den neueren Grpo -Algorithmen. Wir werden eine komplexe Mathematik minimieren, um sie zugänglich zu machen, um eine grundlegende Vertrautheit mit maschinellem Lernen, Deep Learning und LLMs zu erhalten.

Drei Säulen des LLM -Trainings

Training Large Language Models: From TRPO to GRPO

LLM -Training umfasst typischerweise drei Schlüsselphasen:

  1. Vorausbildung: Das Modell lernt, das nächste Token in einer Sequenz von den vorhergehenden Token mit einem massiven Datensatz vorherzusagen.
  2. beaufsichtigte Feinabstimmung (SFT): Zieldaten verfeinern das Modell und richten Sie es mit spezifischen Anweisungen aus.
  3. Verstärkungslernen (RLHF): In dieser Phase wird der Schwerpunkt dieses Artikels weiter verfeinert, um die Antworten weiter zu entsprechen, um die menschlichen Präferenzen durch direktes Feedback besser zu entsprechen.

Fundamentals

Verstärkungslernen

Training Large Language Models: From TRPO to GRPO

Verstärkungslernen beinhaltet ein Agent , das mit einer -Enumgebung interagiert. Der Agent existiert in einem spezifischen -Status , der Aktionen zum Übergang in neue Zustände ergriffen. Jede Aktion führt zu einer Belohnung

aus der Umgebung, die die zukünftigen Aktionen des Agenten leitet. Denken Sie an einen Roboter, der ein Labyrinth navigiert: Seine Position ist der Zustand, Bewegungen sind Aktionen, und das Erreichen des Ausstiegs liefert eine positive Belohnung.

rl in llms: ein detailliertes Aussehen

Training Large Language Models: From TRPO to GRPO

Im LLM -Training sind die Komponenten:
  • Agent: Das LLM selbst.
  • Umgebung: externe Faktoren wie Benutzeranträge, Feedback -Systeme und kontextbezogene Informationen.
  • Aktionen: Die Token Die LLM erzeugt als Antwort auf eine Abfrage.
  • Zustand: Die aktuelle Abfrage und die generierten Token (teilweise Antwort).
  • Belohnungen: normalerweise durch ein separates Belohnungsmodell , das auf menschlich-veranlagten Daten trainiert wird, und Ranking-Antworten, um Bewertungen zuzuweisen. Antworten von höherer Qualität erhalten höhere Belohnungen. Einfachere, regelbasierte Belohnungen sind in bestimmten Fällen wie Deepseekmath möglich.

Die Richtlinie bestimmt, welche Maßnahmen ergriffen werden sollen. Bei einem LLM handelt es sich um eine Wahrscheinlichkeitsverteilung über mögliche Token, die zum Abtasten des nächsten Tokens verwendet werden. Das RL-Training passt die Parameter (Modellgewichte) der Richtlinien an, um Token mit höherer Belohnung zu begünstigen. Die Richtlinie wird oft als:

dargestellt

Training Large Language Models: From TRPO to GRPO

Der Kern von RL findet die optimale Richtlinie. Im Gegensatz zum überwachten Lernen verwenden wir Belohnungen, um die Richtlinienanpassungen zu leiten.

TRPO (Richtlinienoptimierung der Vertrauensregion)

Training Large Language Models: From TRPO to GRPO

TRPO verwendet eine Vorteilsfunktion, die zur Verlustfunktion im überwachten Lernen analog, aber aus Belohnungen abgeleitet ist:

Training Large Language Models: From TRPO to GRPO

trpo maximiert ein Ersatzziel, das gezwungen ist, große Politikabweichungen von der vorherigen Iteration zu verhindern, wodurch die Stabilität sichergestellt wird:

Training Large Language Models: From TRPO to GRPO

PPO (proximale Richtlinienoptimierung)

PPO, das jetzt für LLMs wie Chatgpt und Gemini bevorzugt wird, vereinfacht TRPO durch die Verwendung eines abgeschnittenen Ersatz -Objektivs, implizit die Richtlinienaktualisierungen und die Verbesserung der Recheneffizienz. Die PPO -Zielfunktion lautet:

Training Large Language Models: From TRPO to GRPO

grpo (Gruppenrelative Richtlinienoptimierung)

Training Large Language Models: From TRPO to GRPO

Grpo rationalisiert das Training, indem das separate Wertmodell eliminiert wird. Für jede Abfrage erzeugt es eine Gruppe von Antworten und berechnet den Vorteil als Z-Score basierend auf ihren Belohnungen:

Training Large Language Models: From TRPO to GRPO

Dies vereinfacht den Prozess und eignet sich gut für die Fähigkeit von LLMs, mehrere Antworten zu generieren. GRPO enthält auch einen KL -Divergenzbegriff, der die aktuelle Richtlinie mit einer Referenzrichtlinie vergleicht. Die endgültige GRPO -Formulierung lautet:

Training Large Language Models: From TRPO to GRPO

Schlussfolgerung

Verstärkungslernen, insbesondere PPO und neueres Grpo, ist für das moderne LLM -Training von entscheidender Bedeutung. Jede Methode baut auf RL -Grundlagen auf und bietet unterschiedliche Ansätze, um Stabilität, Effizienz und menschliche Ausrichtung auszugleichen. Der Erfolg von Deepseek nutzt diese Fortschritte zusammen mit anderen Innovationen. Das Verstärkungslernen ist bereit, eine zunehmend dominierende Rolle bei der Weiterentwicklung von LLM -Fähigkeiten zu spielen.

Referenzen: (Die Referenzen bleiben gleich, nur für eine bessere Lesbarkeit neu formatiert)

  • [1] "Grundlagen von Großsprachenmodellen", 2025. [2] "Verstärkungslernen". Enaris. Verfügbar unter: //m.sbmmt.com/link/20e169b48c8f869887e2bbe1c5c3ea65
  • [3] Y. Gokhale. "Einführung in LLMs und den generativen AI Teil 5: RLHF", Medium
  • , 2023. Verfügbar unter:
  • //m.sbmmt.com/link/b24b1810f41d38b55728a9f56b0435 [4] L. Weng. "Ein Überblick über das Verstärkungslernen", 2018. Verfügbar unter:
  • //m.sbmmt.com/link/fc42bad715bcb9767ddddd95a239552434
  • [5] "Deepseek-R1: Anreizkennzahl in LLMs über Verstärkungslernen", 2025.
  • [6] "Deepseekmath: Die Grenzen des mathematischen Denkens in offenen Sprachmodellen", 2025.
  • [7] "Richtlinienoptimierung der Vertrauensregion", 2017.

Das obige ist der detaillierte Inhalt vonTraining großer Sprachmodelle: Von TRPO bis Grpo. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage