DeepSeek-Prover-V1.5 verbessert die Effizienz und Genauigkeit der Beweiserstellung erheblich, indem es Verstärkungslernen und Monte-Carlo-Baumsuche kombiniert.
Fortschritte in der KI-Technologie und mathematische Entdeckungen sind wie nie zuvor miteinander verknüpft. Vor einiger Zeit hielt die berühmte Mathematikerin Teresa Tao bei der Oxford Mathematics Public Lecture eine Rede zum Thema „Das Potenzial der KI in Naturwissenschaften und Mathematik“. Er wies darauf hin, dass die Integration von KI in die Mathematik es ermöglichen würde, formale Beweise schneller zu schreiben als menschliche Beweise (die fehleranfällig sind). Dies wird ein entscheidender Wendepunkt sein, was bedeutet, dass die Verwendung formaler Beweise nicht nur auf die Überprüfung bestehender Beweise beschränkt sein wird, sondern auch zur Schaffung neuer mathematischer Erkenntnisse eingesetzt werden wird. Dies wird durch eine umfassende Zusammenarbeit zwischen menschlichen und KI-Mathematikern erreicht. Wir sind dabei, eine Ära der „großen Mathematik“ einzuläuten! Wie Terence Tao sagte, ist die Anwendung von KI zum Beweisen formaler Theoreme für Mathematiker zu einer täglichen Aufgabe geworden. Auf der anderen Seite arbeiten KI-Wissenschaftler auch hart daran, die Leistung und Effizienz der KI beim Beweisen formaler Theoreme zu verbessern, wie beispielsweise das neue Modell, das gerade von DeepSeek eingeführt wurde – DeepSeek-Prover-V1.5. DeepSeek-Prover-V1.5 ist ein Open-Source-Modell mit 7 Milliarden Parametern. Es verbessert die Effizienz und Genauigkeit der Beweiserstellung erheblich, indem es Reinforcement Learning (Reinforcement Learning basierend auf Proof Assistant Feedback, RLPAF) und Monte-Carlo-Baumsuche (insbesondere die vorgeschlagene RMaxTS-Variante) kombiniert. DeepSeek-Prover-V1.5 übertrifft alle Open-Source-Modelle beim Beweisen formaler Theoreme in Lean 4. Im Folgenden finden Sie die Details des technischen Berichts. „Übersicht über technische Berichte“ : https://arxiv.org/pdf/2408.08152GitHub-Link: https://github.com/deepseek-ai/DeepSeek-Prover-V1.5
In den letzten Jahren im Großen und Ganzen -skalige Sprachen Fortschritte auf dem Gebiet der Modelle haben die Entwicklung künstlicher Intelligenz beim mathematischen Denken und beim Beweisen von Theoremen erheblich vorangetrieben. Allerdings stehen Sprachmodelle beim formalen Beweisen von Theoremen immer noch vor erheblichen Herausforderungen. Beispielsweise erfordern Beweise, die Systeme wie Lean und Isabelle verwenden, eine strenge Ableitung, um die formale Spezifikation des Verifizierungssystems zu erfüllen. Selbst fortgeschrittene Modelle wie GPT-4 sind nicht in der Lage, komplexe formale Beweise zu verarbeiten, was die Komplexität der Codierung und des mathematischen Denkens in formalen Beweisen verdeutlicht. Ein effizientes Modell zum Beweis formaler Theoreme erfordert nicht nur das Verständnis der Syntax und Semantik formaler Systeme wie Lean Proof Assistant, sondern auch die Kombination abstrakter mathematischer Überlegungen mit präzisen formalen Ausdrücken.
- Beim formalen Theorembeweisen wenden Sprachmodelle normalerweise zwei Strategien an: Beweisschrittgenerierung und Ganzbeweisgenerierung.
-
Der Beweisschritt wird generiert, indem jede Strategie vorhergesagt und überprüft wird, formale Prüfer verwendet werden, um aktualisierte Informationen über den aktuellen Strategiestatus zu erhalten, und häufig Baumsuchtechniken kombiniert werden, um effektive Beweise zu erstellen. Die vollständige Beweisgenerierung ist recheneffizienter, da der gesamte Beweiscode auf der Grundlage der Theoremaussage auf einmal generiert wird, wodurch der Kommunikationsaufwand für die Koordination zwischen dem Beweismodell und dem formalen Theoremverifizierer reduziert wird.
Obwohl DeepSeek-Prover-V1 SOTA-Ergebnisse in Lean 4 mit vollständiger Proof-Generierung erzielte, birgt dieser Ansatz auch seine einzigartigen Herausforderungen. Es erfordert langfristige Sequenzvorhersagen ohne zwischenzeitliche Informationen zum Richtlinienstatus, und zukünftige Richtlinien stützen sich auf diese verborgenen Ergebnisse. Im Strategiemuster von Lean wird ein Beweis durch eine Reihe von Strategien erstellt, die den Zustand des Beweises ändern. Diese Reihenfolge kann zu einer Anhäufung von Fehlern führen, und ein kleiner Fehler kann dazu führen, dass der Beweis vom korrekten Pfad abweicht. Insbesondere können autoregressive Modelle bei der Generierung von Wachstumsnachweisen falsche Vorstellungen von Zwischenzuständen der Politik haben.
Um Zwischenrichtlinienzustände nahtlos zu integrieren, ohne die Einfachheit und Recheneffizienz der vollständigen Beweiserstellung zu opfern, haben Forscher in DeepSeek-Prover-V1.5 einen einheitlichen Ansatz entwickelt.Dieser Ansatz kombiniert die Vorteile der Beweisschrittgenerierung und der vollständigen Beweisgenerierung durch einen Truncate-and-Resume-Mechanismus. Der Prozess beginnt mit der standardmäßigen vollständigen Beweiserstellung, bei der das Sprachmodell den Beweiscode basierend auf dem Theorem-Anweisungspräfix vervollständigt, der dann vom Lean-Beweis überprüft wird. Wenn sich herausstellt, dass es richtig ist, endet der Prozess. Wenn ein Fehler gefunden wird, wird der Code ab der ersten Fehlermeldung abgeschnitten und nachfolgender Code verworfen. Verwenden Sie dann den erfolgreich generierten Proof-Code als Hinweis zum Generieren des nächsten Proof-Segments. Um die Genauigkeit des neu abgeschlossenen Teils des Modells zu verbessern, fügte der Forscher am Ende der Eingabeaufforderung den neuesten Status des Lean 4-Prüfers als Kommentar hinzu. Es ist erwähnenswert, dass sich dieser Ansatz nicht darauf beschränkt, von der zuletzt erfolgreich angewendeten Strategie auszugehen. Die Forscher haben den Kürzungs- und Neustartmechanismus in die Monte-Carlo-Baumsuche (MCTS) integriert und die Baumsuchstrategie ordnet die Kürzungspunkte an. Darüber hinaus schlugen sie einen neuen belohnungsfreien Explorationsalgorithmus vor, um das Problem der Belohnungsparsität bei der Beweissuche zu lösen. Sie verleihen Baumsuchagenten eine intrinsische Triebkraft, nämlich die Neugier, den politischen Zustandsraum umfassend zu erkunden. Diese algorithmischen Module erweitern ihr vollständiges Beweisgenerierungsmodell zu einem flexiblen, interaktiven Theorembeweistool, das in der Lage ist, das Feedback von Beweisassistenten effektiv zu nutzen, um vielfältige Lösungen zu generieren. Die Forscher schlugen einen umfassenden Rahmen für die Entwicklung formaler mathematischer Beweiswerkzeuge auf der Grundlage von Sprachmodellen vor. Sie integrierten mehrere Schlüsselkomponenten: umfangreiches mathematisches Vortraining, Konstruktion und Verbesserung formaler mathematische Korpora, Online-Lernen zur Verstärkung auf der Grundlage des Feedbacks von Beweisassistenten und Baumsuchmethoden für die langfristige Planung von Theorembeweisen. Codes für vorab trainierte Modelle, überwachte Feinabstimmungsmodelle, Reinforcement-Learning-Modelle und Monte-Carlo-Baum-Suchalgorithmen sind für weitere Forschung und Anwendungen öffentlich verfügbar. Die Forscher haben die Fähigkeiten des Basismodells beim Beweisen formaler Theoreme und beim mathematischen Denken durch weiteres Vortraining zu hochwertigen Mathematik- und Codedaten mit Schwerpunkt auf Lean und verbessert Isabelle Formale Sprachen wie Metamath und Metamath werden häufig als Beweisassistenten verwendet. 2. Überwachte FeinabstimmungDie Forscher verbesserten den Lean-4-Code-Vervollständigungsdatensatz durch die Implementierung von zwei Datenerweiterungstechniken. Zunächst verwendeten sie DeepSeek-Coder V2 236B, um CoT-Kommentare (Chain-of-Thought) neben Lean-4-Code zu kommentieren und so die formale Theoremprüfung mit dem Denken in natürlicher Sprache in Einklang zu bringen. Zweitens fügen sie Zwischeninformationen zum Richtlinienstatus in den Lean 4-Proof-Code ein, sodass ihr Modell das Compiler-Feedback effizienter nutzen kann. Anschließend nutzten sie diesen Datensatz zur Feinabstimmung des vorab trainierten Modells. 3. Reinforcement Learning Die Forscher verwendeten den GRPO-Algorithmus, um RLPAF (Reinforcement Learning from Proof Assistant Feedback, Reinforcement Learning basierend auf Proof Assistant Feedback) am überwachten Feinabstimmungsmodell durchzuführen. Die Verifizierungsergebnisse des Lean-Prüfers dienen als Belohnungsüberwachung und verbessern die Konsistenz des Modells mit der formalen Spezifikation des Verifizierungssystems. Forscher haben die Baumsuchmethode beim formalen Theorembeweisen durch die Einführung einer neuen Abstraktion und eines entsprechenden Suchalgorithmus weiterentwickelt. Ihr Kürzungs- und Neustartmechanismus dient als Zustands-Aktions-Abstraktion, die den Baumsuchprozess nahtlos in ein vollständiges Beweisgenerierungs-Framework integriert. Sie stellen RMaxTS vor, einen innovativen Monte-Carlo-Baumsuchalgorithmus, der die RMax-Strategie nutzt, um die Explorationsherausforderung spärlicher Belohnungen bei Beweissuchproblemen zu lösen. Durch die Zuweisung intrinsischer Belohnungen ermutigt dieser Algorithmus Beweisagenten, unterschiedliche Planungspfade zu generieren, und fördert so eine umfassende Erkundung des Beweisraums. „Bewertung und Metriken“ miniF2F Es wurde eine Erfolgsquote von 60,2 % erreicht, was 10,2 Prozentpunkte höher war als die 50,0 % von DeepSeek-Prover-V1. In Kombination mit der Baumsuchtechnologie wird die Erfolgsquote weiter verbessert und erreicht einen neuen SOTA von 63,5 %. 2. Der ProofNet-Datensatz für Studenten
DeepSeek-Prover-V1.5 zeigt auch eine starke Leistung in der Einstellung für die vollständige Proof-Generierung mit der Einzelkanalmethode von ProofNet, mit einer Erfolgsquote von 100 % beim Verifizierungssatz 21,6 % und 23,7 % im Testsatz. In Kombination mit Baumsuchtechniken werden diese Ergebnisse weiter verbessert und erreichen einen neuen SOTA von 25,4 % für den Validierungssatz und 25,3 % für den Testsatz.Um die Fähigkeit des Sprachmodells zu verbessern, formale Beweise und Begründungen durch mathematische Sprache zu generieren, trainierten die Forscher das Grundmodell weiter vor und nannten dieses verbesserte Modell DeepSeek -ProverV1. 5-Basis. Dann werden in dem Artikel die Methoden und Prozesse besprochen, die beim Supervised Fine-Tuning (SFT) von DeepSeek-Prover-V1.5 beteiligt sind. Konkret erweiterten die Forscher den Proof-Datensatz DeepSeekProver-V1 durch das Hinzufügen detaillierter erläuternder Anmerkungen. Diese Erweiterung soll die Konsistenz zwischen Beschreibungen in natürlicher Sprache und Lean-4-Code verbessern und dadurch ein besseres formales mathematisches Denken fördern. Darüber hinaus integrierten die Forscher Zwischeninformationen zum Richtlinienstatus als zusätzliche Vorhersageaufgabe, um den im Monte-Carlo-Baumsuchprozess verwendeten Kürzungs- und Neustartmechanismus zu unterstützen, und nannten das resultierende Modell DeepSeek-ProverV1.5-SFT. Verstärkendes Lernen basierend auf dem Feedback des BeweisassistentenUm die Leistung von DeepSeek-Prover-V1.5-SFT weiter zu verbessern, führte die Studie eine Phase des verstärkenden Lernens ein, was zu DeepSeek-Prover-V1 führte .5-RL-Modell. In dieser Phase wird Reinforcement Learning (RL) genutzt, um die Leistung basierend auf dem Verifizierungsfeedback des Lean 4-Prüfers zu verbessern. Im Folgenden sind die spezifischen Details dieses RL-Prozesses aufgeführt. Trainingstipps. In der Phase des verstärkenden Lernens verwendet die Studie Teilsatzaussagen aus dem überwachten Feinabstimmungsdatensatz als Trainingshinweise. Ungefähr 4.500 eindeutige Theoremaussagen blieben nach der Filterung erhalten. Zu jedem Theorem gehören CoT- und Nicht-CoT-Anleitungshinweise, um die Beweisfähigkeiten des Modells in beiden Modi zu verbessern. Belohnungen. Beim Training eines LLM über RL liefert das trainierte Belohnungsmodell häufig Feedbacksignale. Im Gegensatz dazu profitiert der Beweis formaler Theoreme von einer strengen Überprüfung der generierten Beweise durch Beweisassistenten und bietet somit erhebliche Vorteile. Konkret erhält jeder generierte Beweis eine Belohnung von 1, wenn er korrekt verifiziert wurde, andernfalls eine Belohnung von 0. Dieses binäre Belohnungssignal ist zwar genau, aber auch spärlich, insbesondere bei Theoremen, die für überwachte Feinabstimmungsmodelle eine Herausforderung darstellen. Um diese Knappheit zu mildern, haben wir Trainingshinweise ausgewählt, die anspruchsvoll, aber für die überwachte Feinabstimmung des Modells erreichbar sind, wie oben beschrieben. Lernalgorithmus zur Verstärkung. Diese Studie verwendet Group Relative Policy Optimization (GRPO) als RL-Algorithmus dieses Artikels, der im Vergleich zu PPO eine höhere Wirksamkeit und Effizienz zeigt. Konkret extrahiert GRPO einen Satz Kandidatenbeweise für jeden Theoremhinweis und optimiert das Modell basierend auf den relativen Belohnungen der Ausgaben innerhalb des Satzes. Bewertung. Abbildung 3 zeigt eine vergleichende Analyse jeder Trainingsphase für miniF2F- und ProofNet-Datensätze. Der CoT-Modus übertrifft den Nicht-CoT-Modus in den meisten Einstellungen durchweg. Explorationsorientierte Monte-Carlo-Baumsuche Um einen Baumsuchansatz in einer ganzheitlichen Beweisgenerierungsumgebung zu implementieren, führt diese Studie eine Beweisbaumabstraktion ein, um benutzerdefinierte Zustands- und Aktionsräume zu definieren, und nutzt das Abschneiden und Neustartmechanismus. Die Forscher zerlegen den unvollständigen Beweis zunächst in eine Folge von Baumknoten, die jedem Beweisschritt entsprechen, und verwenden dann den in diesen Baumknoten gespeicherten Teilinhalt, um den Prozess der Beweiserstellung fortzusetzen. Abbildung 4 veranschaulicht den Prozess der Erstellung eines Beweissuchbaums aus der gesamten Beweisgenerierung. Trunkierung: Diese Studie erstellt Beweissuchbäume auf Richtlinienebene, wobei jede Baumkante einen einzelnen Übergangsschritt des Richtlinienstatus darstellt. Zunächst übermittelte die Studie den gesamten vom Modell generierten Beweis an einen Lean-Prüfer und analysierte ihn in eine Richtlinie. Der Beweis wird dann beim frühesten Überprüfungsfehler abgeschnitten, um sicherzustellen, dass der gesamte nachfolgende Strategiecode erfolgreich angewendet werden kann, um den Beweis zum erforderlichen Satz voranzutreiben. Der Strategiecode ist in mehrere Codeausschnitte aufgeteilt, von denen jeder einen gültigen Strategiecode und die zugehörigen Gedankenkettenanmerkungen enthält, die einer einzelnen Baumkante entsprechen, die einen Strategiezustandsübergang darstellt. Bei dieser Abstraktion wird jeder Richtliniencode in eine Folge von Baumknoten umgewandelt, die einen Pfad von der Wurzel zu einem bestimmten Knoten bilden. Von vorne beginnen: In Lean 4 können unterschiedliche Strategien zum gleichen Strategiestatus führen, was bedeutet, dass jeder Knoten im Beweisbaum mehreren Strategiecodes entsprechen kann, die das gleiche Ergebnis erzielen können. Um dieses Problem zu lösen, speichern die Forscher an jedem Knoten einen Satz dieser äquivalenten Richtliniencodes.Wenn der Baumsuchagent einen Knoten erweitert, wählt er zufällig eine Richtlinie als Hinweis für das Sprachmodell aus. #🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Intrinsische Belohnungen für Monte Carlo -Baumsuche#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜 🎜 #Der nächste Artikel stellt den intrinsischen belohnungsgesteuerten Explorationsalgorithmus vor – RMax angewendet auf die Baumsuche (RMaxTS), der die belohnungsfreie Exploration in das Beweissuchproblem einbezieht.
RMax angewendet auf MCTS. Diese Studie verwendet RMax, einen klassischen Explorationsmechanismus, um die intrinsische Belohnung der Monte-Carlo-Baumsuche zu erstellen. Im Kontext der Beweissuche, bei der keine externen Belohnungen bereitgestellt werden, bis der Beweis vollständig ist, ähnelt dieser algorithmische Prozess ZeroRMax, bei dem die Erkundung des Agenten nur durch intrinsische Belohnungen, d. h. das Setzen von , gesteuert wird. Die eigentliche Belohnung des Baumerweiterungsschritts hängt davon ab, ob neue Knoten zum Suchbaum hinzugefügt werden. Diese Heuristik kann potenziell die Redundanzgenerierung reduzieren und die Stichprobeneffizienz verbessern. Experimentelle Ergebnisse
#🎜 🎜# In diesem Abschnitt verwenden die Forscher die beiden Benchmarks miniF2F und ProofNet, um die Theorembeweisfähigkeit von DeepSeek-Prover-V1.5 zu bewerten. Ersteres umfasst Übungen und Wettbewerbsaufgaben auf Oberstufenniveau, während Letzteres Theoreme auf Grundniveau beinhaltet. Um Konsistenz zu gewährleisten, verwendeten die Forscher dasselbe Trainingsmodell und dieselbe Inferenzkonfiguration wie in der Auswertung und zeigten die Ergebnisse der vollständigen Beweisgenerierung und Monte-Carlo-Bäume die Suchmethode. Zunächst stellt das Papier eine vergleichende Analyse von DeepSeek-Prover-V1.5 und einigen früheren SOTA-Modellen vor, wobei der Schwerpunkt auf deren Leistung und Fortschritt liegt . GPT-3.5 und GPT-4 sind fortschrittliche generative KI-Modelle, die von OpenAI entwickelt wurden und für ihre Wirksamkeit bei einer Vielzahl von Aufgaben, einschließlich der Codegenerierung, bekannt sind. Obwohl diese Modelle nicht speziell für den Beweis von Theoremen konzipiert sind, bietet ihr großer Parameterbereich wichtige Funktionen. Die Evaluierung dieser Modelle beim Beweisen formaler Theoreme wird durch COPRA erleichtert, ein kontextbezogener Lernagent, der diese großen Sprachmodelle nutzt, um taktische Anwendungen vorzuschlagen.
Darüber hinaus diskutierten die Forscher Llemma, eine Familie von Sprachmodellen, die auf einer Vielzahl allgemeiner mathematischer Korpora trainiert wurden und oft als formale Theoreme verwendet werden. Das Grundmodell des Beweises.
-
Sondermodell für formale Mathematik
# 🎜🎜#
GPT-f ist ein erster Versuch, Transformers auf die Beweisschrittgenerierung für Theorembeweisaufgaben anzuwenden, wobei ein Best-First-Suchmodul verwendet wird, um einen vollständigen Beweis zu erstellen. Einige spätere Entwicklungen umfassen ReProver, LLMStep und Lean-STaR.
Hypertree Proof Search untersucht die Anwendung der Monte-Carlo-Baumsuche beim formalen Theorembeweis mit Lean. Im gleichen Zeitraum zeigten auch InternLM2-Math und InternLM2-StepProver hervorragende Leistungen.
Die Forscher verglichen diese Modelle dann mit DeepSeek-Prover-V1.5. Ergebnisse zu
Tabelle 1 bietet eine vergleichende Analyse verschiedener Methoden zum Beweis von Theoremen miniF2F-Testdatensatz.
In der Einstellung für die vollständige Proof-Generierung auf einem Kanal hat DeepSeekProver-V1.5-RL die höchste Erfolgsquote und erreicht 60,2 %, was höher ist als die 50,0 % von DeepSeek-Prover- V1 stiegen um 10,2 Prozentpunkte. DeepSeek-Prover-V1.5-RL begrenzt das Sampling-Budget auf 128 Versuche und beweist 51,6 % der Probleme. Damit übertrifft es andere Methoden zur Generierung vollständiger Beweise deutlich und liegt auf Augenhöhe mit führenden Baumsuchmethoden. In der Kategorie der Baumsuchmethoden liegt DeepSeek-Prover-V1.5-RL + RMaxTS mit einer Erfolgsquote von 62,7 % an der Spitze, etabliert ein neues SOTA-Niveau und vergrößert den Abstand zu bestehenden Methoden. Es ist erwähnenswert, dass DeepSeek-Prover-V1.5-RL nur 3200 vollständige Proof-Beispiele erfordert, um eine Erfolgsquote von 54,9 % zu erreichen übertrifft das bisherige SOTA-Niveau von InternLM2-StepProver, das 64 × 3200 Baumsuchen erforderte, um eine Erfolgsquote von 54,5 % zu erreichen. Ergebnisse auf ProofNet 🎜#Tabelle 2 listet die vergleichende Analyse verschiedener Theorembeweismethoden im ProofNet-Datensatz auf. Die Erfolgsquoten von DeepSeek-Prover-V1.5-RL für den gesamten ProofNet-Datensatz erreichten 22,6 % bzw. 25,3 %.これらの結果は、既存の SOTA 手法 ReProver (13.8%) および InternLM2-StepProver (18.1%) を上回ります。完全な証明生成の試行回数が 3200 に制限されている場合、DeepSeek-Prover-V1.5 は定理の 21.7% を証明します。これは、以前の最先端の InternLM2-StepProver よりも 3.6% 向上しています。
大規模サンプリングにおけるトレーニング戦略の効果の再調査研究者らは、単一チャネルの完全な証明生成に焦点を当てて、大規模サンプリング環境における複数のトレーニングモジュールの効果を再調査しました。そしてモンテキャロルの木探索。 表 3 は、miniF2F テスト データセットにおける 2 つの生成モード (非 CoT と CoT) のパフォーマンスを比較しており、サンプル バジェットが増加するにつれて、非 CoT モードに対する CoT の利点が増幅されることを示しています。 アブレーション実験では、研究者はRMaxTSのアルゴリズム設計をテストしました。実験は、miniF2F テスト データセット上で DeepSeek-Prover-V1.5-RL を使用して CoT モードで実行されます。図 5 に示すように、左側は生成された 6400 サンプル内の Pass@K 精度の曲線を示し、右側はより大きなサンプル サイズでの結果を示します。 Das obige ist der detaillierte Inhalt vonDeepSeek Open-Source-großes mathematisches Modell, neues SOTA für den Beweis von Theoremen an Gymnasien und Hochschulen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!