Heim Technologie-Peripheriegeräte KI Jenseits der kausalen Sprachmodellierung

Jenseits der kausalen Sprachmodellierung

Feb 25, 2025 pm 06:28 PM

Neurips 2024 Spotlight: Optimierung des Sprachmodells Vorabbau mit selektiver Sprachmodellierung (SLM)

Vor kurzem habe ich ein faszinierendes Papier von Neurips 2024 vorgestellt, "Nicht alle Token sind das, was Sie für die Vorabstärke benötigen", in einer lokalen Lesegruppe. Dieses Papier befasst sich überraschend einfache, aber wirkungsvolle Frage: Ist die nächste Vorhersage für Jedes -Token während des Sprachmodells vorab vorab?

Der Standardansatz beinhaltet massive webkrapte Datensätze und die allgemeine Anwendung von Kausalsprachenmodellierung (CLM). Dieses Papier stellt diese Annahme in Frage und schlägt vor, dass einige Token den Lernprozess eher behindern als helfen. Die Autoren zeigen, dass die Fokussierung des Trainings auf "nützliche" Token die Dateneffizienz und die nachgeschaltete Aufgabenleistung erheblich verbessert. Dieser Beitrag fasst ihre Kernideen und wichtigen experimentellen Erkenntnisse zusammen.

Das Problem: Rauschen und ineffizientes Lernen

Große Webkorpora enthält zwangsläufig Geräusche. Während die Filterung auf Dokumentebene hilft, liegt das Rauschen häufig in einzelnen Dokumenten. Diese lauten Token verschwenden Computerressourcen und verwechseln möglicherweise das Modell.

Die Autoren analysierten die Lerndynamik auf Token-Ebene und kategorisieren Token anhand ihrer Querentropy-Verlust-Flugbahn:

  • l → L (niedrig bis niedrig): schnell gelernt und liefert einen minimalen weiteren Nutzen.
  • H → L (hoch bis niedrig): anfangs schwierig, aber schließlich gelernt; Wertvolle Lernmöglichkeiten darstellen.
  • H → H (hoch bis hoch): konstant schwierig, oft aufgrund der inhärenten Unvorhersehbarkeit (Aleatorikunsicherheit).
  • l → h (niedrig bis hoch): ursprünglich gelernt, wird aber später problematisch, möglicherweise aufgrund von Kontextverschiebungen oder Rauschen.
ihre Analyse zeigt, dass nur ein kleiner Teil der Token sinnvolle Lernsignale liefert.

Die Lösung: Selektive Sprachmodellierung (SLM)

Die vorgeschlagene Lösung, selektive Sprachmodellierung (SLM), bietet einen gezielteren Ansatz:

Beyond Causal Language Modeling

  1. Referenzmodell (RM) Training: Eine hochwertige Teilmenge der Daten wird verwendet, um ein vorgebildetes Basismodell zu optimieren und ein Referenzmodell (RM) zu erstellen. Dieser RM fungiert als Benchmark für Token "Nützlichkeit".

  2. Berechnung des Überschusses: Für jeden Token im großen Korpus wird der Unterschied zwischen dem Verlust des RM und dem aktuellen Trainingsmodellverlust (der "Überlust") berechnet. Ein höherer Überschussverlust zeigt ein höheres Verbesserungspotential.

  3. Selektive Backpropagation: Der vollständige Vorwärtspass wird an allen Token durchgeführt, aber die Backpropagation tritt nur für die oberen k% von Tokens mit dem höchsten Überschussverlust auf. Dies konzentriert sich dynamisch das Training auf die wertvollsten Token.

Experimentelle Ergebnisse: Signifikante Gewinne

SLM zeigt signifikante Vorteile in verschiedenen Experimenten:

Beyond Causal Language Modeling

  • mathematische Domäne: on openWebmath , SLM erzielte im Vergleich zu Standard-CLM bis zu 10% Leistungssteigerungen bei GSM8K und Mathematik-Benchmarks und erreichten 5-10-mal schneller. Ein 7B-Modell stimmte mit einem hochmodernen Modell mit nur 3% seiner Trainingstoken überein. Die Feinabstimmung steigerte die Leistung für ein 1B-Modell um über 40%.

  • Allgemeine Domäne: Auch bei einem starken vorgeborenen Basismodell ergab SLM eine durchschnittliche Verbesserung von ungefähr 5,8% gegenüber 15 Benchmarks, insbesondere in herausfordernden Domänen wie Code und Mathematik.

  • Selbstreferenzierung: Selbst ein schnell trainierter RM aus dem Rohkorpus lieferte einen Genauigkeitsschub von 2-3% und eine Reduzierung der verwendeten Token um 30-40%.

Schlussfolgerung und zukünftige Arbeit

Dieses Papier bietet wertvolle Einblicke in die Lerndynamik auf Token-Ebene und führt SLM ein, eine hochwirksame Technik zur Optimierung des Sprachmodells-Vorbaues. Zukünftige Forschungsanweisungen umfassen die Skalierung von SLM zu größeren Modellen, die Erforschung von API-basierten Referenzmodellen, das Integrieren von Verstärkungslernen, die Verwendung mehrerer Referenzmodelle und das Ausrichten von SLM mit Sicherheits- und Wahrhaftigkeit. Diese Arbeit stellt einen erheblichen Fortschritt im effizienten und effektiven Sprachmodell Training dar.

Das obige ist der detaillierte Inhalt vonJenseits der kausalen Sprachmodellierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

KI -Investor stillte zum Stillstand? 3 Strategische Wege zum Kauf, Bau oder Partner mit KI -Anbietern KI -Investor stillte zum Stillstand? 3 Strategische Wege zum Kauf, Bau oder Partner mit KI -Anbietern Jul 02, 2025 am 11:13 AM

Das Investieren boomt, aber Kapital allein reicht nicht aus. Mit zunehmender Bewertungen und Verblassen der Unterscheidungskraft müssen Investoren in AI-fokussierten Risikokonstrumentfonds eine wichtige Entscheidung treffen: Kaufen, Bau oder Partner, um einen Vorteil zu erlangen? Hier erfahren Sie, wie Sie jede Option bewerten - und PR

Agi und KI -Superintelligenz werden die Annahmesperre der menschlichen Decke stark treffen Agi und KI -Superintelligenz werden die Annahmesperre der menschlichen Decke stark treffen Jul 04, 2025 am 11:10 AM

Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruchs ist Teil meiner laufenden Forbes -Säulenberichterstattung über die neueste in der KI, einschließlich der Identifizierung und Erklärung verschiedener wirksamer KI -Komplexitäten (siehe Link hier). Auf dem Weg zu Agi und

Erstellen Sie Ihre erste LLM -Anwendung: Ein Anfänger -Tutorial Erstellen Sie Ihre erste LLM -Anwendung: Ein Anfänger -Tutorial Jun 24, 2025 am 10:13 AM

Haben Sie jemals versucht, Ihr eigenes großes Sprachmodell (LLM) zu erstellen? Haben Sie sich jemals gefragt, wie Menschen ihre eigene LLM -Anwendung stellen, um ihre Produktivität zu steigern? LLM -Anwendungen haben sich in jedem Aspekt als nützlich erwiesen

Kimi K2: Das mächtigste Open-Source-Agentenmodell Kimi K2: Das mächtigste Open-Source-Agentenmodell Jul 12, 2025 am 09:16 AM

Erinnern Sie sich an die Flut chinesischer Open-Source-Modelle, die die Genai-Industrie Anfang dieses Jahres gestört haben? Während Deepseek die meisten Schlagzeilen machte, war Kimi K1.5 einer der herausragenden Namen in der Liste. Und das Modell war ziemlich cool.

AMD baut immer wieder an Dynamik in KI auf AMD baut immer wieder an Dynamik in KI auf Jun 28, 2025 am 11:15 AM

Insgesamt denke ich, dass die Veranstaltung wichtig war, um zu zeigen, wie AMD den Ball für Kunden und Entwickler auf dem Feld bewegt. Unter SU, M.O. ist klare, ehrgeizige Pläne zu haben und gegen sie auszuführen. Ihr Verhältnis von „Say/Do“ ist hoch. Das Unternehmen tut es

Zukünftige Vorhersage einer massiven Intelligenz -Explosion auf dem Weg von AI zu AGI Zukünftige Vorhersage einer massiven Intelligenz -Explosion auf dem Weg von AI zu AGI Jul 02, 2025 am 11:19 AM

Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruchs ist Teil meiner laufenden Forbes -Säulenberichterstattung über die neueste in der KI, einschließlich der Identifizierung und Erklärung verschiedener wirksamer KI -Komplexitäten (siehe Link hier). Für diejenigen Leser, die h

Grok 4 gegen Claude 4: Was ist besser? Grok 4 gegen Claude 4: Was ist besser? Jul 12, 2025 am 09:37 AM

Bis Mitte 2025 heizt sich das KI „Wettret“ auf, und Xai und Anthropic haben beide ihre Flaggschiff-Modelle GROK 4 und Claude 4 veröffentlicht. Diese beiden Modelle befinden

Kette von Gedanken zum Argumentieren von Modellen kann langfristig nicht funktionieren Kette von Gedanken zum Argumentieren von Modellen kann langfristig nicht funktionieren Jul 02, 2025 am 11:18 AM

Wenn Sie beispielsweise einem Modell eine Frage wie: "Was macht (x) Person bei (x) Firma?" Möglicherweise sehen Sie eine Argumentationskette, die ungefähr so ​​aussieht, vorausgesetzt, das System weiß, wie man die erforderlichen Informationen abgerufen: Details zum CO finden

See all articles