Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen-KI-php.cn

Die Skalierung des Grundmodells bezieht sich auf die Verwendung von mehr Daten, Berechnungen und Parametern für das Vortraining, was einfach eine „Skalenerweiterung“ darstellt.

Obwohl die direkte Erweiterung der Modellgröße einfach und grob erscheint, hat sie tatsächlich viele herausragende Modelle in die Community des maschinellen Lernens gebracht. Viele frühere Studien haben die Praxis der Erweiterung des Maßstabs neuroökonomischer Modelle erkannt. Die sogenannten quantitativen Veränderungen führen zu qualitativen Veränderungen. Diese Sichtweise wird auch als neuronale Skalierungsgesetze bezeichnet. Mit zunehmender Modellgröße führt dies jedoch zu einem intensiven Verbrauch von Rechenressourcen. Das bedeutet, dass größere Modelle mehr Rechenressourcen benötigen, einschließlich Prozessoren und Speicher. Dies ist für viele praktische Anwendungen nicht realisierbar, insbesondere auf Geräten mit begrenzten Ressourcen. Daher haben Forscher begonnen, sich auf die effizientere Nutzung von Rechenressourcen zur Verbesserung von Modellen zu konzentrieren. In letzter Zeit glauben viele Menschen, dass „Daten“ der Schlüssel zu den derzeit besten Closed-Source-Modellen sind, unabhängig davon, ob es sich um LLM oder VLM handelt . Da die Bedeutung der Datenqualität erkannt wurde, wurden zahlreiche Forschungsarbeiten zur Verbesserung der Datenqualität durchgeführt: entweder durch das Filtern hochwertiger Daten aus großen Datenbanken oder durch die Generierung hochwertiger neuer Daten. Allerdings betrachtete das Erweiterungsgesetz in der Vergangenheit „Daten“ im Allgemeinen als eine homogene Einheit und berücksichtigte nicht die in jüngster Zeit beachtete „Datenqualität“ als Betrachtungsdimension.

Trotz der Fülle an Datenmodellen im Web sind qualitativ hochwertige Daten (basierend auf mehreren Bewertungsmetriken) oft begrenzt. Jetzt kommt bahnbrechende Forschung – das Expansionsgesetz in den Dimensionen der Datenfilterung! Es stammt von der Carnegie Mellon University und dem Bosch Center for AI und konzentriert sich insbesondere auf den Quantität-Qualitäts-Kompromiss (QQT) zwischen „großem Maßstab“ und „hoher Qualität“.

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

Papiertitel: Skalierungsgesetze für die Datenfilterung – Datenkuration kann nicht rechnerunabhängig sein

Papieradresse: https://arxiv.org/pdf/2404.07177.pdf
Codeadresse: https://github.com/locuslab/scaling_laws_data_filtering

Wie in Abbildung 1 gezeigt, ist beim Training mehrerer Epochen der Nutzen hochwertiger Daten (Utility ) ist nicht groß (da das Modell das Lernen abgeschlossen hat).

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen Zu diesem Zeitpunkt ist es oft hilfreicher, Daten von geringerer Qualität (mit anfangs geringerem Nutzen) zu verwenden, als Daten von hoher Qualität wiederzuverwenden.

Wie bestimmen wir unter dem Quantität-Qualitäts-Kompromiss (QQT), welche Art von Datenkombination für das Training besser ist?

Um diese Frage zu beantworten, muss jeder Datenkuratierungs-Workflow den gesamten Rechenaufwand berücksichtigen, der für das Modelltraining verwendet wird. Dies unterscheidet sich von der Sicht der Community auf die Datenfilterung. Beispielsweise extrahiert die LAION-Filterstrategie die qualitativ hochwertigsten 10 % aus allgemeinen Crawl-Ergebnissen.

Aber wie aus Abbildung 2 hervorgeht, ist es offensichtlich, dass, sobald das Training 35 Epochen überschreitet, die Wirkung des Trainings auf einen völlig unorganisierten Datensatz besser ist als das Training auf hochwertigen Daten, die mit der LAION-Strategie organisiert werden.

Aktuelle neuronale Expansionsgesetze können diesen dynamischen Kompromiss zwischen Qualität und Quantität nicht modellieren. Darüber hinaus gibt es noch weniger Studien zur Erweiterung visuell-sprachlicher Modelle und die meisten aktuellen Forschungsarbeiten beschränken sich auf den Bereich der Sprachmodellierung. Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

Die bahnbrechende Forschung, die wir heute vorstellen werden, hat drei wichtige Einschränkungen des vorherigen neuronalen Expansionsgesetzes überwunden, und zwar:

(1) Berücksichtigen Sie die „Qualitäts“-Achse bei der Datenexpansion

(2) Schätzen Sie das Expansionsgesetz der Datenpoolkombination (ohne die Kombination tatsächlich zu trainieren), was dabei hilft, optimale Entscheidungen zur Datenintegration zu treffen.

(3) Passen Sie das LLM-Expansionsgesetz an. Dies macht es für Kontrast geeignet Training (z. B. CLIP), bei dem jeder Stapel eine quadratische Anzahl von Vergleichen aufweist.

Das Team schlug erstmals das Expansionsgesetz für heterogene und begrenzte Netzwerkdatenmengen vor.

Große Modelle werden auf einer Kombination von Datenpools unterschiedlicher Qualität trainiert. Durch die Modellierung des aggregierten Datennutzens, der aus den Diffusionsparametern einzelner Datenpools (A-F in Abbildung 1 (a)) abgeleitet wird, ist es möglich, die Leistung des Modells für jede Kombination dieser Datenpools direkt abzuschätzen.

Es ist wichtig darauf hinzuweisen, dass diese Methode kein Training für diese Datenpoolkombinationen erfordert, um ihre Expansionsgesetze abzuschätzen, sondern ihre Expansionskurven basierend auf den Expansionsparametern jedes Komponentenpools direkt schätzen kann.

Im Vergleich zum Expansionsgesetz in der Vergangenheit weist das Expansionsgesetz hier einige wichtige Unterschiede auf, mit denen Wiederholungen im Trainingsmechanismus modelliert und verglichen und ein O (n²) -Vergleich erzielt werden können. Wenn beispielsweise die Größe des Trainingspools verdoppelt wird, vervierfacht sich die Anzahl der Vergleiche, die zum Modellverlust beitragen.

Sie beschreiben mathematisch, wie Daten aus verschiedenen Pools miteinander interagieren, sodass die Leistung des Modells unter verschiedenen Datenkombinationen geschätzt werden kann. Dies führt zu einer Datenorganisationsstrategie, die für derzeit verfügbare Berechnungen geeignet ist.

Eine Kernaussage dieser Studie ist: Die Datenerfassung kann nicht ohne Berechnung durchgeführt werden.

Wenn das Rechenbudget klein ist (weniger Wiederholungen), hat die Qualität im Rahmen des QQT-Kompromisses Vorrang, wie die beste Leistung der aggressiven Filterung (E) bei geringem Rechenaufwand in Abbildung 1 zeigt.

Wenn andererseits der Berechnungsumfang die verwendeten Trainingsdaten bei weitem übersteigt, nimmt der Nutzen begrenzter, qualitativ hochwertiger Daten ab, und Sie müssen Wege finden, dies auszugleichen. Dies führt zu einer weniger aggressiven Filterstrategie, d. h. zu einer besseren Leistung bei größeren Datenmengen.

Das Team führte experimentelle Demonstrationen durch, die zeigten, dass dieses neue Skalierungsgesetz für heterogene Netzwerkdaten Pareto unter verschiedenen Rechenbudgets von 32 Mio. bis 640 Mio. mithilfe der optimalen Filterstrategie für mittelgroße Pools (128 Mio. Stichproben) von DataComp vorhersagen kann.

Datenfilterung unter einem bestimmten Rechenbudget

Das Team untersuchte die Wirkung der Datenfilterung unter verschiedenen Rechenbudgets durch Experimente.

Sie haben einen VLM mithilfe eines großen anfänglichen Datenpools trainiert. Für den ungefilterten Basisdatenpool wählten sie eine „mittlere“ Version von Datacomp, einem aktuellen Datenkompilierungs-Benchmark. Der Datenpool enthält 128 Millionen Proben. Sie verwendeten 18 verschiedene nachgelagerte Aufgaben, um die Nullschussleistung des Modells zu bewerten.

Sie untersuchten zunächst die LAION-Filterstrategie, die zum Erhalten des LAION-Datensatzes verwendet wurde. Die Ergebnisse sind in Abbildung 2 dargestellt. Sie beobachteten die folgenden Ergebnisse:

1. Wenn das Rechenbudget niedrig ist, ist es besser, qualitativ hochwertige Daten zu verwenden.

2. Die Datenfilterung kann bei hohem Rechenbudget zu Hindernissen führen.

Warum?

LAION-Filterung behält etwa 10 % der Daten bei, sodass das Rechenbudget etwa 450 Millionen beträgt und jede Probe aus dem gefilterten LAION-Pool etwa 32 Mal verwendet wird. Die wichtigste Erkenntnis hierbei ist, dass der Nutzen jedes Mal abnimmt, wenn dieselbe Probe während des Trainings mehrmals angezeigt wird.

Das Team untersuchte dann zwei weitere Datenfilterungsmethoden:

(1) CLIP-Score-Filterung unter Verwendung des CLIP L/14-Modells;

(2) T-MARS, nach der Maskierung. Die Daten werden in eine Rangfolge gebracht basierend auf dem CLIP-Score nach Textmerkmalen im Bild (OCR). Für jede Datenfiltermethode verwendeten sie vier Filterstufen und verschiedene unterschiedliche Gesamtrechenaufwände.

Abbildung 3 zeigt den Vergleich der Ergebnisse der CLIP-Filterung „Top 10–20 %, Top 30 % und Top 40 %“, wenn der Berechnungsmaßstab 32 Mio., 128 Mio. und 640 Mio. beträgt.

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

Bei einem Rechenmaßstab von 32 Mio. lieferte die äußerst aggressive Filterstrategie (die nur die oberen 10–20 % basierend auf dem CLIP-Score beibehält) die besten Ergebnisse, während die am wenigsten aggressive Filtermethode, bei der die oberen 40 % beibehalten wurden, am besten abschnitt . Unterschied. Wenn der Rechenumfang jedoch auf 640 MB erweitert wird, kehrt sich dieser Trend vollständig um. Ähnliche Trends werden mit der T-MARS-Score-Metrik beobachtet.

Das Expansionsgesetz der Datenfilterung

Das Team definierte den Nutzen zunächst mathematisch.

Ihr Ansatz besteht nicht darin, den Verlust von n Proben am Ende des Trainings abzuschätzen, sondern den momentanen Nutzen einer Probe zu jedem Zeitpunkt während der Trainingsphase zu berücksichtigen. Die mathematische Formel lautet:

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

Dies zeigt, dass der momentane Nutzen einer Probe direkt proportional zum aktuellen Verlust und umgekehrt proportional zur Anzahl der bisher gesehenen Proben ist. Dies entspricht auch unserer intuitiven Denkweise: Je mehr Proben das Modell sieht, desto geringer ist die Wirksamkeit der Proben. Der Fokus liegt auf dem Datennutzenparameter b.

Der nächste Schritt ist der Nutzen der Wiederverwendung von Daten.

Mathematisch ist der Nutzenparameter b einer Probe, die k+1 mal gesehen wurde, wie folgt definiert:

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

wobei τ die Halbwertszeit des Nutzenparameters ist. Je höher der Wert von τ ist, desto langsamer nimmt der Probennutzen bei Wiederholung ab. δ ist eine prägnante Art, den Verfall des Nutzens durch Wiederholung zu beschreiben. Dann ist der Ausdruck des Verlusts des Modells, nachdem n Proben gesehen wurden und jede Probe k-mal gesehen wurde:

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

wobei n_j die Anzahl der Modelle am Ende der j-ten Runde der Trainingsepoche ist Proben gesehen. Diese Gleichung ist die Grundlage des neu vorgeschlagenen Expansionsgesetzes.

Schließlich gibt es noch eine weitere Ebene der Komplexität, nämlich heterogene Netzwerkdaten.

Dann haben wir den Satz erhalten, den sie gegeben haben: Bei gegebenen p Datenpools, die zufällig und gleichmäßig abgetastet wurden, sind ihre jeweiligen Nutzen- und Wiederholungsparameter (b_1, τ_1) ... (b_p, τ_p), dann jeweils Die neue wiederholte Halbwertszeit eines Eimers ist τˆ = p・τ. Darüber hinaus ist der effektive Nutzenwert b_eff des kombinierten Datenpools bei der k-ten Iteration der gewichtete Durchschnitt der einzelnen Nutzenwerte. Seine mathematische Form ist:

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

wobei Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen , dies der neue Zerfallsparameter pro Bucket ist.

Schließlich kann b_eff im obigen Theorem in Gleichung (3) verwendet werden, um den Verlust beim Training auf der Datenpoolkombination abzuschätzen.

Anpassen von Expansionskurven für verschiedene Daten-Utility-Pools

Das Team untersuchte experimentell das neu vorgeschlagene Expansionsgesetz.

Abbildung 4 zeigt die Expansionskurven verschiedener Datennutzenpools nach der Anpassung. Der verwendete Datennutzenindex ist der T-MARS-Score.

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

Spalte 2 von Abbildung 4 zeigt, dass der Nutzen jedes Datenpools mit zunehmenden Epochen abnimmt. Hier sind einige wichtige Beobachtungen des Teams:

1 Netzwerkdaten sind heterogen und können nicht durch einen einzigen Satz erweiterter Parameter modelliert werden.

2. Verschiedene Datenpools weisen eine unterschiedliche Datenvielfalt auf.

3. Die Wirkung qualitativ hochwertiger Daten mit sich wiederholenden Phänomenen kann mit der direkten Nutzung minderwertiger Daten nicht mithalten.

Ergebnisse: Schätzung von Expansionsgesetzen für Datenkombinationen unter QQT

Die entsprechenden Parameter a, b, d, τ wurden zuvor für Datenpools unterschiedlicher Qualität abgeleitet. Das Ziel hier besteht darin, zu bestimmen, welche Datenverarbeitungsstrategie angesichts eines Trainingsrechenbudgets am effizientesten ist.

Durch den vorherigen Satz und die Erweiterungsparameter jedes Datenpools kann nun das Erweiterungsgesetz verschiedener Poolkombinationen geschätzt werden. Beispielsweise kann man sich den Top-20-%-Pool als eine Kombination aus den Top-10-%- und Top-10-20-%-Pools vorstellen. Dieser Trend aus der Expansionskurve kann dann verwendet werden, um eine pareto-optimale Datenfilterungsstrategie für ein gegebenes Rechenbudget vorherzusagen.

Abbildung 5 zeigt die Expansionskurven für verschiedene Datenkombinationen, die auf ImageNet ausgewertet werden.

Ist es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen

Hier muss betont werden, dass diese Kurven basierend auf dem obigen Theorem direkt aus den Expansionsparametern jedes Komponentenpools geschätzt werden. Sie haben diese Datenpoolkombinationen nicht trainiert, um diese Expansionskurven abzuschätzen. Die Streupunkte stellen die tatsächliche Testleistung dar und dienen zur Verifizierung der geschätzten Ergebnisse.

Es ist ersichtlich, dass: (1) Die aggressive Filterstrategie am besten ist, wenn das Rechenbudget gering ist/die Anzahl der Wiederholungen gering ist.

(2) Die Datenerfassung kann nicht ohne Berechnung durchgeführt werden. „Erweitern Sie die Expansionskurve.“ Berechnung Es gibt Dutzende von Modellen mit einer Größe von 3B bis 34B-Trainingsbeispielen, und die Modelle decken verschiedene Modelle der ViT-Serie ab. Das Trainieren von Modellen in diesem Rechenmaßstab ist sehr teuer. Cherti et al. (2023) wollten Expansionsgesetze für diese Modellfamilie anpassen, aber die Expansionskurven für Modelle, die auf kleinen Datensätzen trainiert wurden, wiesen viele Fehler auf.

Das CMU-Team geht davon aus, dass dies vor allem daran liegt, dass sie die durch die Wiederverwendung von Daten verursachte Nutzenminderung nicht berücksichtigt haben. Daher schätzten sie die Fehler dieser Modelle mithilfe des neu vorgeschlagenen Expansionsgesetzes ab. Abbildung 6 ist die erweiterte Kurve nach der Korrektur, die Fehler mit hoher Genauigkeit vorhersagen kann.

Dies zeigt, dass das neu vorgeschlagene Erweiterungsgesetz für große Modelle geeignet ist, die mit 34B-Datenberechnungen trainiert wurden, was zeigt, dass das neue Erweiterungsgesetz tatsächlich die Verringerung des Nutzens wiederholter Daten bei der Vorhersage von Modelltrainingsergebnissen berücksichtigen kann .

Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonIst es besser, mehr Daten oder eine höhere Qualität zu haben? Diese Recherche kann Ihnen bei Ihrer Wahl helfen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!