Am 23. September wurde der Artikel „Deep Model Fusion: A Survey“ von der National University of Defense Technology, JD.com und dem Beijing Institute of Technology veröffentlicht.
Deep Model Fusion/Merging ist eine neue Technologie, die die Parameter oder Vorhersagen mehrerer Deep-Learning-Modelle in einem einzigen Modell kombiniert. Es kombiniert die Fähigkeiten verschiedener Modelle, um die Verzerrungen und Fehler einzelner Modelle zu kompensieren und so eine bessere Leistung zu erzielen. Die tiefe Modellfusion bei groß angelegten Deep-Learning-Modellen (wie LLM und Basismodellen) steht vor einigen Herausforderungen, darunter hohe Rechenkosten, hochdimensionaler Parameterraum, Interferenzen zwischen verschiedenen heterogenen Modellen usw. In diesem Artikel werden bestehende Deep-Model-Fusion-Methoden in vier Kategorien unterteilt: (1) „Musterverbindung“, die Lösungen im Gewichtsraum über einen verlustreduzierenden Pfad verbindet, um eine bessere Modellfusionsinitialisierung zu erreichen; (2) „Ausrichtung“, passende Einheiten zwischen neuronale Netze zur Schaffung besserer Bedingungen für die Fusion; (3) „Gewichtungsdurchschnitt“ ist eine klassische Modellfusionsmethode, die die Gewichte mehrerer Modelle mittelt, um näher an die optimale Lösung zu gelangen und genauere Ergebnisse zu erzielen; die Ausgabe verschiedener Modelle, eine grundlegende Technologie zur Verbesserung der Genauigkeit und Robustheit des endgültigen Modells. Darüber hinaus werden die Herausforderungen analysiert, denen sich die tiefe Modellfusion gegenübersieht, und mögliche Forschungsrichtungen für die zukünftige Modellfusion vorgeschlagen.
Deep Model Fusion hat aufgrund von Datenschutz und praktischen Problemen bei der Datenspeicherung zunehmend Interesse geweckt. Obwohl die Entwicklung der tiefen Modellfusion viele technologische Durchbrüche gebracht hat, hat sie auch eine Reihe von Herausforderungen mit sich gebracht, wie z. B. hohe Rechenlast, Modellheterogenität und langsame Ausrichtung der kombinatorischen Optimierung. Dies inspirierte Wissenschaftler dazu, die Prinzipien der Modellfusion in verschiedenen Situationen zu untersuchen.
Einige Arbeiten konzentrieren sich nur auf die Modellfusion aus einer einzelnen Perspektive (z. B. Feature-Fusion usw.) [45, 195] und bestimmte Szenen [213] und nicht auf die Fusion von Parametern. Zusammen mit jüngsten Fortschritten und repräsentativen Anwendungen wie Federated Learning (FL) [160] und Fine-Tuning [29] werden sie in diesem Papier auf der Grundlage interner Mechanismen und Zwecke in vier Kategorien unterteilt. Die Abbildung zeigt schematisch den gesamten Modellfusionsprozess sowie die Klassifizierung und Verknüpfung verschiedener Methoden.
Bei Modellen, die unabhängig und nicht nebeneinander trainiert werden, bringen „Mode Join“ und „Align“ die Lösungen näher zusammen, was zu besseren durchschnittlichen Rohbedingungen führt. Bei ähnlichen Modellen mit bestimmten Unterschieden in den Gewichtsräumen tendiert der „Gewichtsdurchschnitt (WA)“ dazu, die Modelle direkt zu mitteln, um eine Lösung zu erhalten, die näher am optimalen Punkt im Parameterraumbereich mit niedrigeren Verlustfunktionswerten liegt. Darüber hinaus integriert „Ensemble Learning“ für Vorhersagen aus vorhandenen Modellen Vorhersagen aus verschiedenen Formen des Modells, um bessere Ergebnisse zu erzielen.
„Modellfusion als Technik zur Verbesserung der Genauigkeit und Robustheit tiefer Modelle hat Verbesserungen in vielen Anwendungsbereichen vorangetrieben. „Federated Learning [160]“ ist ein Modell, das Client-Modelle auf einem zentralen Server aggregiert Robustheitsanwendungen, die es Parteien ermöglichen, Daten zur Berechnung von Funktionen beizutragen (z. B. verschiedene Statistiken, Klassifikatoren [177]), ohne dass das Risiko eines Datenschutzverlusts durch „Feinabstimmung“ vorab trainierter Funktionen besteht. Kleine Anpassungen werden am Modell vorgenommen und mit diesen kombiniert Modellfusion zur Reduzierung der Schulungskosten und zur Anpassung an die Anforderungen einer bestimmten Aufgabe oder Domäne beinhaltet auch eine „Destillation“, d. h. die Kombination des Soft-Target-Wissens mehrerer komplexer Modelle (Lehrer), um ein kleines Modell (Schüler) anzupassen „Modellfusion auf Basis/LLM“ umfasst die Arbeit an großen Basismodellen oder großen Sprachmodellen (LLM), wie Transformer (ViT) [79], GPT [17] usw. Konvergente Anwendungen helfen Entwicklern bei der Anpassung Anforderungen verschiedener Aufgaben und Bereiche und fördert die Entwicklung von Deep Learning.“ Die Anzahl der Wörter ist voll.
Um zu bestimmen, ob die Ergebnisse eines trainierten Netzwerks gegenüber SGD-Rauschen stabil sind, wird die Verlustbarriere (Fehlerbarriere) als die maximale Differenz zwischen einer linearen Zweipunkt-Verlustinterpolation und einem linearen Zweipunkt-Verbindungsverlust definiert [50 ]. Die Verlustbarriere gibt an, ob der Fehler entlang des Pfadoptimierungsgraphen zwischen W1 und W2 konstant ist oder zunimmt [56, 61]. Wenn zwischen zwei Netzwerken ein Tunnel mit einer Barriere von ungefähr 0 besteht, entspricht dies einer Modenverbindung [46, 59, 60]. Mit anderen Worten: Die durch SGD erhaltenen lokalen Minima können über einen Pfad φ verbunden werden, der den maximalen Verlust minimiert.
Lösungen aus der Gradienten-basierten Optimierung können durch Pfade (Konnektoren) ohne Barrieren im Gewichtsraum verbunden werden, was als Musterverbindung bezeichnet wird[46, 50]. Auf dem verlustarmen Weg können andere Modelle erhalten werden, die besser für die Modellfusion geeignet sind. Entsprechend der mathematischen Form des Pfades und des Raums, in dem sich der Anschluss befindet, ist er in drei Teile unterteilt: „Linear Mode Connection (LMC) [66]“, „Nonlinear Mode Connection“ und „Pattern Connection of Subspace“.
Musterverbindungen können lokale Optimierungsprobleme während des Trainings lösen. Die geometrischen Beziehungen von Musterverbindungspfaden [61, 162] können auch verwendet werden, um die Konvergenz, Stabilität und Genauigkeit von Optimierungsprozessen wie dem stochastischen Gradientenabstieg (SGD) zu beschleunigen. Zusammenfassend bietet die Musterverbindung eine neue Perspektive für die Interpretation und das Verständnis des Verhaltens der Modellfusion [66]. Allerdings sollten die Rechenkomplexität und die Schwierigkeiten bei der Parameterabstimmung angegangen werden, insbesondere wenn Modelle auf großen Datensätzen trainiert werden. Die folgende Tabelle ist eine Zusammenfassung der Standardtrainingsverfahren für Linear Mode Connection (LMC) und Nonlinear Mode Connection.
Das Bild zeigt die zweidimensionale Verlustkarte und das Musterverbindungsdiagramm in anderen dimensionalen Unterräumen. Links: Die lineare Interpolation zweier Beckenminima führt zu einer hohen Verlustbarriere [46]. Die unteren beiden optimalen Werte folgen nahezu konstanten verlustarmen Pfaden (z. B. Bezier-Kurven, Polybox-Ketten usw.) [66]. π(W2) ist das äquivalente Modell der Anordnungssymmetrie von W2, das sich im selben Becken wie W1 befindet. Re-Basin führt Modelle zusammen, indem es Lösungen für einzelne Wassereinzugsgebiete bereitstellt [3]. Rechts: Verlustarme Pfade verbinden mehrere Minima in einem Unterraum (z. B. eine verlustarme Mannigfaltigkeit bestehend aus d-dimensionalen Keilen [56] usw.).
Die folgende Tabelle ist eine Methode zum Auffinden von Tunneln zwischen verschiedenen lokalen Minima.
Kurz gesagt bietet die Musterverbindung eine neuere und flexiblere Perspektive für eine tiefgreifende Modellfusion. Das Training neuronaler Netze kann leicht in die lokale Optimalität geraten, was zu Leistungseinbußen führt. Auf der Grundlage der Modellverbindung können andere Modelle mit besserer Leistung gefunden und als Ausgangspunkt für weitere Optimierungen und Fusionen verwendet werden. Das bereits trainierte Modell kann verwendet werden, um sich im Parameterraum zu bewegen, um ein neues Zielmodell zu erreichen. Dies kann Zeit und Rechenaufwand sparen und ist für Situationen geeignet, in denen die Daten begrenzt sind. Allerdings kann die Verbindung verschiedener Modelle zu zusätzlicher Komplexität und Flexibilität führen, was das Risiko einer Überanpassung erhöht. Daher sollten die relevanten Hyperparameter und der Variationsgrad sorgfältig kontrolliert werden. Darüber hinaus erfordert die Musterverkettung eine Feinabstimmung oder Parameteränderungen, was die Trainingszeit und den Ressourcenverbrauch erhöhen kann. Zusammenfassend lässt sich sagen, dass die Modellkonnektivität viele Vorteile bei der Modellfusion bietet, darunter die Unterstützung bei der Überwindung lokaler optimaler Probleme und die Bereitstellung neuer Perspektiven für die Erklärung des Netzwerkverhaltens. Es wird erwartet, dass die Musterverbindung in Zukunft dazu beitragen wird, die internen Mechanismen neuronaler Netze zu verstehen und Hinweise für effizientere Deep-Model-Fusion-Designs in der Zukunft zu geben.
Aufgrund der Zufälligkeit von Kanälen und Komponenten aus verschiedenen Netzwerken stören sich die aktiven Komponenten des Netzwerks gegenseitig [204]. Daher können falsch ausgerichtete gewichtete Durchschnittswerte die Korrespondenz zwischen Einheiten in verschiedenen Modellen ignorieren und nützliche Informationen verfälschen. Beispielsweise gibt es eine Beziehung zwischen zwei Neuronen in unterschiedlichen Modellen, die möglicherweise völlig unterschiedlich, aber funktionell ähnlich sind. Bei der Ausrichtung werden Einheiten verschiedener Modelle abgeglichen, um bessere Anfangsbedingungen für eine tiefe Modellfusion zu erhalten. Der Zweck besteht darin, die Unterschiede zwischen mehreren Modellen zu verringern und so den Effekt der tiefen Modellfusion zu verstärken. Darüber hinaus kann Alignment im Wesentlichen als kombinatorisches Optimierungsproblem angesehen werden. Ein repräsentativer Mechanismus „Re-Becken“, der Lösungen für einzelne Becken bietet und Modelle mit besseren Originalbedingungen zusammenführt. Abhängig davon, ob das Ausrichtungsziel datengesteuert ist oder nicht, wird die Ausrichtung in zwei Typen unterteilt: „Aktivierungs-Matching“ und „Gewichts-Matching“, wie in der Tabelle gezeigt.
Im Allgemeinen wächst die Anzahl der Sattelpunkte und lokalen Optima selbst für flache neuronale Netze exponentiell mit der Anzahl der Parameter [10, 66]. Es wurde festgestellt, dass es beim Training Invarianz gibt, was dazu führt, dass einige Punkte in diesen lokalen Optima die gleiche Darstellung haben [22, 81, 140]. Insbesondere wenn die Einheiten der verborgenen Schicht durch Permutation vertauscht werden, ändert sich die Funktionalität des Netzwerks nicht, was als „Permutationssymmetrie“ bezeichnet wird[43, 50]. Die durch diese Invarianten hervorgerufene Permutationssymmetrie hilft, die Struktur des Verlustdiagramms besser zu verstehen [22, 66]. Invarianz kann auch als Quelle für Sattelpunkte im Verlustdiagramm angesehen werden [14]. [68] untersuchen die algebraische Struktur von Symmetrien in neuronalen Netzen und wie sich diese Struktur in der Verlustgraphengeometrie manifestiert. [14] führten Permutationspunkte in hochdimensionalen Plattformen ein, an denen Neuronen ohne zunehmende Verluste oder Parametersprünge ausgetauscht werden können. Führen Sie einen Gradientenabstieg für den Verlust durch und passen Sie die Parametervektoren θm und θn der Neuronen m und n an, bis die Vektoren den Ausrichtungspunkt erreichen.
Basierend auf der Anordnungssymmetrie können Lösungen in verschiedenen Regionen im Gewichtsraum äquivalente Lösungen erzeugen. Die äquivalente Lösung befindet sich in der gleichen Region wie die ursprüngliche Lösung, mit einer verlustarmen Barriere (Becken), genannt „Re-Becken“ [3]. Im Vergleich zu Musterverbindungen werden bei Re-Basin-Verbindungen tendenziell Punkte durch Ausrichtung und nicht durch verlustarmen Tunnelbau in das Becken transportiert. Derzeit ist die Ausrichtung die repräsentative Methode von Re-Basin [3, 178]. Eine aktuelle Herausforderung besteht jedoch darin, alle Möglichkeiten von Permutationssymmetrien effizient zu durchsuchen, sodass alle Lösungen auf dasselbe Becken verweisen.
Das Bild ist ein schematisches Diagramm von [14] der Einführung ausgerichteter Punktaustauschneuronen. Links: Allgemeiner Ausrichtungsprozess, Modell A wird unter Bezugnahme auf Modell B in Modell Ap umgewandelt, und dann erzeugt die lineare Kombination von Ap und B C. Rechts: Passen Sie die Parametervektoren θm und θn zweier Neuronen in verschiedenen verborgenen Schichten nahe dem Ausrichtungspunkt an. Am Ausrichtungspunkt [14] θ′m = θ′n berechnen die beiden Neuronen dieselbe Funktion, was bedeutet, dass die beiden Neuronen können ausgetauscht werden.
Ausrichtung macht die Modelle ähnlicher, indem die Parameter der Modelle angepasst werden, was den Informationsaustausch zwischen Modellen verbessern und dadurch die Generalisierungsfähigkeit des Fusionsmodells verbessern kann. Darüber hinaus trägt die Ausrichtung dazu bei, die Modellleistung und Robustheit bei komplexen Aufgaben zu verbessern. Bei Alignment-Methoden besteht jedoch das Problem einer langsamen kombinatorischen Optimierung. Die Ausrichtung erfordert zusätzlichen Rechenaufwand zum Anpassen der Parameter des Modells, was zu einem komplexeren und zeitaufwändigeren Trainingsprozess führen kann, insbesondere bei Modellen mit großer Tiefe [142, 204].
Zusammenfassend lässt sich sagen, dass die Ausrichtung die Konsistenz und den Gesamteffekt zwischen verschiedenen Modellen verbessern kann. Mit der Diversifizierung der DL-Anwendungsszenarien wird die Ausrichtung zu einer der Schlüsselmethoden zur Optimierung der tiefen Modellfusion und zur Verbesserung der Generalisierungsfähigkeiten. In Zukunft kann die Ausrichtung eine Rolle beim Transferlernen, bei der Domänenanpassung [63], bei der Wissensdestillation und in anderen Bereichen spielen. Beispielsweise kann die Ausrichtung beim Transferlernen den Unterschied zwischen Quell- und Zieldomäne verringern und das Lernen neuer Domänen verbessern.
Aufgrund der hohen Redundanz neuronaler Netzwerkparameter besteht normalerweise keine Eins-zu-eins-Korrespondenz zwischen den Gewichten verschiedener neuronaler Netzwerke. Daher ist im Allgemeinen nicht garantiert, dass die gewichtete Mittelwertbildung (WA) standardmäßig eine gute Leistung erbringt. Die normale Mittelwertbildung schneidet bei trainierten Netzwerken mit großen Gewichtsunterschieden schlecht ab [204]. Aus statistischer Sicht ermöglicht WA die Kontrolle einzelner Modellparameter im Modell, wodurch die Varianz des endgültigen Modells verringert und somit ein zuverlässiger Einfluss auf die Regularisierungseigenschaften und Ausgabeergebnisse erzielt wird [77, 166].
Die folgende Tabelle ist eine repräsentative Methode von WA:
Inspiriert von Fast Geometry Ensemble(FGE) [66] und Checkpoint Averaging [149], [99] nutzt Konstante oder Periodizität Das Lernen Die Rate wird über mehrere Punkte der SGD-Trajektorie gemittelt, was als stochastische Gewichtsmittelung (SWA) bekannt ist. SWA verbessert das Training auf einer Reihe wichtiger Grundlagen und sorgt für eine bessere zeitliche Skalierbarkeit. Anstatt eine Sammlung von Modellen zu trainieren (wie bei der normalen Fusion), trainiert SWA ein einzelnes Modell, um eine reibungslosere Lösung als SGD zu finden. Die SWA-bezogenen Methoden sind in der folgenden Tabelle aufgeführt. Darüber hinaus kann SWA auf jede Architektur oder jeden Datensatz angewendet werden und zeigt eine bessere Leistung als Snapshot Ensemble (SSE) [91] und FGE. Am Ende jeder Periode wird das SWA-Modell aktualisiert, indem die neu erhaltenen Gewichte mit den vorhandenen Gewichten gemittelt werden.
SWA kann jedoch nur Punkte in der Nähe des lokalen optimalen Punkts mitteln und schließlich einen relativen Minimalwert erhalten, kann den optimalen Wert jedoch nicht genau annähern. Darüber hinaus kann die endgültige Abweichung der Eingabeprobe aufgrund bestimmter Faktoren (z. B. schlechte frühe Konvergenz, hohe Lernrate, schnelle Gewichtsänderungsrate usw.) groß oder unzureichend sein, was zu schlechten Gesamtergebnissen führt. Umfangreiche Arbeiten neigen dazu, die SWA-Probenahmemethoden zu ändern.
Wie in der Abbildung gezeigt, werden die Abtast- und Lernratenanordnungen verschiedener SWA-bezogener Methoden verglichen. (a) SWA: konstante Lernrate. (b)SWA: Periodische Lernrate. (c)SWAD: dichte Probenahme. (d) HWA: Bei Verwendung von Online- und Offline-WA und Abtastung in unterschiedlichen Synchronisationsperioden beträgt die Schiebefensterlänge h.
Modellsuppe [239] bezieht sich auf eine Methode zur Mittelung von Modellen, die mit verschiedenen Hyperparametern fein abgestimmt sind. Es ist einfach, aber effektiv und erreicht eine Genauigkeit von 90,94 % auf ImageNet-1K und übertrifft damit frühere Arbeiten auf CoAtNet-7 (90,88 %) [38] und ViT-G (90,45 %) [255]. Die Tabelle fasst die verschiedenen Modellsuppenmethoden zusammen.
Beim Multitask-Lernen (MTL) werden das vorab trainierte Modell und der Aufgabenvektor (d. h. τi = Wft − Wpre, die Differenz zwischen dem vorab trainierten Modell und dem feinabgestimmten Modell) kombiniert, um insgesamt eine bessere Leistung zu erzielen Aufgaben. Basierend auf dieser Beobachtung verbessert Aufgabenarithmetik[94] die Leistung des Modells bei Aufgaben durch die Feinabstimmung von Aufgabenvektoren durch Addition und lineare Kombination, was sich, wie gezeigt, zu einer flexiblen und effizienten Methode zur direkten Bearbeitung vorab trainierter Modelle entwickelt hat in der Abbildung: Übernahmeaufgaben Arithmetik und LoraHub (Low-Rank Adaptations Hub).
Darüber hinaus begrenzt die Modellfusion im Unterraum die Trainingsbahn auf einen niedrigdimensionalen Unterraum, was Belastung und Schwierigkeit reduzieren kann.
WA erhält das endgültige Modell durch Mittelung der Gewichte verschiedener Tiefenmodelle ohne zusätzlichen Rechenaufwand oder Trainingsprozess [109, 159]. Wenn sich die Zufallsmodelle hinsichtlich Darstellungsmöglichkeiten, Struktur oder Trainingsdaten erheblich unterscheiden, erreichen die Ergebnisse der Fusion im Allgemeinen möglicherweise nicht die erwartete Leistung. Die lineare Interpolation eines Modells von Grund auf unter Verwendung derselben Hyperparameterkonfiguration, aber mit einer anderen Datenreihenfolge ist noch weniger effektiv als ein stochastisches Modell [59]. Daher zielen zahlreiche vorgeschlagene Methoden darauf ab, den WA-Prozess auf andere mathematische Weise zu optimieren.
Darüber hinaus, wenn Modelle einen Teil ihrer Optimierungskurve teilen (z. B. Checkpoint Averaging, Tail Averaging, SWA [99, 149] usw.) oder auf demselben vorab trainierten Modell feinabgestimmt werden (z. B. Model Soup [ 239] usw.), ist die Genauigkeit des Interpolationsmodells besser [167]. Darüber hinaus mittelt Model Soup [239] Modelle mit unterschiedlichen Hyperparameterkonfigurationen, um das Endergebnis zu erhalten. Darüber hinaus kann die Auswahl geeigneter Gewichte bei der Modellmittelung auch eine Herausforderung sein, die oft mit Subjektivität behaftet ist. Komplexere Mechanismen zur Gewichtsauswahl erfordern möglicherweise umfangreiche und komplexe Experimente und Kreuzvalidierungen.
WA ist eine vielversprechende Technologie im Deep Learning. Sie kann in Zukunft als Modelloptimierungstechnologie eingesetzt werden, um Gewichtsschwankungen zwischen verschiedenen Iterationen zu reduzieren und die Stabilität und Konvergenzgeschwindigkeit zu verbessern. WA kann die Aggregationsphase des Federated Learning (FL) verbessern, um die Privatsphäre besser zu schützen und zukünftige Kommunikationskosten zu senken. Darüber hinaus wird erwartet, dass durch die Implementierung der Netzwerkkomprimierung auf dem Endgerät der Speicherplatz und der Rechenaufwand des Modells auf Geräten mit eingeschränkten Ressourcen reduziert werden [250]. Kurz gesagt ist WA eine vielversprechende und kostengünstige DL-Technologie, die in Bereichen wie FL eingesetzt werden kann, um die Leistung zu verbessern und den Speicheraufwand zu reduzieren.
Ensemble-Learning oder Multi-Classifier-System ist eine Technik, die mehrere Einzelmodelle integriert, um eine endgültige Vorhersage zu generieren, einschließlich Abstimmung, Mittelung [195] usw. Es verbessert die Gesamtleistung und verringert die Varianz des Modells, wodurch Probleme wie Überanpassung, Instabilität und begrenztes Datenvolumen gelöst werden.
Basierend auf vorhandenen vorab trainierten Quellmodellen stellt die Modellwiederverwendung[266] die Modelle bereit, die für die Anwendung auf neue Aufgaben erforderlich sind, ohne dass ein neues Modell von Grund auf neu trainiert werden muss. Es spart Zeit und Rechenressourcen und bietet eine bessere Leistung unter begrenzten Ressourcenbedingungen [249]. Da der Schwerpunkt des Transferlernens außerdem auf der Lösung der Vorhersageaufgabe im Zielbereich liegt, kann die Wiederverwendung von Modellen als eine Art Transferlernen betrachtet werden. Für das Transferlernen sind jedoch gekennzeichnete Daten aus der Quelldomäne und der Zieldomäne erforderlich, während bei der Modellwiederverwendung nur unbeschriftete Daten erfasst werden können, Daten aus der Quelldomäne jedoch nicht verwendet werden können [153].
Im Gegensatz zum Multi-Klassifizierer-Ensemble-Lernen verwenden die meisten aktuellen Methoden vorhandene Merkmale, Beschriftungen oder Modalitäten wieder, um endgültige Vorhersagen zu erhalten [176, 266], ohne große Mengen an Trainingsdaten zu speichern [245]. Eine weitere zentrale Herausforderung bei der Modellwiederverwendung besteht darin, nützliche Modelle aus einer Reihe vorab trainierter Modelle für eine bestimmte Lernaufgabe zu identifizieren.
Die Verwendung eines einzelnen Modells zur Modellwiederverwendung erzeugt zu viele homogene Informationen (z. B. passt ein in einer Domäne trainiertes Modell möglicherweise nicht zu den Daten einer anderen Domäne), und es ist schwierig, ein einzelnes vorab trainiertes Modell zu finden, das vollständig geeignet ist die Zieldomäne. Im Allgemeinen wird die Verwendung einer Reihe ähnlicher Modelle zur Erzielung einer besseren Leistung als ein einzelnes Modell als Multiple Model Reuse (MMR)[153] dargestellt.
Die folgende Tabelle vergleicht die Eigenschaften verschiedener Wiederverwendungsmethoden. Kurz gesagt, die Wiederverwendung von Modellen kann die für die Verwendung vorab trainierter Modelle erforderliche Datenmenge erheblich reduzieren und das Problem des großen Bandbreitenverbrauchs bei der Datenübertragung zwischen verschiedenen Enden lösen. Die Wiederverwendung mehrerer Modelle bietet auch ein breites Anwendungsspektrum, z. B. Spracherkennung, sichere und private interaktive Systeme, digitale Netzhaut [64] usw.
Im Vergleich zu verwandten Modellfusionsalgorithmen wie dem föderierten Lernen [88, 89, 160], die bestimmte Anforderungen an Modellparameter und -skala stellen, verwendet die „Ensemble-Lernmethode“ Vorhersagen, um mehrere heterogene schwache Klassifikatoren zu kombinieren, und das ist der Fall keine solche Grenze. Darüber hinaus haben Netzwerke mit unterschiedlichen Architekturen in der Integrationsmethode offensichtlichere Vergleichseffekte als WA. Ensemble-Ansätze erfordern jedoch die Pflege und Ausführung mehrerer trainierter Modelle sowie deren gemeinsame Ausführung zum Testzeitpunkt. Angesichts der Größe und Komplexität von Deep-Learning-Modellen ist dieser Ansatz nicht für Anwendungen mit begrenzten Rechenressourcen und -kosten geeignet [204]. Aufgrund der Vielfalt des Ensemble-Lernrahmens kann Modellvielfalt erreicht und die Generalisierungsfähigkeiten verbessert werden. Dies wird in Zukunft für den Umgang mit Datenänderungen und gegnerischen Angriffen wichtig sein. Es wird erwartet, dass Ensemble-Learning im Deep Learning Vertrauensschätzungen und Unsicherheitsmaße für Modellvorhersagen liefert, die für die Sicherheit und Zuverlässigkeit von Entscheidungsunterstützungssystemen, autonomem Fahren [74], medizinischer Diagnose usw. von entscheidender Bedeutung sind. In den letzten Jahren ist im Bereich der Deep Model Fusion eine Vielzahl neuer Forschungen entstanden, die auch die Entwicklung verwandter Anwendungsfelder vorangetrieben haben. Um die Sicherheits- und Zentralisierungsherausforderungen der Datenspeicherung zu bewältigen, ermöglicht Federated Learning (FL) [160, 170] vielen teilnehmenden Modellen, gemeinsam ein gemeinsames globales Modell zu trainieren und gleichzeitig den Datenschutz zu schützen, ohne dass eine Sammlung erforderlich ist ist auf einem zentralen Server zentralisiert. Es kann auch als Mehrparteien-Lernproblem angesehen werden [177]. Insbesondere Aggregation ist ein wichtiger Prozess von FL, der Modell- oder Parameteraktualisierungen enthält, die von verschiedenen Parteien (z. B. Geräten, Organisationen oder Einzelpersonen) trainiert werden. Die Abbildung zeigt zwei verschiedene Aggregationsmethoden in zentraler und dezentraler FL. , Links: Zentralisiertes föderiertes Lernen zwischen einem zentralen Server und Client-Terminals, Übertragung von Modellen oder Gradienten und schließlich Aggregation auf dem Server. Rechts: Dezentrales föderiertes Lernen überträgt und aggregiert Modelle zwischen Client-Terminals, ohne dass ein zentraler Server erforderlich ist. Die folgende Tabelle zeigt die verschiedenen Aggregationsmethoden des föderierten Lernens: Kurz gesagt, die Essenz des Aggregationsschritts in FL ist eine Modellfusionstechnik. Durch die Wahl einer angemessenen Modellfusionsmethode können die Auswirkungen bestimmter Teilnehmer- oder Einzeldaten auf das endgültige Modell verringert und so die Generalisierungsfähigkeit und Anpassungsfähigkeit des Modells im globalen Bereich verbessert werden. Von guten Aggregationsmethoden wird erwartet, dass sie dazu beitragen, eine Reihe von Herausforderungen beim föderierten Lernen in der Zukunft zu bewältigen. Es wird erwartet, dass hochwertige und skalierbare Aggregationsmethoden einer Reihe von Herausforderungen von FL gegenüberstehen, wie z. B. Client-Heterogenität, nicht-IID-heterogenen Daten, begrenzten Rechenressourcen [141] usw. Es wird erwartet, dass FL sein Potenzial in weiteren Bereichen unter Beweis stellen wird, beispielsweise in der Verarbeitung natürlicher Sprache, Empfehlungssystemen [146], medizinischer Bildanalyse [144] usw. Die Feinabstimmung ist ein Grundmodus (z. B. ein vorab trainiertes Modell) und eine effektive Möglichkeit, das Modell für die Ausführung nachgelagerter Aufgaben abzustimmen [23, 41], wodurch mit weniger Aufwand eine bessere Verallgemeinerung erreicht werden kann beschriftete Daten und genauere Ausgabe. Vorab trainierte Modelle werden mit einem relativ aufgabenspezifischen Datensatz trainiert, was immer einen besseren Ausgangspunkt für Trainingskriterien darstellt als eine zufällige Initialisierung. trotz dieses. Im Durchschnitt sind bestehende feinabgestimmte Modelle [28, 29] sogar bessere Basismodelle als gewöhnliche vorab trainierte Modelle für die Feinabstimmung nachgelagerter Aufgaben. Darüber hinaus gibt es viele neuere Arbeiten, die WA mit Feinabstimmung kombinieren, wie in der Abbildung gezeigt, wie z. B. Modellsuppe [239], DiWA [190] usw. Eine Feinabstimmung verbessert die Genauigkeit der Zielverteilung, führt jedoch häufig zu einer verringerten Robustheit gegenüber Verteilungsänderungen. Strategien zur Mittelung fein abgestimmter Modelle mögen einfach sein, aber sie nutzen die Verbindungen zwischen den einzelnen fein abgestimmten Modellen nicht vollständig aus. Daher kann das Training an Zwischenaufgaben vor dem Training an der Zielaufgabe die Fähigkeiten des Basismodells erkunden [180, 185, 224]. Inspiriert von der gegenseitigen Trainingsstrategie [185], [188] optimieren Sie das Modell für Hilfsaufgaben, um verschiedene Hilfsaufgaben zu nutzen und die Out-of-Distribution-Generalisierungsfähigkeiten (OOD) zu verbessern. Die Feinabstimmung des Mittelwerts des Modells reduziert die zum Erreichen des Ziels erforderliche Trainingszeit [28] und führt zu einem genaueren und besser verallgemeinerten Modell. Im Wesentlichen haben verschiedene Feinabstimmungsmethoden (z. B. Feinabstimmung der gefrorenen Schicht, Feinabstimmung der obersten Ebene usw.) auch einen gewissen Einfluss auf die endgültige Genauigkeit und Verteilungsverschiebung [240]. Die Kombination aus WA und Feinabstimmung ist jedoch teuer und weist bestimmte Einschränkungen bei bestimmten Anwendungen auf. Darüber hinaus kann es zu dem Problem einer gespeicherten Checkpoint-Explosion oder eines katastrophalen Vergessens kommen [121], insbesondere wenn es auf Transferlernen angewendet wird. Wissensdestillation (KD) [83] ist eine wichtige Methode zur Integration mehrerer Modelle, die die folgenden zwei Modelltypen umfasst. Lehrermodell bezieht sich auf ein großes und leistungsstarkes Modell, das auf großen Datenmengen trainiert wird und über hohe Vorhersage- und Ausdrucksfähigkeiten verfügt. Das Studentenmodell ist ein relativ kleines Modell mit weniger Parametern und Rechenressourcen [18, 199]. Mithilfe des Wissens des Lehrers (z. B. Ausgabewahrscheinlichkeitsverteilung, Darstellung verborgener Schichten usw.) als Leitfaden für das Training können Schüler mit weniger Ressourcen und höherer Geschwindigkeit Vorhersagefähigkeiten erreichen, die großen Modellen nahekommen [2, 119, 124, 221]. In Anbetracht der Tatsache, dass von mehreren Lehrern oder Schülern eine bessere Leistung als von einem einzelnen Modell erwartet wird [6], wird KD basierend auf dem Aggregationsziel in zwei Kategorien unterteilt, wie in der Abbildung dargestellt. Der erste Methodentyp besteht darin, mehrere Lehrermodelle zusammenzuführen und das Schülermodell direkt zu extrahieren, wie in der Tabelle gezeigt. Derzeit integrieren neuere Arbeiten hauptsächlich die Ergebnisse von Lehrern (z. B. Logits [6, 49, 252] oder Feature-Base-Wissen [143, 241] usw.). Ein anderer Ansatz besteht darin, ein Lehrermodell zu verwenden, um mehrere Schüler zu extrahieren und diese Schülermodelle dann zusammenzuführen. Das Zusammenführen mehrerer Schüler bringt jedoch auch einige Probleme mit sich, wie z. B. einen hohen Bedarf an Rechenressourcen, eine schlechte Interpretierbarkeit und eine übermäßige Abhängigkeit vom Originalmodell. Basismodelle zeigen eine starke Leistung und neue Fähigkeiten bei der Bewältigung komplexer Aufgaben. Große Basismodelle zeichnen sich durch ihren enormen Umfang aus, da sie Milliarden von Parametern enthalten und dabei helfen, komplexe Datenmuster zu erlernen. Insbesondere mit dem jüngsten Aufkommen neuer LLMs [200, 264], wie GPT-3 [17, 172], T5 [187], BERT [41], Megatron-LM, WA-Anwendungen [154, 212, 256] ] LLM erregte mehr Aufmerksamkeit. Darüber hinaus tendieren neuere Arbeiten [120, 256] dazu, bessere Frameworks und Module zu entwerfen, um sie an die Anwendung von LLM anzupassen. Aufgrund der hohen Leistung und der geringen Rechenressourcen kann die Feinabstimmung großer Basismodelle die Robustheit gegenüber Verteilungsänderungen verbessern [240]. Federated Learning
Feinabstimmung
Wissensdestillation
Modellfusion von Basismodellen/LLMs
Das obige ist der detaillierte Inhalt vonRezension! Tiefe Modellfusion (LLM/Basismodell/Verbundlernen/Feinabstimmung usw.). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!