Die erstaunliche Leistung von ChatGPT in Wenig-Schuss- und Null-Schuss-Szenarien hat die Forscher zu der Überzeugung geführt, dass „Vortraining“ der richtige Weg ist.
Pretrained Foundation Models (PFM) gelten als Grundlage für verschiedene nachgelagerte Aufgaben in verschiedenen Datenmodi, d. h. basierend auf umfangreichen Daten, für BERT, GPT-3, MAE, DALLE-E und ChatGPT. usw. Das vorab trainierte Basismodell wird trainiert, um eine sinnvolle Parameterinitialisierung für nachgelagerte Anwendungen bereitzustellen.
Die Pre-Training-Idee hinter PFM spielt eine wichtige Rolle bei der Anwendung großer Modelle. Anders als bei den bisherigen Methoden der Merkmalsextraktion mithilfe von Faltungs- und rekursiven Modulen spielt die generative Pre-Training-Methode (GPT) eine wichtige Rolle verwendet Transformer Als Feature-Extraktor, um autoregressives Training für große Datensätze durchzuführen.
Da PFM in verschiedenen Bereichen große Erfolge erzielt hat, wurden in den letzten Jahren zahlreiche Methoden, Datensätze und Bewertungsindikatoren vorgeschlagen. Die Branche benötigt eine umfassende Überprüfung, die den Entwicklungsprozess von BERT bis ChatGPT verfolgt . .
Kürzlich haben Forscher der Beihang University, der Michigan State University, der Lehigh University, dem Nanyang Institute of Technology, Duke und anderen namhaften in- und ausländischen Universitäten und Unternehmen gemeinsam einen Bericht über Grundmodelle vor dem Training verfasst und aktuelle Forschungsfortschritte dargelegt in den Bereichen Text, Bild und Grafik sowie aktuelle und zukünftige Herausforderungen und Chancen.
Link zum Papier: https://arxiv.org/pdf/2302.09419.pdf
Die Forscher überprüften zunächst die Grundkomponenten und die bestehende Vorverarbeitung der Verarbeitung natürlicher Sprache, Computer Vision und Grafiklernen. Anschließend werden andere Datenmodi anderer fortgeschrittener PFM und vereinheitlichter PFM unter Berücksichtigung der Datenqualität und -quantität sowie der damit verbundenen Forschung zu den Grundprinzipien von PFM, einschließlich Modelleffizienz und -komprimierung, Sicherheit und Datenschutz, aufgeführt Forschungsrichtungen, Herausforderungen und offene Fragen.
Pre-Training-Basismodelle (PFMs) sind ein wichtiger Bestandteil beim Aufbau künstlicher Intelligenzsysteme im Zeitalter von Big Data. Sie werden häufig in der Verarbeitung natürlicher Sprache (NLP) und Computer Vision eingesetzt (CV) und Graph Learning (GL) Die drei Hauptbereiche der künstlichen Intelligenz wurden umfassend erforscht und angewendet.
PFMs sind allgemeine Modelle, die in verschiedenen Bereichen oder domänenübergreifenden Aufgaben wirksam sind und ein großes Potenzial beim Erlernen von Merkmalsdarstellungen in verschiedenen Lernaufgaben wie Textklassifizierung, Textgenerierung, Bildklassifizierung, Objekterkennung und Bildklassifizierung usw. aufweisen .
PFMs zeigen eine hervorragende Leistung beim Training mehrerer Aufgaben mit großen Korpora und bei der Feinabstimmung ähnlicher kleiner Aufgaben, wodurch eine schnelle Datenverarbeitung eingeleitet werden kann.
PFMs basieren auf Pre-Training-Technologie, die darauf abzielt, eine große Menge an Daten und Aufgaben zu nutzen, um ein allgemeines Modell zu trainieren, das in verschiedenen nachgelagerten Anwendungen leicht verfeinert werden kann.
Die Idee des Vortrainings entstand aus dem Transferlernen bei Lebenslaufaufgaben. Nachdem die Menschen die Wirksamkeit des Vortrainings im Lebenslaufbereich erkannt hatten, begannen sie, Vortrainingstechniken zu verwenden, um die Modellleistung in anderen Bereichen zu verbessern. Wenn vorab trainierte Techniken auf den NLP-Bereich angewendet werden, können gut trainierte Sprachmodelle (LMs) umfangreiches Wissen erfassen, das für nachgelagerte Aufgaben von Vorteil ist, wie z. B. langfristige Abhängigkeiten, hierarchische Beziehungen usw.
Darüber hinaus besteht der wesentliche Vorteil des Vortrainings im Bereich NLP darin, dass die Trainingsdaten aus jedem unbeschrifteten Textkorpus stammen können, d. h. es gibt eine unbegrenzte Menge an Trainingsdaten im Vortrainingsprozess.
Das frühe Vortraining war eine statische Methode wie NNLM und Word2vec, die sich nur schwer an unterschiedliche semantische Umgebungen anpassen ließ; später schlugen einige Forscher dynamische Vortrainingstechnologien wie BERT, XLNet usw. vor.
Geschichte und Entwicklung von PFMs in den Bereichen NLP, CV und GL
PFMs, die auf Pre-Training-Techniken basieren, nutzen große Korpora, um gemeinsame semantische Darstellungen zu erlernen. Mit der Einführung dieser bahnbrechenden Arbeiten haben verschiedene PFMs begonnen entstanden und wurden auf nachgelagerte Aufgaben und Anwendungen angewendet.
Ein bemerkenswerter PFM-Anwendungsfall ist das kürzlich beliebte ChatGPT.
ChatGPT wird anhand des generativen Pre-Training-Transformers GPT-3.5 nach dem Training auf einem gemischten Korpus aus Text und Code verfeinert; ChatGPT nutzt Reinforcement Learning from Human Feedback (RLHF)-Technologie und ist derzeit eine der vielversprechendsten Methoden, um große LMs mit menschlichen Absichten in Einklang zu bringen.
Die überlegene Leistung von ChatGPT kann zu einem kritischen Punkt in der Transformation des Trainingsparadigmas jedes PFM-Typs führen, d. Denken) und letztendlich zur allgemeinen künstlichen Intelligenz übergehen.
In diesem Artikel untersuchen Forscher hauptsächlich PFM in Bezug auf Text, Bilder und Grafiken, bei denen es sich ebenfalls um eine relativ ausgereifte Forschungsklassifizierungsmethode handelt.
Für Texte können Sprachmodelle eine Vielzahl von Aufgaben erfüllen, indem sie das nächste Wort oder Zeichen vorhersagen. Beispielsweise können PFMs für maschinelle Übersetzung, Frage-Antwort-Systeme, Themenmodellierung, Stimmungsanalyse usw. verwendet werden .
Für Bilder werden, ähnlich wie bei PFMs im Text, große Datensätze verwendet, um ein großes Modell zu trainieren, das für mehrere CV-Aufgaben geeignet ist.
Für Diagramme werden ähnliche Ideen vor dem Training auch verwendet, um PFMs zu erhalten, die für viele nachgelagerte Aufgaben verwendet werden können.
Zusätzlich zu PFMs für bestimmte Datendomänen werden in dem Artikel auch einige andere erweiterte PFMs besprochen und erläutert, z. B. PFMs für Sprach-, Video- und domänenübergreifende Daten sowie multimodale PFMs.
Darüber hinaus zeichnet sich ein großer Fusionstrend von PFMs ab, die in der Lage sind, Multimodalität zu bewältigen, nämlich die sogenannten einheitlichen PFMs. Forscher definierten zunächst das Konzept der einheitlichen PFMs und überprüften dann den Stand der Technik. Kunst in der aktuellen Forschung Unified PFMs, einschließlich OFA, UNIFIED-IO, FLAVA, BEiT-3 usw.
Basierend auf den Merkmalen bestehender PFMs in diesen drei Bereichen kamen die Forscher zu dem Schluss, dass PFMs die folgenden zwei Hauptvorteile haben:
1 Es ist nur eine minimale Feinabstimmung erforderlich, um die Leistung des Modells bei nachgelagerten Aufgaben zu verbessern;
2. PFMs haben den Qualitätstest bestanden.
Anstatt ein Modell von Grund auf zu erstellen, um ein ähnliches Problem zu lösen, ist es eine bessere Option, PFMs auf einen aufgabenrelevanten Datensatz anzuwenden.
Die enormen Aussichten von PFMs haben viele verwandte Arbeiten inspiriert, die sich auf Themen wie Modelleffizienz, Sicherheit und Komprimierung konzentrieren.
Die Merkmale dieser Rezension sind:
Referenz: https://arxiv.org/abs/2302.09419
Das obige ist der detaillierte Inhalt vonVon BERT bis ChatGPT, ein umfassender Überblick über neun Top-Forschungseinrichtungen, darunter die Beihang-Universität: das „Grundmodell vor der Ausbildung', das wir im Laufe der Jahre gemeinsam verfolgt haben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!