Aufschlüsselung der Integrationsinnovation von NLP und CV: Bestandsaufnahme des multimodalen Deep Learning der letzten Jahre-KI-php.cn

In den letzten Jahren haben die Bereiche NLP und CV kontinuierliche methodische Durchbrüche erzielt. Nicht nur Einzelmodalmodelle haben Fortschritte gemacht, sondern auch groß angelegte multimodale Methoden sind zu einem sehr beliebten Forschungsgebiet geworden.

Aufschlüsselung der Integrationsinnovation von NLP und CV: Bestandsaufnahme des multimodalen Deep Learning der letzten Jahre

Papieradresse: https://arxiv.org/pdf/2301.04856v1.pdf
Projektadresse: https://github.com/slds-lmu/seminar_multimodal_dl

In einem aktuellen Artikel hat der Forscher Matthias Aßenmacher die fortschrittlichsten Forschungsmethoden in den beiden Teilbereichen des Deep Learning untersucht und versucht, einen umfassenden Überblick zu geben. Darüber hinaus werden Modellierungsrahmen zur Umwandlung einer Modalität in eine andere diskutiert (Kapitel 3.1 und 3.2) sowie Repräsentationslernmodelle, die eine Modalität nutzen, um eine andere zu verbessern (Kapitel 3.3 und Kapitel 3.4). Den zweiten Teil schließen die Forscher mit der Einführung einer Architektur ab, die auf die gleichzeitige Verarbeitung beider Modalitäten ausgerichtet ist (Kapitel 3.5). Abschließend behandelt der Beitrag auch andere Modalitäten (Kapitel 4.1 und 4.2) sowie allgemeine multimodale Modelle (Kapitel 4.3), die in der Lage sind, unterschiedliche Aufgaben auf unterschiedlichen Modalitäten in einer einheitlichen Architektur zu bewältigen. Eine interessante Anwendung („Generative Kunst“, Kapitel 4.4) bildet schließlich das i-Tüpfelchen dieser Rezension. 🔜 Vision. Durch diese fünf Modi nehmen wir die Welt um uns herum wahr und verstehen sie. „Multimodalität“ bedeutet, eine Kombination mehrerer Informationskanäle zu nutzen, um gleichzeitig die Umgebung zu verstehen. Wenn Kleinkinder beispielsweise das Wort „Katze“ lernen, sprechen sie das Wort auf unterschiedliche Weise laut aus, indem sie auf die Katze zeigen und Geräusche wie „Miau“ machen. KI-Forscher nutzen den menschlichen Lernprozess als Paradigma und kombinieren verschiedene Modalitäten, um Deep-Learning-Modelle zu trainieren.

Oberflächlich betrachtet optimieren Deep-Learning-Algorithmen eine definierte Zielfunktion, indem sie ein neuronales Netzwerk trainieren, um eine Verlustfunktion zu optimieren. Die Optimierung, d. h. die Minimierung des Verlusts, wird durch ein numerisches Optimierungsverfahren namens Gradientenabstieg erreicht. Daher können Deep-Learning-Modelle nur numerische Eingaben verarbeiten und nur numerische Ausgaben erzeugen. Allerdings stoßen wir bei multimodalen Aufgaben häufig auf unstrukturierte Daten wie Bilder oder Texte. Daher ist die erste Frage bei multimodalen Aufgaben, wie man die Eingabe numerisch darstellt; die zweite ist, wie man verschiedene Modalitäten angemessen kombiniert.

Zum Beispiel könnte es eine typische Aufgabe sein, ein Deep-Learning-Modell zu trainieren, um ein Bild einer Katze zu erstellen. Zuerst muss der Computer die Texteingabe „Katze“ verstehen und diese Informationen dann irgendwie in ein bestimmtes Bild umwandeln. Daher ist es notwendig, die Kontextbeziehung zwischen Wörtern im Eingabetext und die räumliche Beziehung zwischen Pixeln im Ausgabebild zu bestimmen. Was für ein kleines Kind einfach sein mag, kann für einen Computer eine große Herausforderung sein. Beide müssen ein gewisses Verständnis des Wortes „Katze“ haben, einschließlich der Bedeutung und des Aussehens des Tieres.

Aufschlüsselung der Integrationsinnovation von NLP und CV: Bestandsaufnahme des multimodalen Deep Learning der letzten Jahre

Eine gängige Methode im aktuellen Bereich des Deep Learning besteht darin, Einbettungen zu generieren, die Katzen numerisch als Vektoren in einem latenten Raum darstellen. Um dies zu erreichen, wurden in den letzten Jahren verschiedene Methoden und Algorithmenarchitekturen entwickelt. Dieser Artikel bietet einen Überblick über verschiedene Methoden, die beim multimodalen Deep Learning auf dem neuesten Stand der Technik (SOTA) verwendet werden, um die Herausforderungen zu meistern, die sich aus unstrukturierten Daten und Kombinationen verschiedener modaler Eingaben ergeben.

Einleitung zum Kapitel

Da multimodale Modelle normalerweise Text und Bilder als Eingabe oder Ausgabe verwenden, konzentriert sich Kapitel 2 auf Methoden der Verarbeitung natürlicher Sprache (NLP) und der Computer Vision (CV). Methoden im Bereich NLP konzentrieren sich hauptsächlich auf die Textdatenverarbeitung, während CV sich hauptsächlich mit der Bildverarbeitung befasst.

Ein sehr wichtiges Konzept zu NLP (Abschnitt 2.1) ist die Worteinbettung, die mittlerweile ein wichtiger Bestandteil fast aller multimodalen Deep-Learning-Architekturen ist. Dieses Konzept legte auch den Grundstein für Transformer-basierte Modelle wie BERT, das bei mehreren NLP-Aufgaben erhebliche Fortschritte erzielt hat. Insbesondere der Selbstaufmerksamkeitsmechanismus von Transformer hat das NLP-Modell völlig verändert, weshalb die meisten NLP-Modelle Transformer als Kern verwenden.

In Computer Vision (Abschnitt 2.2) stellt der Autor verschiedene Netzwerkarchitekturen vor, nämlich ResNet, EfficientNet, SimCLR und BYOL. In beiden Bereichen ist es von großem Interesse, verschiedene Ansätze und ihre Leistung bei anspruchsvollen Benchmarks zu vergleichen. Daher bietet Unterabschnitt 2.3 am Ende von Kapitel 2 einen umfassenden Überblick über verschiedene Datensätze, Pre-Training-Aufgaben und Benchmarks für CV und NLP.

Kapitel 3 konzentriert sich auf verschiedene multimodale Architekturen und deckt verschiedene Kombinationen von Text und Bildern ab. Wir stellen zunächst die Img2Text-Aufgabe (Abschnitt 3.1), den Microsoft COCO-Datensatz für die Objekterkennung und den Meshed-Memory Transformer für die Bilderfassung vor.

Darüber hinaus entwickelten die Forscher eine Methode, um Bilder basierend auf kurzen Textaufforderungen zu generieren (Abschnitt 3.2). Die ersten Modelle, die diese Aufgabe erfüllten, waren Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs). In den letzten Jahren wurden diese Methoden kontinuierlich verbessert und die heutige SOTA-Transformer-Architektur und textgesteuerte Diffusionsmodelle wie DALL-E und GLIDE haben bemerkenswerte Ergebnisse erzielt. Eine weitere interessante Frage ist, wie Bilder zur Unterstützung von Sprachmodellen genutzt werden können (Abschnitt 3.3). Dies kann durch sequentielle Einbettung, fortgeschrittenere tatsächliche Einbettung oder direkt im Transformer erreicht werden.

Werfen Sie auch einen Blick auf textfähige CV-Modelle wie CLIP, ALIGN und Florence (Abschnitt 3.4). Die Verwendung von Basismodellen impliziert die Wiederverwendung von Modellen (z. B. CLIP in DALL-E 2) sowie einen kontrastierenden Verlust von Text-Bild-Verbindungen. Darüber hinaus ermöglicht Zero-Shot eine mühelose Klassifizierung neuer und unsichtbarer Daten mit Feinabstimmung. Insbesondere CLIP, eine Open-Source-Architektur zur Bildklassifizierung und -generierung, erregte im vergangenen Jahr große Aufmerksamkeit. Einige andere Architekturen zur gleichzeitigen Verarbeitung von Text und Bildern werden am Ende von Kapitel 3 (Abschnitt 3.5) vorgestellt.

Data2Sec verwendet beispielsweise dieselbe Lernmethode für den Umgang mit Sprache, Bild und Sprache und versucht, einen gemeinsamen Weg für den Umgang mit verschiedenen Modalitäten in einer Architektur zu finden. Darüber hinaus erweitert VilBert die beliebte BERT-Architektur, um Bild- und Texteingaben durch die Implementierung gemeinsamer Aufmerksamkeit zu verarbeiten. Dieser Ansatz wird auch in Googles Deepmind Flamingo verwendet. Darüber hinaus zielt Flamingo darauf ab, mehrere Aufgaben mit einem einzigen visuellen Sprachmodell durch Lernen in wenigen Schritten und Einfrieren vorab trainierter Seh- und Sprachmodelle zu bewältigen.

Das letzte Kapitel (Kapitel 4) stellt Methoden vor, die andere Modalitäten als Text und Bilder verarbeiten können, wie z. B. Video, Sprache oder Tabellendaten. Das übergeordnete Ziel besteht darin, universelle multimodale Architekturen zu erforschen, die nicht um der Modalität willen modal sind, sondern Herausforderungen problemlos bewältigen können. Daher ist es auch notwendig, sich mit dem Problem der multimodalen Fusion und Ausrichtung zu befassen und zu entscheiden, ob gemeinsame oder koordinierte Darstellungen verwendet werden sollen (Abschnitt 4.1). Darüber hinaus wird die genaue Kombination von strukturierten und unstrukturierten Daten näher beschrieben (Abschnitt 4.2).

Der Autor schlägt außerdem verschiedene Integrationsstrategien vor, die in den letzten Jahren entwickelt wurden, die dieser Artikel anhand von zwei Anwendungsfällen in der Überlebensanalyse und der Ökonomie veranschaulicht. Darüber hinaus besteht eine weitere interessante Forschungsfrage darin, wie unterschiedliche Aufgaben in einem sogenannten Mehrzweckmodell (Abschnitt 4.3) bewältigt werden können, wie es die Google-Forscher in ihrem „Pathway“-Modell erstellt haben. Abschließend demonstriert der Artikel eine typische Anwendung von multimodalem Deep Learning in der Kunstszene, bei der Bildgenerierungsmodelle wie DALL-E zur Schaffung von Kunstwerken im Bereich der generativen Kunst verwendet werden (Abschnitt 4.4).

Weitere Informationen finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonAufschlüsselung der Integrationsinnovation von NLP und CV: Bestandsaufnahme des multimodalen Deep Learning der letzten Jahre. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!