Multimodale Bildsynthese und -bearbeitung erfreuen sich so großer Beliebtheit, dass das Max-Planck-Institut, das Nanyang Technological Institute und andere einen ausführlichen Bericht veröffentlicht haben-KI-php.cn

Multimodale Bildsynthese und -bearbeitung erfreuen sich so großer Beliebtheit, dass das Max-Planck-Institut, das Nanyang Technological Institute und andere einen ausführlichen Bericht veröffentlicht haben

PHPz

Freigeben： 2023-04-09 22:31:01

nach vorne

1129 Leute haben es durchsucht

Das kürzlich von OpenAI veröffentlichte DALLE-2 und das von Google veröffentlichte Imagen haben erstaunliche Effekte bei der Text-zu-Bild-Generierung erzielt, die große Aufmerksamkeit erregt und viele interessante Anwendungen hervorgebracht haben. Die Text-zu-Bild-Generierung ist eine typische Aufgabe im Bereich der multimodalen Bildsynthese und -bearbeitung. Kürzlich führten Forscher des Max-Planck-Instituts, des Nanyang Technological Institute und anderer Institutionen eine detaillierte Untersuchung und Analyse zum Forschungsstand und zur zukünftigen Entwicklung des großen Bereichs der multimodalen Bildsynthese und -bearbeitung durch.

Papieradresse: https://arxiv.org/pdf/2112.13592.pdf
Projektadresse: https://github.com/fnzhan/MISE

Im ersten Kapitel beschreibt diese Rezension die Bedeutung und Gesamtentwicklung multimodaler Bildsynthese- und Bearbeitungsaufgaben sowie den Beitrag und die Gesamtstruktur dieses Papiers.

Im zweiten Kapitel werden in diesem Übersichtsartikel basierend auf den Datenmodalitäten, die die Bildsynthese und -bearbeitung leiten, die am häufigsten verwendeten visuellen Anleitungen (z. B. semantische Karten, Schlüsselpunktkarten, Kantenkarten), Textführung und Sprache vorgestellt Der Szenengraph leitet und verarbeitet die entsprechenden Modaldaten sowie ein einheitliches Darstellungsgerüst.

Im dritten Kapitel klassifiziert der Artikel verschiedene aktuelle Methoden gemäß dem Modellrahmen der Bildsynthese und -bearbeitung, darunter GAN-basierte Methoden, autoregressive Methoden, Diffusionsmodellmethoden und Methoden neuronaler Strahlungsfelder (NeRF).

Da GAN-basierte Methoden im Allgemeinen bedingtes GAN und bedingungslose GAN-Inversion verwenden, unterteilt dieser Artikel diese Kategorie weiter in intramodale Bedingungen (z. B. semantische Karten, Kantenkarten) und Kreuz -modale Bedingungen Modale Bedingungen (wie Text und Sprache) und GAN-Inversion (einheitliche Modalitäten) werden ausführlich beschrieben.

Im Vergleich zu GAN-basierten Methoden kann die autoregressive Modellmethode multimodale Daten natürlicher verarbeiten und das derzeit beliebte Transformer-Modell nutzen. Autoregressive Methoden erlernen im Allgemeinen zunächst einen Vektorquantisierungsencoder, um Bilder diskret als Token-Sequenzen darzustellen, und modellieren dann autoregressiv die Verteilung der Token. Da Daten wie Text und Sprache als Token dargestellt und als Bedingungen für die autoregressive Modellierung verwendet werden können, können verschiedene multimodale Bildsynthese- und Bearbeitungsaufgaben in einem einzigen Framework vereint werden.

In letzter Zeit wird das beliebte Diffusionsmodell auch häufig bei multimodalen Synthese- und Bearbeitungsaufgaben eingesetzt. Beispielsweise werden die erstaunlichen Modelle DALLE-2 und Imagen beide auf der Grundlage des Diffusionsmodells implementiert. Im Vergleich zu GAN weist das Diffusionsgenerierungsmodell einige gute Eigenschaften auf, wie z. B. statisches Trainingsziel und einfache Skalierbarkeit. In diesem Artikel werden bestehende Methoden anhand von bedingten Diffusionsmodellen und vorab trainierten Diffusionsmodellen detailliert klassifiziert und analysiert.

Die oben genannten Methoden konzentrieren sich hauptsächlich auf die multimodale Synthese und Bearbeitung von 2D-Bildern. Mit der rasanten Entwicklung neuronaler Strahlungsfelder (NeRF) haben die multimodale Synthese und Bearbeitung für die 3D-Wahrnehmung in letzter Zeit immer mehr Aufmerksamkeit auf sich gezogen. Die multimodale Synthese und Bearbeitung für die 3D-Wahrnehmung stellt eine anspruchsvollere Aufgabe dar, da die Konsistenz mehrerer Ansichten berücksichtigt werden muss. Dieser Artikel klassifiziert und fasst die bestehenden Arbeiten zu drei Methoden der Einzelszenenoptimierung NeRF, generativem NeRF und NeRF-Inversion zusammen.

Anschließend werden in dieser Rezension die oben genannten vier Modellmethoden verglichen und diskutiert. Insgesamt bevorzugen aktuelle, hochmoderne Modelle autoregressive und Diffusionsmodelle gegenüber GANs. Die Anwendung von NeRF bei multimodalen Synthese- und Bearbeitungsaufgaben eröffnet ein neues Fenster für die Forschung auf diesem Gebiet.

In Kapitel 4 führt diese Übersicht beliebte Datensätze und entsprechende modale Annotationen im Bereich der multimodalen Synthese und Bearbeitung zusammen und zielt auf typische Aufgaben jeder Modalität ab (semantische Bildsynthese, Text- to-image synthese, sprachgesteuerte Bildbearbeitung) präsentieren einen quantitativen Vergleich aktueller Methoden.

In Kapitel 5 werden in dieser Rezension die aktuellen Herausforderungen und zukünftigen Richtungen in diesem Bereich erörtert und analysiert, einschließlich großer multimodaler Datensätze, genauer und zuverlässiger Bewertungsmetriken, effizienter Netzwerkarchitektur und der 3D-wahrgenommenen Entwicklungsrichtung.

In den Kapiteln 6 und 7 geht die Rezension auf die möglichen gesellschaftlichen Auswirkungen dieses Bereichs ein und fasst den Inhalt bzw. Beitrag des Artikels zusammen.

Das obige ist der detaillierte Inhalt vonMultimodale Bildsynthese und -bearbeitung erfreuen sich so großer Beliebtheit, dass das Max-Planck-Institut, das Nanyang Technological Institute und andere einen ausführlichen Bericht veröffentlicht haben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!