Die Aufgabe der Bild-zu-Video-Generierung (I2V) ist eine Herausforderung im Bereich Computer Vision, die darauf abzielt, statische Bilder in dynamische Videos umzuwandeln. Die Schwierigkeit dieser Aufgabe besteht darin, aus einem einzelnen Bild dynamische Informationen in der zeitlichen Dimension zu extrahieren und zu generieren und dabei die Authentizität und visuelle Kohärenz des Bildinhalts zu wahren. Bestehende I2V-Methoden erfordern häufig komplexe Modellarchitekturen und große Mengen an Trainingsdaten, um dieses Ziel zu erreichen.
Kürzlich wurde ein neues Forschungsergebnis „I2V-Adapter: Ein allgemeiner Bild-zu-Video-Adapter für Videodiffusionsmodelle“ unter der Leitung von Kuaishou veröffentlicht. Diese Forschung stellt eine innovative Bild-zu-Video-Konvertierungsmethode vor und schlägt ein leichtes Adaptermodul vor, den I2V-Adapter. Dieses Adaptermodul ist in der Lage, statische Bilder in dynamische Videos umzuwandeln, ohne die ursprüngliche Struktur und vorab trainierte Parameter vorhandener T2V-Modelle (Text-to-Video Generation) zu ändern. Diese Methode hat breite Anwendungsaussichten im Bereich der Bild-Video-Konvertierung und kann mehr Möglichkeiten für die Videoerstellung, Medienkommunikation und andere Bereiche eröffnen. Die Veröffentlichung der Forschungsergebnisse ist von großer Bedeutung für die Weiterentwicklung der Bild- und Videotechnologie und stellt ein wirksames Werkzeug und eine Methode für Forscher in verwandten Bereichen dar.
Im Vergleich zu vorhandenen Methoden verfügt der I2V-Adapter über mehr trainierbare Parameter. Es wurden enorme Verbesserungen erzielt hergestellt, und die Anzahl der Parameter kann bis zu 22 Millionen erreichen, was nur 1 % der Mainstream-Lösung Stable Video Diffusion ausmacht. Gleichzeitig ist der Adapter auch mit maßgeschneiderten T2I-Modellen (wie DreamBooth, Lora) und Steuerungstools (wie ControlNet) kompatibel, die von der Stable Diffusion-Community entwickelt wurden. Durch Experimente haben die Forscher die Wirksamkeit des I2V-Adapters bei der Generierung hochwertiger Videoinhalte nachgewiesen und damit neue Möglichkeiten für kreative Anwendungen im I2V-Bereich eröffnet.
Zeitliche Modellierung mit stabiler Diffusion
Im Vergleich zur Bildgenerierung steht die Videogenerierung vor einer einzigartigen Herausforderung, nämlich der Modellierung der zeitlichen Kohärenz zwischen Videobildern und Geschlecht. Die meisten aktuellen Methoden basieren auf vorab trainierten T2I-Modellen wie Stable Diffusion und SDXL, indem sie Timing-Module zur Modellierung der Timing-Informationen in Videos einführen. Inspiriert von AnimateDiff, einem Modell, das ursprünglich für benutzerdefinierte T2V-Aufgaben entwickelt wurde, modelliert es Timing-Informationen durch die Einführung eines vom T2I-Modell entkoppelten Timing-Moduls und behält die Fähigkeit des ursprünglichen T2I-Modells bei, reibungslose Videos zu generieren. Daher glauben die Forscher, dass das vorab trainierte Zeitmodul als universelle Zeitdarstellung angesehen werden kann und ohne Feinabstimmung auf andere Videogenerierungsszenarien wie die I2V-Generierung angewendet werden kann. Daher verwendeten die Forscher direkt das vorab trainierte AnimateDiff-Timing-Modul und behielten seine Parameter bei.
Adapter für Aufmerksamkeitsebenen
Eine weitere Herausforderung bei der I2V-Aufgabe besteht darin, die ID-Informationen des Eingabebildes beizubehalten. Derzeit gibt es zwei Hauptlösungen: Die eine besteht darin, das Eingabebild mit einem vorab trainierten Bildcodierer zu codieren und die codierten Merkmale über einen Kreuzaufmerksamkeitsmechanismus in das Modell einzufügen, um den Entrauschungsprozess zu steuern mit dem verrauschten Eingang in der Kanaldimension verkettet und dann gemeinsam in das nachfolgende Netzwerk eingespeist. Die erstere Methode kann jedoch dazu führen, dass sich die generierte Video-ID ändert, da es für den Bildencoder schwierig ist, die zugrunde liegenden Informationen zu erfassen, während die letztere Methode häufig eine Änderung der Struktur und der Parameter des T2I-Modells erfordert, was zu hohen Schulungskosten und schlechten Ergebnissen führt Kompatibilität.
Um die oben genannten Probleme zu lösen, schlugen Forscher einen I2V-Adapter vor. Insbesondere gibt der Forscher das Eingabebild und die verrauschte Eingabe parallel in das Netzwerk ein. Im räumlichen Block des Modells fragen alle Frames zusätzlich die ersten Frame-Informationen ab, dh die Schlüssel- und Wertmerkmale stammen aus dem ersten Frame ohne Rauschen , und die Ausgabe Das Ergebnis wird zur Selbstaufmerksamkeit des Originalmodells hinzugefügt. Die Ausgabezuordnungsmatrix in diesem Modul wird mit Nullen initialisiert und nur die Ausgabezuordnungsmatrix und die Abfragezuordnungsmatrix werden trainiert. Um das Verständnis des Modells für die semantischen Informationen des Eingabebilds weiter zu verbessern, führten die Forscher einen vorab trainierten Inhaltsadapter ein (in diesem Artikel wird der IP-Adapter [8] verwendet), um die semantischen Merkmale des Bilds einzufügen.
Priorität der Frame-Ähnlichkeit
Um die Stabilität der generierten Ergebnisse weiter zu verbessern, schlugen die Forscher vorab eine Inter-Frame-Ähnlichkeit vor, um ein Gleichgewicht zwischen der Stabilität und der Bewegungsintensität des generierten Videos herzustellen. Die Hauptannahme ist, dass bei einem relativ niedrigen Gaußschen Rauschpegel der verrauschte erste Rahmen und die verrauschten nachfolgenden Rahmen nahe genug beieinander liegen, wie in der folgenden Abbildung dargestellt:
Die Forscher gingen also davon aus, dass alle Rahmenstrukturen ähnlich sind , und werden nach dem Hinzufügen einer bestimmten Menge an Gauß'schem Rauschen nicht mehr zu unterscheiden, sodass das verrauschte Eingabebild als A-priori-Eingabe für nachfolgende Frames verwendet werden kann. Um die Irreführung hochfrequenter Informationen zu beseitigen, verwendeten die Forscher auch den Gaußschen Unschärfeoperator und die zufällige Maskenmischung. Konkret wird die Operation durch die folgende Formel angegeben:
Quantitative Ergebnisse
In diesem Artikel werden vier quantitative Indikatoren berechnet, nämlich DoverVQA (ästhetische Bewertung) und CLIPTemp (erster Frame). Konsistenz), FlowScore (Bewegungsamplitude) und WarppingError (Bewegungsfehler) werden verwendet, um die Qualität des generierten Videos zu bewerten. Tabelle 1 zeigt, dass der I2V-Adapter die höchste ästhetische Bewertung erhielt und auch alle Vergleichsschemata hinsichtlich der Konsistenz des ersten Frames übertraf. Darüber hinaus weist das vom I2V-Adapter erzeugte Video die größte Bewegungsamplitude und einen relativ geringen Bewegungsfehler auf, was darauf hinweist, dass dieses Modell in der Lage ist, dynamischere Videos zu erzeugen und gleichzeitig die Genauigkeit der zeitlichen Bewegung beizubehalten.
Qualitative Ergebnisse
Bildanimation (links ist Eingabe, rechts ist Ausgabe):
.
mit personalisierten T2Is (auf der linker Eingang, rechts ist Ausgang):
w/ ControlNet (links ist Eingang, rechts ist Ausgang):
In diesem Artikel wird der I2V-Adapter vorgeschlagen, ein leichtes Plug-and-Play-Modul für Bild-zu-Video-Generierungsaufgaben. Diese Methode hält die räumlichen Block- und Bewegungsblockstrukturen und -parameter des ursprünglichen T2V-Modells fest, gibt den ersten Frame ohne Rauschen und die nachfolgenden Frames mit Rauschen parallel ein und ermöglicht allen Frames die Interaktion mit dem ersten Frame ohne Rauschen über den Aufmerksamkeitsmechanismus , also ein Video erzeugen, das zeitlich kohärent ist und mit dem ersten Bild übereinstimmt. Forscher haben die Wirksamkeit dieser Methode bei I2V-Aufgaben durch quantitative und qualitative Experimente nachgewiesen. Darüber hinaus ermöglicht das entkoppelte Design die direkte Kombination der Lösung mit Modulen wie DreamBooth, Lora und ControlNet, was die Kompatibilität der Lösung beweist und die Forschung zur maßgeschneiderten und steuerbaren Bild-zu-Video-Generierung fördert.
Das obige ist der detaillierte Inhalt vonI2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!