Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit-KI-php.cn

Im Bereich der KI-Malerei haben der von Alibaba vorgeschlagene Composer und der von Stanford vorgeschlagene ControlNet auf der Grundlage der stabilen Diffusion die theoretische Entwicklung der kontrollierbaren Bilderzeugung vorangetrieben. Allerdings ist die Erforschung der steuerbaren Videoerzeugung in der Branche noch relativ unklar.

Im Vergleich zur Bilderzeugung ist steuerbares Video komplexer, da es neben der Steuerbarkeit des Raums des Videoinhalts auch die Steuerbarkeit der Zeitdimension erfüllen muss. Auf dieser Grundlage übernahmen die Forschungsteams von Alibaba und Ant Group die Führung bei einem Versuch und schlugen VideoComposer vor, der durch ein kombiniertes Generierungsparadigma gleichzeitig Videosteuerbarkeit in Zeit- und Raumdimensionen erreicht.

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Papieradresse: https://arxiv.org/abs/2306.02018
Projekthomepage: https://videocomposer.github.io

Vorne Zu dieser Zeit stellte Alibaba das Vincent-Videomodell in der Magic Community und Hugging Face als Open-Source-Version zur Verfügung, was unerwartet große Aufmerksamkeit bei in- und ausländischen Entwicklern erregte. Die vom Modell generierten Videos erhielten sogar Reaktionen von Musk selbst Das Modell war in der Magic-Community weiterhin beliebt und erhielt an vielen Tagen Zehntausende internationale Besuche.

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Text-to-Video auf Twitter

VideoComposer hat noch einmal die neuesten Ergebnisse wurde von der internationalen Gemeinschaft weithin aufgenommen konzentrieren Sie sich auf. V ideoComposer auf Twitter

Tatsächlich ist die Steuerbarkeit visueller Inhalte zu einem höheren Maßstab für die Erstellung geworden, die bei der benutzerdefinierten Bildgenerierung erhebliche Fortschritte gemacht hat, aber immer noch drei große Herausforderungen im Bereich der Videogenerierung aufweist:

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Komplexe Datenstruktur, das generierte Video muss sowohl die Vielfalt dynamischer Änderungen in der Zeitdimension als auch die Inhaltskonsistenz in der räumlich-zeitlichen Dimension erfüllen.
Komplexe Leitbedingungen, die vorhandene steuerbare Videogenerierung muss komplex sein Bedingungen können nicht manuell erstellt werden. Beispielsweise muss sich die von Runway vorgeschlagene Generation 1/2 auf Tiefensequenzen stützen. Sie kann die strukturelle Migration zwischen Videos nicht gut lösen. Das Muster ist nicht gut kontrollierbar komplexe und abstrakte Eigenschaft von Video, und Bewegungssteuerbarkeit ist eine notwendige Voraussetzung, um die Steuerbarkeit der Videoerzeugung zu lösen.
Zuvor hat der von Alibaba vorgeschlagene Composer bewiesen, dass die Bildgenerierung äußerst hilfreich bei der Verbesserung der Bildgenerierung ist und die oben genannten drei Probleme löst Videogenerierung. Konkret wird das Video in drei Leitbedingungen zerlegt, nämlich Textbedingungen, räumliche Bedingungen und videospezifische Zeitbedingungen, und anschließend wird darauf basierend das Video LDM (Video Latent Diffusion Model) trainiert. Insbesondere nutzt es den effizienten Bewegungsvektor als wichtige explizite Timing-Bedingung, um das Bewegungsmuster von Videos zu lernen, und entwirft einen einfachen und effektiven STC-Encoder für raumzeitliche Bedingungen, um die raumzeitliche Kontinuität zustandsgesteuerter Videos sicherzustellen. In der Inferenzphase können verschiedene Bedingungen zufällig kombiniert werden, um den Videoinhalt zu steuern.

Experimentelle Ergebnisse zeigen, dass VideoComposer die zeitlichen und räumlichen Muster von Videos flexibel steuern kann, z. B. das Generieren spezifischer Videos durch einzelne Bilder, handgezeichnete Zeichnungen usw., und sogar den Bewegungsstil des Ziels durch einfache Steuerung steuern kann handgezeichnete Wegbeschreibungen. In dieser Studie wurde die Leistung von VideoComposer direkt bei 9 verschiedenen klassischen Aufgaben getestet und alle erzielten zufriedenstellende Ergebnisse, was die Vielseitigkeit von VideoComposer beweist.

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Abbildung (a-c) VideoComposer kann Videos generieren, die Text-, Raum- und Zeitbedingungen oder eine Teilmenge davon erfüllen; (d) VideoComposer kann nur zwei Striche verwenden, um Videos zu generieren, die dem Van-Gogh-Stil entsprechen befriedigend Erwarteter Bewegungsmodus (rote Striche) und Formmodus (weiße Striche)

Einführung in die Methode

Video LDM

Versteckter Raum.

Video LDM führt zunächst einen vorab trainierten Encoder ein, um das Eingabevideo einer latenten Raumdarstellung zuzuordnen, wobei Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit . Anschließend wird der vorab trainierte Decoder D verwendet, um den latenten Raum dem Pixelraum zuzuordnen

. In VideoComposer Parametereinstellungen

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit .

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Diffusionsmodell.

Um die tatsächliche Verbreitung von Videoinhalten zu erlernen

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Das Diffusionsmodell lernt, das Rauschen der Normalverteilung schrittweise zu entrauschen, um den tatsächlichen visuellen Inhalt wiederherzustellen. Dieser Prozess simuliert tatsächlich eine reversible Markov-Kette mit einer Länge von T = 1000. Um einen reversiblen Prozess im latenten Raum durchzuführen, injiziert Video LDM Rauschen in

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

, um die rauschinjizierte latente Variable

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

zu erhalten. Dann verwendet es die Rauschunterdrückungsfunktion

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

, um auf

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

und die Eingabebedingung c zu reagieren. Das Optimierungsziel lautet dann wie folgt:

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Um das räumliche Lokal vollständig zu erkunden und zu nutzen induktive Vorspannung und Sequenz Für die Rauschunterdrückung mithilfe der zeitlichen Induktionsvorspannung instanziiert VideoComposer

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

in ein 3D-UNet und verwendet dabei sowohl den zeitlichen Faltungsoperator als auch den Kreuzaufmerksamkeitsmechanismus.

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

VideoComposer

Kombinierte Bedingungen. VideoComposer zerlegt Videos in drei verschiedene Arten von Bedingungen, nämlich Textbedingungen, räumliche Bedingungen und kritische Zeitbedingungen, die zusammen räumliche und zeitliche Muster im Video bestimmen. VideoComposer ist ein allgemeines kombiniertes Videogenerierungs-Framework, sodass je nach nachgeschalteter Anwendung individuellere Bedingungen in VideoComposer integriert werden können, die nicht auf die unten aufgeführten Bedingungen beschränkt sind:

Textbedingungen: Die Textbeschreibung (Text) beginnt mit der groben visuellen Darstellung Inhalts- und Bewegungsaspekte bieten eine intuitive Anzeige des Videos, was auch eine häufig verwendete Bedingung für T2V ist als räumliche Bedingung zum Generieren von Bild und Video, um den Inhalt und die Struktur des Videos auszudrücken;

Einzelne Skizze, verwenden Sie PiDiNet, um die Skizze des ersten Videobilds als zweite räumliche Bedingung zu extrahieren; ), um den Stil eines einzelnen Bildes weiter auf das synthetisierte Video zu übertragen, wird die Bilderinbettung als Styleguide ausgewählt

- Zeitliche Bedingungen:
- Bewegungsvektor (Bewegungsvektor), der Bewegungsvektor wird als zweidimensionaler Vektor als eindeutiges Element des Videos dargestellt, dh in horizontaler und vertikaler Richtung. Es kodiert explizit die pixelweise Bewegung zwischen zwei benachbarten Frames. Aufgrund der natürlichen Eigenschaften von Bewegungsvektoren wird dieser Zustand als zeitlich glattes synthetisiertes Bewegungssteuerungssignal angesehen, das Bewegungsvektoren im Standard-MPEG-4-Format aus komprimierten Videos extrahiert Führen Sie Tiefeninformationen für Videoebenen ein, indem Sie das vorab trainierte Modell in PiDiNet verwenden, um die Tiefenkarte des Videobilds zu extrahieren Vorhersage basierend auf beobachtbaren Informationen. Maskierte Bereiche;
- Skizzensequenz, die mehr Kontrolldetails als eine einzelne Skizze liefern kann, was präzise benutzerdefinierte Kompositionen ermöglicht.
- Sequenzbedingungen enthalten umfangreiche und komplexe räumlich-zeitliche Abhängigkeiten, die eine große Herausforderung für kontrollierbare Anweisungen darstellen. Um die zeitliche Wahrnehmung von Eingabebedingungen zu verbessern, wurde in dieser Studie ein Spatiotemporal Condition Encoder (STC-Encoder) entwickelt, der Raum-Zeit-Beziehungen berücksichtigt. Konkret wird zunächst eine leichte räumliche Struktur angewendet, die zwei 2D-Faltungen und ein avgPooling umfasst, um lokale räumliche Informationen zu extrahieren, und dann wird die resultierende Bedingungssequenz zur zeitlichen Modellierung in eine zeitliche Transformatorschicht eingegeben. Auf diese Weise kann der STC-Encoder die explizite Einbettung zeitlicher Hinweise erleichtern und einen einheitlichen Eintrag für die bedingte Einbettung verschiedener Eingaben bereitstellen, wodurch die Konsistenz zwischen Frames verbessert wird. Darüber hinaus wiederholte die Studie die räumlichen Bedingungen einzelner Bilder und einzelner Skizzen in der zeitlichen Dimension, um deren Konsistenz mit den zeitlichen Bedingungen sicherzustellen und so den Prozess der Einbettung der Bedingungen zu erleichtern.
Nach der Verarbeitung der Bedingungen durch den STC-Encoder hat die endgültige Bedingungssequenz die gleiche räumliche Form wie und wird dann durch elementweise Addition verschmolzen. Schließlich wird die zusammengeführte bedingte Sequenz entlang der Kanaldimension als Steuersignal verkettet. Für Text- und Stilbedingungen wird ein Queraufmerksamkeitsmechanismus verwendet, um Text- und Stilanweisungen einzufügen. Training und Inferenz

Zweistufige Trainingsstrategie.
Obwohl VideoComposer durch Vortraining von Bild-LDM initialisiert werden kann, was die Trainingsschwierigkeiten bis zu einem gewissen Grad lindern kann, ist es für das Modell schwierig, die zeitliche Dynamik wahrzunehmen und mehrere Bedingungen zu generieren Gleichzeitig wird der Schwierigkeitsgrad der kombinierten Videogenerierung erhöht. Daher wurde in dieser Studie eine zweistufige Optimierungsstrategie angewendet. In der ersten Stufe wurde das Modell zunächst durch T2V-Training mit Timing-Modellierungsfunktionen ausgestattet. In der zweiten Stufe wurde VideoComposer durch kombiniertes Training optimiert.
Begründung.
Während des Argumentationsprozesses wird DDIM verwendet, um die Effizienz des Denkens zu verbessern. Und übernehmen Sie eine klassifikatorfreie Anleitung, um sicherzustellen, dass die generierten Ergebnisse die angegebenen Bedingungen erfüllen. Der Generierungsprozess kann wie folgt formalisiert werden:
wobei ω das Führungsverhältnis ist; c1 und c2 sind zwei Sätze von Bedingungen. Dieser Führungsmechanismus wird anhand zweier Bedingungen beurteilt und kann dem Modell durch Intensitätssteuerung eine flexiblere Steuerung ermöglichen.
Experimentelle Ergebnisse
In der experimentellen Untersuchung bewies diese Studie, dass VideoComposer über ein universelles generatives Framework als einheitliches Modell verfügt, und verifizierte die Fähigkeiten von VideoComposer bei 9 klassischen Aufgaben.
Ein Teil der Ergebnisse dieser Forschung ist wie folgt: statische Bild-zu-Video-Generierung (Abbildung 4), Video-Inpainting (Abbildung 5), statische Skizzen-Generierung zu Video (Abbildung 6), handgezeichnetes Bewegungssteuerungsvideo ( Abbildung 8), Bewegungsübertragung (Abbildung A12) können alle die Vorteile der steuerbaren Videoerzeugung widerspiegeln.

Teamvorstellung

Öffentliche Informationen zeigen, dass sich Alibabas Forschung zu visuellen Basismodellen hauptsächlich auf visuelle Darstellung großer Modelle, visuelle generative große Modelle und Forschung konzentriert Es ist Downstream-Anwendungen und hat mehr als 60 CCF-A-Artikel in verwandten Bereichen veröffentlicht und mehr als 10 internationale Meisterschaften in mehreren Branchenwettbewerben gewonnen, beispielsweise bei der steuerbaren Bilderzeugungsmethode Composer und den Grafik- und Text-Vortrainingsmethoden RA-CLIP und RLEG , unbeschnittene lange Videos zum selbstüberwachten Lernen von HiCo/HiCo++ und die Methode zur Generierung sprechender Gesichter LipFormer stammen alle von diesem Team.

Das obige ist der detaillierte Inhalt vonDie Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Die Videogenerierung mit kontrollierbarer Zeit und Raum ist Realität geworden und Alibabas neues Großmodell VideoComposer erfreut sich großer Beliebtheit

Teamvorstellung