Die Aufgabe zur Generierung menschlicher Aktionen zielt darauf ab, realistische menschliche Aktionssequenzen zu generieren, um den Anforderungen von Unterhaltung, virtueller Realität, Robotik und anderen Bereichen gerecht zu werden. Herkömmliche Generierungsmethoden umfassen Schritte wie die Erstellung von 3D-Charakteren, Keyframe-Animationen und Bewegungserfassung, die viele Einschränkungen aufweisen, wie zum Beispiel, dass sie lange dauern, professionelles technisches Wissen erfordern, teure Systeme und Software erfordern und mögliche Kompatibilität zwischen verschiedenen Software- und Hardwaresystemen aufweisen. Sexuelle Probleme usw. Mit der Entwicklung des Deep Learning begann man, generative Modelle zu verwenden, um eine automatische Generierung menschlicher Aktionssequenzen zu erreichen, indem man beispielsweise Textbeschreibungen eingab und vom Modell verlangte, Aktionssequenzen zu generieren, die den Textanforderungen entsprechen. Mit der Einführung von Diffusionsmodellen in diesem Bereich verbessert sich die Konsistenz generierter Aktionen mit gegebenem Text weiter.
Obwohl die Natürlichkeit der generierten Aktionen verbessert wurde, besteht immer noch eine große Lücke zwischen ihr und den Benutzerbedürfnissen. Um die Fähigkeiten des Algorithmus zur Erzeugung menschlicher Bewegungen weiter zu verbessern, schlägt dieser Artikel den ReMoDiffuse-Algorithmus (Abbildung 1) basierend auf MotionDiffuse [1] vor. Mithilfe der Retrieval-Strategie finden wir hochrelevante Referenzbeispiele und stellen feinkörnige Referenzmerkmale bereit, um Aktionssequenzen höherer Qualität zu generieren
GitHub-Link: https://github.com/mingyuan-zhang/ReMoDiffuse
, um die Ähnlichkeit zwischen den Proben in jeder Datenbank und der Benutzereingabe zu berechnen. Der erste Punkt hier besteht darin, die Kosinusähnlichkeit zwischen dem Benutzereingabetext und dem Text der Datenbankentität mithilfe des Textkodierers des vorab trainierten CLIP-Modells [2] zu berechnen, und der zweite Punkt berechnet die Differenz zwischen der erwarteten Länge der Aktionssequenz und die Aktionssequenzlänge der Datenbankentität. Die relative Differenz wird als kinematische Ähnlichkeit verwendet. Nach der Berechnung des Ähnlichkeitswerts wählt ReMoDiffuse die k-obersten Stichproben mit ähnlicher Ähnlichkeit wie die abgerufenen Stichproben aus und extrahiert Textmerkmale Paaren. Beim Abrufen der relevantesten Proben verwendet ReMoDiffuse die Formel
und Aktionsmerkmale. Diese beiden dienen zusammen mit den aus der Texteingabe des Benutzers extrahierten Merkmalenals Eingabesignale für die Diffusionsphase, um die Aktionsgenerierung zu steuern.
Abbildung 2: Abrufphase von ReMoDiffuse
Der Diffusionsprozess (Abbildung 3.c) besteht aus zwei Teilen: dem Vorwärtsprozess und dem Rückwärtsprozess. Im Vorwärtsprozess fügt ReMoDiffuse den ursprünglichen Bewegungsdaten nach und nach Gaußsches Rauschen hinzu und wandelt es schließlich in zufälliges Rauschen um. Der umgekehrte Prozess konzentriert sich auf die Entfernung von Rauschen und die Erzeugung realistischer Bewegungsmuster. Ausgehend von einem zufälligen Gaußschen Rauschen verwendet ReMoDiffuse bei jedem Schritt des inversen Prozesses ein Semantic Modulation Module (SMT) (Abbildung 3.a), um die wahre Verteilung zu schätzen und das Rauschen basierend auf dem bedingten Signal schrittweise zu entfernen. Das SMA-Modul in SMT integriert hier alle Zustandsinformationen in die generierten Sequenzfunktionen. Dies ist das in diesem Artikel vorgeschlagene Kernmodul. Abbildung 3.b) verwenden wir den effizienten Aufmerksamkeitsmechanismus (Efficient Attention) [3], um die Berechnung des Aufmerksamkeitsmoduls zu beschleunigen und eine globale Feature-Map zu erstellen, die globale Informationen stärker hervorhebt. Diese Feature-Map liefert umfassendere semantische Hinweise für Aktionssequenzen und verbessert dadurch die Leistung des Modells. Das Hauptziel der SMA-Schicht besteht darin, die Generierung von Aktionssequenzen
durch die Aggregation von Zustandsinformationen zu optimieren. In diesem Rahmen:stellt die Textbeschreibungsmerkmale dar, die aus den Abrufproben erhalten wurden. Diese umfassende Konstruktionsmethode stellt die Wirksamkeit von K-Vektoren im Indizierungsprozess sicher. die Aktionssequenzmerkmale dar, die aus den Abrufproben erhalten wurden, und
3.V-Vektor stellt die tatsächlichen Funktionen bereit, die zum Generieren der Aktion erforderlich sind. Ähnlich wie der K-Vektor berücksichtigt der V-Vektor das Abrufmuster, Benutzereingaben und die aktuelle Aktionssequenz. Da keine direkte Korrelation zwischen der Textbeschreibungsfunktion des abgerufenen Beispiels und der generierten Aktion besteht, entscheiden wir uns, diese Funktion bei der Berechnung des V-Vektors nicht zu verwenden, um unnötige Informationsinterferenzen zu vermeiden
In Kombination mit dem globalen Aufmerksamkeitsvorlagenmechanismus von Efficient Attention verwendet die SMA-Schicht die Hilfsinformationen aus dem Abrufbeispiel, die semantischen Informationen des Benutzertexts und die Merkmalsinformationen der zu entrauschenden Sequenz, um eine Reihe umfassender globaler Vorlagen zu erstellen , sodass alle Zustandsinformationen vollständig von der zu generierenden Sequenz aufgenommen werden können.
Um den Inhalt neu zu schreiben, muss der Originaltext ins Chinesische umgewandelt werden. So sieht es nach dem Umschreiben aus: Forschungsdesign und experimentelle Ergebnisse
Wir haben ReMoDiffuse anhand von zwei Datensätzen evaluiert: HumanML3D [4] und KIT-ML [5]. Die experimentellen Ergebnisse (Tabellen 1 und 2) zeigen die leistungsstarke Leistung und die Vorteile unseres vorgeschlagenen ReMoDiffuse-Frameworks aus der Perspektive der Textkonsistenz und Aktionsqualität. Tabelle 1. Leistung verschiedener Methoden auf dem HumanML3D-Testsatz
[3] IEEE/CVF-Winterkonferenz zu Anwendungen von Computer Vision, Seiten 3531–3539, 2021.
[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or und Amit H. Bermano. In The Eleventh Internationale Konferenz über lernende Repräsentationen, 2022.
Das obige ist der detaillierte Inhalt vonICCV 2023 |. ReMoDiffuse, ein neues Paradigma, das die Generierung menschlicher Handlungen neu gestaltet und Diffusionsmodelle und Abrufstrategien integriert, ist da. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!