Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der Autor dieses Artikels ist von der National University of Singapore, der Nanyang Technological University und dem Harbin Institute of Technology. Zu den Forschungsrichtungen von Fei Hao gehören unter anderem multimodales Lernen und multimodale große Sprachmodelle. Wu Shengqiong ist Doktorandin an der National University of Singapore. Ihr Forschungsschwerpunkt sind multimodale große Sprachmodelle. Die Hauptforschungsrichtungen von Ji Wei sind multimodales Lernen und multimodale Inhaltsgenerierung. Zu den Forschungsinteressen von Professor Zhang Hanwang gehören Computer Vision und kausale Schlussfolgerungen. Zu den Forschungsinteressen von Professor Zhang Meishan gehören Code-Intelligenz, Verarbeitung natürlicher Sprache sowie multimodale Generierung und Verständnis. Zu den Forschungsrichtungen der Professoren Mong-Li Lee und Wynne Hsu gehören Social-Media-Analyse, kollaboratives maschinelles Lernen usw.
Kürzlich haben Forscher der National University of Singapore, der Nanyang Technological University und des Harbin Institute of Technology gemeinsam ein neues Video-Argumentation-Framework vorgeschlagen. orientiertes Denkketten-Framework (Video-of-Thought, VoT). Video Thinking Chain VoT ermöglicht multimodale Video-Sprachmodelle, um das Verständnis und die Argumentationsleistung komplexer Videos erheblich zu verbessern. Diese Arbeit wurde vom ICML 2024 als mündliche Arbeit angenommen.
- Papierlink: https://openreview.net/pdf?id=fO31YAyNbI
- Projektlink: http://haofei.vip/VoT/
Ein Sprung von der Wahrnehmung zur ErkenntnisVerglichen mit dem Verstehen und Nachdenken über statische Bilder ist das Nachdenken über Videos in der visuellen Verarbeitungsgemeinschaft viel komplizierter und schwieriger, da Videos natürlich anspruchsvollere dynamische Timing-Eigenschaften und das Vorhandensein von haben redundanterer visueller Inhalt. Frühere Forschungen zum Videoverständnis konzentrierten sich hauptsächlich auf die oberflächliche Wahrnehmung von Videos, wie z. B. die Erkennung von Videoaktionen, die dynamische Erkennung und die Erstellung von Videobeschreibungen. Diese Methoden weisen jedoch immer noch erhebliche Mängel im Hinblick auf das tiefe Verständnis und die Argumentation komplexer Videos auf. Im Vergleich zur oberflächlichen Videowahrnehmung erfordert komplexes Video-Argumentation nicht nur ein komplexes Verständnis der räumlich-zeitlichen Eigenschaften des Videos, sondern auch ein tiefes Verständnis des inhärenten gesunden Menschenverstandes höherer Ordnung hinter den Pixeln. Um dieses Problem vollständig zu lösen, wurde VoT ins Leben gerufen. Für Menschen ist das Verstehen von Videos so einfach wie Essen und Trinken. Wie führen wir Menschen also Videoverständnis-Schlussfolgerungen durch? Betrachten wir den folgenden Fall. Das Video unten zeigt eine Szene, in der ein Auto mit hoher Geschwindigkeit auf der Autobahn mit einem roten Tankwagen kollidiert. Die entsprechende Frage lautet: „Was wird mit diesem roten Öltankwagen passieren?“ Wenn Menschen das Video dieser Frage erhalten, werden wir zunächst anhand der Frage, welches das rote Öl ist, das interessierende Ziel bestimmen Tankwagen. Anschließend schauen wir uns das Video genau an und verfolgen die Semantik der Aktionen des Zielobjekts im Video. Als Nächstes werden wir einige fundierte und fundierte Überlegungen anstellen, vielleicht kombiniert mit etwas gesundem Menschenverstand. Abschließend geben wir die begründete Antwort: „Es kann Feuer fangen oder sogar explodieren.“
Doppelte Fähigkeit: die perfekte Kombination aus Wahrnehmung und ErkenntnisLassen Sie sich von den oben genannten menschlichen kognitiven Mustern und Mustern inspirieren Das Forschungsteam wies darauf hin, dass zum Erreichen komplexer Video-Schlussfolgerungen zwei Schlüsselfähigkeiten erforderlich sind: die Wahrnehmungsfähigkeit des Pixelverständnisses und die kognitive Fähigkeit des semantischen Verständnisses. Und was am wichtigsten ist: Video-Argumentation ist möglicherweise kein sofortiger, einstufiger Prozess, sondern ein Multi-Hop-Prozess von der Wahrnehmung auf niedriger Ebene zur Erkenntnis auf hoher Ebene. Wahrnehmung: Um eine genaue Wahrnehmung von Inhalten zu erreichen, ist ein detailliertes Verständnis der Videobewegung auf Pixelebene erforderlich. Dieser Prozess erfordert möglicherweise eine umfassende Integration eines bestimmten Videoinhalts und eine detaillierte Inhaltsausrichtung.
Allerdings beschränken sich die meisten vorhandenen Videoverständnismethoden auf die Instanzanalyse und es mangelt ihnen an Feinsteuerung und genauer Erkennung oder Verfolgung auf Objektebene, geschweige denn an einem tiefgreifenden Videoverständnis. Kognitive Fähigkeiten: Umfassendes Denken erfordert kognitive Fähigkeiten, die es Modellen ermöglichen, vernünftige Erklärungen und sogar kausale Vorstellungskraft zu liefern. Dieses Niveau erfordert ein gewisses Maß an gesunder Menschenverstandskenntnis der Welt. Machen Sie sich zum Beispiel bewusst, dass „ein Sprung aus großer Höhe zu Brüchen führen kann“ oder dass „eine Kollision mit einem Öltanker zu einer Explosion führen kann“. Neues Argumentationsgerüst: Die Geburt der Video-DenkketteUm dieses Ziel zu erreichen, schlug das Forschungsteam ein neues Argumentationsgerüst vor – „Video-Denkkette“. Diese Denkkette zerlegt komplexe Video-Argumentationsprobleme in eine Reihe von Unterproblemen, von der visuellen Wahrnehmung auf der unteren Ebene bis zur Wahrnehmung des gesunden Menschenverstandes auf der oberen Ebene. Um die oben genannten feinkörnigen Videowahrnehmungsfunktionen zu erreichen, schlug der Autor gleichzeitig auch vor, die Darstellung des Spatial-Temporal Scene Graph (STSG) zu verwenden, um den Argumentationsprozess zu unterstützen und zu helfen Generieren Sie feinkörnige Wahrnehmungszwischenergebnisse. Dies ermöglicht ein feines Verständnis räumlicher und zeitlicher Merkmale.
In Kombination mit dem multimodalen Video-Großmodell wurde schließlich ein neues Video-MLLM, MotionEmpic, vorgeschlagen.
Experimentelle Ergebnisse zeigen, dass das vom Autor vorgeschlagene neue Inferenz-Framework die Leistung des Modells bei verschiedenen Arten der Video-QA erheblich verbessern kann und die Leistung aller aktuellen herkömmlichen Video-MLLM- und CoT-Methoden übertrifft. Zunächst identifiziert VoT anhand eines Eingabevideos und einer Frage alle möglichen Zielgruppen, die an der Frage beteiligt sind. Dieser Prozess stellt sicher, dass das System ein klares Verständnis der zu analysierenden Objekte und der damit verbundenen Aufgaben hat. Schritt 2: Zielverfolgung
Als nächstes analysiert VoT den Videoinhalt, verfolgt die am Problem beteiligte Zielverhaltensbahn und gibt ein raumzeitliches Szenendiagramm (STSG) auf der Wahrnehmungsebene aus Ebene. Der generierte STSG über die Zielbahn wird der Wahrnehmungsbeweis für den nächsten Schritt der Verhaltensanalyse sein.
Schritt 3: Verhaltensanalyse
In diesem Schritt fordert VoT das Modell weiter dazu auf, potenziell relevanteres Wissen des gesunden Menschenverstandes zu berücksichtigen, indem es die Zielverfolgungsergebnisse in STSG integriert, sodass das Modell kann Videopixelbeobachtungen mit der realen Welt verbinden, um ein tieferes Verständnis von Videos zu erlangen.
Schritt 4: Ranking-Mechanismus zur Beantwortung der Frage
Nachdem Sie das Zielverhalten im Video genau verstanden haben, beginnen Sie nun mit der Beantwortung der ursprünglichen Frage. Erstens vereint dieses System alle QA-Fragen in mehreren Fragen, d. h. es wählt die endgültige Antwort aus mehreren bereitgestellten Kandidatenantworten aus. Darüber hinaus nutzt dieses System, inspiriert von der Art und Weise, wie Menschen Multiple-Choice-Fragen beantworten, auch einen Ranking-Mechanismus, um die endgültige Antwort zu ermitteln. Insbesondere fordert VoT das Modell für jede Kandidatenantwort dazu auf, deren Wahrscheinlichkeit (von 1 bis 10) auf der Grundlage gesunder Menschenverstandskenntnisse zu bewerten und entsprechende Gründe anzugeben. Basierend auf der endgültigen Entscheidung erhält der Kandidat mit der höchsten Bewertung die endgültige Antwort.
Schritt 5: AntwortüberprüfungAngesichts der Tatsache, dass komplexe Videoaufgaben normalerweise komplexe Fragen und Antworten beinhalten und der gesamte Argumentationsprozess mehrere Links enthält, ist es wichtig, die im vorherigen Schritt bereitgestellten Antworten zu überprüfen. Die grundlegende Überprüfungsidee dieses Systems besteht darin, dass wir unter der Annahme, dass Antwort A richtig ist, nachträglich bewerten, ob die Antwort unter zwei Aspekten mit der Eingabefrage und dem Videoinhalt in Konflikt steht:
- Wahrnehmungsüberprüfung: Überprüfen Sie, ob das Pixel Die Positionierungsinformationen stimmen aus wahrnehmungstechnischer Sicht mit den im Video dargestellten Fakten überein.
- Kognitive Validierung: Fordern Sie das Modell aus einer kognitiven Perspektive auf, um festzustellen, ob das in der Antwort enthaltene gesunde Menschenverstandswissen den im dritten Schritt der Argumentation abgeleiteten Hauptbeobachtungen widerspricht.
Stellen Sie letztendlich sicher, dass VoT die korrektesten Ergebnisse ausgeben kann. Die fünf Schritte des VoT-Argumentation-Frameworks, von der Aufgabendefinition und Zielidentifizierung bis hin zur endgültigen Antwortüberprüfung, verbessern umfassend die Genauigkeit und Zuverlässigkeit des Videoverständnisses und der Argumentation und bieten eine leistungsstarke Lösung für komplexe Videoaufgaben. Schema B. Experimentelle Überprüfung 1. HauptexperimentvergleichDer Autor testete zunächst mehrere komplexe VideoQA-Datensätze. Experimentelle Ergebnisse belegen, dass VoT bei allen Testsätzen eine durchweg bessere Leistung als das SoTA-Basismodell erzielt und sogar die Leistung von herkömmlichem CoT übertrifft.
Als nächstes verglich der Autor die Leistung verschiedener Modelle unter Nullschuss. Es ist erwähnenswert, dass die Leistungsverbesserung bei VoT im Vergleich zu herkömmlichem CoT größer und offensichtlicher ist. Darüber hinaus ist der Verbesserungseffekt bei zwei komplexen Aufgaben zur Beantwortung von Videofragen deutlicher als bei relativ einfachen Aufgaben (z. B. MSR-VTT und ActivityNet). Dies liegt hauptsächlich daran, dass der letztgenannte Datensatz eher auf perzeptuelles Denken (z. B. Beschreiben dessen, was im Video enthalten ist) als auf kognitives Denken (z. B. Erklären, Vorwegnehmen) ausgerichtet ist. 3. Detaillierte Analyse der DenkfähigkeitZuerst führte der Autor eine menschliche Bewertung durch. Wie in der oberen Tabelle von Abbildung 7 gezeigt, erzielte MotionEpic mit dem VoT-Inferenz-Framework ganz hervorragende Ergebnisse, die sogar mit der menschlichen Leistung vergleichbar waren. Darüber hinaus fasst der Autor sechs häufige Fehlerfälle zusammen und analysiert die Unterschiede zwischen den sechs häufigsten Fehlerkategorien. Wie im unteren Teil der Abbildung dargestellt, reduziert MotionEpic (unter Verwendung von VoT) die Fehlerrate von VideoLLaVA (unter Verwendung von CoT) erheblich, insbesondere im Hinblick auf die Aktionssemantik und das Verständnis des gesunden Menschenverstandes.
4. Visuelle Analyse des ArgumentationsprozessesAbschließend demonstriert der Autor intuitiv die Überlegenheit von VoT durch eine Fallanalyse. Wie in Abbildung 8 dargestellt, zeigt der Videoinhalt eine komplexe Szene, in der „ein Trainer einen Welpen dazu führt, verschiedene Hindernisse zu überwinden“, und das gegebene Problem ist abstrakt und komplex und erfordert gesunden Menschenverstand, anstatt nur durch das Video selbst wahrgenommen zu werden direkt. Die experimentellen Ergebnisse ergaben, dass nur dieses System die richtige Antwort lieferte. Insbesondere auf der inhaltsbewussten Ebene sorgt VoT durch STSG-basierte Videolokalisierung für ein genaues und solides Verständnis und verhindert so die Illusion, das Tier sei ein Hund richtig zu interpretieren und dann aus dem gesunden Menschenverstand zu schließen, dass es sich bei der Szene um einen Trainer handelt, der einen Hund trainiert. Anschließend analysiert es auf kognitiver Ebene jede Option, um die beste Antwort zu ermitteln. Durch weitere Überprüfung stimmten die Ergebnisse mit dem Videoinhalt und dem gesunden Menschenverstand des Sachverhalts überein. Insgesamt verbessert die Gesamtbegründung durch die Problemzerlegung die Genauigkeit bei jedem Schritt erheblich und stellt gleichzeitig eine erklärbare Begründung für Prozessentscheidungen sicher.
Der Autor bietet auch weitere visuelle Analysen:
Das obige ist der detaillierte Inhalt vonDas erste Video-of-Thought-Argumentation-Framework ist da: Umfassendes Video-Argumentation von der Wahrnehmung bis zur Erkenntnis wie ein Mensch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!