Großes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität-KI-php.cn

Großes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität

PHPz

Freigeben： 2023-10-16 14:29:01

nach vorne

832 Leute haben es durchsucht

Das Sprachmodell besiegt das Diffusionsmodell und erreicht doppelte SOTA bei der Video- und Bildgenerierung!

Dies ist das neueste Forschungsergebnis von Google CMU.

Berichten zufolge ist dies das erste Mal dass ein Sprachmodell ein Diffusionsmodell im legendären ImageNet-Benchmark besiegt hat.

Die Schlüsselkomponente dahinter ist der

visuelle Tokenizer (Video-Tokenizer), der Pixelraumeingaben in Token umwandeln kann, die für das LLM-Lernen geeignet sind.

Das Google CMU-Forschungsteam schlug MAGVIT-v2 vor, das den bisher besten visuellen Wortsegmentierer in zwei anderen Aufgaben übertraf.

Großes Sprachmodell besiegt Diffusionsmodell

Es besteht Einigkeit darüber, dass große Sprachmodelle in verschiedenen generativen Bereichen eine hervorragende Leistung aufweisen. Wie Text, Audio, Codegenerierung usw.

Aber Sprachmodelle sind in Bezug auf die visuelle Generierung immer hinter Diffusionsmodellen zurückgeblieben.

Das Team glaubt, dass der Hauptgrund das Fehlen einer guten visuellen Darstellung ist, ähnlich einem selbst entwickelten Sprachsystem, das die visuelle Welt effektiv modellieren kann. Im Gegensatz zur natürlichen Sprache hat der Mensch kein optimales Vokabular für die visuelle Welt entwickelt. Dies schränkt auch die visuellen Generierungsmöglichkeiten großer Sprachmodelle ein.

Basierend auf diesem Urteil hat diese Forschung hauptsächlich drei Aufgaben erledigt:

Eine neue nachschlagefreie Quantifizierungsmethode, die die visuelle Generierungsqualität von Sprachmodellen durch das Erlernen großer Vokabeln verbessert.
Zum ersten Mal zeigen Beweise, dass unter den gleichen Trainingsdaten, äquivalenten Modellgrößen und ähnlichen Trainingsbudgets Das Sprachmodell übertrifft das Diffusionsmodell auf ImageNet.

Laut dem Autor ist dies auch das erste Mal, dass ein visueller Tokenizer erfolgreich Ergebnisse erzielt, die mit Standard-Codecs vergleichbar sind.

Basierend auf dem ursprünglichen visuellen SOTA-Tokenizer

MAGVIT (Masked Generative Video Transformer) vervollständigt diese Methode hauptsächlich zwei Designs: Lookup-Free Quantization (LFQ) und Bild-Video-Joint-Tokenizer.

Großes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität

Schließlich sind ImageNet 512×512 und Kinetics-600 bei der Video-/Bilderzeugung beide besser als das Diffusionsmodell.

Großes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität

In Bezug auf Videokomprimierung und Aktionserkennung ist es auch besser als frühere Ergebnisse.

Großes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität

Einer ist Absolvent der Peking-Universität

Yu Lijun ist derzeit Doktorand am Institute of Language Technology, School of Computer Science, CMU, studiert bei Professor Alexander G. Hauptmann und ist außerdem studentischer Forscher bei Google . Forschungsinteressen liegen in multimodalen Basismodellen, insbesondere in der Multitask-Videogenerierung.

Bevor er an die CMU kam, erhielt er einen Doppel-Bachelor-Abschluss in Informatik und Wirtschaftswissenschaften von der Peking-Universität.

Großes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität

Ich habe auch viele andere chinesische Gesichter im Forschungsteam gesehen.

Der korrespondierende Autor Jiang Lu ist derzeit Wissenschaftler bei Google Research und außerordentlicher Professor an der CMU.

Seine Forschung konzentriert sich hauptsächlich auf den Bereich multimodaler Big Data, insbesondere robustes Deep Learning, generative künstliche Intelligenz und multimodale Basismodelle.

Papierlink:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

Das obige ist der detaillierte Inhalt vonGroßes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!