言語モデルは拡散モデルを打ち破り、ビデオと画像の生成で 2 倍の SOTA を達成します。
これは、Google CMU による最新の研究結果です。
レポートによると、象徴的な ImageNet ベンチマークで言語モデルが拡散モデルを破ったのはこれが初めてです。 その背後にある重要なコンポーネントは、ピクセル空間入力を LLM 学習に適したトークンにマッピングできる
ビジュアル トークナイザー(ビデオ トークナイザー) です。 Google CMU 研究チームは、他の 2 つのタスクにおいて、これまで最高のビジュアル ワード セグメンタを上回った MAGVIT-v2 を提案しました。
大規模言語モデルが拡散モデルに勝つ
しかし、視覚的な生成という点では、言語モデルは常に拡散モデルに後れを取ってきました。
チームは、主な理由は、視覚世界を効果的にモデル化できる、独自開発の言語システムと同様の、優れた視覚表現が欠如していることであると考えています。自然言語とは異なり、人間は視覚的な世界に最適な語彙を進化させてきませんでした。これにより、大規模な言語モデルのビジュアル生成機能も制限されます。
この判断に基づいて、本研究は主に次の 3 つのタスクを完了しました:
ビジュアル生成、ビデオ圧縮、およびアクション認識よりも優れた新しいビジュアル トークナイザーを提案する 過去最高のパフォーマンス。オリジナルの SOTA ビジュアル トークナイザー
MAGVIT(Masked Generative Video Transformer) に基づいたこのメソッドは、主に 2 つの設計、Lookup-Free Quantization、LFQ) と image-ビデオジョイントトークナイザー。
結局のところ、ビデオ/画像生成では、ImageNet 512×512 と Kinetics-600 の両方が拡散モデルよりも優れています。
ビデオ圧縮とアクション認識の点でも、以前の結果より優れています。
##1 人は北京大学の卒業生です。
Yu Lijun は現在、CMU コンピューター サイエンス学部言語技術研究所の博士課程の学生で、以下で勉強しています。 Alexander G. Hauptmann 教授。Google の学生研究員でもあります。研究の関心は、マルチモーダル基本モデル、特にマルチタスクビデオ生成にあります。 CMU に来る前に、北京大学でコンピュータ サイエンスと経済学の二重学士号を取得しました。研究チームには他にも多くの中国人の顔が見られました。
責任著者の Jiang Lu は現在、Google Research の科学者であり、CMU の非常勤教授です。 彼の研究は主にマルチモーダル ビッグ データ、特に堅牢な深層学習、生成人工知能、マルチモーダル基本モデルの分野に焦点を当てています。紙のリンク:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu .edu/v2/
以上が大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。