大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生-AI-php.cn

大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

PHPz

リリース： 2023-10-16 14:29:01

転載

833 人が閲覧しました

言語モデルは拡散モデルを打ち破り、ビデオと画像の生成で 2 倍の SOTA を達成します。

これは、Google CMU による最新の研究結果です。

レポートによると、象徴的な ImageNet ベンチマークで言語モデルが拡散モデルを破ったのはこれが初めてです。その背後にある重要なコンポーネントは、ピクセル空間入力を LLM 学習に適したトークンにマッピングできる

ビジュアルトークナイザー

(ビデオトークナイザー) です。 Google CMU 研究チームは、他の 2 つのタスクにおいて、これまで最高のビジュアルワードセグメンタを上回った MAGVIT-v2 を提案しました。

大規模言語モデルが拡散モデルに勝つ

しかし、視覚的な生成という点では、言語モデルは常に拡散モデルに後れを取ってきました。

チームは、主な理由は、視覚世界を効果的にモデル化できる、独自開発の言語システムと同様の、優れた視覚表現が欠如していることであると考えています。自然言語とは異なり、人間は視覚的な世界に最適な語彙を進化させてきませんでした。これにより、大規模な言語モデルのビジュアル生成機能も制限されます。

この判断に基づいて、本研究は主に次の 3 つのタスクを完了しました:

ビジュアル生成、ビデオ圧縮、およびアクション認識よりも優れた新しいビジュアルトークナイザーを提案する過去最高のパフォーマンス。

オリジナルの SOTA ビジュアルトークナイザー

MAGVIT

(Masked Generative Video Transformer) に基づいたこのメソッドは、主に 2 つの設計、Lookup-Free Quantization、LFQ) と image-ビデオジョイントトークナイザー。

大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生結局のところ、ビデオ/画像生成では、ImageNet 512×512 と Kinetics-600 の両方が拡散モデルよりも優れています。

大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生ビデオ圧縮とアクション認識の点でも、以前の結果より優れています。

##1 人は北京大学の卒業生です。大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

Yu Lijun は現在、CMU コンピューターサイエンス学部言語技術研究所の博士課程の学生で、以下で勉強しています。 Alexander G. Hauptmann 教授。Google の学生研究員でもあります。研究の関心は、マルチモーダル基本モデル、特にマルチタスクビデオ生成にあります。

CMU に来る前に、北京大学でコンピュータサイエンスと経済学の二重学士号を取得しました。

研究チームには他にも多くの中国人の顔が見られました。大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

責任著者の Jiang Lu は現在、Google Research の科学者であり、CMU の非常勤教授です。

彼の研究は主にマルチモーダルビッグデータ、特に堅牢な深層学習、生成人工知能、マルチモーダル基本モデルの分野に焦点を当てています。

紙のリンク:

https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu .edu/v2/

以上が大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。