Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking-AI-php.cn

Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking

PHPz

Lepaskan： 2023-10-16 14:29:01

ke hadapan

833 orang telah melayarinya

Model bahasa mengalahkan model penyebaran dan mencapai SOTA berganda dalam penjanaan video dan imej!

Ini adalah hasil penyelidikan terkini daripada Google CMU.

Menurut laporan, ini adalah kali pertama bahawa model bahasa telah mengalahkan model resapan pada penanda aras ImageNet yang ikonik.

Komponen utama di belakangnya ialah

visual tokenizer (video tokenizer), yang boleh memetakan input ruang piksel ke dalam token yang sesuai untuk pembelajaran LLM.

Pasukan penyelidik Google CMU mencadangkan MAGVIT-v2, yang mengatasi pembahagian kata visual terbaik sebelum ini dalam dua tugasan lain.

Model Bahasa Besar Menewaskan Model Resapan

Telah dipersetujui bahawa model bahasa besar mempunyai prestasi cemerlang dalam pelbagai bidang generatif. Seperti teks, audio, penjanaan kod, dsb.

Tetapi model bahasa sentiasa ketinggalan daripada model resapan dari segi penjanaan visual.

Pasukan percaya bahawa sebab utama adalah kekurangan perwakilan visual yang baik, serupa dengan sistem bahasa yang dibangunkan sendiri, yang boleh memodelkan dunia visual dengan berkesan. Tidak seperti bahasa semula jadi, manusia belum mengembangkan perbendaharaan kata yang optimum untuk dunia visual. Ini juga mengehadkan keupayaan penjanaan visual model bahasa besar.

Berdasarkan pertimbangan ini, penyelidikan ini menyempurnakan terutamanya tiga tugas:

Kaedah kuantifikasi bebas carian baharu yang meningkatkan kualiti penjanaan visual model bahasa dengan mempelajari perbendaharaan kata yang besar
Buat pertama kali, bukti menunjukkan bahawa di bawah data latihan yang sama, saiz model yang setara dan belanjawan latihan yang serupa Di bawah syarat, model bahasa mengalahkan model resapan pada ImageNet.

Menurut pengarang, ini juga kali pertama tokenizer visual berjaya mencapai hasil yang setanding dengan codec standard.

Berdasarkan tokenizer visual SOTA asal

MAGVIT (Masked Generative Video Transformer), kaedah ini terutamanya melengkapkan dua reka bentuk: Lookup-Free Quantization (LFQ) dan image-video joint tokenizer.

Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking

Akhir sekali, dalam penjanaan video/imej, ImageNet 512×512 dan Kinetics-600 kedua-duanya lebih baik daripada Model Difusi.

Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking

Dari segi pemampatan video dan pengecaman tindakan, ia juga lebih baik daripada keputusan sebelumnya.

Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking

Salah seorang alumni Universiti Peking

Yu Lijun kini merupakan pelajar kedoktoran di Institut Teknologi Bahasa, Pusat Pengajian Sains Komputer, CMU, belajar di bawah Profesor Alexander G. Hauptmann, dan juga seorang penyelidik pelajar Google . Minat penyelidikan terletak pada model asas berbilang modal, terutamanya penjanaan video berbilang tugas.

Sebelum datang ke CMU, beliau menerima ijazah sarjana muda berganda dalam bidang sains komputer dan ekonomi dari Universiti Peking.

Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking

Saya juga melihat ramai lagi wajah Cina dalam pasukan penyelidik.

Pengarang yang sepadan Jiang Lu kini seorang saintis di Google Research dan profesor tambahan di CMU.

Penyelidikan beliau tertumpu terutamanya pada bidang data besar pelbagai mod, terutamanya pembelajaran mendalam yang teguh, kecerdasan buatan generatif dan model asas pelbagai mod.

Pautan kertas:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

Atas ialah kandungan terperinci Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!