Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif-AI-php.cn

iVideoGPT memenuhi keperluan untuk interaktiviti tinggi model dunia.

Model generatif telah mencapai kemajuan yang ketara dalam beberapa tahun kebelakangan ini, antaranya penjanaan video menjadi sempadan baharu. Aplikasi penting model video generatif ini adalah untuk belajar dengan cara tanpa pengawasan pada data berskala Internet yang pelbagai untuk membina model dunia ramalan. Model dunia ini dijangka mengumpul pengetahuan yang waras tentang cara dunia berfungsi, membenarkan ramalan hasil masa depan yang berpotensi berdasarkan tingkah laku ejen.

Dengan memanfaatkan model dunia ini, ejen yang menggunakan pembelajaran pengukuhan boleh membayangkan, menaakul dan merancang dalam model dunia, dengan itu memperoleh kemahiran baharu dengan lebih selamat dan berkesan di dunia nyata dengan sedikit percubaan.

Walaupun terdapat hubungan asas antara model generatif dan model dunia, masih terdapat jurang yang ketara antara pembangunan model generatif untuk penjanaan video dan model dunia untuk pembelajaran ejen. Salah satu cabaran utama ialah bagaimana untuk mencapai keseimbangan terbaik antara interaktiviti dan skalabiliti.

Dalam bidang pembelajaran tetulang berasaskan model, model dunia terutamanya menggunakan seni bina rangkaian berulang. Reka bentuk ini memudahkan pembelajaran tingkah laku interaktif dengan membenarkan pemerhatian atau keadaan terpendam dilalui berdasarkan tindakan pada setiap langkah. Walau bagaimanapun, model ini kebanyakannya menumpukan pada persekitaran permainan atau simulasi, mempunyai data mudah dan mempunyai keupayaan terhad untuk memodelkan data dalam alam liar berskala besar dan kompleks.

Sebaliknya, model penjanaan video berskala internet boleh mensintesis video panjang realistik yang boleh dikawal dengan penerangan teks atau urutan tindakan masa hadapan. Walaupun model sedemikian membenarkan perancangan jangka panjang peringkat tinggi, interaktiviti peringkat trajektori mereka tidak memberikan ejen butiran yang mencukupi untuk mempelajari tingkah laku yang tepat secara berkesan sebagai kemahiran asas.

Penyelidik dari Tsinghua University, Huawei Noah's Ark Laboratory dan Universiti Tianjin mencadangkan iVideoGPT (Interactive VideoGPT), iaitu rangka kerja Transformer autoregresif berskala yang menggabungkan isyarat berbilang modal (pemerhatian visual, Tindakan dan ganjaran) disepadukan siri token, membolehkan ejen berinteraksi dan mengalami dengan meramalkan token seterusnya.

iVideoGPT menggunakan teknologi tokenisasi mampatan baru untuk memisahkan pemerhatian visual dimensi tinggi secara berkesan. Memanfaatkan seni bina berskalanya, penyelidik dapat melatih iVideoGPT pada berjuta-juta trajektori operasi manusia dan robot, dengan itu mewujudkan asas serba boleh yang boleh digunakan sebagai model dunia interaktif untuk pelbagai tugas hiliran. Penyelidikan ini menggalakkan pembangunan model dunia sejagat interaktif.

Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

Alamat kertas: https://arxiv.org/pdf/2405.15223
Tajuk kertas: iVideoGPT: VideoGPT Interaktif ialah Model Dunia Boleh Skala

Kaedah

Dalam bahagian ini, pasukan penyelidik memperkenalkan seni bina model dunia berskala - iVideoGPT, yang sangat fleksibel dan boleh menyepadukan maklumat berbilang modal, termasuk pemerhatian visual, tindakan, ganjaran dan input berpotensi lain.

Inti iVideoGPT termasuk tokenizer mampatan untuk mendiskrisikan bingkai video dan pengubah autoregresif untuk meramalkan token berikutnya. Dengan pra-latihan pada data video yang pelbagai, model itu boleh memperoleh pengetahuan dunia yang luas dan kemudian dengan cekap dipindahkan ke tugas hiliran.

Seni bina

Tokenisasi termampat. Transformer berprestasi baik dalam mengendalikan jujukan token diskret. VQGAN ialah tokenizer visual yang biasa digunakan yang menukar piksel mentah kepada token diskret. Penyelidik mencadangkan untuk menggunakan VQGAN bersyarat baharu yang terdiri daripada pengekod dwi dan penyahkod {(E_c, D_c), (E_p, D_p)} untuk menandakan video.

Seperti yang ditunjukkan dalam Rajah 3a, bingkai konteks awal

mengandungi maklumat konteks yang kaya, yang ditoken dan dibina semula secara bebas melalui N token:

Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

🎜

Sebaliknya, disebabkan lebihan sementara antara bingkai konteks dan bingkai masa hadapan, hanya maklumat perubahan yang diperlukan, seperti kedudukan dan pose objek bergerak, perlu dikodkan. Proses di atas dicapai dengan menggunakan pengekod dan penyahkod bersyarat:

Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

Para penyelidik melaksanakan mekanisme bersyarat dengan menggunakan perhatian silang antara peta ciri berbilang skala. Secara keseluruhannya, tokenizer dilatih dengan matlamat berikut:

Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

Tokenisasi yang dicadangkan dalam kajian ini terutamanya mempunyai dua faedah:

Pertama, ia mengurangkan dengan ketara jujukan garisan video, yang meningkatkan jujukan garisan video dengan ketara. bilangan bingkai, tetapi kadar pertumbuhan n adalah jauh lebih kecil;
Kedua, melalui pengekodan bersyarat, pengubah yang meramalkan token seterusnya dapat dengan lebih mudah mengekalkan ketekalan temporal konteks dan memfokuskan maklumat dinamik yang diperlukan untuk pemodelan.

Ramalan interaktif untuk Transformer. Selepas tokenisasi, video diratakan menjadi satu siri token:

Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

panjangnya ialah Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

. Token slot khas [S] dimasukkan untuk menggambarkan sempadan bingkai dan memudahkan gabungan modaliti dimensi rendah tambahan seperti tindakan. Seperti yang ditunjukkan dalam Rajah 3b, pengubah autoregresif seperti GPT digunakan untuk ramalan video interaktif dengan menjana token seterusnya bingkai demi bingkai. Dalam kerja ini, pasukan menggunakan saiz model GPT-2 tetapi menyesuaikan seni bina LLaMA untuk memanfaatkan inovasi terkini dalam seni bina LLM, seperti pembenaman kedudukan putaran.

Pra-latihan

Model bahasa yang besar boleh memperoleh pengetahuan yang luas daripada teks Internet dengan cara yang diselia sendiri melalui ramalan perkataan seterusnya. Begitu juga, paradigma pra-latihan video tanpa tindakan model dunia menggunakan ramalan video sebagai matlamat pra-latihan untuk menyediakan penyeliaan berskala Internet untuk pengetahuan dunia fizikal yang kekurangan LLM.

Para penyelidik telah melatih iVideoGPT pada sasaran umum ini, menggunakan kehilangan entropi silang untuk meramalkan token video berikutnya:

Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif

Data pra-latihan. Walaupun terdapat sejumlah besar video yang tersedia di Internet, disebabkan oleh batasan pengiraan, para penyelidik telah melatih iVideoGPT khusus untuk bidang manipulasi robotik. Mereka menggunakan gabungan 35 set data daripada set data Open X-Embodiment (OXE) dan set data Something-Something v2 (SSv2), berjumlah 1.5 juta trajektori.

Penalaan halus

syarat tindakan dan ramalan ganjaran. Seni bina pasukan direka bentuk untuk mengintegrasikan modaliti tambahan secara fleksibel untuk mempelajari model dunia interaktif, seperti yang ditunjukkan dalam Rajah 3b. Tindakan disepadukan melalui unjuran linear dan ditambahkan pada benam token slot. Untuk ramalan ganjaran, bukannya mempelajari peramal ganjaran yang berasingan, mereka menambah kepala linear pada keadaan tersembunyi token terakhir setiap pemerhatian.

Kaedah pembelajaran berbilang tugas ini boleh meningkatkan perhatian model kepada maklumat berkaitan tugas, dengan itu meningkatkan ketepatan ramalan tugas kawalan. Sebagai tambahan kepada kehilangan entropi silang Persamaan (3), mereka juga menggunakan min kehilangan ralat kuasa dua untuk ramalan ganjaran.

Penyesuaian tokenizer. Pasukan penyelidik memilih untuk mengemas kini model penuh, termasuk tokenizer, untuk menyesuaikan diri dengan tugas hiliran dan mendapati strategi ini lebih berkesan daripada kaedah penalaan halus yang cekap parameter.

Terdapat sedikit literatur yang meneroka penggunaan tokenizer VQGAN untuk data khusus domain. Dalam kerja ini, memandangkan tokenisasi memisahkan maklumat dinamik daripada keadaan kontekstual, diandaikan bahawa walaupun model ini mungkin menghadapi objek ghaib dalam tugas hiliran, seperti jenis robot yang berbeza, pengubah belajar daripada pelbagai senario Pengetahuan fizik asas - seperti pergerakan dan interaksi - dikongsi.

Hipotesis ini disokong oleh eksperimen di mana mereka memindahkan iVideoGPT daripada data pra-latihan bercampur kepada set data BAIR ghaib, di mana pengubah pra-latihan boleh meramalkan gerakan semula jadi dengan generalisasi tangkapan sifar, hanya untuk Haluskan yang tidak kelihatan. tokenizer penggenggam robot yang telah anda lihat (lihat Rajah 7). Ciri ini amat penting untuk menskalakan pengubah seperti GPT kepada saiz yang besar, membolehkan penjajaran ringan merentas domain sambil mengekalkan pengubah utuh.

Eksperimen

Seperti yang ditunjukkan dalam Jadual 1, iVideoGPT mempamerkan prestasi kompetitif berbanding kaedah SOTA sambil mencapai interaktiviti dan skalabiliti dalam seni binanya. Walaupun percubaan awal telah dilakukan pada resolusi rendah 64×64, iVideoGPT boleh diperluaskan dengan mudah kepada 256×256 RoboNet.

Lihat Rajah 9 untuk keputusan kualitatif.

Rajah 4 menunjukkan kadar kejayaan iVideoGPT berbanding model garis dasar. iVideoGPT dengan ketara mengatasi semua garis dasar pada kedua-dua tugas RoboDesk dan mencapai prestasi purata yang setanding dengan model SVG' terkuat.

Rajah 6 menunjukkan bahawa algoritma berasaskan model bukan sahaja meningkatkan kecekapan sampel daripada algoritma bebas model, tetapi juga mencapai atau melebihi prestasi DreamerV3.

Kajian seterusnya menganalisis keupayaan ramalan video tangkapan sifar bagi iVideoGPT pra-latihan berskala besar pada set data BAIR yang tidak kelihatan. Menariknya, kami perhatikan dalam baris kedua Rajah 7 bahawa iVideoGPT meramalkan gerakan semula jadi pencengkam robot tanpa penalaan halus—walaupun berbeza daripada set data pra-latihan. Ini menunjukkan bahawa walaupun model itu mempunyai generalisasi sifar pukulan terhad kepada robot yang tidak kelihatan sepenuhnya kerana kepelbagaian yang tidak mencukupi dalam data pra-latihan, ia secara berkesan memisahkan konteks adegan daripada dinamik gerakan. Sebaliknya, menggunakan tokenizer yang disesuaikan, Transformer yang tidak ditala halus berjaya memindahkan pengetahuan yang telah dilatih dan meramalkan gerakan robot novel dalam baris ketiga, memberikan persepsi yang sama kepada Transformer yang ditala sepenuhnya di baris keempat. Keputusan kualiti dan kuantitatif ditunjukkan dalam Rajah 8a.

Untuk keputusan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Universiti Tsinghua, Huawei dan lain-lain mencadangkan iVideoGPT: pengkhususan dalam model dunia interaktif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!