Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata-AI-php.cn

Kandungan yang ditulis semula sebagai: Laporan Jantung Mesin

Editor: Du Wei, Xiaozhou

GPT-4 dan robot telah mencipta percikan api baharu.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Dalam bidang robotik, melaksanakan strategi robotik sejagat memerlukan sejumlah besar data, dan mengumpul data ini di dunia nyata memakan masa dan susah payah. Walaupun simulasi menyediakan penyelesaian yang menjimatkan untuk menjana volum data yang berbeza pada peringkat kejadian dan contoh, peningkatan kepelbagaian tugas dalam persekitaran simulasi masih menghadapi cabaran disebabkan oleh jumlah tenaga kerja yang besar yang diperlukan (terutama untuk tugas yang kompleks). Ini menghasilkan tanda aras simulasi tiruan biasa yang biasanya mengandungi hanya puluhan hingga ratusan tugasan.

Bagaimana untuk menyelesaikannya? Dalam beberapa tahun kebelakangan ini, model bahasa yang besar telah terus membuat kemajuan yang ketara dalam pemprosesan bahasa semula jadi dan penjanaan kod untuk pelbagai tugas. Begitu juga, LLM telah digunakan pada pelbagai aspek robotik, termasuk antara muka pengguna, perancangan tugas dan gerakan, ringkasan log robot, reka bentuk kos dan ganjaran, mendedahkan keupayaan kukuh dalam kedua-dua tugasan berasaskan fizik dan penjanaan kod.

Dalam kajian baru-baru ini, penyelidik dari MIT CSAIL, Shanghai Jiao Tong University dan institusi lain meneroka lebih lanjut sama ada LLM boleh digunakan untuk mencipta pelbagai tugas simulasi dan meneroka keupayaan mereka.

Secara khusus, penyelidik mencadangkan rangka kerja berasaskan LLM GenSim, yang menyediakan mekanisme automatik untuk mereka bentuk dan mengesahkan susunan aset tugas dan kemajuan tugas. Lebih penting lagi, tugasan yang dihasilkan mempamerkan kepelbagaian yang hebat, mempromosikan generalisasi peringkat tugas bagi strategi robot. Tambahan pula, secara konseptual, dengan GenSim, keupayaan penaakulan dan pengekodan LLM diperhalusi menjadi strategi tindakan verbal-visual melalui data simulasi yang disintesis secara perantaraan. ‍

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Apa yang perlu ditulis semula ialah: Pautan kertas:

https://arxiv.org/pdf/2310.01361.pdf‍

Rangka kerja GenSim terdiri daripada tiga bahagian berikut:

‍Yang pertama ialah mencadangkan tugasan baharu melalui arahan bahasa semula jadi dan mekanisme segera yang dilaksanakan oleh kod yang sepadan;
Yang kedua ialah pustaka tugas yang menyimpan kod arahan berkualiti tinggi yang dijana sebelum ini untuk pengesahan dan penalaan model bahasa dan mengembalikannya sebagai set data tugasan yang komprehensif
Akhir sekali, proses latihan dasar berbilang tugas yang disesuaikan dengan bahasa menggunakan data yang dijana untuk meningkatkan keupayaan generalisasi peringkat tugas. ‍

Rangka kerja beroperasi melalui dua mod berbeza pada masa yang sama. Antaranya, dalam tetapan berorientasikan matlamat, pengguna mempunyai tugas tertentu atau ingin mereka bentuk kursus tugas. Pada masa ini, GenSim menggunakan pendekatan atas ke bawah, mengambil tugas yang dijangkakan sebagai input dan secara berulang menjana tugas berkaitan untuk mencapai matlamat yang diharapkan. Dalam persekitaran penerokaan, jika terdapat kekurangan pengetahuan awal tentang tugas sasaran, GenSim secara beransur-ansur meneroka kandungan di luar tugasan sedia ada dan menetapkan strategi asas yang bebas daripada tugas.

Dalam Rajah 1 di bawah, penyelidik memulakan perpustakaan tugasan yang mengandungi 10 tugasan yang disusun secara manual, menggunakan GenSim untuk melanjutkannya dan menjana lebih daripada 100 tugasan.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Para penyelidik juga mencadangkan beberapa metrik tersuai untuk mengukur secara progresif kualiti tugas simulasi yang dijana, dan menilai beberapa LLM dalam tetapan berorientasikan matlamat dan penerokaan. Untuk perpustakaan tugasan yang dijana oleh GPT-4, mereka melakukan penalaan halus diselia pada LLM seperti GPT-3.5 dan Code-Llama, meningkatkan lagi prestasi penjanaan tugas LLM. Pada masa yang sama, kebolehcapaian tugasan diukur secara kuantitatif melalui latihan strategi, dan statistik tugasan atribut yang berbeza dan perbandingan kod antara model yang berbeza disediakan.

Bukan itu sahaja, para penyelidik juga melatih strategi robot berbilang tugas, yang menyamaratakan dengan baik pada semua tugas penjanaan dan meningkatkan prestasi generalisasi sifar pukulan berbanding model yang dilatih hanya pada tugas perancangan manusia. Latihan bersama dengan tugas penjanaan GPT-4 boleh meningkatkan prestasi generalisasi sebanyak 50% dan memindahkan kira-kira 40% tugasan sifar kepada tugasan baharu dalam simulasi. ‍

Akhirnya, penyelidik juga mempertimbangkan pemindahan simulasi kepada sebenar, menunjukkan bahawa pra-latihan pada tugas simulasi yang berbeza boleh meningkatkan keupayaan generalisasi dunia sebenar sebanyak 25%.

Ringkasnya, dasar yang dilatih mengenai tugasan yang dijana LLM berbeza mencapai generalisasi peringkat tugas yang lebih baik kepada tugasan baharu, menyerlahkan potensi melanjutkan tugasan simulasi melalui LLM untuk melatih dasar asas.

Shubham Saboo, pengarah pengurusan produk di Tenstorrent AI, memberikan pujian tinggi kepada penyelidikan ini. Beliau berkata ini adalah penyelidikan terobosan mengenai GPT-4 yang digabungkan dengan robot Satu siri tugasan robot simulasi dijana melalui LLM seperti GPT-. 4. Menjadikan pembelajaran sifar pukulan dan penyesuaian dunia sebenar robot menjadi realiti.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Pengenalan kaedah

Seperti yang ditunjukkan dalam Rajah 2 di bawah, rangka kerja GenSim menjana persekitaran simulasi, tugas dan demonstrasi melalui sintesis program. Saluran paip GenSim bermula daripada pencipta tugas, dan rantaian segera berjalan dalam dua mod, mod terarah matlamat dan mod penerokaan, bergantung pada tugas sasaran. Pustaka tugas dalam GenSim ialah komponen dalam memori yang digunakan untuk menyimpan tugasan berkualiti tinggi yang dijana sebelum ini Tugasan yang disimpan dalam pustaka tugas boleh digunakan untuk latihan dasar berbilang tugas atau LLM menyempurnakan.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Pencipta Tugas

Seperti yang ditunjukkan dalam Rajah 3 di bawah, rantai bahasa akan mula-mula menjana penerangan tugas, dan kemudian menjana pelaksanaan yang berkaitan. Perihalan tugas termasuk nama tugas, sumber dan ringkasan tugas. Kajian ini menggunakan beberapa contoh gesaan dalam perancangan untuk menjana kod.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Perpustakaan Tugas

Pustaka tugas dalam rangka kerja GenSim menyimpan tugas yang dijana oleh pencipta tugas untuk menjana tugas baharu yang lebih baik dan melatih strategi pelbagai tugas. Pustaka tugasan dimulakan berdasarkan tugasan daripada penanda aras yang dibuat secara manual.

Pustaka tugas menyediakan pencipta tugas dengan perihalan tugas sebelumnya sebagai syarat untuk fasa penjanaan penerangan, menyediakan kod sebelumnya untuk fasa penjanaan kod dan menggesa pencipta tugas untuk memilih tugas rujukan daripada perpustakaan tugasan sebagai sampel untuk menulis tugasan baru. Selepas pelaksanaan tugas selesai dan semua ujian telah lulus, LLM digesa untuk "merefleksikan" tugas baharu dan pustaka tugasan, dan membentuk keputusan yang komprehensif sama ada tugasan yang baru dijana perlu ditambahkan ke perpustakaan.

Seperti yang ditunjukkan dalam Rajah 4 di bawah, kajian juga mendapati bahawa GenSim mempamerkan gabungan peringkat tugasan dan tingkah laku ekstrapolasi yang menarik:

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Strategi pelbagai tugas yang diselia oleh LLM

Selepas menjana tugas, kajian ini menggunakan pelaksanaan tugas ini untuk menjana data demonstrasi dan melatih dasar operasi, menggunakan seni bina rangkaian penghantaran dwi-strim yang serupa dengan Shridhar et al (2022).

Seperti yang ditunjukkan dalam Rajah 5 di bawah, kajian ini menganggap program sebagai representasi yang berkesan bagi tugasan dan data demonstrasi yang berkaitan (Rajah 5 adalah mungkin untuk mentakrifkan ruang benam antara tugasan, dan indeks jaraknya adalah sensitif kepada pelbagai faktor daripada persepsi (seperti pose dan bentuk objek) lebih mantap.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Untuk menulis semula kandungan, bahasa teks asal perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul

Kajian ini mengesahkan rangka kerja GenSim melalui eksperimen, menangani soalan khusus berikut: (1) Sejauh manakah LLM berkesan dalam mereka bentuk dan melaksanakan tugas simulasi? Bolehkah GenSim meningkatkan prestasi LLM dalam penjanaan tugas? (2) Bolehkah latihan mengenai tugas yang dihasilkan oleh LLM meningkatkan keupayaan generalisasi dasar? Adakah latihan dasar akan mendapat lebih banyak manfaat jika diberi lebih banyak tugas generasi? (3) Adakah pra-latihan mengenai tugas simulasi yang dijana LLM memberi manfaat kepada penggunaan dasar robot dunia sebenar?

Nilai keupayaan generalisasi tugas simulasi robot LLM

Seperti yang ditunjukkan dalam Rajah 6 di bawah, untuk mod penerokaan dan penjanaan tugas mod berorientasikan matlamat, rantaian gesaan dua peringkat bagi beberapa sampel dan perpustakaan tugasan boleh meningkatkan kadar kejayaan penjanaan kod dengan berkesan.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Pengitraman peringkat tugas

Pengoptimuman strategi beberapa pukulan untuk tugasan yang berkaitan. Seperti yang boleh diperhatikan dari sebelah kiri Rajah 7 di bawah, latihan bersama tugas yang dijana oleh LLM boleh meningkatkan prestasi dasar pada tugasan CLIPort asal sebanyak lebih daripada 50%, terutamanya dalam situasi data rendah (seperti 5 demo).

Pengitraman dasar sifar kepada tugas yang tidak kelihatan. Seperti yang dapat dilihat dalam Rajah 7, dengan pra-latihan pada lebih banyak tugas yang dihasilkan oleh LLM, model kami boleh membuat generalisasi dengan lebih baik kepada tugasan dalam penanda aras Ravens yang asal. Di bahagian tengah kanan Rajah 7, penyelidik juga telah melatih 5 tugasan pada sumber tugasan yang berbeza, termasuk tugasan bertulis secara manual, LLM sumber tertutup dan LLM diperhalusi sumber terbuka, dan memerhatikan tahap tugasan sifar pukulan yang serupa. generalisasi.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Suaikan model pra-latihan dengan dunia sebenar

Penyelidik memindahkan strategi yang dilatih dalam persekitaran simulasi ke persekitaran sebenar. Keputusan ditunjukkan dalam Jadual 1 di bawah Model pra-latihan pada 70 GPT-4 menjana tugasan menjalankan 10 eksperimen pada 9 tugasan dan mencapai kadar kejayaan purata 68.8%, yang lebih baik daripada pra-latihan pada tugasan CLIPort sahaja. Berbanding dengan model garis dasar, ia telah bertambah baik sebanyak lebih daripada 25%, dan berbanding dengan model yang telah dilatih pada hanya 50 tugasan, ia telah bertambah baik sebanyak 15%.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Penyelidik juga memerhatikan bahawa pra-latihan pada tugas simulasi berbeza meningkatkan keteguhan tugas kompleks jangka panjang. Sebagai contoh, model pra-latihan GPT-4 menunjukkan prestasi yang lebih teguh pada tugas binaan dunia sebenar.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Percubaan Ablation

Kadar kejayaan latihan simulasi. Dalam Jadual 2 di bawah, penyelidik menunjukkan kadar kejayaan latihan dasar tugasan tunggal dan berbilang tugas pada subset tugasan yang dijana dengan 200 tunjuk cara. Untuk latihan dasar mengenai tugas penjanaan GPT-4, kadar kejayaan tugas puratanya ialah 75.8% untuk tugasan tunggal dan 74.1% untuk berbilang tugas.

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Jana statistik tugas. Dalam Rajah 9 (a) di bawah, penyelidik menunjukkan statistik tugasan bagi ciri-ciri berbeza bagi 120 tugasan yang dihasilkan oleh LLM. Terdapat keseimbangan yang menarik antara warna, aset, tindakan dan bilangan kejadian yang dijana oleh model LLM. Sebagai contoh, kod yang dijana mengandungi banyak adegan dengan lebih daripada 7 tika objek, serta banyak tindakan primitif pilih-dan-tempat dan aset seperti blok.

Dalam perbandingan penjanaan kod, penyelidik menilai secara kualitatif kes kegagalan dalam eksperimen atas ke bawah GPT-4 dan Kod Llama dalam Rajah 9(b) di bawah

Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata

Sila rujuk kertas asal untuk butiran lanjut teknikal.

Atas ialah kandungan terperinci Bahasa, pemecahan robot, MIT dan lain-lain menggunakan GPT-4 untuk menjana tugas simulasi dan memindahkannya ke dunia nyata. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!