Sekarang ini, semua kerja rumah telah diambil alih oleh robot.
Robot dari Stanford yang boleh menggunakan periuk baru muncul, dan robot yang boleh menggunakan mesin kopi baru sahaja tiba, Rajah-01.
Rajah-01 Lihat sahaja video demonstrasi dan jalankan latihan selama 10 jam untuk dapat mengendalikan mesin kopi dengan mahir. Daripada memasukkan kapsul kopi hingga menekan butang mula, semuanya dilakukan sekali gus.
Walau bagaimanapun, ia adalah masalah yang sukar untuk membolehkan robot belajar secara bebas menggunakan pelbagai perabot dan peralatan rumah tanpa memerlukan video demonstrasi apabila menghadapinya. Ini memerlukan robot mempunyai persepsi visual yang kuat dan keupayaan membuat keputusan, serta kemahiran manipulasi yang tepat.
Pautan kertas: https://arxiv.org/abs/2312.01307
Laman utama projek: https://geometry.stanford.edu/projects/sage/
Kod: https://github.com/ geng-haoran/SAGE
Tinjauan Masalah Kajian
Rajah 1: Mengikut arahan manusia, lengan robot boleh menggunakan pelbagai peralatan rumah tanpa sebarang arahan.
Baru-baru ini, PaLM-E dan GPT-4V telah mempromosikan aplikasi model grafik besar dalam perancangan tugas robot, dan kawalan robot umum dipandu oleh bahasa visual telah menjadi bidang penyelidikan yang popular.
Kaedah biasa pada masa lalu ialah membina sistem dua lapisan Model grafik besar lapisan atas melakukan perancangan dan penjadualan kemahiran, dan model strategi kemahiran kawalan lapisan bawah bertanggungjawab untuk melaksanakan tindakan secara fizikal. Tetapi apabila robot menghadapi pelbagai peralatan rumah yang tidak pernah mereka lihat sebelum ini dan memerlukan operasi berbilang langkah dalam kerja rumah, kedua-dua lapisan atas dan bawah kaedah sedia ada akan menjadi tidak berdaya.
Ambil model grafik paling canggih GPT-4V sebagai contoh Walaupun ia boleh menggambarkan satu gambar dengan teks, ia masih penuh dengan ralat apabila ia berkaitan dengan pengesanan, pengiraan, kedudukan dan anggaran status bahagian yang boleh dikendalikan. Sorotan merah dalam Rajah 2 ialah pelbagai ralat GPT-4V yang dibuat semasa menerangkan gambar almari laci, ketuhar dan kabinet berdiri. Berdasarkan penerangan yang salah, penjadualan kemahiran robot itu jelas tidak boleh dipercayai.
Rajah 2: GPT-4V tidak boleh mengendalikan tugas yang tertumpu pada kawalan umum seperti mengira, pengesanan, penganggaran dan keadaan
Model strategi kemahiran kawalan peringkat bawah bertanggungjawab untuk melaksanakan tugasan yang diberikan oleh model grafik dan teks peringkat atas dalam pelbagai situasi sebenar. Kebanyakan hasil penyelidikan sedia ada secara tegar mengekod titik pegangan dan kaedah operasi beberapa objek yang diketahui berdasarkan peraturan, dan secara amnya tidak boleh menangani kategori objek baharu yang belum pernah dilihat sebelum ini. Walau bagaimanapun, model operasi hujung ke hujung (seperti RT-1, RT-2, dsb.) hanya menggunakan modaliti RGB, kurang persepsi jarak yang tepat dan mempunyai generalisasi yang lemah kepada perubahan dalam persekitaran baharu seperti ketinggian.
Diilhamkan oleh kerja CVPR Highlight GAPartNet [1] pasukan Profesor Wang He sebelum ini, pasukan penyelidik memfokuskan pada bahagian biasa (GAParts) dalam pelbagai kategori perkakas rumah. Walaupun perkakas rumah sentiasa berubah, sentiasa terdapat beberapa bahagian yang amat diperlukan. Terdapat geometri dan corak interaksi yang serupa antara setiap perkakas rumah dan bahagian biasa ini.
Hasilnya, pasukan penyelidik memperkenalkan konsep GAPart dalam kertas GAPartNet [1]. GAPart merujuk kepada komponen yang boleh digeneralisasikan dan interaktif. GAPart muncul pada kategori objek berengsel yang berbeza Contohnya, pintu berengsel boleh didapati dalam peti besi, almari pakaian dan peti sejuk. Seperti yang ditunjukkan dalam Rajah 3, GAPartNet [1] menganotasi semantik dan pose GAPart pada pelbagai jenis objek.
Rajah 3: GAPart: bahagian yang boleh digeneralisasikan dan interaktif [1].
Berdasarkan kajian terdahulu, pasukan penyelidik secara kreatif memperkenalkan GAPart berdasarkan penglihatan tiga dimensi ke dalam sistem manipulasi objek robot SAGE. SAGE akan menyediakan maklumat untuk VLM dan LLM melalui pengesanan bahagian 3D yang boleh digeneralisasikan dan anggaran pose yang tepat. Pada peringkat membuat keputusan, kaedah baharu menyelesaikan masalah pengiraan tepat yang tidak mencukupi dan keupayaan penaakulan model grafik dua dimensi pada peringkat pelaksanaan, kaedah baharu mencapai operasi umum pada setiap bahagian melalui API operasi fizikal yang teguh berdasarkan; GAPart bergambar.
SAGE membentuk sistem model grafik dan teks berskala besar terwujud tiga dimensi yang pertama, menyediakan idea baharu untuk keseluruhan pautan robot daripada persepsi, interaksi fizikal kepada maklum balas dan meneroka cara baharu bagi robot untuk mengawal objek kompleks secara bijak dan universal seperti sebagai perabot dan peralatan rumah.
Pengenalan Sistem
Rajah 4 menunjukkan proses asas SAGE. Pertama, modul tafsiran arahan yang mampu mentafsir konteks akan menghuraikan input arahan kepada robot dan pemerhatiannya, dan menukar penghuraian ini kepada program tindakan robot seterusnya dan bahagian semantiknya yang berkaitan. Seterusnya, SAGE memetakan bahagian semantik (seperti bekas) ke bahagian yang perlu dikendalikan (seperti butang peluncur) dan menjana tindakan (seperti tindakan "tekan" butang) untuk menyelesaikan tugas.
Rajah 4: Gambaran keseluruhan kaedah.
Ringkasan
SAGE ialah rangka kerja model bahasa visual 3D pertama yang boleh menjana arahan umum untuk mengawal objek artikulasi yang kompleks seperti perabot dan peralatan rumah. Ia menukar tindakan yang diarahkan bahasa kepada manipulasi boleh laku dengan menghubungkan semantik objek dan pemahaman kebolehkendalian pada peringkat bahagian. Selain itu, artikel ini juga mengkaji kaedah untuk menggabungkan model penglihatan/bahasa berskala besar umum dengan model pakar domain untuk meningkatkan kekomprekan dan ketepatan ramalan rangkaian, mengendalikan tugas ini dengan lebih baik dan mencapai keadaan terkini. persembahan seni. Keputusan eksperimen menunjukkan bahawa rangka kerja mempunyai keupayaan generalisasi yang kukuh dan boleh menunjukkan prestasi unggul pada kategori objek dan tugasan yang berbeza. Di samping itu, artikel itu menyediakan penanda aras baharu untuk manipulasi berpandukan bahasa bagi objek yang diartikulasikan.Pengenalan Pasukan
SAGE Hasil penyelidikan ini datang daripada makmal Profesor Leonidas Guibas dari Universiti Stanford, Persepsi dan Interaksi Terwujud (EPIC Lab) Profesor Wang He dari Universiti Peking, dan Institut Penyelidikan Kepintaran Buatan Zhiyuan. Penulis kertas kerja ialah pelajar Universiti Peking dan sarjana pelawat Universiti Stanford Geng Haoran (pengarang bersama), pelajar kedoktoran Universiti Peking Wei Songlin (pengarang bersama), pelajar kedoktoran Universiti Stanford Deng Congyue dan Shen Bokui, dan penyelia ialah Profesor Leonidas Guibas dan Profesor Wang He .Rujukan:
[2] Kirillov, Alexander, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao et al. "Segmenkan apa-apa sahaja."
[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。Ni,dan Heung-Yeung Shum。"Dino: Detr dengan kotak sauh denoising yang dipertingkatkan untuk hujung ke- pengesanan objek tamat." pracetak arXiv arXiv:2203.03605 (2022).
[4] Xiang,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et. persekitaran interaktif." Dalam Prosiding Persidangan IEEE/CVF mengenai Penglihatan Komputer dan Pengecaman Corak,pp。11097-11107。2020.
Atas ialah kandungan terperinci Sistem model grafik tiga dimensi tujuan umum pertama untuk perabot dan peralatan rumah yang tidak memerlukan bimbingan dan menggunakan model visual untuk generalisasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!