Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat-AI-php.cn

Dalam beberapa tahun kebelakangan ini, banyak perkembangan menarik telah muncul dalam bidang robotik, seperti robot anjing yang boleh menari dan bermain bola sepak, dan robot dwipedal yang menggerakkan sesuatu.. Biasanya robot ini bergantung pada penjanaan strategi kawalan berdasarkan input deria. Walaupun pendekatan ini mengelakkan cabaran untuk membangunkan modul anggaran keadaan, sifat objek model dan keuntungan pengawal penalaan, ia memerlukan kepakaran domain yang ketara. Walaupun banyak kemajuan telah dicapai, kesesakan pembelajaran menyukarkan robot untuk melaksanakan tugas sewenang-wenangnya dan mencapai matlamat sejagat.

Untuk memahami kunci pembelajaran robot, soalan teras ialah: Bagaimanakah kami mengumpul data latihan untuk robot? Satu pendekatan ialah mengumpul data tentang robot melalui strategi pengumpulan data yang diselia sendiri. Walaupun pendekatan ini agak mantap, ia selalunya memerlukan ribuan jam interaksi data dengan dunia sebenar, walaupun untuk tugas operasi yang agak mudah. Yang lain adalah untuk melatih data simulasi dan kemudian dipindahkan ke robot sebenar (Sim2Real). Ini membolehkan robot mempelajari susunan magnitud tingkah laku robot yang kompleks dengan lebih cepat. Walau bagaimanapun, menyediakan persekitaran robotik simulasi dan menentukan parameter simulator selalunya memerlukan kepakaran domain yang luas.

Sebenarnya, terdapat kaedah ketiga mengumpul data latihan juga boleh meminta guru manusia memberikan demonstrasi, dan kemudian melatih robot untuk meniru demonstrasi manusia dengan cepat. Pendekatan peniruan ini baru-baru ini menunjukkan potensi besar dalam pelbagai masalah operasi yang mencabar. Walau bagaimanapun, kebanyakan kerja ini mengalami had asas—sukar untuk mengumpul data demonstrasi berkualiti tinggi untuk robot.

Berdasarkan isu di atas, penyelidik dari Universiti New York dan Meta AI mencadangkan HOLO-DEX, rangka kerja baharu untuk mengumpul data demonstrasi dan melatih robot yang cekap. Ia menggunakan set kepala VR (seperti Quest 2) untuk menempatkan guru manusia dalam dunia maya yang mengasyikkan. Dalam dunia maya ini, guru boleh melihat apa yang robot "lihat" melalui mata robot dan mengawal manipulator Allegro melalui pengesan pose terbina dalam.

Kelihatan seperti manusia yang mengajar robot bertindak "langkah demi langkah":

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

HOLODEX membenarkan manusia Menyediakan data demonstrasi berkualiti tinggi dengan lancar untuk robot melalui sistem maklum balas pemerhatian kependaman rendah, yang mempunyai tiga kelebihan berikut:

Berbanding dengan kaedah pengumpulan data yang diselia sendiri, HOLODEX adalah berdasarkan teknologi pembelajaran tiruan yang berkuasa dan boleh dilatih dengan cepat tanpa mekanisme ganjaran; pada data sebenar;
Berbanding dengan kaedah tiruan yang lain, HOLODEX mengurangkan dengan ketara keperluan untuk kepakaran domain dan hanya memerlukan orang untuk mengendalikan peranti VR.

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat Pautan kertas: https://arxiv.org/pdf/2210.06463.pdf

Pautan projek: https://holo-dex.github.io/

Pautan kod: https:/ //github.com/SridharPandian/Holo-Dex

Untuk menilai prestasi HOLO-DEX, kajian menjalankan eksperimen ke atas enam tugas yang memerlukan ketangkasan, termasuk Objek pegang tangan, membuka skru. penutup botol dengan sebelah tangan, dsb. Kajian mendapati bahawa guru manusia yang menggunakan HOLO-DEX adalah 1.8 kali lebih pantas daripada kerja sebelumnya pada teleoperasi imej tunggal (teleoperasi). Pada 4/6 tugasan, kadar kejayaan strategi pembelajaran HOLO-DEX melebihi 90%. Selain itu, kajian mendapati bahawa strategi cekap yang dipelajari melalui HOLO-DEX boleh digeneralisasikan kepada objek sasaran baharu yang tidak kelihatan.

Secara amnya, sumbangan kajian ini termasuk:

Menyediakan kaedah untuk guru manusia mencapai teleoperasi berkualiti tinggi dalam realiti campuran dengan bantuan set kepala VR
Eksperimen menunjukkan bahawa HOLO-DEX The demonstrasi yang dikumpul boleh digunakan untuk melatih tingkah laku manipulasi cekap yang berkesan dan serba boleh Kegunaan reka bentuk.
Selain itu, API realiti campuran, demonstrasi koleksi penyelidikan dan kod latihan berkaitan HOLO-DEX telah menjadi sumber terbuka: https://holo-dex.github.io /

Gambaran Keseluruhan Seni Bina HOLO-DEX

Seperti yang ditunjukkan dalam Rajah 1 di bawah, HOLO-DEX beroperasi dalam dua peringkat. Dalam fasa pertama, seorang guru manusia menggunakan alat dengar realiti maya (VR) untuk memberikan demonstrasi kepada robot. Peringkat ini termasuk mewujudkan alam maya untuk mengajar, menganggar postur tangan guru, menempatkan semula postur tangan guru ke tangan robot, dan akhirnya mengawal tangan robot. Selepas mengumpul beberapa demonstrasi dalam fasa pertama, fasa kedua HOLO-DEX mempelajari strategi visual untuk menyelesaikan tugasan yang ditunjukkan.

Kajian menggunakan set kepala Meta Quest 2 VR untuk menempatkan guru manusia di dunia maya dengan resolusi 1832 × 1920 dan kadar penyegaran sebanyak 72 Hz. Versi asas alat dengar berharga $399 dan agak ringan pada 503 gram, menjadikan pembentangan lebih mudah dan lebih selesa untuk guru. Lebih-lebih lagi, antara muka API Quest 2 membolehkan penciptaan dunia realiti campuran tersuai yang menggambarkan sistem robotik bersama panel diagnostik dalam VR. Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Menggunakan set kepala VR untuk menganggarkan pose tangan

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Berbanding dengan kerja sebelumnya mengenai ketangkasan Berbanding dengan kerja teleoperasi, menggunakan set kepala VR mempunyai tiga faedah dari segi anggaran pose tangan untuk guru manusia. Pertama, memandangkan Quest 2 menggunakan 4 kamera monokrom, penganggar gerak isyaratnya jauh lebih berkuasa daripada penganggar kamera tunggal. Kedua, kerana kamera ditentukur secara dalaman, mereka tidak memerlukan prosedur penentukuran khusus yang diperlukan dalam rangka kerja teleoperasi berbilang kamera sebelumnya. Ketiga, memandangkan penganggar pose tangan disepadukan ke dalam peranti, ia dapat menghantar pose masa nyata pada 72Hz. Penyelidikan terdahulu telah menunjukkan bahawa cabaran utama dalam teleoperasi yang cekap ialah memperoleh gerak isyarat tangan dengan ketepatan dan kekerapan yang tinggi, dan HOLO-DEX memudahkan masalah ini dengan ketara dengan menggunakan set kepala VR gred komersial.

Penyasaran semula pose tangan

Seterusnya, pose tangan guru yang diekstrak daripada VR perlu disasarkan semula ke tangan robot. Ini pertama melibatkan pengiraan sudut setiap sendi tangan guru, dan kemudian kaedah orientasi semula secara langsung adalah untuk "menyuruh" sendi robot untuk bergerak ke sudut yang sepadan. Kaedah ini berkesan untuk semua jari dalam kajian kecuali ibu jari, tetapi bentuk tangan robot Allegro tidak betul-betul sepadan dengan manusia, jadi kaedah itu tidak berfungsi sepenuhnya dengan ibu jari.

Untuk menyelesaikan masalah ini, kajian ini memetakan koordinat spatial hujung ibu jari guru ke hujung ibu jari robot, dan kemudian mengira sudut sendi ibu jari melalui penyelesai kinematik songsang. Perlu diingatkan bahawa oleh kerana manipulator Allegro tidak mempunyai jari kelingking, kajian itu mengabaikan sudut jari kelingking guru.

Keseluruhan proses orientasi semula postur tidak memerlukan sebarang penentukuran atau pelarasan khusus guru untuk mengumpul demo. Tetapi kajian mendapati bahawa pengalihan ibu jari boleh diperbaiki dengan mencari pemetaan khusus daripada ibu jari guru kepada ibu jari robot. Keseluruhan proses adalah murah dari segi pengiraan dan boleh menghantar pose tangan robot yang dikehendaki pada 60 Hz.

Kawalan Tangan Robot

Allegro Hand melakukan kawalan tak segerak melalui rangka kerja komunikasi ROS. Memandangkan kedudukan sendi tangan robot yang dikira oleh program orientasi semula, kajian ini menggunakan pengawal PD untuk mengeluarkan tork yang diperlukan pada 300Hz. Untuk mengurangkan ralat keadaan mantap, kajian ini menggunakan modul pampasan graviti untuk mengira tork offset. Dalam ujian kependaman, kajian mendapati bahawa kependaman sub-100 milisaat dicapai apabila set kepala VR berada pada rangkaian tempatan yang sama dengan tangan robotik. Latensi rendah dan kadar ralat yang rendah adalah penting untuk HOLO-DEX kerana ini membolehkan teleoperasi intuitif tangan robot oleh seorang guru manusia.

Apabila guru manusia mengawal tangan robot, mereka dapat melihat perubahan robot dalam masa nyata (60Hz). Ini membolehkan guru membetulkan ralat pelaksanaan tangan robot. Semasa proses pengajaran, kajian merekodkan data pemerhatian daripada tiga kamera RGBD dan maklumat pergerakan robot pada frekuensi 5Hz. Kajian itu terpaksa mengurangkan kekerapan rakaman kerana jejak data yang besar dan lebar jalur yang berkaitan yang diperlukan untuk merakam berbilang kamera.

Gunakan data HOLO-DEX untuk pembelajaran tiruan

Selepas mengumpul data, ia memasuki peringkat kedua HOLO-DEX perlu melatih strategi visual pada data. Kajian ini menggunakan algoritma tiruan jiran terdekat (INN) untuk pembelajaran. Dalam kerja sebelumnya, INN ditunjukkan untuk menghasilkan dasar pintar berasaskan negeri pada Allegro. HOLO-DEX melangkah lebih jauh dan menunjukkan bahawa strategi visual ini digeneralisasikan kepada objek baru dalam pelbagai tugas manipulasi yang cekap.

Untuk memilih algoritma pembelajaran untuk mendapatkan pembenaman dimensi rendah, kajian ini mencuba beberapa algoritma pembelajaran penyeliaan kendiri terkini dan mendapati BYOL menyediakan yang terbaik terdekat keputusan jiran, jadi BYOL dipilih Sebagai kaedah pembelajaran asas penyeliaan kendiri.

Hasil eksperimen

Jadual 1 di bawah menunjukkan bahawa HOLO-DEX mengumpul demo yang berjaya 1.8 kali lebih cepat daripada DIME. Untuk 3/6 tugasan yang memerlukan gerakan 3D yang tepat, kajian mendapati bahawa teleoperasi imej tunggal tidak pun mencukupi untuk mengumpul satu demonstrasi.

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Kajian ini mengkaji prestasi pelbagai strategi pembelajaran meniru pada tugasan ketangkasan ditunjukkan dalam Jadual 2 di bawah.

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Memandangkan strategi yang dicadangkan dalam kajian ini adalah berasaskan penglihatan dan tidak memerlukan anggaran yang jelas tentang keadaan objek, ia boleh dibandingkan dengan yang tidak dilihat dalam objek latihan adalah serasi. Kajian itu menilai strategi manipulasi manualnya yang dilatih untuk melakukan putaran satah, membalikkan objek, dan tugasan Can Spinning pada objek pelbagai rupa visual dan geometri, seperti ditunjukkan dalam Rajah 5 di bawah.

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Selain itu, kajian ini juga menguji prestasi HOLO-DEX pada set data saiz yang berbeza untuk tugasan yang berbeza ditunjukkan dalam rajah di bawah.

Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat

Atas ialah kandungan terperinci Pakai topi keledar VR untuk mengajar robot memahami, dan robot mempelajarinya di tempat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!