OK-Robot yang dibangunkan oleh Meta dan Universiti New York: robot penuangan teh telah muncul-AI-php.cn

Dalam persekitaran keluarga, ahli keluarga sering diminta mendapatkan alat kawalan jauh pada kabinet TV. Kadang-kadang anjing peliharaan pun tidak kebal. Tetapi selalu ada masa apabila orang berada dalam situasi di mana mereka tidak dapat mengawal orang lain. Dan anjing peliharaan mungkin tidak dapat memahami arahan. Harapan manusia terhadap robot adalah untuk membantu menyelesaikan kerja-kerja ini. Ini adalah impian utama kami untuk robot.

Baru-baru ini, Universiti New York dan Meta bekerjasama untuk membangunkan robot dengan keupayaan untuk bertindak secara autonomi. Apabila anda memberitahunya: "Sila letakkan kepingan jagung di atas meja di atas meja sisi katil," ia akan berjaya menyelesaikan tugas dengan mencari kepingan jagung secara bebas dan merancang laluan terbaik serta tindakan yang sepadan. Di samping itu, robot itu juga mempunyai keupayaan untuk menyusun barang dan mengendalikan sampah untuk memberikan anda kemudahan. Robot ini dipanggil OK-Robot dan dibina oleh penyelidik dari Universiti New York dan Meta. Mereka menyepadukan modul asas model bahasa visual, navigasi dan memahami ke dalam rangka kerja berasaskan pengetahuan terbuka, menyediakan penyelesaian untuk operasi pilih-dan-tempat yang cekap bagi robot. Ini bermakna apabila kita semakin tua, membeli robot untuk membantu kita menghidangkan teh dan air mungkin menjadi kenyataan.

OK-Robot yang dibangunkan oleh Meta dan Universiti New York: robot penuangan teh telah muncul Kedudukan "pengetahuan terbuka" OK-Robot merujuk kepada model pembelajarannya yang dilatih pada set data awam yang besar. Apabila OK-Robot diletakkan dalam persekitaran rumah baharu, ia mengambil hasil imbasan daripada iPhone. Berdasarkan imbasan ini, ia mengira perwakilan bahasa visual yang padat menggunakan LangSam dan CLIP dan menyimpannya dalam memori semantik. Kemudian, apabila diberikan pertanyaan linguistik untuk objek diambil, perwakilan linguistik pertanyaan itu dipadankan dengan memori semantik. Seterusnya, OK-Robot akan menggunakan modul navigasi dan pemilihan secara beransur-ansur, beralih ke objek yang diperlukan dan mengambilnya. Proses yang serupa boleh digunakan untuk membuang objek.

Untuk mengkaji OK-Robot, penyelidik mengujinya dalam 10 persekitaran rumah sebenar. Melalui eksperimen, mereka mendapati bahawa dalam persekitaran rumah semula jadi yang tidak kelihatan, kadar kejayaan penggunaan sampel sifar sistem adalah purata 58.5%. Walau bagaimanapun, kadar kejayaan ini banyak bergantung kepada "semula jadi" alam sekitar. Mereka juga mendapati bahawa kadar kejayaan ini boleh ditingkatkan kepada kira-kira 82.4% dengan menambah baik pertanyaan, mengemas ruang dan mengecualikan objek yang jelas bertentangan (seperti terlalu besar, terlalu lut sinar atau terlalu licin).

OK-Robot yang dibangunkan oleh Meta dan Universiti New York: robot penuangan teh telah muncul

Merentasi 10 persekitaran rumah di New York City, OK-Robot mencuba 171 tugasan pengambilan.

OK-Robot yang dibangunkan oleh Meta dan Universiti New York: robot penuangan teh telah muncul Ringkasnya, melalui eksperimen, mereka membuat kesimpulan berikut:

Model bahasa visual pra-latihan sangat berkesan untuk navigasi perbendaharaan kata terbuka: Model bahasa visual kosa kata terbuka semasa – seperti CLIP atau OWL-ViT – — Cemerlang dalam mengenal pasti objek sewenang-wenangnya di dunia nyata dan menavigasi serta mencarinya dengan cara sifar.

Model genggaman yang telah dilatih boleh digunakan secara langsung pada manipulasi mudah alih: Sama seperti VLM, model robot khusus yang telah dilatih terlebih dahulu pada jumlah data yang banyak boleh digunakan terus untuk memahami perbendaharaan kata terbuka di rumah. Model robot ini tidak memerlukan latihan tambahan atau penalaan halus.

Cara menggabungkan komponen adalah penting: Penyelidik mendapati bahawa apabila model itu dilatih terlebih dahulu, mereka boleh digabungkan menggunakan model mesin keadaan yang ringkas tanpa sebarang latihan. Mereka juga mendapati bahawa menggunakan heuristik untuk mengimbangi batasan fizikal robot membawa kepada kadar kejayaan yang lebih tinggi di dunia nyata.

Masih terdapat beberapa cabaran: Memandangkan cabaran besar operasi sifar sampel di mana-mana rumah, OK-Robot bertambah baik berdasarkan kerja sebelumnya: dengan menganalisis mod kegagalan, mereka mendapati bahawa dalam model bahasa visual, robot Ketara. penambahbaikan boleh dibuat dalam model dan morfologi robot, yang secara langsung akan meningkatkan prestasi agen manipulasi pengetahuan terbuka.

.

Komponen dan kaedah teknikal
- Penyelidikan ini terutamanya menyelesaikan masalah ini: ambil A dari B dan letakkan pada C, di mana A ialah objek dan B dan C berada di suatu tempat di tempat persekitaran dunia sebenar. Untuk mencapai matlamat ini, sistem yang dicadangkan perlu memasukkan modul berikut: modul navigasi objek perbendaharaan kata terbuka, modul merebut RGB-D kosa kata terbuka dan modul heuristik untuk melepaskan atau meletakkan objek (heuristik menjatuhkan).
- Buka Navigasi Objek Perbendaharaan Kata
Mulakan dengan mengimbas bilik. Navigasi Objek Perbendaharaan Kata Terbuka mengikut pendekatan CLIP-Fields dan mengambil fasa prapemetaan pengimbasan manual persekitaran rumah menggunakan iPhone. Imbasan manual ini hanya menangkap video rumah menggunakan aplikasi Record3D pada iPhone, yang akan menghasilkan satu siri imej RGB-D dengan lokasi. . Rakaman mesti menangkap permukaan tanah serta objek dan bekas di persekitaran.

Langkah seterusnya ialah pengesanan objek. Pada setiap bingkai yang diimbas, pengesan objek perbendaharaan kata terbuka memproses kandungan yang diimbas. Kertas ini memilih pengesan objek OWL-ViT kerana kaedah ini berprestasi lebih baik pada pertanyaan awal. Kami menggunakan pengesan pada setiap bingkai dan mengekstrak setiap kotak sempadan objek, pembenaman CLIP dan keyakinan pengesan dan menghantarnya ke modul storan objek modul navigasi.

Kemudian lakukan storan semantik berpusatkan objek. Kertas ini menggunakan VoxelMap untuk mencapai langkah ini Secara khusus, mereka menggunakan imej kedalaman dan pose yang dikumpul oleh kamera untuk memproyeksikan topeng objek ke dalam koordinat dunia sebenar vektor semantik daripada CLIP. Diikuti oleh modul memori pertanyaan: diberikan pertanyaan bahasa, artikel ini menggunakan pengekod bahasa CLIP untuk menukarnya kepada vektor semantik. Memandangkan setiap voxel dikaitkan dengan lokasi sebenar dalam rumah, lokasi di mana objek pertanyaan kemungkinan besar ditemui boleh ditemui, serupa dengan Rajah 2 (a).

Apabila perlu, artikel ini akan melaksanakan "A pada B" sebagai "A tutup B". Untuk melakukan ini, pertanyaan A memilih 10 mata pertama dan pertanyaan B memilih 50 mata pertama. Kemudian hitung jarak Euclidean 10×50 berpasangan dan pilih titik A yang dikaitkan dengan jarak terpendek (A, B).

Selepas menyelesaikan proses di atas, langkah seterusnya ialah menavigasi ke objek di dunia nyata: Setelah koordinat kedudukan 3D di dunia nyata diperoleh, ia boleh digunakan sebagai sasaran navigasi robot untuk memulakan fasa operasi. Modul navigasi mesti meletakkan robot dalam jangkauan tangan supaya robot kemudiannya boleh memanipulasi objek sasaran.

Robot menggenggam objek dunia sebenar

Tidak seperti navigasi perbendaharaan kata terbuka, untuk menyelesaikan tugas menggenggam, algoritma perlu berinteraksi secara fizikal dengan objek sewenang-wenang di dunia nyata, yang menjadikan bahagian ini lebih banyak kesukaran. Oleh itu, kertas kerja ini memilih untuk menggunakan model genggaman terlatih untuk menjana gerak isyarat menggenggam dunia sebenar dan menggunakan VLM untuk penapisan keadaan bahasa.

Modul penjanaan genggaman yang digunakan dalam artikel ini ialah AnyGrasp, yang menjana genggaman bebas perlanggaran menggunakan penggenggam rahang selari dalam pemandangan yang diberikan satu imej RGB dan awan titik.
AnyGrasp menyediakan genggaman yang mungkin dalam pemandangan (Rajah 3, lajur 2), termasuk titik genggam, lebar, tinggi, kedalaman dan skor genggam, yang mewakili keyakinan model yang tidak ditentukur dalam setiap genggaman .

Menapis genggaman menggunakan pertanyaan bahasa: Untuk cadangan memahami yang diperoleh daripada AnyGrasp, artikel ini menggunakan LangSam untuk menapis genggaman. Kertas ini menayangkan semua mata cengkaman yang dicadangkan pada imej dan mencari titik cengkaman yang berada dalam topeng objek (Rajah 3, lajur 4).

Pelaksanaan cengkaman. Setelah genggaman optimum ditentukan (Rajah 3, lajur 5), kaedah pra-pegang yang mudah boleh digunakan untuk menangkap objek sasaran.

Modul heuristik untuk melepaskan atau meletakkan objek

Selepas mencengkam objek, langkah seterusnya ialah di mana untuk meletakkan objek. Tidak seperti pelaksanaan garis dasar HomeRobot, yang menganggap bahawa lokasi objek dijatuhkan ialah permukaan rata, kertas ini memanjangkannya untuk turut meliputi objek cekung seperti singki, tong sampah, kotak dan beg.

Sekarang navigasi, cengkaman dan penempatan semuanya ada di sana, ia adalah masalah untuk meletakkannya bersama-sama, kaedah yang boleh digunakan secara langsung pada mana-mana rumah baharu. Untuk persekitaran rumah baharu, kajian boleh mengimbas bilik dalam masa kurang seminit. Ia kemudian mengambil masa kurang daripada lima minit untuk memprosesnya menjadi VoxelMap. Setelah selesai, robot boleh diletakkan segera di tapak yang dipilih dan memulakan operasi. Daripada tiba dalam persekitaran baharu hingga mula beroperasi secara autonomi di dalamnya, sistem mengambil masa purata kurang daripada 10 minit untuk menyelesaikan tugas pilih-dan-tempat pertamanya.

Eksperimen

Dalam lebih daripada 10 percubaan di rumah, OK-Robot mencapai kadar kejayaan 58.5% pada tugas pilih-dan-tempat.

Kajian ini juga menjalankan penerokaan yang mendalam tentang OK-Robot untuk lebih memahami mod kegagalannya. Kajian mendapati punca utama kegagalan adalah kegagalan operasi Walau bagaimanapun, selepas pemerhatian yang teliti, didapati punca kegagalan adalah disebabkan oleh ekor panjang Seperti yang ditunjukkan dalam Rajah 4, tiga sebab utama kegagalan termasuk kegagalan untuk mendapatkan semula dari memori semantik lokasi untuk menavigasi objek yang betul (9.3%), pose yang diperoleh daripada modul manipulasi adalah sukar untuk diselesaikan (8.0%), dan sebab perkakasan (7.5%).

Ia boleh dilihat dari Rajah 5 bahawa VoxelMap yang digunakan dalam OK-Robot adalah lebih baik sedikit daripada modul memori semantik yang lain. Bagi modul mengikis, AnyGrasp dengan ketara mengatasi kaedah mengikis lain, mengatasi calon terbaik (mengikis atas ke bawah) hampir 50% pada skala relatif. Walau bagaimanapun, hakikat bahawa rangkak atas-bawah HomeRobot berdasarkan heuristik mengalahkan garis dasar AnyGrasp sumber terbuka dan Contact-GraspNet menunjukkan bahawa membina model rangkak yang benar-benar universal masih sukar.

Rajah 6 menunjukkan analisis lengkap kegagalan OK-Robot pada pelbagai peringkat. Menurut analisis, apabila penyelidik membersihkan persekitaran dan memadam objek kabur, ketepatan navigasi meningkat, dan jumlah kadar ralat menurun daripada 15% kepada 12%, dan akhirnya turun kepada 4%. Begitu juga, ketepatan bertambah baik apabila penyelidik membersihkan persekitaran daripada kekacauan, dengan kadar ralat jatuh daripada 25 peratus kepada 16 peratus dan akhirnya kepada 13 peratus.

Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci OK-Robot yang dibangunkan oleh Meta dan Universiti New York: robot penuangan teh telah muncul. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

OK-Robot yang dibangunkan oleh Meta dan Universiti New York: robot penuangan teh telah muncul

Eksperimen