Robotik: Bagaimanakah kemajuan pada model asas?-AI-php.cn

Robot adalah teknologi dengan potensi yang tidak terhad, terutamanya dengan sokongan teknologi pintar. Baru-baru ini, beberapa model berskala besar dengan aplikasi revolusioner dianggap berpotensi menjadi otak pintar untuk robot, mampu membantu robot melihat dan memahami dunia, serta membuat keputusan dan rancangan. Baru-baru ini, pasukan bersama yang diketuai oleh Yonatan Bisk dari CMU dan Fei Xia dari Google DeepMind mengeluarkan laporan semakan yang memperkenalkan aplikasi dan pembangunan model asas dalam bidang robotik.

Manusia sentiasa bermimpi untuk membangunkan robot yang boleh menyesuaikan diri dengan persekitaran yang berbeza secara autonomi. Namun, merealisasikan impian ini adalah jalan yang panjang dan mencabar.

Pada masa lalu, sistem persepsi robot biasanya menggunakan kaedah pembelajaran mendalam tradisional, yang memerlukan sejumlah besar data berlabel untuk melatih model pembelajaran yang diselia. Walau bagaimanapun, pelabelan set data yang besar melalui penyumberan ramai adalah sangat mahal.

Robotik: Bagaimanakah kemajuan pada model asas?

Selain itu, kaedah pembelajaran seliaan klasik mempunyai batasan tertentu dalam keupayaan generalisasinya. Untuk menggunakan model terlatih ini pada senario atau tugas tertentu, reka bentuk teknologi penyesuaian domain yang teliti biasanya diperlukan, yang selalunya memerlukan pengumpulan data dan anotasi lanjut. Begitu juga, kaedah perancangan dan kawalan robot tradisional juga memerlukan pemodelan yang tepat bagi dinamik persekitaran, ejen itu sendiri, dan ejen lain. Model ini selalunya dibina untuk persekitaran atau tugas tertentu, dan apabila keadaan berubah, model itu perlu dibina semula. Ini menunjukkan prestasi pemindahan model klasik juga terhad.

Malah, untuk kebanyakan kes penggunaan, membina model yang berkesan adalah sama ada terlalu mahal atau mustahil. Walaupun kaedah perancangan gerakan dan kawalan berasaskan pembelajaran yang mendalam (pengukuhan) membantu mengurangkan masalah ini, mereka masih mengalami peralihan pengedaran dan pengurangan keupayaan generalisasi.

Walaupun terdapat banyak cabaran dalam membangunkan sistem robotik tujuan umum, bidang pemprosesan bahasa semula jadi (NLP) dan penglihatan komputer (CV) telah mencapai kemajuan pesat baru-baru ini, termasuk model bahasa besar (LLM) untuk NLP, Difusi pengguna model untuk penjanaan imej ketelitian tinggi, model visual yang berkuasa dan model bahasa visual untuk tugas CV seperti penjanaan sifar tangkapan/beberapa tangkapan.

Apa yang dipanggil "model asas" sebenarnya adalah model pra-latihan (LPTM) yang besar. Mereka mempunyai kebolehan visual dan lisan yang kuat. Baru-baru ini, model ini juga telah diaplikasikan dalam bidang robotik dan dijangka memberi sistem robotik persepsi dunia terbuka, perancangan tugas dan juga keupayaan kawalan gerakan. Selain menggunakan visi dan/atau model asas bahasa sedia ada dalam bidang robotik, beberapa pasukan penyelidik sedang membangunkan model asas untuk tugasan robot, seperti model tindakan untuk manipulasi atau model perancangan gerakan untuk navigasi. Model robot asas ini menunjukkan keupayaan generalisasi yang kuat dan boleh menyesuaikan diri dengan tugas yang berbeza dan juga penyelesaian khusus.

Terdapat juga penyelidik yang secara langsung menggunakan model asas penglihatan/bahasa untuk tugasan robot, yang menunjukkan kemungkinan menyepadukan modul robot yang berbeza ke dalam satu model bersatu.

Walaupun model asas penglihatan dan bahasa mempunyai prospek yang menjanjikan dalam bidang robotik, dan model asas robot baharu juga sedang dibangunkan, masih terdapat banyak cabaran dalam bidang robotik yang sukar diselesaikan.

Dari perspektif penggunaan sebenar, model selalunya tidak boleh dihasilkan semula, tidak dapat digeneralisasikan kepada bentuk robot yang berbeza (pengertian berbilang jelmaan) atau sukar untuk memahami dengan tepat tingkah laku dalam persekitaran yang boleh dilaksanakan (atau boleh diterima) ). Di samping itu, kebanyakan penyelidikan menggunakan seni bina berasaskan Transformer, memfokuskan pada persepsi semantik objek dan adegan, perancangan peringkat tugas dan kawalan. Bahagian lain sistem robot kurang dipelajari, seperti model asas untuk dinamik dunia atau model asas yang boleh melakukan penaakulan simbolik. Ini memerlukan keupayaan generalisasi merentas domain.

Akhir sekali, kami juga memerlukan lebih banyak data dunia sebenar berskala besar dan simulator ketelitian tinggi yang menyokong pelbagai tugas robotik.

Kertas ulasan ini meringkaskan model asas yang digunakan dalam bidang robotik, dengan matlamat untuk memahami bagaimana model asas boleh membantu menyelesaikan atau mengurangkan cabaran teras dalam bidang robotik.

Robotik: Bagaimanakah kemajuan pada model asas?

Alamat kertas: https://arxiv.org/pdf/2312.08782.pdf

Dalam kajian ini, penyelidik menggunakan "istilah asas untuk dua robot" merangkumi aspek : (1) model penglihatan dan bahasa sedia ada (terutamanya) untuk robot, terutamanya melalui pembelajaran sifar dan pembelajaran kontekstual; (2) dibangunkan dan dieksploitasi secara khusus menggunakan data yang dihasilkan oleh robot Model asas robot untuk menyelesaikan tugasan robotik. Mereka meringkaskan kaedah dalam kertas berkaitan yang digunakan untuk model asas robot dan melakukan analisis meta pada keputusan eksperimen kertas ini.

Robotik: Bagaimanakah kemajuan pada model asas?

Rajah 1 menunjukkan komponen utama laporan semakan ini.

Robotik: Bagaimanakah kemajuan pada model asas?

Rajah 2 memberikan struktur keseluruhan ulasan ini.

Pengetahuan awal

Untuk membantu pembaca lebih memahami kandungan ulasan ini, pasukan terlebih dahulu menyediakan bahagian pengetahuan persediaan.

Mereka akan memperkenalkan asas robotik dan teknologi semasa yang terbaik. Fokus utama di sini ialah kaedah yang digunakan dalam bidang robotik sebelum era model asas. Berikut adalah penjelasan ringkas, sila rujuk kertas asal untuk butiran.

Komponen utama robot boleh dibahagikan kepada tiga bahagian: persepsi, membuat keputusan dan perancangan, dan penjanaan tindakan.
Pasukan membahagikan persepsi robot kepada persepsi pasif, persepsi aktif dan anggaran keadaan.
Dalam bahagian membuat keputusan dan perancangan robot, para penyelidik memperkenalkan kaedah perancangan klasik dan kaedah perancangan berasaskan pembelajaran.
Penjanaan tindakan mesin juga mempunyai kaedah kawalan klasik dan kaedah kawalan berasaskan pembelajaran.
Seterusnya, pasukan akan memperkenalkan model asas dan memberi tumpuan terutamanya pada bidang NLP dan CV Model yang terlibat termasuk: LLM, VLM, model asas visual dan model penjanaan imej bersyarat.

Cabaran dalam bidang robotik

Bahagian ini meringkaskan lima cabaran teras yang dihadapi oleh modul berbeza sistem robotik biasa. Rajah 3 menunjukkan klasifikasi lima cabaran ini.

Robotik: Bagaimanakah kemajuan pada model asas?

1. Generalisasi

Sistem robotik selalunya mengalami kesukaran untuk mengesan dan memahami persekitarannya dengan tepat. Mereka juga tidak mempunyai keupayaan untuk menyamaratakan keputusan latihan pada satu tugasan kepada tugas yang lain, yang seterusnya mengehadkan kegunaannya dalam dunia sebenar. Di samping itu, disebabkan perkakasan robot yang berbeza, ia juga sukar untuk memindahkan model kepada bentuk robot yang berbeza. Masalah generalisasi boleh diselesaikan sebahagiannya dengan menggunakan model asas untuk robot.

Dan soalan lanjut seperti generalisasi kepada bentuk robot yang berbeza masih belum terjawab.

2. Kekurangan Data

Untuk membangunkan model robot yang boleh dipercayai, data berkualiti tinggi berskala besar adalah penting. Usaha sedang dijalankan untuk mengumpul set data berskala besar dari dunia nyata, termasuk nilai automatik, trajektori operasi robot dan banyak lagi. Dan mengumpul data robot daripada demonstrasi manusia adalah mahal. Dan disebabkan kepelbagaian tugas dan persekitaran, proses mengumpul data yang mencukupi dan meluas dalam dunia nyata akan menjadi lebih rumit. Selain itu, terdapat kebimbangan keselamatan seputar pengumpulan data di dunia nyata.

Untuk menangani cabaran ini, banyak kerja penyelidikan telah cuba menjana data sintetik dalam persekitaran simulasi. Simulasi ini boleh menyediakan dunia maya yang sangat realistik, membolehkan robot belajar dan menggunakan kemahiran mereka dalam senario hampir kehidupan sebenar. Walau bagaimanapun, menggunakan persekitaran simulasi juga mempunyai had, terutamanya dari segi kepelbagaian objek, yang menjadikan kemahiran yang dipelajari sukar untuk dipindahkan secara langsung ke situasi dunia sebenar.

Selain itu, dalam dunia nyata, amat sukar untuk mengumpul data secara besar-besaran, malah lebih sukar untuk mengumpul data imej/teks berskala Internet yang digunakan untuk melatih model asas.

Satu pendekatan yang menjanjikan ialah pengumpulan data kolaboratif, yang mengumpul data daripada persekitaran makmal yang berbeza dan jenis robot bersama-sama, seperti yang ditunjukkan dalam Rajah 4a. Walau bagaimanapun, pasukan itu melihat secara mendalam Set Data Penjelmaan Open-X dan mendapati terdapat beberapa batasan dari segi ketersediaan jenis data.

Robotik: Bagaimanakah kemajuan pada model asas?

3. Keperluan model dan primitif

Kaedah perancangan dan kawalan klasik biasanya memerlukan persekitaran yang direka dengan teliti dan model robot. Kaedah berasaskan pembelajaran terdahulu (seperti pembelajaran tiruan dan pembelajaran pengukuhan) melatih dasar secara hujung ke hujung, iaitu mendapatkan output kawalan secara langsung berdasarkan input deria, sekali gus mengelakkan keperluan untuk membina dan menggunakan model. Kaedah ini sebahagiannya boleh menyelesaikan masalah bergantung pada model eksplisit, tetapi ia selalunya sukar untuk digeneralisasikan kepada persekitaran dan tugasan yang berbeza.

Ini membawa kepada dua soalan: (1) Bagaimana untuk mempelajari dasar bebas model yang boleh membuat generalisasi dengan baik? (2) Bagaimana untuk mempelajari model dunia yang baik supaya kaedah berasaskan model klasik boleh diaplikasikan?

4. Spesifikasi tugasan

Untuk mencapai ejen tujuan am, cabaran utama adalah untuk memahami spesifikasi tugas dan membumikannya dalam pemahaman semasa robot tentang dunia. Biasanya, spesifikasi tugasan ini disediakan oleh pengguna, yang hanya mempunyai pemahaman terhad tentang batasan keupayaan kognitif dan fizikal robot. Ini menimbulkan banyak persoalan, termasuk bukan sahaja amalan terbaik yang boleh disediakan untuk spesifikasi tugasan ini, tetapi juga sama ada merangka spesifikasi ini adalah semula jadi dan cukup mudah. Ia juga mencabar untuk memahami dan menyelesaikan kekaburan dalam spesifikasi tugas berdasarkan pemahaman robot tentang keupayaannya.

5. Ketidakpastian dan Keselamatan

Untuk menggunakan robot di dunia nyata, cabaran utama ialah menangani ketidakpastian yang wujud dalam persekitaran dan spesifikasi tugas. Bergantung kepada sumber, ketidakpastian boleh dibahagikan kepada ketidakpastian epistemik (ketidakpastian yang disebabkan oleh kekurangan pengetahuan) dan ketidakpastian tidak sengaja (bunyi yang wujud dalam persekitaran).

Kos kuantifikasi ketidakpastian (UQ) mungkin sangat tinggi sehingga penyelidikan dan aplikasi tidak mampan, dan ia juga mungkin menghalang tugas hiliran daripada diselesaikan secara optimum. Memandangkan sifat model asas yang diparameterkan secara besar-besaran, untuk mencapai kebolehskalaan tanpa mengorbankan prestasi generalisasi model, adalah penting untuk menyediakan kaedah UQ yang mengekalkan skim latihan sambil mengubah seni bina asas sesedikit mungkin. Mereka bentuk robot yang boleh memberikan anggaran keyakinan yang boleh dipercayai tentang tingkah laku mereka sendiri dan, seterusnya, meminta maklum balas yang dinyatakan dengan jelas tetap menjadi cabaran yang tidak dapat diselesaikan.

Walaupun terdapat beberapa kemajuan baru-baru ini, memastikan robot mempunyai keupayaan untuk belajar daripada pengalaman untuk memperhalusi strategi mereka dan kekal selamat dalam persekitaran baharu kekal mencabar.

Gambaran Keseluruhan Kaedah Penyelidikan Semasa

Bahagian ini meringkaskan kaedah penyelidikan semasa yang digunakan untuk model asas robot. Pasukan itu membahagikan model asas yang digunakan dalam bidang robotik kepada dua kategori utama: model asas untuk robot dan model asas robot (RFM).

Model asas untuk robot terutamanya merujuk kepada penggunaan model asas visual dan bahasa untuk robot dalam cara sampel sifar, yang bermaksud tiada penalaan halus atau latihan tambahan diperlukan. Model asas robot mungkin dimulakan secara hangat menggunakan pemulaan pra-latihan bahasa penglihatan dan/atau model boleh dilatih secara langsung pada set data robot. . Ini terutamanya melibatkan penggunaan VLM secara sifar ke dalam aplikasi persepsi robot, menggunakan keupayaan pembelajaran kontekstual LLM untuk perancangan dan penjanaan tindakan peringkat tugas dan peringkat gerakan. Rajah 6 menunjukkan beberapa kerja penyelidikan perwakilan.

Robotik: Bagaimanakah kemajuan pada model asas?

2. Model Fundamental Robot (RFM)

Robotik: Bagaimanakah kemajuan pada model asas? Sebagai dataset robot yang mengandungi pasangan tindakan negeri dari robot sebenar tumbuh, robot asas model (RFM ) kategori juga semakin berkemungkinan berjaya. Model ini menampilkan penggunaan data robotik untuk melatih model menyelesaikan tugas robotik.

Bahagian ini akan merumuskan dan membincangkan pelbagai jenis RFM. Yang pertama ialah RFM yang boleh melaksanakan jenis tugas dalam modul robot tunggal, yang juga dipanggil model asas robot objektif tunggal. Sebagai contoh, RFM boleh menjana tindakan peringkat rendah untuk mengawal robot atau model yang boleh menjana perancangan gerakan peringkat lebih tinggi.

Nanti, kami akan memperkenalkan RFM yang boleh melaksanakan tugasan dalam berbilang modul robot, iaitu model universal yang boleh melaksanakan tugasan persepsi, kawalan dan juga bukan robotik.

Robotik: Bagaimanakah kemajuan pada model asas?

3. Bagaimanakah model asas boleh membantu menyelesaikan cabaran robotik?

Lima cabaran utama yang dihadapi dalam bidang robotik disenaraikan di atas. Bahagian ini menerangkan cara model asas boleh membantu menangani cabaran ini.

Semua model asas yang berkaitan dengan maklumat visual (seperti VFM, VLM dan VGM) boleh digunakan dalam modul persepsi robot. LLM, sebaliknya, lebih serba boleh dan boleh digunakan untuk perancangan dan kawalan. Model Asas Robot (RFM) biasanya digunakan dalam modul perancangan dan penjanaan tindakan. Jadual 1 meringkaskan model asas untuk menyelesaikan cabaran robotik yang berbeza.

Seperti yang dapat dilihat dari jadual, semua model asas pandai menyamaratakan tugas pelbagai modul robot. LLM sangat baik pada spesifikasi tugas. RFM, sebaliknya, pandai menangani cabaran model dinamik kerana kebanyakan RFM adalah pendekatan tanpa model. Untuk persepsi robot, keupayaan generalisasi dan cabaran model digandingkan antara satu sama lain, kerana jika model persepsi sudah mempunyai keupayaan generalisasi yang baik, tidak perlu memperoleh lebih banyak data untuk melakukan penyesuaian domain atau penalaan halus tambahan.

Selain itu, masih terdapat kekurangan penyelidikan mengenai cabaran keselamatan, yang akan menjadi hala tuju penyelidikan masa depan yang penting.

Ikhtisar Eksperimen dan Penilaian Semasa

Bahagian ini meringkaskan hasil penyelidikan semasa tentang set data, penanda aras dan eksperimen.

1. Set Data dan Penanda Aras

Terdapat had untuk bergantung semata-mata pada pengetahuan yang dipelajari daripada set data bahasa dan visual. Seperti yang ditunjukkan oleh beberapa hasil penyelidikan, beberapa konsep seperti geseran dan berat tidak boleh dipelajari dengan mudah melalui modaliti ini sahaja.

Oleh itu, untuk membolehkan ejen robotik memahami dunia dengan lebih baik, komuniti penyelidik bukan sahaja menyesuaikan model asas daripada domain bahasa dan penglihatan, tetapi juga memajukan pembangunan robot pelbagai mod yang besar dan pelbagai untuk melatih dan memperhalusi ini. set data.

Pada masa ini usaha ini dibahagikan kepada dua arah utama: mengumpul data dari dunia nyata dan mengumpul data dari dunia simulasi dan memindahkannya ke dunia nyata. Setiap arah ada kebaikan dan keburukannya. Set data yang dikumpulkan dari dunia nyata termasuk RoboNet, Bridge Dataset V1, Bridge-V2, Language-Table, RT-1, dsb. Simulator yang biasa digunakan termasuk Habitat, AI2THOR, Mujoco, AirSim, Simulator Perlumbaan Autonomi Ketibaan, Gim Issac, dsb.

2. Analisis penilaian kaedah semasa

Satu lagi sumbangan utama pasukan ini ialah analisis meta eksperimen dalam kertas yang dinyatakan dalam laporan ulasan ini, yang boleh membantu penulis menjelaskan isu berikut:

Apakah tugas yang diteliti dan diselesaikan oleh orang?

Apakah set data atau simulator yang digunakan untuk melatih model? Apakah platform robot yang digunakan untuk ujian?
Apakah model asas yang digunakan oleh komuniti penyelidik? Sejauh manakah keberkesanannya dalam menyelesaikan tugasan?
Model asas yang manakah lebih biasa digunakan antara kaedah ini?
Jadual 2-7 dan Rajah 11 memberikan hasil analisis.

Robotik: Bagaimanakah kemajuan pada model asas?

Robotik: Bagaimanakah kemajuan pada model asas? Pasukan mengenal pasti beberapa trend utama:

Perhatian komuniti penyelidik terhadap tugas operasi robot tidak seimbang penanda aras ujian bersatu

Perbincangan dan hala tuju masa depan

Pasukan merumuskan beberapa cabaran yang masih perlu diselesaikan dan menyelidik arah yang patut dibincangkan:
penetapan asas robot (perwujudan asas) )
Keselamatan dan Ketidakpastian

Adakah pendekatan hujung ke hujung dan pendekatan modular tidak serasi?

Kebolehsuaian kepada perubahan fizikal yang terkandung

Pendekatan model dunia atau pendekatan model-agnostik?

Platform robotik baharu dan maklumat pelbagai deria

Pembelajaran berterusan

Penstandardan dan kebolehulangan

Atas ialah kandungan terperinci Robotik: Bagaimanakah kemajuan pada model asas?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!