Kajian mendedahkan model asas dan laluan pembangunan robot-AI-php.cn

Tidak perlu mengubah maksud asal, robot adalah teknologi yang boleh mempunyai kemungkinan tanpa had, terutamanya apabila digabungkan dengan teknologi pintar. Baru-baru ini, beberapa model berskala besar dengan aplikasi revolusioner dijangka menjadi hab robot pintar, membantu robot untuk melihat dan memahami dunia, membuat keputusan dan merancang

Baru-baru ini, diketuai oleh Yonatan Bisk dari CMU dan Fei Xia dari Google DeepMind Pasukan bersama mengeluarkan laporan semakan yang memperkenalkan aplikasi dan pembangunan model asas dalam bidang robotik. Pengarang pertama laporan itu ialah Yafei Hu, pelajar kedoktoran tahun empat di CMU yang penyelidikannya memfokuskan pada persimpangan robotik dan kecerdasan buatan. Berkolaborasi dengannya ialah Quanting Xie, yang menumpukan pada penerokaan kecerdasan yang terkandung melalui model asas.

Kajian mendedahkan model asas dan laluan pembangunan robot

Alamat kertas: https://arxiv.org/pdf/2312.08782.pdf

Membangunkan robot yang boleh menyesuaikan diri secara autonomi kepada persekitaran yang berbeza sentiasa menjadi impian manusia, tetapi ini adalah impian yang lama dan, jalan panjang Jalan yang mencabar. Sebelum ini, sistem persepsi robot yang menggunakan kaedah pembelajaran mendalam tradisional biasanya memerlukan sejumlah besar data berlabel untuk melatih model pembelajaran diselia, dan kos pelabelan set data besar melalui sumber ramai adalah sangat tinggi.

Selain itu, disebabkan keupayaan generalisasi terhad kaedah pembelajaran penyeliaan klasik, untuk menggunakan model ini kepada senario atau tugas tertentu, model terlatih ini biasanya memerlukan teknik penyesuaian domain yang direka dengan teliti, yang seterusnya sering memerlukan pengumpulan data selanjutnya dan langkah anotasi. Begitu juga, pendekatan perancangan dan kawalan robot klasik sering memerlukan pemodelan dunia yang teliti, dinamik ejen sendiri dan/atau dinamik ejen lain. Model ini biasanya dibina untuk setiap persekitaran atau tugas tertentu, dan apabila keadaan berubah, model itu perlu dibina semula. Ini menunjukkan bahawa prestasi penghijrahan model klasik juga terhad.

Malah, untuk kebanyakan kes penggunaan, membina model yang berkesan adalah sama ada terlalu mahal atau mustahil. Walaupun kaedah perancangan gerakan dan kawalan berasaskan pembelajaran yang mendalam (pengukuhan) membantu mengurangkan masalah ini, mereka masih mengalami peralihan pengedaran dan pengurangan keupayaan generalisasi.

Walaupun terdapat banyak cabaran dalam membangunkan sistem robotik tujuan umum, bidang pemprosesan bahasa semula jadi (NLP) dan penglihatan komputer (CV) telah mencapai kemajuan pesat baru-baru ini, termasuk model bahasa besar (LLM) untuk NLP, Difusi pengguna model untuk penjanaan imej kesetiaan tinggi, model visual yang berkuasa dan model bahasa visual untuk tugas CV seperti penjanaan sifar tangkapan/beberapa tangkapan.

Apa yang dipanggil "model asas" sebenarnya adalah model pra-latihan (LPTM) yang besar. Mereka mempunyai kebolehan visual dan lisan yang kuat. Baru-baru ini, model ini juga telah diaplikasikan dalam bidang robotik dan dijangka memberi sistem robotik persepsi dunia terbuka, perancangan tugas dan juga keupayaan kawalan gerakan. Selain menggunakan visi dan/atau model asas bahasa sedia ada dalam bidang robotik, beberapa pasukan penyelidik sedang membangunkan model asas untuk tugasan robot, seperti model tindakan untuk manipulasi atau model perancangan gerakan untuk navigasi. Model robot asas ini menunjukkan keupayaan generalisasi yang kuat dan boleh menyesuaikan diri dengan tugas yang berbeza dan juga penyelesaian khusus. Terdapat juga penyelidik yang secara langsung menggunakan model asas penglihatan/bahasa untuk tugasan robot, yang menunjukkan kemungkinan menyepadukan modul robot yang berbeza ke dalam model bersatu tunggal.

Walaupun model asas penglihatan dan bahasa mempunyai prospek yang menjanjikan dalam bidang robotik, dan model asas robot baharu juga sedang dibangunkan, masih terdapat banyak cabaran dalam bidang robotik yang sukar diselesaikan.

Dari perspektif penggunaan sebenar, model selalunya tidak boleh dihasilkan semula, tidak dapat digeneralisasikan kepada bentuk robot yang berbeza (pengertian berbilang jelmaan) atau sukar untuk memahami dengan tepat tingkah laku dalam persekitaran yang boleh dilaksanakan (atau boleh diterima) ). Di samping itu, kebanyakan kajian menggunakan seni bina berasaskan Transformer, memfokuskan pada persepsi semantik objek dan adegan, perancangan peringkat tugasan dan kawalan. Bahagian lain sistem robot kurang dipelajari, seperti model asas untuk dinamik dunia atau model asas yang boleh melakukan penaakulan simbolik. Ini memerlukan keupayaan generalisasi merentas domain.

Akhir sekali, kami juga memerlukan lebih banyak data dunia sebenar berskala besar dan simulator ketelitian tinggi yang menyokong pelbagai tugas robotik.

Kertas ulasan ini meringkaskan model asas yang digunakan dalam bidang robotik, dengan matlamat untuk memahami bagaimana model asas boleh membantu menyelesaikan atau mengurangkan cabaran teras dalam bidang robotik.

Dalam ulasan ini, istilah "model asas" yang digunakan oleh penyelidik merangkumi dua aspek bidang robotik: (1) model visual dan bahasa sedia ada utama, terutamanya melalui pukulan sifar dan Untuk mencapai ini melalui pembelajaran kontekstual; ) Gunakan data yang dijana oleh robot untuk membangunkan dan menggunakan model asas secara khusus untuk menyelesaikan tugasan robot. Para penyelidik merumuskan kaedah pada model asas dalam kertas yang berkaitan dan menjalankan meta-analisis pada hasil eksperimen kertas ini

Kajian mendedahkan model asas dan laluan pembangunan robot

Struktur keseluruhan kajian

Untuk membantu pembaca lebih memahami kandungan ulasan ini, pasukan terlebih dahulu menyediakan bahagian pengetahuan persediaan

Mereka akan memperkenalkan pengetahuan asas robotik dan teknologi terbaik semasa terlebih dahulu. Fokus utama di sini ialah kaedah yang digunakan dalam bidang robotik sebelum era model asas. Berikut adalah penjelasan ringkas, sila rujuk kertas asal untuk butiran.

Komponen utama robot boleh dibahagikan kepada tiga bahagian: persepsi, membuat keputusan dan perancangan, dan penjanaan tindakan. Pasukan membahagikan persepsi robot kepada persepsi pasif, persepsi aktif dan anggaran keadaan.
Dalam bahagian membuat keputusan dan perancangan robot, penyelidik memperkenalkan kaedah perancangan klasik dan kaedah perancangan berasaskan pembelajaran.
Penjanaan tindakan mesin juga mempunyai kaedah kawalan klasik dan kaedah kawalan berasaskan pembelajaran.

Seterusnya, pasukan akan memperkenalkan model asas dan memberi tumpuan terutamanya pada bidang NLP dan CV Model yang terlibat termasuk: LLM, VLM, model asas visual dan model penjanaan imej bersyarat.

Cabaran dalam bidang robotik

Lima cabaran teras yang dihadapi oleh modul berbeza sistem robotik biasa. Rajah 3 menunjukkan klasifikasi lima cabaran ini.

Kajian mendedahkan model asas dan laluan pembangunan robot

Generalisasi

Sistem robot sering bergelut untuk mengesan dan memahami persekitarannya dengan tepat. Mereka juga tidak mempunyai keupayaan untuk menyamaratakan keputusan latihan pada satu tugasan kepada tugas yang lain, yang seterusnya mengehadkan kegunaannya dalam dunia sebenar. Di samping itu, disebabkan perkakasan robot yang berbeza, ia juga sukar untuk memindahkan model kepada bentuk robot yang berbeza. Masalah generalisasi boleh diselesaikan sebahagiannya dengan menggunakan model asas untuk robot. Soalan lanjut seperti generalisasi kepada bentuk robot yang berbeza masih perlu dijawab.

Kekurangan Data

Untuk membangunkan model robot yang boleh dipercayai, data berskala besar dan berkualiti tinggi adalah penting. Usaha sedang dijalankan untuk mengumpul set data berskala besar dari dunia nyata, termasuk pemanduan autonomi, trajektori operasi robot, dsb. Dan mengumpul data robot daripada demonstrasi manusia adalah mahal. Walau bagaimanapun, proses mengumpul data yang mencukupi dan meluas dalam dunia nyata semakin rumit oleh kepelbagaian tugas dan persekitaran. Terdapat juga kebimbangan keselamatan mengenai pengumpulan data di dunia nyata. Di samping itu, dalam dunia nyata, sangat sukar untuk mengumpul data secara besar-besaran, malah lebih sukar untuk mengumpul data imej/teks berskala Internet yang digunakan untuk melatih model asas.

Untuk menangani cabaran ini, banyak usaha penyelidikan telah cuba menjana data sintetik dalam persekitaran simulasi. Persekitaran simulasi ini boleh menyediakan dunia maya yang sangat realistik, membolehkan robot belajar dan menggunakan kemahiran mereka dalam situasi yang hampir dengan senario kehidupan sebenar. Walau bagaimanapun, terdapat beberapa batasan untuk menggunakan persekitaran simulasi, terutamanya dari segi kepelbagaian objek, yang menyukarkan untuk menggunakan kemahiran yang dipelajari secara langsung kepada situasi dunia sebenar

Satu pendekatan yang berpotensi besar ialah pengumpulan data kolaboratif, yang akan Data daripada persekitaran makmal yang berbeza dan jenis robot dikumpulkan bersama, seperti yang ditunjukkan dalam Rajah 4a. Walau bagaimanapun, pasukan itu melihat secara mendalam Set Data Penjelmaan Open-X dan mendapati terdapat beberapa batasan dari segi ketersediaan jenis data.

Kajian mendedahkan model asas dan laluan pembangunan robot

Keperluan model dan primitif

Kaedah perancangan dan kawalan klasik biasanya memerlukan model persekitaran dan robot yang direka dengan teliti. Kaedah berasaskan pembelajaran terdahulu (seperti pembelajaran tiruan dan pembelajaran pengukuhan) melatih dasar secara hujung ke hujung, iaitu mendapatkan output kawalan terus daripada input deria, sekali gus mengelakkan keperluan untuk membina dan menggunakan model. Kaedah ini sebahagiannya boleh menyelesaikan masalah bergantung pada model eksplisit, tetapi ia selalunya sukar untuk digeneralisasikan kepada persekitaran dan tugasan yang berbeza.

Ada dua masalah yang perlu diselesaikan: (1) Bagaimana untuk mempelajari strategi yang bebas model dan boleh membuat generalisasi dengan baik? (2) Bagaimana untuk mempelajari model dunia yang cemerlang untuk menggunakan kaedah berasaskan model klasik?

Spesifikasi Tugas

Untuk mencapai ejen tujuan am, cabaran utama adalah untuk memahami spesifikasi tugas dan membumikannya dalam pemahaman semasa robot tentang dunia. Biasanya, spesifikasi tugasan ini disediakan oleh pengguna, yang hanya mempunyai pemahaman terhad tentang batasan keupayaan kognitif dan fizikal robot. Ini menimbulkan banyak persoalan, termasuk amalan terbaik yang boleh disediakan untuk spesifikasi tugas ini, dan sama ada merangka spesifikasi ini adalah semula jadi dan cukup mudah. Ia juga mencabar untuk memahami dan menyelesaikan kekaburan dalam spesifikasi tugas berdasarkan pemahaman robot tentang keupayaannya.

Ketidakpastian dan Keselamatan

Untuk menggunakan robot di dunia nyata, cabaran utama ialah menangani ketidakpastian yang wujud dalam persekitaran dan spesifikasi tugas. Bergantung kepada sumber, ketidakpastian boleh dibahagikan kepada ketidakpastian epistemik (ketidakpastian yang disebabkan oleh kekurangan pengetahuan) dan ketidakpastian tidak sengaja (bunyi yang wujud dalam persekitaran).

Kos kuantifikasi ketidakpastian (UQ) mungkin sangat tinggi sehingga penyelidikan dan aplikasi tidak mampan, dan ia juga mungkin menghalang tugas hiliran daripada diselesaikan secara optimum. Memandangkan sifat model asas yang diparameterkan secara besar-besaran, untuk mencapai kebolehskalaan tanpa mengorbankan prestasi generalisasi model, adalah penting untuk menyediakan kaedah UQ yang mengekalkan skim latihan sambil mengubah seni bina asas sesedikit mungkin. Mereka bentuk robot yang boleh memberikan anggaran keyakinan yang boleh dipercayai tentang tingkah laku mereka sendiri dan, seterusnya, meminta maklum balas yang dinyatakan dengan jelas tetap menjadi cabaran yang tidak dapat diselesaikan.

Walaupun terdapat beberapa kemajuan baru-baru ini, memastikan robot mempunyai keupayaan untuk belajar daripada pengalaman untuk memperhalusi strategi mereka dan memastikan keselamatan dalam persekitaran baharu kekal mencabar.

Gambaran Keseluruhan Kaedah Penyelidikan Semasa

Artikel ini juga meringkaskan kaedah penyelidikan semasa untuk model asas robot. Pasukan itu membahagikan model asas yang digunakan dalam bidang robotik kepada dua kategori utama: model asas untuk robot dan kandungan yang ditulis semula: Model Asas Robot (RFM).

Model asas robot merujuk kepada penggunaan model asas penglihatan dan bahasa untuk robot secara sifar sampel tanpa penalaan halus atau latihan tambahan. Model asas robot boleh dimulakan secara hangat dengan pemulaan pra-latihan bahasa penglihatan, atau model boleh dilatih terus pada set data robot

Kajian mendedahkan model asas dan laluan pembangunan robot

Klasifikasi terperinci

model asas untuk robot

Bahagian ini ditulis semula seperti berikut: Bahagian ini memfokuskan pada mengaplikasikan model asas penglihatan dan bahasa kepada situasi tangkapan sifar dalam bidang robotik. Antaranya, ia termasuk menggunakan sampel sifar VLM ke dalam aplikasi persepsi robot, dan menggunakan keupayaan pembelajaran konteks LLM kepada perancangan dan penjanaan tindakan peringkat tugas dan peringkat gerakan. Rajah 6 menunjukkan beberapa kerja penyelidikan tipikal

Kajian mendedahkan model asas dan laluan pembangunan robot

Apa yang ditulis semula ialah: Model Asas Robot (RFM)

Kajian mendedahkan model asas dan laluan pembangunan robot

-Dengan robot yang mengandungi set data sebenar berkembang, penulisan semula ialah kategori Model Asasi Robotik (RFM) juga semakin berkemungkinan berjaya. Model ini menampilkan penggunaan data robotik untuk melatih model menyelesaikan tugasan robotik.

Pasukan penyelidik merumuskan pelbagai jenis RFM dalam perbincangan. Yang pertama ialah RFM yang mampu melaksanakan tugas tertentu dalam modul robot tunggal, juga dikenali sebagai model asas robot objektif tunggal. Contohnya, keupayaan untuk menjana RFM yang mengawal tindakan peringkat rendah robot atau model yang boleh menjana perancangan gerakan peringkat lebih tinggi. Artikel itu juga memperkenalkan RFM yang boleh melaksanakan tugas dalam berbilang modul robot, iaitu model universal yang boleh melaksanakan persepsi, kawalan, dan juga tugasan bukan robotik

Apakah peranan yang dimainkan oleh model asas dalam menyelesaikan cabaran robotik?

Artikel sebelum ini menyenaraikan lima cabaran utama yang dihadapi dalam bidang robotik. Di sini kami menerangkan cara model asas boleh membantu menangani cabaran ini.

Semua model asas yang berkaitan dengan maklumat visual (seperti VFM, VLM dan VGM) boleh digunakan dalam modul persepsi robot. LLM, sebaliknya, lebih serba boleh dan boleh digunakan untuk perancangan dan kawalan. Kandungan yang ditulis semula ialah: Model asas robot (RFM) biasanya digunakan dalam modul perancangan dan penjanaan tindakan. Jadual 1 meringkaskan model asas untuk menyelesaikan cabaran robotik yang berbeza.

Kajian mendedahkan model asas dan laluan pembangunan robot

Seperti yang dapat dilihat dari jadual, semua model asas boleh menyamaratakan tugas modul robot yang berbeza dengan baik. Khususnya, LLM berprestasi baik dalam spesifikasi tugas. RFM, sebaliknya, pandai menangani cabaran model dinamik, kerana kebanyakan RFM adalah kaedah bebas model. Untuk keupayaan persepsi robot, keupayaan generalisasi dan cabaran model adalah saling berkaitan. Jika model persepsi sudah mempunyai keupayaan generalisasi yang baik, maka tidak perlu mendapatkan lebih banyak data untuk penyesuaian domain atau penalaan halus tambahan

Selain itu, terdapat kekurangan penyelidikan tentang cabaran keselamatan, yang akan menjadi masa depan yang penting Arah penyelidikan.

Ikhtisar Eksperimen dan Penilaian Semasa

Bahagian ini meringkaskan hasil penyelidikan semasa tentang set data, penanda aras dan eksperimen.

Set Data dan Penanda Aras

Terdapat had untuk bergantung semata-mata pada pengetahuan yang dipelajari daripada set data bahasa dan visual. Seperti yang ditunjukkan oleh beberapa hasil penyelidikan, beberapa konsep seperti geseran dan berat tidak boleh dipelajari dengan mudah melalui modaliti ini sahaja.

Oleh itu, untuk membolehkan ejen robotik memahami dunia dengan lebih baik, komuniti penyelidik bukan sahaja menyesuaikan model asas daripada domain bahasa dan penglihatan, tetapi juga memajukan pembangunan robot pelbagai mod yang besar dan pelbagai untuk melatih dan memperhalusi ini. set data.

Pada masa ini usaha ini boleh dibahagikan kepada dua arah utama: dalam satu pihak, mengumpul data dari dunia nyata, dan sebaliknya, mengumpul data dari dunia simulasi dan memindahkannya ke dunia nyata. Setiap arah ada kelebihan dan kekurangannya. Set data yang dikumpul dari dunia nyata termasuk RoboNet, Bridge Dataset V1, Bridge-V2, Language-Table, RT-1, dsb. Simulator yang biasa digunakan termasuk Habitat, AI2THOR, Mujoco, AirSim, Simulator Perlumbaan Autonomi Ketibaan, Gim Issac, dll. meta-analisis eksperimen dalam kertas kerja yang dinyatakan dalam laporan ulasan ini boleh membantu menjelaskan soalan berikut:

2. Apakah set data atau simulator yang digunakan untuk melatih model? Apakah platform robot yang digunakan untuk ujian?

3. Apakah model asas yang digunakan oleh komuniti penyelidik? Sejauh manakah keberkesanannya dalam menyelesaikan tugasan?

4. Model asas manakah yang lebih biasa digunakan antara kaedah ini?

Jadual 2-7 dan Rajah 11 menunjukkan keputusan analisis. .

Perhatian komuniti penyelidik terhadap tugas pengendalian robot (Manipulasi) adalah tidak seimbang Kekerapan kawalan terlalu rendah (

Ketiadaan tanda aras ujian bersatu (Metrik) dan platform ujian (Simulasi atau Perkakasan) menjadikan perbandingan sangat sukar.

Perbincangan dan hala tuju masa depan

Pasukan merumuskan beberapa cabaran yang masih perlu diselesaikan dan menyelidik arahan yang patut dibincangkan:

Bagaimana untuk menetapkan asas pembumian standard untuk penjelmaan robot

Keselamatan dan Ketidakpastian?

Adakah kaedah hujung ke hujung dan modular tidak serasi?

Penyesuaian kepada perubahan fizikal yang terkandung
Platform robotik baharu dan maklumat pelbagai deriaTeruskan Pembelajaran
Penstandardan dan kebolehulangan (Kebolehulangan)

Atas ialah kandungan terperinci Kajian mendedahkan model asas dan laluan pembangunan robot. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!