Persepsi dan genggaman objek lutsinar dalam persekitaran yang kompleks adalah masalah yang diiktiraf dalam bidang robotik dan penglihatan komputer. Baru-baru ini, pasukan dan rakan usaha sama dari Tsinghua University Shenzhen International Graduate School mencadangkan rangka kerja genggaman objek lutsinar gabungan visual-tactile, yang berasaskan kamera RGB dan TaTa cakar mekanikal dengan keupayaan penderiaan sentuhan, dan menggunakan sim2real Untuk merealisasikan pengesanan kedudukan menggenggam. daripada objek lutsinar. Rangka kerja ini bukan sahaja dapat menyelesaikan masalah menggenggam objek lutsinar yang tidak teratur seperti serpihan kaca, tetapi juga menyelesaikan masalah menggenggam cerucuk bertindih, bertindan, tidak rata, pasir dan juga objek lutsinar bawah air yang sangat dinamik.
Gambar
Objek lutsinar digunakan secara meluas dalam kehidupan kerana keindahan, kesederhanaan dan ciri-ciri lain. Sebagai contoh, mereka boleh dilihat di dapur, kedai, dan kilang. Walaupun objek lutsinar adalah perkara biasa, menggenggam objek lutsinar adalah masalah yang sangat sukar untuk robot. Terdapat tiga sebab utama:
gambar
1. Ia tidak mempunyai sifat teksturnya sendiri. Maklumat pada permukaan objek lutsinar berubah dengan perubahan persekitaran, dan tekstur yang dihasilkan kebanyakannya disebabkan oleh pembiasan dan pantulan cahaya, yang membawa kesukaran besar untuk pengesanan objek lutsinar.
2. Anotasi set data lutsinar adalah lebih sukar daripada anotasi objek biasa. Dalam babak sebenar, kadangkala manusia sukar untuk membezakan objek lutsinar seperti kaca, apatah lagi melabelkan imej objek lutsinar.
3. Permukaan objek lutsinar licin, malah sisihan kecil dalam kedudukan merebut boleh menyebabkan kegagalan tugas merebut.
Oleh itu, cara menyelesaikan masalah menangkap objek lutsinar dalam pelbagai adegan kompleks dengan kos serendah mungkin telah menjadi isu yang sangat penting dalam bidang penyelidikan objek telus. Baru-baru ini, persepsi pintar dan pasukan robotik dari Tsinghua University Shenzhen International Graduate School mencadangkan rangka kerja merebut objek telus berdasarkan gabungan visual dan sentuhan Untuk merealisasikan pengesanan dan rampasan objek lutsinar. Kaedah ini bukan sahaja mempunyai kadar kejayaan meraih yang sangat tinggi, tetapi juga boleh disesuaikan untuk merebut objek lutsinar dalam pelbagai adegan yang kompleks. . daripada kertas itu, berkata: "Robot berada dalam bidang Perkhidmatan rumah telah menunjukkan nilai aplikasi yang hebat, tetapi kebanyakan robot semasa menumpukan pada satu bidang. Cadangan model pegang robot universal akan membawa promosi besar kepada promosi itu. dan aplikasi teknologi robot. Walaupun kita adalah objek telus digunakan sebagai objek penyelidikan, tetapi rangka kerja ini boleh diperluaskan dengan mudah untuk menangkap tugas-tugas objek biasa dalam kehidupan "
Penyelidik Liu Houde, pengarang kertas yang sepadan. dan Sekolah Siswazah Antarabangsa Shenzhen Universiti Tsinghua, berkata: "Dalam adegan keluarga. Persekitaran yang tidak tersusun membawa cabaran besar kepada aplikasi praktikal robot. Kami menyepadukan penglihatan dan persepsi sentuhan untuk mensimulasikan lagi proses persepsi apabila manusia berinteraksi dengan dunia luar, memberikan lebih banyak kestabilan untuk aplikasi robot dalam senario yang kompleks Selain mengintegrasikan penglihatan dan sentuhan, rangka kerja yang kami cadangkan juga boleh diperluaskan kepada lebih banyak modaliti seperti pendengaran. . Untuk tugasan ini, selain mengesan kedudukan objek semasa proses merebut, kedudukan dan sudut merebut juga perlu diambil kira. Pada masa ini, kebanyakan kerja untuk menggenggam objek lutsinar dilakukan pada satah dengan latar belakang yang ringkas, tetapi dalam kehidupan sebenar, kebanyakan adegan tidak akan sesuai seperti persekitaran eksperimen kami. Beberapa adegan khas, seperti serpihan kaca, longgokan, pertindihan, beralun, pasir dan adegan bawah air, adalah lebih mencabar.
Pictures
Pictures
Grasping Reka bentuk algoritma ditunjukkan dalam angka. algoritma, algoritma pengekstrakan maklumat sentuhan dan algoritma pengelasan gabungan visual-tactile. Untuk mengurangkan kos pelabelan set data, kami menggunakan Blender untuk mencipta objek lutsinar berbilang latar belakang yang merebut set data sintetik SimTrans12K, yang mengandungi 12,000 imej sintetik dan 160 imej sebenar. Sebagai tambahan kepada set data, kami juga mencadangkan kaedah anotasi Gaussian-Mask untuk sifat optik unik objek lutsinar. Memandangkan kami menggunakan pencengkam Jamming sebagai pelaksana, kami mencadangkan rangkaian pencengkam khusus TGCNN untuknya, yang boleh mencapai hasil pengesanan yang baik selepas latihan pada set data sintetik. . Kami menguraikan tugas menggenggam kepada tiga subtugas, iaitu pengelasan objek, pengesanan kedudukan menggenggam dan pengesanan ketinggian menggenggam. Setiap subtugas boleh dicapai dengan penglihatan, sentuhan atau gabungan pandangan-sentuh.
Sama seperti tingkah laku manusia ketika menggenggam, apabila penglihatan secara langsung boleh mendapatkan kedudukan tepat sesuatu objek, kita boleh mengawal tangan untuk terus mencapai objek dan melengkapkan genggaman, seperti yang ditunjukkan dalam rajah di bawah (A). Apabila penglihatan tidak dapat memperoleh maklumat kedudukan objek dengan tepat, selepas menggunakan penglihatan untuk menganggar kedudukan objek, kita akan menggunakan fungsi penderiaan sentuhan tangan untuk perlahan-lahan melaraskan kedudukan menggenggam sehingga objek dihubungi dan kedudukan menggenggam yang sesuai adalah dicapai, seperti yang ditunjukkan dalam rajah di bawah (B) ditunjukkan. Untuk menangkap objek dalam keadaan penglihatan terhad, seperti yang ditunjukkan dalam rajah di bawah (C), kami akan menggunakan saraf sentuhan yang kaya pada tangan untuk mencari dalam julat sasaran yang mungkin sehingga sentuhan dengan objek dibuat Walaupun ini sangat tidak cekap , Tetapi ia adalah kaedah yang berkesan untuk menyelesaikan rampasan objek dalam senario istimewa ini.
Gambar
Diinspirasikan oleh strategi genggaman manusia, kami membahagikan tugas menggenggam objek lutsinar kepada tiga jenis: pesawat dengan latar belakang yang kompleks, adegan tidak teratur dan pemandangan yang tidak dapat dikesan secara visual, seperti yang ditunjukkan di bawah. Dalam jenis pertama, penglihatan memainkan peranan penting, dan kami mentakrifkan kaedah menggenggam dalam senario ini sebagai kaedah menggenggam penglihatan pertama. Dalam jenis kedua, penglihatan dan sentuhan boleh bekerjasama, dan kami mentakrifkan kaedah menggenggam dalam senario ini sebagai mencengkam visual-sentuhan. Dalam jenis terakhir, penglihatan mungkin gagal dan sentuhan menjadi dominan dalam tugasan Kami mentakrifkan kaedah menggenggam dalam senario ini sebagai kaedah menggenggam sentuh dahulu. . , dan akhirnya algoritma gabungan visual-tactile digunakan untuk pengelasan . Penggenggaman visual-tactile adalah berdasarkan yang sebelumnya dan menambah modul THS, yang boleh menggunakan deria sentuhan untuk mendapatkan ketinggian objek. Pendekatan genggaman pertama haptik telah disertai oleh modul TPE yang menggunakan deria sentuhan untuk mendapatkan kedudukan objek lutsinar.
Untuk mengesahkan keberkesanan rangka kerja dan algoritma yang dicadangkan kami, kami menjalankan sejumlah besar percubaan pengesahan.
Pertama sekali, untuk menguji keberkesanan set data objek telus yang dicadangkan, kaedah anotasi dan rangkaian pengesanan kedudukan menggenggam, kami menjalankan eksperimen pengesanan data sintetik dan eksperimen pengesanan kedudukan genggaman objek lutsinar di bawah latar belakang dan kecerahan yang berbeza. Kedua, untuk mengesahkan keberkesanan rangka kerja cengkaman gabungan sentuhan visual, kami mereka bentuk eksperimen menangkap klasifikasi objek telus dan eksperimen menangkap serpihan telus. Ketiga, kami mereka bentuk eksperimen menangkap objek lutsinar dalam adegan yang tidak teratur dan terhad secara visual untuk menguji keberkesanan rangka kerja selepas menambah modul THS dan modul TPE.
Untuk menyelesaikan masalah mencabar untuk mengesan, menggenggam dan mengelaskan objek lutsinar, kajian ini mencadangkan rangka kerja gabungan visual-haptik berdasarkan set data sintetik. Pertama, enjin simulasi Blender digunakan untuk memaparkan set data sintetik dan bukannya set data beranotasi secara manual.
Selain itu, Gaussian-Mask digunakan dan bukannya kaedah anotasi binari tradisional untuk menjadikan penjanaan kedudukan rampasan lebih tepat. Untuk mengesan kedudukan mencengkam objek lutsinar, pengarang mencadangkan algoritma yang dipanggil TGCNN dan menjalankan berbilang eksperimen perbandingan Hasilnya menunjukkan bahawa walaupun hanya set data sintetik digunakan untuk latihan, algoritma boleh berfungsi dengan baik pada latar belakang dan pencahayaan yang berbeza keadaan untuk mencapai pengesanan yang baik.
Memandangkan kesukaran menggenggam yang disebabkan oleh batasan pengesanan visual, kajian ini mencadangkan kaedah penentukuran sentuhan digabungkan dengan penggenggam lembut TaTa untuk meningkatkan kadar kejayaan menggenggam dengan melaraskan kedudukan menggenggam dengan maklumat sentuhan. Berbanding dengan genggaman visual tulen, kaedah ini meningkatkan kadar kejayaan menggenggam sebanyak 36.7%.
Untuk menyelesaikan masalah mengklasifikasikan objek lutsinar dalam adegan kompleks, kajian ini mencadangkan kaedah pengelasan objek lutsinar berdasarkan gabungan penglihatan-tactile, yang meningkatkan ketepatan sebanyak 39.1% berbanding dengan pengelasan berdasarkan penglihatan sahaja.
Di samping itu, untuk mencapai cengkaman objek lutsinar dalam adegan yang tidak teratur dan tidak dapat dikesan secara visual, kajian ini mencadangkan modul THS dan TPE, yang boleh mengimbangi masalah genggaman objek lutsinar tanpa adanya maklumat visual. Para penyelidik secara sistematik mereka bentuk sejumlah besar eksperimen untuk mengesahkan keberkesanan rangka kerja yang dicadangkan dalam adegan yang kompleks seperti pelbagai superposisi, pertindihan, beralun, kawasan berpasir dan pemandangan bawah air. Kajian itu percaya bahawa rangka kerja yang dicadangkan juga boleh digunakan untuk pengesanan objek dalam persekitaran penglihatan rendah, seperti asap dan air keruh, di mana persepsi sentuhan boleh menggantikan kekurangan pengesanan visual dan meningkatkan ketepatan pengelasan melalui gabungan visual-tactile. . dan kumpulan penyelidikan robotik. Minat penyelidikannya terutamanya termasuk pemprosesan isyarat, pembelajaran mesin, peranti boleh pakai, interaksi manusia-komputer yang fleksibel dan persepsi mesin. Beliau sebelum ini lulus dengan ijazah sarjana muda dan ijazah kedoktoran dari Jabatan Kejuruteraan Elektronik Universiti Tsinghua, dan berkhidmat sebagai felo pasca doktoral di Institut Teknologi Georgia, tempat beliau belajar di bawah Ahli Akademik Wang Zhonglin. Beliau telah memenangi banyak anugerah termasuk Hadiah Khas Universiti Tsinghua, Pingat Emas Pameran Ciptaan Antarabangsa ke-47 Geneva, Anugerah Memorial IEEE Scott Helt, Hadiah Kedua Anugerah Sains Semula Jadi Persatuan Elektronik China, dsb., dan telah berada dalam Nature Communications, Science Advances, Energy and Environmental Science, Advanced Energy Beliau telah menerbitkan lebih daripada 70 kertas kerja dalam jurnal berwibawa dalam bidang Bahan, IEEE TRO/RAL dan bidang lain, telah dipetik lebih daripada 6,000 kali oleh Google Scholar , dan telah membenarkan lebih daripada 10 paten di China dan Amerika Syarikat. Beliau berkhidmat sebagai editor bersekutu jurnal pemprosesan isyarat antarabangsa yang berwibawa Pemprosesan Isyarat Digital, ketua editor tetamu IEEE JSTSP Isu Khas mengenai Persepsi Robot, dan ahli Jawatankuasa Teknikal Sistem Pemprosesan Isyarat Gunaan Persatuan Pemprosesan Isyarat IEEE.
Dari kiri ke kanan: Shoujie Li,Haixin Yu,Houde Liu
Penulis bersama kertas kerja ialah Shoujie Li (pelajar PhD di Universiti Tsinghua) dan Haixin Yu (Pelajar Sarjana di Universiti Tsinghua) Pengarang yang sepadan ialah Wenbo Ding dan Houde Liu Chongkun Xia (Universiti Tsinghua), Xueqian Wang (Universiti Tsinghua), Xiao-Ping Zhang (Universiti Tsinghua). Antaranya, hala tuju penyelidikan utama Shoujie Li ialah memahami robot, persepsi sentuhan dan pembelajaran mendalam Sebagai pengarang pertama, beliau telah menerbitkan banyak kertas kerja dalam jurnal dan persidangan robotik dan kawalan yang berwibawa seperti Soft Robotics, TRO, RAL, ICRA, IROS, dll. ., dan telah memberi kuasa kepada 10 paten ciptaan Selebihnya telah memenangi 10 anugerah pertandingan peringkat wilayah dan peringkat menteri Biasiswa Ulama Masa Depan Universiti Tsinghua dan Biasiswa Nasional.
Atas ialah kandungan terperinci Ia boleh merebut serpihan kaca dan objek lutsinar dalam air Tsinghua telah mencadangkan rangka kerja merebut objek lutsinar sejagat dengan kadar kejayaan yang sangat tinggi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!