Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.-AI-php.cn

Ditulis di hadapan & pemahaman peribadi penulis

Dalam beberapa tahun kebelakangan ini, pemanduan autonomi telah mendapat perhatian yang semakin meningkat kerana potensinya untuk mengurangkan beban pemandu dan meningkatkan keselamatan pemanduan. Ramalan penghunian tiga dimensi berasaskan penglihatan ialah tugas persepsi yang muncul yang sesuai untuk penyiasatan kos efektif dan komprehensif tentang keselamatan pemanduan autonomi. Walaupun banyak kajian telah menunjukkan keunggulan alat ramalan penghunian 3D berbanding tugas persepsi berpusatkan objek, masih terdapat ulasan khusus untuk bidang yang sedang berkembang pesat ini. Kertas kerja ini mula-mula memperkenalkan latar belakang ramalan penghunian 3D berasaskan penglihatan dan membincangkan cabaran yang dihadapi dalam tugasan ini. Seterusnya, kami membincangkan secara menyeluruh status semasa dan trend pembangunan kaedah ramalan penghunian 3D semasa daripada tiga aspek: peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan. Akhir sekali, trend penyelidikan semasa diringkaskan dan beberapa prospek masa depan yang menggalakkan dicadangkan.

Pautan sumber terbuka: https://github.com/zya3d/Awesome-3D-Occupancy-Prediction

Ringkasnya, sumbangan utama kertas kerja ini adalah seperti berikut:

Setahu kami, kertas kerja ini adalah yang pertama Kajian menyeluruh kaedah ramalan penghunian 3D berasaskan penglihatan untuk pemanduan autonomi.
Artikel ini menyediakan ringkasan struktur kaedah ramalan penghunian tiga dimensi berasaskan penglihatan daripada tiga perspektif: peningkatan ciri, keramahan pengiraan dan kecekapan label, serta menjalankan analisis dan perbandingan yang mendalam bagi kategori kaedah yang berbeza.
Kertas kerja ini membentangkan beberapa prospek masa depan yang memberi inspirasi untuk ramalan penghunian 3D berasaskan penglihatan dan menyediakan repositori github yang dikemas kini secara kerap untuk mengumpul kertas, set data dan kod yang berkaitan.

Rajah 3 menunjukkan gambaran keseluruhan temporal kaedah ramalan penghunian 3D berasaskan penglihatan, dan Rajah 4 menunjukkan taksonomi struktur hierarki yang sepadan.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Latar belakang yang berkaitan

Penjanaan nilai sebenar

Menjana label GT merupakan satu cabaran untuk ramalan penghunian 3D. Walaupun banyak set data persepsi 3D, seperti nuScenes dan Waymo, menyediakan label pembahagian awan titik lidar, label ini jarang dan sukar untuk mengawasi tugas ramalan penghunian 3D yang padat. Kepentingan menggunakan penghunian padat sebagai label GT telah ditunjukkan oleh Wei et al. Beberapa penyelidikan baru-baru ini memfokuskan pada penjanaan label penghunian padat menggunakan anotasi segmentasi awan titik lidar yang jarang, menyediakan beberapa set data dan penanda aras berguna untuk tugas ramalan penghunian 3D.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Label GT dalam tugas ramalan penghunian 3D menunjukkan sama ada setiap elemen dalam ruang 3D telah diduduki dan label semantik elemen yang diduduki. Oleh kerana bilangan elemen yang banyak dalam ruang tiga dimensi, adalah sukar untuk melabel setiap elemen secara manual. Pendekatan biasa adalah untuk menyuarakan kebenaran asas tugas pembahagian awan titik 3D sedia ada dan kemudian menjana penghunian 3D yang diramalkan GT dengan mengundi berdasarkan label semantik titik tengah voxel. Walau bagaimanapun, kebenaran asas yang dijana dengan cara ini sebenarnya dipermudahkan. Seperti yang ditunjukkan dalam Rajah 1, masih terdapat banyak elemen yang diduduki di tempat-tempat seperti jalan raya yang tidak ditanda sebagai diduduki. Alat penyeliaan yang mempunyai model dengan realiti rupa bumi yang dipermudahkan ini akan mengakibatkan prestasi model menurun. Oleh itu, sesetengah bekerja cara untuk menjana anotasi penghunian 3D padat berkualiti tinggi secara automatik atau separa automatik.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Seperti yang ditunjukkan dalam Rajah 2, menghasilkan anotasi penghunian 3D yang padat biasanya merangkumi empat langkah berikut:

Ambil bingkai lidar mentah berterusan dan bahagikan titik lidar ke latar belakang statik dan latar depan dinamik.
Tinggi bingkai lidar berterusan pada latar belakang statik dan lakukan pampasan gerakan berdasarkan maklumat kedudukan untuk menjajarkan awan titik berbilang bingkai untuk mendapatkan awan titik yang lebih padat. Bingkai lidar berterusan ditindih pada latar depan dinamik, dan awan titik latar depan dinamik dijajarkan mengikut bingkai sasaran dan id sasaran untuk menjadikannya lebih padat. Ambil perhatian bahawa walaupun awan titik agak padat, masih terdapat beberapa jurang selepas vokselisasi yang memerlukan pemprosesan selanjutnya.
Gabungkan awan titik latar depan dan latar belakang, kemudian vokselkannya dan gunakan mekanisme pengundian untuk menentukan semantik voxel, menghasilkan anotasi voxel yang agak padat.
Voxel yang diperoleh dalam langkah sebelumnya diperhalusi melalui pemprosesan pasca untuk mencapai anotasi yang lebih padat dan halus sebagai GT.

Datasets

Dalam bahagian ini, kami memperkenalkan beberapa sumber terbuka, set data berskala besar yang biasa digunakan untuk ramalan penghunian 3D dan perbandingan antaranya diberikan dalam Jadual 1.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Dataset NUYv2 terdiri daripada jujukan video daripada pelbagai pemandangan dalaman, yang ditangkap oleh kamera RGB dan Depth Microsoft Kinect. Ia mengandungi 1449 pasang imej RGB dan kedalaman sejajar berlabel padat, dan 407024 bingkai tidak berlabel dari 3 bandar. Walaupun ditujukan terutamanya untuk kegunaan dalaman dan tidak sesuai untuk senario pemanduan autonomi, beberapa kajian telah menggunakan set data ini untuk ramalan penghunian 3D.

SemanticKITTI ialah set data yang digunakan secara meluas untuk ramalan penghunian 3D, termasuk 22 jujukan dan lebih daripada 43000 bingkai daripada set data KITTI. Ia mencipta anotasi penghunian 3D yang padat dengan menindih bingkai masa hadapan, membahagikan voxel dan memberikan label melalui undian mata. Selain itu, ia menjejak sinar untuk memeriksa bagi setiap pose kereta yang voxel boleh dilihat oleh sensor, dan mengabaikan voxel halimunan semasa latihan dan penilaian. Walau bagaimanapun, memandangkan ia berdasarkan set data KITTI, ia hanya menggunakan imej daripada kamera hadapan sebagai input, manakala set data berikutnya biasanya menggunakan imej berbilang paparan. Seperti yang ditunjukkan dalam Jadual 2, kami mengumpul hasil penilaian kaedah sedia ada pada dataset SemanticKITTI.

Penghunian NuScenes ialah set data ramalan penghunian 3D berdasarkan NuScenes, set data pemanduan autonomi berskala besar dalam persekitaran luar. Ia mengandungi 850 jujukan, 200,000 bingkai dan 17 kategori semantik. Set data pada mulanya dijana menggunakan saluran paip pembesaran dan penulenan (AAP) untuk menjana label penghunian 3D kasar, dan kemudian pembesaran manual digunakan untuk memperhalusi label. Tambahan pula, ia memperkenalkan OpenOccupancy, penanda aras pertama untuk kesedaran penghunian semantik ambien, untuk menilai kaedah ramalan penghunian 3D lanjutan.

Seterusnya, Tian et al membina set data Occ3D nuScenes dan Occ3D Waymo untuk ramalan penghunian 3D berdasarkan set data pemanduan autonomi nuScenes dan Waymo. Mereka memperkenalkan saluran paip penjanaan label separa automatik yang memanfaatkan set data persepsi 3D berlabel sedia ada dan mengenal pasti jenis voxel berdasarkan keterlihatannya. Di samping itu, mereka menubuhkan penanda aras Occ3d untuk ramalan penghunian 3D berskala besar untuk meningkatkan penilaian dan perbandingan kaedah yang berbeza. Seperti yang ditunjukkan dalam Jadual 2, kami mengumpul hasil penilaian kaedah sedia ada pada dataset nuScenes Occ3D.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Selain itu, serupa dengan Occ3D Nude dan Nude Occupancy, OpenOcc juga merupakan set data yang dibina untuk ramalan penghunian 3D berdasarkan set data Bogel. Ia mengandungi 850 jujukan, 34149 bingkai dan 16 kelas. Ambil perhatian bahawa set data ini menyediakan anotasi tambahan untuk lapan objek latar depan, yang membantu dalam tugas hiliran seperti perancangan gerakan.

Cabaran Utama

Walaupun ramalan penghunian 3D berasaskan penglihatan telah mencapai kemajuan yang ketara dalam beberapa tahun kebelakangan ini, ia masih menghadapi pengehadan daripada perwakilan ciri, aplikasi praktikal dan kos anotasi. Untuk tugasan ini, terdapat tiga cabaran utama: (1) Mendapatkan ciri 3D yang sempurna daripada input visual 2D adalah sukar. Matlamat ramalan penghunian 3D berasaskan penglihatan adalah untuk mencapai persepsi dan pemahaman terperinci tentang pemandangan 3D daripada input imej sahaja, Walau bagaimanapun, kekurangan maklumat kedalaman dan geometri yang wujud dalam imej menimbulkan cabaran besar untuk mempelajari perwakilan ciri 3D secara langsung daripadanya. (2) Beban pengiraan berat dalam ruang tiga dimensi. Ramalan penghunian 3D biasanya memerlukan penggunaan ciri voxel 3D untuk mewakili ruang persekitaran, yang semestinya melibatkan operasi seperti lilitan 3D untuk pengekstrakan ciri, yang sangat meningkatkan overhed pengiraan dan memori serta menghalang penggunaan praktikal. (3) Anotasi berbutir halus yang mahal. Ramalan penghunian 3D melibatkan ramalan status penghunian dan kategori semantik voxel resolusi tinggi, tetapi untuk mencapai ini selalunya memerlukan anotasi semantik yang terperinci bagi setiap voxel, yang memakan masa dan mahal, mewujudkan kesesakan untuk tugas ini.

Sebagai tindak balas kepada cabaran utama ini, kerja penyelidikan mengenai ramalan penghunian tiga dimensi berasaskan penglihatan untuk pemanduan autonomi telah secara beransur-ansur membentuk tiga baris utama: peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan. Kaedah peningkatan ciri mengurangkan perbezaan antara output ruang 3D dan input ruang 2D dengan mengoptimumkan keupayaan perwakilan ciri rangkaian. Pendekatan mesra penempatan bertujuan untuk mengurangkan penggunaan sumber dengan ketara sambil memastikan prestasi dengan mereka bentuk seni bina rangkaian yang mudah dan cekap. Kaedah pelabelan yang cekap dijangka mencapai prestasi yang memuaskan walaupun anotasi tidak mencukupi atau tiada sepenuhnya. Seterusnya, kami menyediakan gambaran menyeluruh tentang pendekatan semasa di sekitar ketiga-tiga cabang ini.

Kaedah Peningkatan Ciri

Tugas ramalan penghunian 3D berasaskan penglihatan melibatkan meramal status penghunian dan maklumat semantik ruang voxel 3D daripada ruang imej 2D, yang menimbulkan cabaran utama untuk mendapatkan ciri 3D yang sempurna daripada input visual 2D. Untuk menangani masalah ini, beberapa kaedah menambah baik ramalan penghunian daripada perspektif peningkatan ciri, termasuk belajar daripada pandangan mata burung (BEV), pandangan tiga pandangan (TPV) dan perwakilan voxel tiga dimensi.

Kaedah berasaskan BEV

Kaedah yang berkesan untuk pembelajaran penghunian adalah berdasarkan Pandangan Mata Burung (BEV), yang menyediakan ciri yang tidak sensitif terhadap oklusi dan mengandungi maklumat geometri kedalaman tertentu. Dengan mempelajari perwakilan BEV yang kukuh, pembinaan semula pemandangan penghunian 3D yang mantap boleh dicapai. Pertama, rangkaian tulang belakang 2D digunakan untuk mengekstrak ciri imej daripada input visual, kemudian ciri BEV diperoleh melalui transformasi sudut pandang, dan akhirnya ramalan penghunian 3D diselesaikan berdasarkan perwakilan ciri BEV. Kaedah berasaskan BEV ditunjukkan dalam Rajah 5.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Pendekatan mudah ialah memanfaatkan pembelajaran BEV daripada tugas lain, seperti menggunakan kaedah seperti BEVDet dan BEVFormer dalam pengesanan objek 3D. Untuk melanjutkan kaedah pembelajaran penghunian ini, kepala penghunian boleh ditambah atau diganti semasa latihan untuk mendapatkan keputusan akhir. Penyesuaian ini membenarkan penyepaduan anggaran penghunian ke dalam rangka kerja berasaskan BEV sedia ada, membolehkan pengesanan serentak dan pembinaan semula penghunian 3D dalam adegan. Berdasarkan BEVFormer garis dasar yang berkuasa, OccTransformer menggunakan penambahan data untuk meningkatkan kepelbagaian data latihan untuk meningkatkan keupayaan generalisasi model dan memanfaatkan tulang belakang imej yang berkuasa untuk mengekstrak ciri yang lebih bermaklumat daripada data input. Ia juga memperkenalkan Kepala Unet 3D untuk menangkap maklumat spatial tempat kejadian dengan lebih baik, dan fungsi kehilangan tambahan untuk meningkatkan pengoptimuman model.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Kaedah berasaskan TPV

Walaupun perwakilan berasaskan BEV mempunyai kelebihan tertentu berbanding imej kerana ia pada asasnya memberikan unjuran atas ke bawah ruang 3D, mereka sememangnya kekurangan keupayaan untuk menggunakan satu satah untuk menggambarkan struktur 3D berbutir halus sesuatu pemandangan. Kaedah berdasarkan tiga sudut pandangan (TPV) menggunakan tiga satah unjuran ortogon untuk memodelkan persekitaran 3D, yang meningkatkan lagi keupayaan perwakilan ciri visual untuk ramalan penghunian. Pertama, ciri imej diekstrak daripada input visual menggunakan rangkaian tulang belakang 2D. Selepas itu, ciri imej ini dinaikkan pangkat kepada ruang tiga pandangan, dan akhirnya ramalan penghunian 3D dicapai berdasarkan perwakilan ciri tiga sudut pandangan unjuran. Kaedah berasaskan BEV ditunjukkan dalam Rajah 7.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Selain ciri BEV, TPVFormer juga menjana ciri di hadapan dan pandangan sisi dengan cara yang sama. Setiap satah memodelkan persekitaran 3D dari perspektif yang berbeza, dan gabungannya memberikan penerangan menyeluruh tentang keseluruhan struktur 3D. Khususnya, untuk mendapatkan ciri titik dalam ruang tiga dimensi, kami mula-mula menayangkannya pada setiap tiga satah dan menggunakan interpolasi dwilinear untuk mendapatkan ciri setiap titik yang diunjurkan. Kemudian, kami meringkaskan tiga ciri unjuran ke dalam ciri komposit mata 3D. Oleh itu, perwakilan TPV boleh menerangkan pemandangan 3D pada resolusi sewenang-wenangnya dan menjana ciri berbeza untuk titik berbeza dalam ruang 3D. Ia seterusnya mencadangkan pengekod berasaskan pengubah (TPVFormer) untuk mendapatkan ciri TPV daripada imej 2D dengan cekap dan melakukan perhatian silang imej antara pertanyaan grid TPV dan ciri imej 2D yang sepadan, sekali gus menukar maklumat 2D kepada Naik taraf kepada ruang 3D. Akhir sekali, perhatian hibrid pandangan silang antara ciri TPV membolehkan interaksi antara tiga satah. Seni bina keseluruhan TPVFormer ditunjukkan dalam Rajah 8.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Kaedah berasaskan voxel

Selain menukar ruang 3D kepada perspektif yang diunjurkan (seperti BEV atau TPV), terdapat juga kaedah yang beroperasi secara langsung pada perwakilan voxel 3D. Kelebihan utama kaedah ini ialah keupayaan untuk belajar terus dari ruang 3D asal, meminimumkan kehilangan maklumat. Dengan memanfaatkan data voxel tiga dimensi mentah, kaedah ini boleh menangkap dan menggunakan maklumat spatial yang lengkap dengan berkesan, menghasilkan pemahaman yang lebih tepat dan komprehensif tentang penghunian. Pertama, rangkaian tulang belakang 2D digunakan untuk mengekstrak ciri imej, dan kemudian, mekanisme berasaskan konvolusi yang direka khas digunakan untuk merapatkan perwakilan 2D dan 3D, atau pendekatan berasaskan pertanyaan digunakan untuk mendapatkan perwakilan 3D secara langsung. Akhir sekali, kepala penghunian 3D digunakan untuk melengkapkan ramalan akhir berdasarkan perwakilan 3D yang dipelajari. Kaedah berasaskan voxel ditunjukkan dalam Rajah 9.

Kaedah berasaskan lilitan

Satu pendekatan ialah menggunakan seni bina konvolusi yang direka khas untuk merapatkan jurang daripada 2D kepada 3D dan mempelajari perwakilan penghunian 3D. Contoh yang menonjol bagi pendekatan ini ialah penggunaan seni bina U-Net sebagai pembawa penyambung ciri. Seni bina U-Net menggunakan struktur penyahkod pengekod dengan sambungan langkau antara laluan pensampelan naik dan pensampelan bawah, mengekalkan maklumat ciri peringkat rendah dan peringkat tinggi untuk mengurangkan kehilangan maklumat. Melalui lapisan konvolusi dengan kedalaman yang berbeza, struktur U-Net boleh mengekstrak ciri skala yang berbeza, membantu model menangkap butiran tempatan dan maklumat konteks global dalam imej, dengan itu meningkatkan pemahaman model tentang adegan kompleks dan melaksanakan ramalan penghunian yang berkesan.

Monoscene menggunakan U-net untuk ramalan penghunian 3D berasaskan penglihatan. Ia memperkenalkan mekanisme yang dipanggil unjuran garis penglihatan ciri dua dimensi (FLoSP), yang menggunakan unjuran perspektif ciri untuk menayangkan ciri dua dimensi ke ruang tiga dimensi, dan mengira ruang ciri tiga dimensi pada ciri dua dimensi berdasarkan pada prinsip pengimejan dan parameter kamera Koordinat setiap titik untuk ciri ciri dalam ruang ciri tiga dimensi. Kaedah ini mempromosikan ciri 2D ke dalam peta ciri 3D bersatu dan berfungsi sebagai komponen utama yang menghubungkan 2D dan 3D U-net. Monoscene juga mencadangkan lapisan 3D Contextual Relation Prior (3D CRP) yang disisipkan pada 3D UNet bottleneck, yang mempelajari graf perhubungan adegan semantik voxel-to-voxel n arah. Ini menyediakan rangkaian dengan medan penerimaan global dan meningkatkan kesedaran semantik spatial disebabkan oleh mekanisme penemuan perhubungan. Keseluruhan seni bina Monoscene ditunjukkan dalam Rajah 10.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Kaedah berasaskan pertanyaan

Satu lagi cara belajar dari ruang 3D melibatkan penjanaan satu set pertanyaan untuk menangkap gambaran pemandangan. Dalam pendekatan ini, teknik berasaskan pertanyaan digunakan untuk menjana cadangan pertanyaan, yang kemudiannya digunakan untuk mempelajari perwakilan komprehensif adegan 3D. Selepas itu, mekanisme perhatian silang dan perhatian diri pada imej digunakan untuk memperhalusi dan meningkatkan perwakilan yang dipelajari. Pendekatan ini bukan sahaja meningkatkan pemahaman pemandangan tetapi juga membolehkan pembinaan semula yang tepat dan ramalan penghunian dalam ruang 3D. Tambahan pula, pendekatan berasaskan pertanyaan memberikan fleksibiliti yang lebih besar untuk melaraskan dan mengoptimumkan berdasarkan sumber data dan strategi pertanyaan yang berbeza, membolehkan penangkapan maklumat kontekstual tempatan dan global yang lebih baik untuk memudahkan perwakilan ramalan penghunian 3D.

Kedalaman boleh digunakan sebagai pendahuluan yang berharga untuk memilih pertanyaan penghunian Dalam Voxformer, anggaran kedalaman digunakan sebagai pendahuluan untuk meramalkan penghunian dan memilih pertanyaan yang berkaitan. Hanya pertanyaan sibuk digunakan untuk mengumpul maklumat daripada imej menggunakan perhatian boleh ubah bentuk. Cadangan pertanyaan yang dikemas kini dan token bertopeng kemudian digabungkan untuk membina semula ciri voxel. Voxformer mengekstrak ciri 2D daripada imej RGB dan kemudian menggunakan set pertanyaan voxel 3D yang jarang untuk mengindeks ciri 2D ini, menggunakan matriks unjuran kamera untuk memautkan kedudukan 3D ke strim imej. Secara khususnya, pertanyaan voxel ialah parameter yang boleh dipelajari bagi bentuk jejaring 3D yang direka bentuk untuk menanyakan ciri daripada imej ke dalam jilid 3D menggunakan mekanisme perhatian. Keseluruhan rangka kerja ialah lata dua peringkat yang terdiri daripada cadangan kelas-agnostik dan segmentasi khusus kelas. Peringkat 1 menjana cadangan pertanyaan kelas-agnostik, manakala peringkat 2 menggunakan seni bina seperti MAE untuk menyebarkan maklumat kepada semua voxel. Akhir sekali, ciri voxel ditingkatkan sampel untuk pembahagian semantik. Keseluruhan seni bina VoxFormer ditunjukkan dalam Rajah 11.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Perbandingan prestasi kaedah peningkatan ciri pada dataset nuScenes Occ3D ditunjukkan dalam Jadual 3. Keputusan menunjukkan bahawa kaedah yang berurusan secara langsung dengan perwakilan voxel selalunya mencapai prestasi yang kukuh kerana mereka tidak mengalami kehilangan maklumat yang ketara semasa pengiraan. Tambahan pula, walaupun kaedah berasaskan BEV hanya mempunyai satu sudut pandangan yang diunjurkan untuk perwakilan ciri, kaedah tersebut masih boleh mencapai prestasi yang setanding disebabkan oleh maklumat yang kaya yang terkandung dalam pandangan mata burung dan ketidakpekaannya terhadap perubahan oklusi dan skala. Tambahan pula, dengan membina semula maklumat 3D daripada pelbagai pandangan pelengkap, kaedah berasaskan pandangan tiga perspektif (TPV) dapat mengurangkan potensi kekaburan geometri dan menangkap konteks pemandangan yang lebih komprehensif, sekali gus membolehkan ramalan penghunian 3D yang berkesan. Terutama, FB-OCC menggunakan kedua-dua modul penukaran pandangan ke hadapan dan ke belakang, membolehkan mereka meningkatkan satu sama lain untuk mendapatkan perwakilan kenderaan elektrik tulen berkualiti tinggi dan mencapai prestasi cemerlang. Ini menunjukkan bahawa kaedah berasaskan BEV juga mempunyai potensi besar dalam meningkatkan ramalan penghunian 3D melalui peningkatan ciri yang berkesan.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Kaedah mesra penggunaan

Mempelajari perwakilan penghunian terus dari ruang 3D amat mencabar kerana skopnya yang luas dan sifat data yang kompleks. Dimensi tinggi dan pengiraan intensif yang dikaitkan dengan perwakilan voxel 3D menjadikan proses pembelajaran sangat memerlukan sumber, yang tidak kondusif untuk aplikasi penggunaan praktikal. Oleh itu, kaedah untuk mereka bentuk perwakilan 3D mesra penempatan bertujuan untuk mengurangkan kos pengiraan dan meningkatkan kecekapan pembelajaran. Bahagian ini membentangkan kaedah untuk menangani cabaran pengiraan dalam anggaran penghunian pemandangan 3D, memfokuskan pada membangunkan kaedah yang tepat dan cekap daripada memproses keseluruhan ruang 3D secara langsung. Teknik yang dibincangkan termasuk penguraian perspektif dan penghalusan kasar ke halus, yang telah ditunjukkan dalam kerja baru-baru ini untuk meningkatkan kecekapan pengiraan ramalan penghunian 3D.

Kaedah penguraian perspektif

Dengan mengasingkan maklumat sudut pandangan daripada ciri pemandangan 3D atau menayangkannya ke dalam ruang perwakilan bersatu, kerumitan pengiraan boleh dikurangkan dengan berkesan, menjadikan model lebih mantap dan boleh digeneralisasikan. Idea teras kaedah ini adalah untuk memisahkan perwakilan pemandangan tiga dimensi daripada maklumat sudut pandangan, dengan itu mengurangkan bilangan pembolehubah yang perlu dipertimbangkan dalam proses pembelajaran ciri dan mengurangkan kerumitan pengiraan. Menyahganding maklumat sudut pandangan membolehkan model membuat generalisasi dengan lebih baik dan menyesuaikan diri dengan transformasi sudut pandangan yang berbeza tanpa perlu mempelajari semula keseluruhan model.

Untuk menangani beban pengiraan pembelajaran daripada keseluruhan ruang 3D, pendekatan biasa adalah menggunakan perwakilan Bird’s Eye View (BEV) dan Three View View (TPV). Dengan menguraikan ruang 3D ke dalam perwakilan paparan individu ini, kerumitan pengiraan dikurangkan dengan ketara sementara masih menangkap maklumat penting untuk ramalan penghunian. Idea utama ialah belajar terlebih dahulu daripada perspektif BEV dan TPV dan kemudian memulihkan maklumat penghunian 3D yang lengkap dengan menggabungkan cerapan yang diperoleh daripada pandangan berbeza ini. Strategi penguraian perspektif ini membolehkan anggaran penghunian yang lebih cekap dan berkesan berbanding pembelajaran terus daripada keseluruhan ruang 3D.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Kaedah kasar ke halus

Mempelajari ciri voxel global berbutir halus resolusi tinggi terus daripada ruang 3D berskala besar memakan masa dan mencabar. Oleh itu, beberapa kaedah telah mula meneroka paradigma pembelajaran ciri kasar hingga halus. Khususnya, rangkaian pada mulanya mempelajari perwakilan kasar daripada imej dan kemudian menapis dan memulihkan perwakilan terperinci keseluruhan pemandangan. Proses dua langkah ini membantu mencapai ramalan penghunian pemandangan yang lebih tepat dan cekap.

OpenOccupancy menggunakan pendekatan dua langkah untuk mempelajari perwakilan penghunian dalam ruang 3D. Seperti yang ditunjukkan dalam Rajah 14.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Meramalkan penghunian 3D memerlukan perwakilan geometri yang terperinci, dan menggunakan semua penanda voxel 3D untuk berinteraksi dengan ROI dalam imej berbilang paparan akan menanggung kos pengiraan dan ingatan yang ketara. Seperti yang ditunjukkan dalam Rajah 15, Occ3D mencadangkan strategi pemilihan token tambahan untuk memilih latar depan dan token voxel yang tidak pasti secara selektif semasa proses pengiraan perhatian silang, dengan itu mencapai penyesuaian tanpa mengorbankan ketepatan. Khususnya, pada permulaan setiap lapisan piramid, setiap label voxel dimasukkan ke dalam pengelas binari untuk meramalkan sama ada voxel kosong atau tidak, diawasi oleh peta penghunian tanah-kebenaran binari untuk melatih pengelas. PanoOcc mencadangkan untuk menyepadukan pengesanan objek dan segmentasi semantik dengan lancar dalam rangka kerja pembelajaran bersama untuk menggalakkan pemahaman yang lebih komprehensif tentang persekitaran 3D. Kaedah ini menggunakan pertanyaan voxel untuk mengagregatkan maklumat spatiotemporal daripada imej berbilang bingkai dan berbilang paparan, menggabungkan pembelajaran ciri dan perwakilan pemandangan ke dalam perwakilan penghunian bersatu. Selain itu, ia meneroka keterlanjuran ruang 3D dengan memperkenalkan modul keterlanjuran penghunian, yang secara beransur-ansur mengurangkan penghunian semasa proses pensampelan naik daripada kasar kepada halus, meningkatkan kecekapan storan dengan ketara.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Perbandingan prestasi kaedah mesra penggunaan pada dataset nuScenes Occ3D ditunjukkan dalam Jadual 4. Memandangkan keputusan dikumpulkan daripada kertas yang berbeza dengan perbezaan dalam tulang belakang, saiz imej dan platform pengkomputeran, hanya beberapa kesimpulan awal boleh dibuat. Secara amnya, di bawah tetapan percubaan yang serupa, kaedah kasar hingga halus mengatasi kaedah penguraian perspektif dari segi prestasi disebabkan kehilangan maklumat yang kurang, manakala penguraian perspektif biasanya mempamerkan prestasi masa nyata yang lebih baik dan penggunaan memori yang lebih rendah. Selain itu, model dengan tulang belakang yang lebih berat dan memproses imej yang lebih besar boleh mencapai ketepatan yang lebih baik tetapi juga menjejaskan prestasi masa nyata. Walaupun versi kaedah ringan seperti FlashOcc dan FastOcc hampir dengan keperluan untuk penggunaan praktikal, ketepatannya perlu dipertingkatkan lagi. Untuk kaedah mesra penggunaan, kedua-dua strategi penguraian perspektif dan strategi kasar hingga halus berusaha untuk mengurangkan beban pengiraan secara berterusan sambil mengekalkan ketepatan ramalan penghunian 3D.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Kaedah yang cekap label

Antara kaedah sedia ada untuk mencipta label penghunian yang tepat, terdapat dua langkah asas. Yang pertama ialah mengumpul awan titik lidar yang sepadan dengan imej berbilang paparan dan menganotasinya untuk pembahagian semantik. Yang lain ialah menggunakan maklumat penjejakan objek dinamik untuk menggabungkan awan titik berbilang bingkai melalui algoritma yang kompleks. Kedua-dua langkah ini agak mahal, yang mengehadkan keupayaan rangkaian penghunian untuk mengeksploitasi sejumlah besar imej berbilang paparan dalam senario pemanduan autonomi. Dalam beberapa tahun kebelakangan ini, medan sinaran saraf (Nerf) telah digunakan secara meluas dalam pemaparan imej dua dimensi. Terdapat beberapa kaedah yang memplot ramalan penghunian 3D ke dalam peta 2D dalam cara seperti Nerf dan melatih rangkaian penghunian tanpa penglibatan anotasi halus atau awan titik lidar, yang mengurangkan kos anotasi data dengan ketara. Kaedah tanpa anotasi Peta kedalaman 2D diawasi oleh peta kedalaman jarang yang dijana daripada awan titik lidar. Peta kedalaman juga digunakan untuk mensintesis imej sekeliling untuk pengawasan diri. UniOcc menggunakan dua MLP berasingan untuk menukar logit voxel 3D kepada ketumpatan voxel dan logit semantik voxel. Selepas itu, UniOCC mengikuti pemaparan volum umum untuk mendapatkan peta kedalaman berbilang paparan dan peta semantik, seperti yang ditunjukkan dalam Rajah 17. Peta 2D ini diawasi oleh label yang dijana daripada awan titik LiDAR bersegmen. RenderOcc membina perwakilan volumetrik 3D seperti NeRF daripada imej berbilang paparan dan menjana pemaparan 2D menggunakan teknik pemaparan volumetrik lanjutan yang boleh menyediakan penyeliaan 3D langsung menggunakan hanya label semantik dan kedalaman 2D. Dengan penyeliaan pemaparan 2D ini, model mempelajari ketekalan berbilang paparan dengan menganalisis persilangan sinar daripada pelbagai frustum kamera untuk mendapatkan pemahaman yang lebih mendalam tentang hubungan geometri dalam ruang 3D. Tambahan pula, ia memperkenalkan konsep sinar tambahan untuk menggunakan sinar daripada bingkai jiran untuk meningkatkan kekangan konsistensi berbilang pandangan bagi bingkai semasa, dan membangunkan strategi latihan pensampelan dinamik untuk menapis sinar tidak sejajar. Untuk menangani masalah ketidakseimbangan antara kategori dinamik dan statik, OccFlowNet memperkenalkan lagi aliran penghunian untuk meramalkan aliran pemandangan bagi setiap voxel dinamik berdasarkan kotak sempadan 3D. Menggunakan penstriman voxel, voxel dinamik boleh dialihkan ke lokasi yang betul dalam rangka masa, menghapuskan keperluan untuk penapisan objek dinamik semasa pemaparan. Semasa latihan, voxel dan voxel yang diramalkan dengan betul dalam kotak sempadan diubah menggunakan aliran untuk diselaraskan dengan lokasi sasaran dalam rangka masa, diikuti dengan penjajaran grid menggunakan interpolasi berwajaran berdasarkan jarak.

Pendekatan di atas menghapuskan keperluan untuk anotasi penghunian 3D yang jelas, sekali gus mengurangkan beban anotasi manual. Walau bagaimanapun, mereka masih bergantung pada awan titik lidar untuk memberikan label kedalaman atau semantik untuk mengawasi peta yang diberikan, yang belum dapat mencapai rangka kerja penyeliaan sendiri sepenuhnya untuk ramalan penghunian 3D.

Kaedah tanpa LiDAR Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

OccNerf tidak menggunakan awan titik LiDAR untuk memberikan label kedalaman dan semantik. Sebaliknya, seperti yang ditunjukkan dalam Rajah 18, ia menggunakan medan penghunian berparameter untuk mengendalikan pemandangan luar tanpa sempadan, menyusun semula strategi pensampelan dan menggunakan pemaparan volum untuk menukar medan penghunian kepada peta kedalaman berbilang kamera, yang akhirnya diawasi oleh berbilang bingkai. ketekalan fotometrik. Tambahan pula, kaedah ini memanfaatkan model pembahagian semantik kosa kata terbuka yang telah terlatih untuk menghasilkan label semantik 2D, menyelia model untuk menyampaikan maklumat semantik kepada medan yang diduduki. Di belakang tabir urutan imej paparan tunggal digunakan untuk membina semula adegan pemanduan. Ia menganggap ciri frustum imej input sebagai medan ketumpatan dan menjadikan komposit pandangan lain. Keseluruhan model dilatih dengan kehilangan pembinaan semula imej yang direka khas. SelfOcc meramalkan nilai medan jarak yang ditandatangani bagi ciri BEV atau TPV untuk memaparkan peta kedalaman 2D. Selain itu, peta warna dan semantik asal juga dipaparkan dan diawasi oleh label yang dijana daripada jujukan imej berbilang paparan.

Kaedah ini mengetepikan keperluan untuk label kedalaman atau semantik daripada awan titik lidar. Sebaliknya, mereka memanfaatkan data imej atau model pra-latihan untuk mendapatkan label ini, membolehkan rangka kerja yang benar-benar diselia sendiri untuk ramalan penghunian 3D. Walaupun kaedah ini boleh mencapai corak latihan yang paling konsisten dengan pengalaman aplikasi praktikal, penerokaan lanjut diperlukan untuk mendapatkan prestasi yang memuaskan.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Jadual 5 menunjukkan perbandingan prestasi kaedah cekap label pada dataset nuScenes Occ3D. Kebanyakan kaedah tanpa anotasi menggunakan penyeliaan pemaparan 2D sebagai pelengkap kepada penyeliaan penghunian 3D yang jelas dan mendapatkan peningkatan prestasi tertentu. Antaranya, UniOcc dan RadOcc malah memperoleh kedudukan cemerlang masing-masing 3 dan 4 antara semua kaedah, yang membuktikan sepenuhnya bahawa mekanisme tanpa anotasi boleh menggalakkan pengekstrakan maklumat berharga tambahan. Apabila menggunakan penyeliaan pemaparan 2D sahaja, mereka masih boleh mencapai ketepatan yang setanding, menggambarkan kebolehlaksanaan untuk menjimatkan kos anotasi penghunian 3D yang jelas. Pendekatan bebas lidar mewujudkan rangka kerja penyeliaan diri yang komprehensif untuk ramalan penghunian 3D, seterusnya menghapuskan keperluan untuk teg dan data lidar. Walau bagaimanapun, memandangkan awan titik itu sendiri tidak mempunyai maklumat kedalaman dan geometri yang tepat, prestasinya sangat terhad.

Tinjauan Masa Depan

Didorong oleh pendekatan di atas, kami merumuskan arah aliran semasa dan mencadangkan beberapa hala tuju penyelidikan penting yang berpotensi untuk memajukan visi berasaskan penglihatan dengan ketara daripada data, kaedah dan perspektif tugasan pemanduan autonomi 3D .

Tahap data

Mendapatkan data pemanduan sebenar yang mencukupi adalah penting untuk meningkatkan keupayaan keseluruhan sistem persepsi pemanduan autonomi. Penjanaan data adalah pendekatan yang menjanjikan kerana ia tidak menanggung sebarang kos pemerolehan dan memberikan fleksibiliti untuk memanipulasi kepelbagaian data mengikut keperluan. Walaupun sesetengah kaedah menggunakan isyarat seperti teks untuk mengawal kandungan data pemanduan yang dijana, kaedah tersebut tidak dapat menjamin ketepatan maklumat spatial. Sebaliknya, Penghuni 3D menyediakan perwakilan pemandangan yang terperinci dan boleh diambil tindakan, memudahkan penjanaan data boleh dikawal dan paparan maklumat spatial berbanding awan titik, imej berbilang paparan dan reka letak BEV. WoVoGen mencadangkan penyebaran sedar volum yang boleh memetakan penghunian 3D kepada imej berbilang paparan yang realistik. Selepas pengubahsuaian dibuat pada penghunian 3D, seperti menambah pokok atau menukar kereta, model resapan akan mensintesis adegan pemanduan baharu yang sepadan. Penghunian tiga dimensi yang diubah suai merekodkan maklumat kedudukan tiga dimensi, memastikan ketulenan data sintetik.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Model pemanduan autonomi dunia semakin menonjol. Ia menyediakan rangka kerja yang ringkas dan elegan yang meningkatkan keupayaan model untuk memahami keseluruhan pemandangan berdasarkan pemerhatian input persekitaran dan secara langsung mengeluarkan data evolusi adegan dinamik yang sesuai. Memanfaatkan penghunian 3D sebagai pemerhatian alam sekitar dalam model dunia mempunyai kelebihan yang jelas memandangkan keupayaannya untuk mewakili keseluruhan data pemandangan pemanduan secara terperinci. Seperti yang ditunjukkan dalam Rajah 19, OccWorld memilih penghunian 3D sebagai input model dunia dan menggunakan modul seperti GPT untuk meramalkan rupa data penghunian 3D masa hadapan. UniWorld memanfaatkan model occ-pancy 3D berasaskan BEV di luar rak, tetapi juga membina model dunia dengan memproses imej berbilang paparan lalu untuk meramalkan data penghunian 3D masa hadapan. Walau bagaimanapun, tanpa mengira mekanisme, tidak dapat tidak terdapat jurang domain antara data yang dijana dan data sebenar. Untuk menyelesaikan masalah ini, satu pendekatan yang boleh dilaksanakan ialah menggabungkan ramalan penghunian 3D dengan kaedah kandungan terjana kecerdasan buatan 3D (3D AIGC) yang muncul untuk menjana data pemandangan yang lebih realistik, manakala pendekatan lain ialah menggabungkan kaedah penyesuaian domain Digabungkan untuk mengecilkan jurang medan.

Tahap Metodologi

Mengenai kaedah ramalan penghunian 3D, terdapat cabaran berterusan yang memerlukan perhatian lanjut dalam kategori yang kami gariskan sebelum ini: kaedah meningkatkan fungsi, kaedah mesra penggunaan dan kaedah cekap label. Kaedah peningkatan ciri perlu dibangunkan ke arah meningkatkan prestasi dengan ketara sambil mengekalkan penggunaan sumber pengkomputeran yang boleh dikawal. Pendekatan mesra penggunaan harus diingat untuk mengurangkan penggunaan memori dan kependaman sambil memastikan kemerosotan prestasi diminimumkan. Kaedah cekap label harus dibangunkan ke arah mengurangkan keperluan untuk anotasi yang mahal sambil mencapai prestasi yang memuaskan. Matlamat utama mungkin adalah untuk mencapai rangka kerja bersatu yang menggabungkan peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan untuk memenuhi jangkaan aplikasi pemanduan autonomi dunia sebenar.

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.

Selain itu, sistem persepsi pemanduan autonomi ejen tunggal sedia ada sememangnya tidak dapat menyelesaikan isu utama, seperti kepekaan terhadap oklusi, keupayaan penderiaan jarak jauh yang tidak mencukupi dan bidang pandangan yang terhad, yang menjadikannya mencabar untuk mencapai kesedaran alam sekitar yang menyeluruh. Untuk mengatasi kesesakan kaedah penderiaan kolaboratif ejen tunggal, pelbagai ejen membuka dimensi baharu, membolehkan kenderaan berkongsi maklumat pelengkap dengan elemen trafik lain untuk mendapatkan persepsi keseluruhan tentang persekitaran sekeliling. Seperti yang ditunjukkan dalam Rajah 20, kaedah ramalan penghunian 3D kolaboratif berbilang ejen menggunakan kuasa penderiaan dan pembelajaran kolaboratif untuk ramalan penghunian 3D Dengan berkongsi ciri antara kenderaan automatik yang disambungkan, ia boleh memperoleh pemahaman yang lebih mendalam tentang persekitaran jalan raya 3D. CoHFF ialah rangka kerja ramalan penghunian semantik berasaskan penglihatan kolaboratif yang pertama, yang meningkatkan ramalan penghunian semantik 3D tempatan melalui gabungan hibrid ciri tugas semantik dan penghunian, serta ciri perhatian ortogon yang dimampatkan yang dikongsi antara kenderaan, meningkatkan prestasi dengan ketara sistem basikal. Walau bagaimanapun, kaedah ini selalunya memerlukan komunikasi dengan berbilang ejen secara serentak, menghadapi percanggahan antara ketepatan dan lebar jalur. Oleh itu, adalah satu hala tuju penyelidikan yang menarik untuk menentukan ejen mana yang paling memerlukan penyelarasan, dan untuk mengenal pasti bidang yang mana kerjasama paling berharga untuk mencapai keseimbangan terbaik antara ketepatan dan kelajuan.

Tahap tugas

Dalam penanda aras penghunian 3D semasa, beberapa kategori mempunyai semantik yang jelas, seperti "kereta", "pejalan kaki" dan "trak". Sebaliknya, semantik kategori lain seperti "tiruan" dan "tumbuhan" cenderung menjadi kabur dan umum. Kategori ini mengandungi semantik luas yang tidak ditentukan dan harus dibahagikan kepada kategori yang lebih terperinci untuk memberikan penerangan terperinci tentang senario pemanduan. Tambahan pula, bagi kategori yang tidak diketahui yang belum pernah dilihat sebelum ini, ia sering dilihat sebagai penghalang umum kepada pengembangan fleksibel persepsi kategori baharu berdasarkan petunjuk manusia. Untuk masalah ini, tugas perbendaharaan kata terbuka telah menunjukkan prestasi yang kukuh dalam persepsi imej 2D dan boleh diperluaskan untuk meningkatkan tugas ramalan penghunian 3D. OVO mencadangkan rangka kerja yang menyokong ramalan penghunian 3D perbendaharaan kata terbuka. Ia menggunakan penyegmen 2D beku dan pengekod teks untuk mendapatkan rujukan semantik bagi perbendaharaan kata terbuka. Kemudian, tiga tahap penjajaran berbeza digunakan untuk mengekstrak model penghunian 3D, membolehkannya melakukan ramalan perkataan terbuka. POP-3D mereka bentuk rangka kerja penyeliaan sendiri yang menggabungkan tiga modaliti dengan bantuan model bahasa visual pra-latihan yang berkuasa. Ia memudahkan tugas leksikon terbuka seperti pembahagian penghunian tangkapan sifar dan perolehan semula 3D berasaskan teks.

Merasai perubahan dinamik dalam persekitaran sekeliling adalah penting untuk pelaksanaan tugas hiliran yang selamat dan boleh dipercayai dalam pemanduan autonomi. Walaupun ramalan penghunian 3D boleh memberikan gambaran penghunian padat bagi pemandangan berskala besar berdasarkan pemerhatian semasa, ia kebanyakannya terhad untuk mewakili ruang 3D semasa dan tidak mengambil kira keadaan masa depan objek sekeliling sepanjang garis masa. Baru-baru ini, beberapa kaedah telah dicadangkan untuk mempertimbangkan maklumat sementara dan memperkenalkan tugas ramalan penghunian 4D, yang lebih praktikal dalam senario pemanduan autonomi sebenar. Cam4Occ mewujudkan penanda aras baharu untuk ramalan penghunian 4D menggunakan set data nuScenes yang digunakan secara meluas buat kali pertama. Penanda aras termasuk metrik berbeza untuk menilai ramalan penghunian untuk Objek Alih Am (GMO) dan Objek Statik Am (GSO) masing-masing. Tambahan pula, ia menyediakan beberapa model garis dasar untuk menggambarkan pembinaan rangka kerja ramalan penghunian 4D. Walaupun tugas ramalan penghunian 3D perbendaharaan kata terbuka dan tugas ramalan penghunian 4D bertujuan untuk meningkatkan keupayaan persepsi pemanduan autonomi dalam persekitaran dinamik terbuka daripada perspektif yang berbeza, tugas tersebut masih dianggap sebagai tugas bebas untuk pengoptimuman. Paradigma berasaskan tugas modular di mana berbilang modul mempunyai matlamat pengoptimuman yang tidak konsisten boleh menyebabkan kehilangan maklumat dan ralat terkumpul. Menggabungkan ramalan penghunian dinamik set terbuka dengan tugas pemanduan autonomi hujung ke hujung dan secara langsung memetakan data sensor mentah untuk mengawal isyarat adalah hala tuju penyelidikan yang menjanjikan.

Atas ialah kandungan terperinci Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!