Penyelesaian Gabungan BEV LV Baharu: Angkat-Hadiri-Percikan Melampaui BEVFusion-AI-php.cn

Penyelesaian Gabungan BEV LV Baharu: Angkat-Hadiri-Percikan Melampaui BEVFusion

PHPz

Lepaskan： 2024-01-13 22:45:07

ke hadapan

619 orang telah melayarinya

Kertas: Kaedah Lift-Attend-Splat untuk kamera pandangan mata burung dan gabungan lidar menggunakan teknologi Transformer

Sila klik pautan untuk melihat fail: https://arxiv.org/pdf/2312.14919.pdf

Untuk keselamatan- aplikasi kritikal seperti pemanduan autonomi Adalah penting untuk menggabungkan modaliti sensor pelengkap. Kaedah gabungan kamera-lidar pemanduan autonomi terkini menggunakan anggaran kedalaman monokular untuk meningkatkan persepsi, tetapi ini adalah tugas yang sukar berbanding dengan menggunakan maklumat kedalaman secara langsung daripada lidar. Kajian kami mendapati bahawa pendekatan ini tidak mengeksploitasi sepenuhnya maklumat kedalaman dan menunjukkan bahawa penambahbaikan anggaran kedalaman secara naif tidak meningkatkan prestasi pengesanan objek. Yang menghairankan, mengalih keluar anggaran kedalaman sepenuhnya tidak merendahkan prestasi pengesanan objek

Ini menunjukkan bahawa pergantungan pada kedalaman monokular mungkin merupakan kesesakan seni bina yang tidak perlu semasa gabungan kamera-lidar. Kajian ini mencadangkan kaedah gabungan baharu yang memintas sepenuhnya anggaran kedalaman monokular dan sebaliknya menggunakan mekanisme perhatian mudah untuk memilih dan menggabungkan ciri kamera dan lidar dalam grid BEV. Keputusan menunjukkan bahawa model yang dicadangkan mampu melaraskan penggunaan ciri kamera berdasarkan ketersediaan ciri lidar dan mempunyai prestasi pengesanan 3D yang lebih baik pada dataset nuScenes daripada model garis dasar berdasarkan anggaran kedalaman monokular

Pengenalan kepada kajian ini Kamera baharu -kaedah gabungan lidar yang dipanggil "Lift Attented Splat" telah dibangunkan. Kaedah ini mengelakkan anggaran kedalaman monokular dan sebaliknya menggunakan pengubah mudah untuk memilih dan menggabungkan ciri kamera dan lidar dalam BEV. Eksperimen membuktikan bahawa berbanding dengan kaedah berdasarkan anggaran kedalaman monokular, kaedah penyelidikan ini boleh menggunakan kamera dengan lebih baik dan meningkatkan prestasi pengesanan objek. Sumbangan kajian ini adalah seperti berikut:

Kaedah gabungan kamera-lidar berdasarkan paradigma Lift Splat tidak mengeksploitasi kedalaman seperti yang diharapkan. Khususnya, kami menunjukkan bahawa mereka berprestasi sama baik atau lebih baik jika ramalan kedalaman monokular dialih keluar sepenuhnya.
Kertas kerja ini memperkenalkan kaedah gabungan kamera-lidar baharu yang menggunakan mekanisme perhatian mudah untuk menggabungkan ciri kamera dan lidar dalam BEV tulen. Kertas kerja menunjukkan bahawa ia boleh menggunakan kamera dengan lebih baik dan meningkatkan prestasi pengesanan 3D berbanding model berdasarkan paradigma Lift Splat.

Pengenalan kepada struktur utama

Ketepatan ramalan kedalaman biasanya rendah. Analisis kualitatif dan kuantitatif boleh dilakukan dengan membandingkan kualiti kedalaman yang diramalkan oleh BEVFusion dengan peta kedalaman lidar menggunakan ralat relatif mutlak (Abs.Rel.) dan ralat purata kuasa dua (RMSE). Seperti yang ditunjukkan dalam Rajah 1, ramalan kedalaman tidak menggambarkan dengan tepat struktur tempat kejadian dan berbeza dengan ketara daripada peta kedalaman lidar, menunjukkan bahawa kedalaman monokular tidak digunakan sepenuhnya seperti yang diharapkan. Kajian itu juga mendapati bahawa meningkatkan ramalan kedalaman tidak meningkatkan prestasi pengesanan objek! Mengalih keluar ramalan kedalaman sepenuhnya tidak memberi kesan kepada prestasi pengesanan objek

超越BEVFusion！Lift-Attend-Splat：最新BEV LV融合方案

Kami mencadangkan kaedah gabungan kamera-lidar yang memintas sepenuhnya anggaran kedalaman monokular dan sebaliknya menggunakan pengubah ringkas untuk bergabung dalam ciri Kamera dan lidar pandangan mata burung. Walau bagaimanapun, disebabkan oleh bilangan ciri kamera dan lidar yang banyak dan sifat perhatian kuadratik, seni bina pengubah sukar untuk digunakan dengan mudah pada masalah gabungan kamera-lidar. Apabila menayangkan ciri kamera dalam BEV, geometri masalah boleh digunakan untuk mengehadkan skop perhatian dengan ketara, kerana ciri kamera sepatutnya hanya menyumbang kepada kedudukan di sepanjang sinaran yang sepadan. Kami menggunakan idea ini pada kes gabungan kamera-lidar dan memperkenalkan kaedah gabungan mudah yang menggunakan perhatian silang antara lajur dalam satah kamera dan sinar kutub dalam grid BEV lidar! Daripada meramalkan kedalaman monokular, perhatian silang mempelajari ciri kamera yang paling menonjol dalam konteks yang disediakan oleh ciri lidar di sepanjang sinarnya

Model kami mempunyai seni bina keseluruhan yang serupa dengan kaedah berdasarkan paradigma Lift Splat, Selain menayangkan ciri kamera dalam BEV. Seperti yang ditunjukkan dalam rajah di bawah, ia terdiri daripada kamera dan tulang belakang lidar, modul yang menjana secara bebas setiap ciri modal, modul unjuran dan gabungan yang membenamkan ciri kamera ke dalam BEV dan menggabungkannya dengan lidar serta kepala pengesanan. Apabila mempertimbangkan pengesanan sasaran, output akhir model ialah atribut sasaran dalam adegan, termasuk kedudukan, dimensi, arah, kelajuan dan maklumat klasifikasi, yang diwakili dalam bentuk kotak sempadan 3D

Lift Attented Splat camera lidar fusion seni bina ditunjukkan di bawah. (Kiri) Seni bina keseluruhan: Ciri daripada kamera dan tulang belakang lidar disatukan sebelum dihantar ke kepala pengesan. (inset) Geometri unjuran 3D kami: Langkah "Angkat" membenamkan ciri BEV lidar ke dalam ufuk yang diunjurkan dengan menggunakan pensampelan dwilinear untuk mengangkat ciri lidar di sepanjang arah z. Langkah "percikan" sepadan dengan transformasi songsang, kerana ia menggunakan pensampelan dwilinear untuk menayangkan ciri dari ufuk yang diunjurkan kembali ke grid BEV, sekali lagi di sepanjang arah z! Di sebelah kanan ialah butiran modul projek.

超越BEVFusion！Lift-Attend-Splat：最新BEV LV融合方案

Hasil percubaan

超越BEVFusion！Lift-Attend-Splat：最新BEV LV融合方案

Pautan asal: https://mp.weixin.qq.com/s/U63xCRSvrp

Atas ialah kandungan terperinci Penyelesaian Gabungan BEV LV Baharu: Angkat-Hadiri-Percikan Melampaui BEVFusion. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!