Rumah > Peranti teknologi > AI > Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

王林
Lepaskan: 2023-10-05 19:57:09
ke hadapan
864 orang telah melayarinya

Regress ke ketinggian tanah untuk mencapai rumusan jarak-agnostik, sekali gus memudahkan proses pengoptimuman untuk kaedah hanya menyedari kamera. Pada penanda aras pengesanan 3D bagi kamera tepi jalan, kaedah ini jauh melebihi semua kaedah bertumpu penglihatan sebelumnya. Ia menghasilkan peningkatan ketara sebanyak +1.9% NDS dan +1.1% mAP berbanding BEVDepth. Pada set ujian nuScenes, kaedah tersebut mencapai kemajuan yang ketara, dengan NDS dan mAP meningkat masing-masing sebanyak +2.8% dan +1.7%.

Tajuk: BEVHeight++: Ke arah pengesanan objek 3D berpusat penglihatan yang teguh

Pautan kertas: https://arxiv.org/pdf/2309.16179.pdf

Gabungan pengarang: Universiti Tsinghua, Universiti Sun Yat-sen, Universiti Beijing Universiti

Dari komuniti pemanduan autonomi pertama di China: akhirnya menyiapkan pembinaan 20+ laluan pembelajaran arah teknikal (persepsi BEV/pengesan 3D/gabungan berbilang sensor/SLAM dan perancangan, dsb.)

Walaupun autonomi baru-baru ini sistem pemanduan memfokuskan pada Membangunkan kaedah penderiaan untuk penderia kenderaan, tetapi alternatif yang sering diabaikan ialah penggunaan kamera tepi jalan pintar untuk memanjangkan keupayaan penderiaan melangkaui julat visual. Pengarang mendapati bahawa kaedah pengesanan BEV tertumpu penglihatan tercanggih berprestasi buruk pada kamera tepi jalan. Ini kerana kaedah ini tertumpu terutamanya pada memulihkan kedalaman mengenai pusat kamera, di mana perbezaan kedalaman antara kereta dan tanah mengecut dengan cepat mengikut jarak. Dalam kertas kerja ini, penulis mencadangkan kaedah yang mudah tetapi berkesan, dipanggil BEVHeight++, untuk menyelesaikan masalah ini. Pada asasnya, pengarang mundur ke ketinggian tanah untuk mencapai rumusan jarak-agnostik, dengan itu memudahkan proses pengoptimuman untuk kaedah sedar kamera sahaja. Dengan menggabungkan teknik pengekodan ketinggian dan kedalaman, unjuran yang lebih tepat dan mantap daripada ruang 2D ke BEV dicapai. Kaedah ini dengan ketara mengatasi semua kaedah bertumpu penglihatan sebelumnya pada penanda aras pengesanan 3D yang popular untuk kamera tepi jalan. Untuk adegan kenderaan sendiri, BEVHeight++ mengatasi kaedah kedalaman sahaja

Secara khusus, ia menghasilkan peningkatan ketara sebanyak +1.9% NDS dan +1.1% mAP berbanding BEVDepth apabila dinilai pada set pengesahan nuScenes . Tambahan pula, pada set ujian nuScenes, kaedah ini mencapai kemajuan yang ketara, dengan NDS dan mAP meningkat masing-masing sebanyak +2.8% dan +1.7%.

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Rajah 1: (a) Untuk menjana kotak sempadan 3D daripada imej monokular, kaedah tercanggih terlebih dahulu meramalkan kedalaman setiap piksel, sama ada secara eksplisit atau tersirat, untuk menentukan kedudukan 3D objek latar depan berbanding latar belakang. Walau bagaimanapun, apabila kami memplot kedalaman setiap piksel pada imej, kami mendapati bahawa apabila kereta bergerak menjauhi kamera, perbezaan antara titik di atas bumbung dan tanah di sekeliling mengecut dengan cepat, menjadikan pengoptimuman menjadi tidak optimum, terutamanya untuk Jarak Jauh. objek. (b) Sebaliknya, kami memplot ketinggian per-piksel ke tanah dan memerhatikan bahawa perbezaan ini adalah agnostik tanpa mengira jarak dan secara visual lebih sesuai untuk rangkaian mengesan objek. Walau bagaimanapun, kedudukan 3D tidak boleh diregres secara langsung dengan meramalkan ketinggian sahaja. (c) Untuk tujuan ini, kami mencadangkan rangka kerja baharu BEVHeight++ untuk menyelesaikan masalah ini. Keputusan empirikal menunjukkan bahawa kaedah kami mengatasi kaedah terbaik sebanyak 5.49% pada tetapan bersih dan 28.2% pada tetapan bising.

Struktur rangkaian

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Perbandingan ketinggian dan kedalaman ramalan. (a) Gambaran keseluruhan kaedah berasaskan kedalaman sebelumnya dan saluran paip berasaskan ketinggian kami yang dicadangkan. Sila ambil perhatian bahawa kertas ini mencadangkan modul unjuran 2D hingga 3D novel. (b) Memplot histogram kedalaman setiap piksel (atas) dan ketinggian tanah (bawah), dapat diperhatikan dengan jelas bahawa julat kedalaman melebihi 200 meter, manakala ketinggian dalam lingkungan 5 meter, yang menjadikan ketinggian lebih mudah dipelajari.

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Dalam imej, terdapat perkaitan antara koordinat baris sasaran dengan kedalaman dan ketinggiannya. Kedudukan sasaran dalam imej boleh ditakrifkan oleh (u, v), di mana v mewakili koordinat baris imej. Dalam (a) kami menunjukkan contoh visual memperkenalkan hingar dengan menambahkan offset putaran dalam arah guling dan pic kepada taburan normal. Dalam (b) kami menunjukkan plot taburan taburan kedalaman. Dalam (c) kami menunjukkan ketinggian di atas tanah. Kita boleh perhatikan bahawa tetapan hingar untuk ketinggian mempunyai pertindihan yang lebih besar dengan taburan asalnya berbanding dengan kedalaman, menunjukkan bahawa anggaran ketinggian adalah lebih mantap

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Kerangka keseluruhan BEVHeight++ mengandungi tiga sub-rangkaian, iaitu cawangan berasaskan kedalaman (cyan), cawangan berasaskan ketinggian (hijau) dan proses gabungan ciri (kelabu). Saluran paip berasaskan kedalaman menukar ciri paparan imej kepada ciri BEV berasaskan kedalaman (BEV berasaskan D) menggunakan anggaran kedalaman setiap piksel. Saluran paip berasaskan ketinggian menjana ciri BEV berasaskan ketinggian (BEV berasaskan H) menggunakan ramalan ketinggian tanah bagi ciri lif dalam paparan imej. Gabungan ciri termasuk gabungan imej dan gabungan pandangan mata burung. Gabungan paparan imej memperoleh ciri gabungan dengan pengedaran ketinggian melata dan ciri imej, yang digunakan untuk operasi naik taraf seterusnya. Gabungan pandangan mata burung memperoleh ciri BEV bercantum daripada ciri BEV berasaskan ketinggian dan ciri BEV berasaskan kedalaman melalui perhatian silang boleh ubah bentuk, dan kemudian menggunakannya sebagai input kepala pengesan

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Hasil eksperimen

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!

Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ

Atas ialah kandungan terperinci Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan