DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi-AI-php.cn

Tajuk kertas:

DiffMap: Mempertingkatkan Segmentasi Peta dengan Peta Sebelum Menggunakan Model Resapan

Pengarang kertas:

quan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang

01 Pengenalan Latar Belakang

Untuk kenderaan pandu sendiri, peta definisi tinggi (HD) boleh membantu mereka meningkatkan pemahaman mereka tentang alam sekitar (persepsi) ) ketepatan dan ketepatan navigasi. Walau bagaimanapun, pemetaan manual menghadapi masalah kerumitan dan kos yang tinggi. Untuk tujuan ini, penyelidikan semasa mengintegrasikan pembinaan peta ke dalam tugas persepsi BEV (pandangan mata burung) Membina peta HD raster dalam ruang BEV dianggap sebagai tugas pembahagian, yang boleh difahami sebagai menambah penggunaan sesuatu yang serupa dengan FCN. (volume penuh) selepas mendapat ciri BEV ketua segmentasi rangkaian produk). Contohnya, HDMapNet mengekodkan ciri sensor melalui LSS (Lift, Splat, Shoot), dan kemudian menggunakan FCN berbilang resolusi untuk segmentasi semantik, pengesanan contoh dan ramalan arah untuk membina peta.

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

Walau bagaimanapun, pada masa ini kaedah sedemikian (kaedah pengelasan berasaskan piksel) masih mempunyai batasan yang wujud, termasuk kemungkinan mengabaikan atribut pengelasan tertentu, yang boleh membawa kepada herotan dan gangguan median, lintasan pejalan kaki yang kabur dan jenis artifak dan hingar , seperti yang ditunjukkan dalam Rajah 1(a). Masalah ini bukan sahaja menjejaskan ketepatan struktur peta, tetapi juga boleh menjejaskan secara langsung modul perancangan laluan hiliran sistem pemanduan autonomi. . ciri-ciri garisan lorong. Sesetengah model generatif mempunyai keupayaan ini dalam menangkap keaslian dan ciri-ciri yang wujud bagi imej. Sebagai contoh, LDM (Model Resapan Terpendam) telah menunjukkan potensi besar dalam penjanaan imej kesetiaan tinggi dan membuktikan keberkesanannya dalam tugas yang berkaitan dengan peningkatan segmentasi. Di samping itu, pembolehubah kawalan boleh diperkenalkan untuk terus membimbing penjanaan imej untuk memenuhi keperluan kawalan khusus. Oleh itu, menggunakan model generatif untuk menangkap struktur peta sebelum ini dijangka dapat mengurangkan artifak pembahagian dan meningkatkan prestasi pembinaan peta.

Dalam artikel ini, penulis menyebut rangkaian DiffMap. Buat pertama kalinya, rangkaian ini melaksanakan pemodelan terdahulu berstruktur peta pada model segmentasi sedia ada dan menyokong pasang dan main dengan menggunakan LDM yang dipertingkatkan sebagai modul peningkatan. DiffMap bukan sahaja mempelajari peta sebelum melalui proses menambah dan mengalih keluar hingar untuk memastikan output sepadan dengan cerapan bingkai semasa, ia juga boleh menyepadukan ciri BEV sebagai isyarat kawalan untuk memastikan output sepadan dengan cerapan bingkai semasa. Keputusan percubaan menunjukkan bahawa DiffMap boleh menjana hasil pembahagian peta yang lebih lancar dan lebih munasabah, sambil mengurangkan artifak dan meningkatkan prestasi pembinaan peta secara keseluruhan.

02 Kerja Berkaitan

2.1 Pembinaan Peta Semantik

Dalam pembinaan peta definisi tinggi (HD) tradisional, peta semantik biasanya secara manual atau separa automatik beranotasi awan. Secara amnya, peta yang konsisten secara global dibina berdasarkan algoritma SLAM, dan anotasi semantik ditambah secara manual pada peta. Walau bagaimanapun, pendekatan ini memakan masa dan intensif buruh dan juga memberikan cabaran penting dalam mengemas kini peta, sekali gus mengehadkan kebolehskalaan dan prestasi masa nyatanya.

HDMapNet mencadangkan kaedah untuk membina peta semantik tempatan secara dinamik menggunakan penderia on-board. Ia mengekod awan titik lidar dan ciri imej panoramik ke dalam ruang Pandangan Mata Burung (BEV) dan menyahkodnya menggunakan tiga kepala berbeza, akhirnya menghasilkan peta semantik tempatan tervektor. SuperFusion memfokuskan pada membina peta semantik ketepatan tinggi jarak jauh, menggunakan maklumat kedalaman lidar untuk meningkatkan anggaran kedalaman imej dan menggunakan ciri imej untuk membimbing ramalan ciri lidar jarak jauh. Kemudian kepala pengesanan peta yang serupa dengan HDMapNet digunakan untuk mendapatkan peta semantik. MachMap membahagikan tugas kepada pengesanan garisan poli dan pembahagian contoh poligon, dan menggunakan pemprosesan pasca untuk memperhalusi topeng untuk mendapatkan hasil akhir. Penyelidikan seterusnya memfokuskan pada pemetaan dalam talian hujung ke hujung untuk mendapatkan peta definisi tinggi bervektor secara langsung. Pembinaan dinamik peta semantik tanpa anotasi manual secara berkesan mengurangkan kos pembinaan.

2.2 Model resapan yang digunakan untuk segmentasi dan pengesanan kepada pelbagai tugas seperti segmentasi dan pengesanan. SegDiff menggunakan model resapan pada tugas pembahagian imej, di mana pengekod UNet yang digunakan dipisahkan lagi kepada tiga modul: E, F dan G. Modul G dan F masing-masing mengekod imej input I dan peta pembahagian, yang kemudiannya digabungkan secara tambahan dalam E untuk memperhalusi peta pembahagian secara berulang. DDPMS menggunakan model segmentasi asas untuk menjana ramalan awal sebelum dan model resapan untuk memperhalusi sebelumnya. DiffusionDet memanjangkan model resapan kepada rangka kerja pengesanan sasaran, memodelkan pengesanan sasaran sebagai proses resapan mengecil daripada kotak hingar ke kotak sasaran.

Model resapan juga digunakan dalam bidang pemanduan autonomi, seperti MagicDrive menggunakan kekangan geometri untuk mensintesis pemandangan jalanan, dan Motiondiffuser memanjangkan model resapan kepada masalah ramalan gerakan berbilang ejen. . MapLite2.0 mengambil peta terdahulu definisi standard (SD) sebagai titik permulaan dan menggabungkannya dengan penderia on-board untuk membuat kesimpulan peta definisi tinggi tempatan dalam masa nyata. MapEx dan SMERF memanfaatkan data peta standard untuk meningkatkan kesedaran lorong dan pemahaman topologi. SMERF mengguna pakai pengekod peta standard berasaskan Transformer untuk mengekodkan garisan lorong dan jenis lorong, dan kemudian mengira perhatian silang antara maklumat peta standard dan ciri pandangan mata burung (BEV) berasaskan sensor untuk menyepadukan maklumat peta standard. NMP menyediakan keupayaan ingatan jangka panjang untuk kenderaan autonomi dengan menggabungkan data terdahulu peta lalu dengan data persepsi semasa. MapPrior menggabungkan model diskriminatif dan generatif, pengekodan ramalan awal yang dijana berdasarkan model sedia ada sebagai prior semasa fasa ramalan, menyuntik ruang terpendam diskret model generatif, dan kemudian menggunakan model generatif untuk memperhalusi ramalan. PreSight menggunakan data daripada perjalanan sebelumnya untuk mengoptimumkan medan sinaran saraf skala bandar, menjana prior saraf dan meningkatkan persepsi dalam talian dalam navigasi seterusnya.

03 Analisis Kaedah3.1 Persediaan

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi Seperti yang ditunjukkan dalam Rajah 2. Sebagai penyahkod, DiffMap menggabungkan model resapan ke dalam model segmentasi peta semantik, yang mengambil imej berbilang paparan di sekeliling dan awan titik LiDAR sebagai input, mengekodnya ke dalam ruang BEV dan memperoleh ciri BEV yang digabungkan. Kemudian DiffMap digunakan sebagai penyahkod untuk menjana peta segmentasi. Dalam modul DiffMap, ciri BEV digunakan sebagai syarat untuk membimbing proses denoising. . Bahagian pengekod bertanggungjawab untuk mengekstrak ciri daripada data input (LiDAR dan/atau data kamera) dan menukarnya kepada perwakilan dimensi tinggi. Pada masa yang sama, penyahkod biasanya bertindak sebagai kepala pembahagian untuk memetakan perwakilan ciri dimensi tinggi kepada peta pembahagian yang sepadan. Baseline memainkan dua peranan utama dalam rangka kerja keseluruhan: penyelia dan pengawal. Sebagai penyelia, garis dasar menjana hasil pembahagian sebagai penyeliaan tambahan. Pada masa yang sama, sebagai pengawal, ia menyediakan ciri-ciri BEV perantaraan sebagai pembolehubah kawalan bersyarat untuk membimbing proses penjanaan model resapan.

◆Modul DiffMap:

Susulan LDM, pengarang memperkenalkan modul DiffMap sebagai penyahkod dalam rangka kerja garis dasar. LDM terutamanya terdiri daripada dua bahagian: modul pemampatan sedar imej (seperti VQVAE) dan model resapan yang dibina menggunakan UNet. Pertama, pengekod mengekod kebenaran tanah pembahagian peta ke dalam ruang terpendam, yang mewakili dimensi rendah ruang terpendam. Selepas itu, resapan dan denoising dilakukan dalam ruang pembolehubah pendam berdimensi rendah, dan penyahkod digunakan untuk memulihkan ruang terpendam kepada ruang piksel asal.

Mula-mula tambah hingar melalui proses resapan, dan dapatkan peta potensi hingar pada setiap langkah masa, di mana . Kemudian semasa proses denoising, UNet berfungsi sebagai rangkaian tulang belakang untuk ramalan bunyi. Untuk meningkatkan bahagian penyeliaan hasil segmentasi, model DiffMap dijangka secara langsung menyediakan ciri semantik untuk ramalan berkaitan contoh semasa latihan. Oleh itu, penulis membahagikan struktur rangkaian UNet kepada dua cawangan, satu cawangan digunakan untuk meramalkan bunyi, seperti model resapan tradisional, dan cawangan lain digunakan untuk meramalkan bunyi dalam ruang terpendam. DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

Seperti yang ditunjukkan dalam Rajah 3. Selepas mendapat ramalan peta terpendam, ia dinyahkodkan ke dalam ruang piksel asal sebagai peta ciri semantik. Kemudian ramalan contoh boleh diperoleh daripada mereka mengikut kaedah yang dicadangkan oleh HDMapNet, dan ramalan tiga kepala yang berbeza boleh dikeluarkan: segmentasi semantik, pembenaman contoh dan arah lorong. Ramalan ini kemudiannya digunakan dalam langkah pasca pemprosesan untuk mengvektorkan peta.

▲Rajah 3｜Modul denosing

Seluruh proses adalah proses penjanaan bersyarat, dan hasil pembahagian peta diperoleh berdasarkan input sensor semasa. Taburan kebarangkalian keputusan boleh dimodelkan sebagai, di mana mewakili hasil pembahagian peta dan mewakili pembolehubah kawalan bersyarat, iaitu ciri BEV. Penulis menggunakan dua kaedah untuk menyepadukan pembolehubah kawalan di sini. Pertama, memandangkan ciri BEV dan BEV mempunyai kategori dan skala yang sama dalam domain spatial, ia akan diselaraskan kepada saiz ruang terpendam, dan kemudian ia digabungkan sebagai input proses penyahnosan, seperti yang ditunjukkan dalam Persamaan 5.

Kedua, mekanisme perhatian silang disepadukan ke dalam setiap lapisan rangkaian UNet, sebagai kunci/nilai dan pertanyaan. Formula modul perhatian silang adalah seperti berikut:

3.3 Pelaksanaan khusus

◆Latihan:

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

04 Eksperimen

4.1 Butiran percubaan ◆Set Data:

Sahkan DiffMap pada set data nuScenes. Set data nuScenes mengandungi imej berbilang paparan dan awan titik sebanyak 1000 adegan, yang mana 700 adegan digunakan untuk latihan, 150 untuk pengesahan dan 150 untuk ujian. Dataset nuScenes juga mengandungi label semantik peta HD beranotasi. ◆Seni bina:

Gunakan ResNet-101 sebagai rangkaian tulang belakang cawangan kamera, dan gunakan PointPillars sebagai rangkaian tulang belakang cawangan LiDAR model. Ketua pembahagian dalam model garis dasar ialah rangkaian FCN berasaskan ResNet-18. Untuk pengekod auto, VQVAE digunakan dan model ini telah dilatih terlebih dahulu pada set data peta bersegmen nuScenes untuk mengekstrak ciri peta dan memampatkan peta menjadi ruang terpendam asas. Akhirnya, UNet digunakan untuk membina rangkaian penyebaran. ◆Butiran latihan:

Gunakan pengoptimum AdamW untuk melatih model VQVAE selama 30 zaman. Penjadual kadar pembelajaran yang digunakan ialah LambdaLR, yang secara beransur-ansur mengurangkan kadar pembelajaran dalam mod pereputan eksponen dengan faktor pereputan 0.95. Kadar pembelajaran awal ditetapkan kepada , dan saiz kelompok ialah 8. Kemudian, model resapan dilatih dari awal menggunakan pengoptimum AdamW selama 30 zaman dengan kadar pembelajaran awal 2e-4. Penjadual MultiStepLR diguna pakai, yang melaraskan kadar pembelajaran mengikut titik masa pencapaian yang ditentukan (0.7, 0.9, 1.0) dan faktor skala 1/3 pada peringkat latihan yang berbeza. Akhir sekali, hasil pembahagian BEV ditetapkan kepada resolusi 0.15m, dan awan titik LiDAR divoxelkan. Julat pengesanan HDMapNet ialah [-30m, 30m]×[-15m, 15m]m, jadi saiz peta BEV yang sepadan ialah 400×200, manakala Superfusion menggunakan [0m, 90m]×[-15m, 15m] dan mendapat 600 × 200 hasil. Disebabkan oleh kekangan dimensi LDM (pensampelan turun 8x dalam VAE dan UNet), saiz peta kebenaran asas semantik perlu dipadatkan kepada gandaan 64. ◆Butiran inferens:

Hasil ramalan diperoleh dengan melakukan proses denoising pada peta hingar sebanyak 20 kali di bawah keadaan ciri BEV semasa. Purata 3 sampel digunakan sebagai hasil ramalan akhir.

4.2 Penunjuk penilaian

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi dinilai terutamanya untuk tugasan segmentasi semantik peta dan pengesanan contoh. Dan ia tertumpu terutamanya pada tiga elemen peta statik: sempadan lorong, pembahagi lorong dan lintasan pejalan kaki.

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

4.3 Keputusan penilaian

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi Jadual 1 menunjukkan perbandingan skor IoU untuk peta semantik DiffMap menunjukkan peningkatan yang ketara dalam semua selang, mencapai hasil terbaik terutamanya pada pembahagi lorong dan lintasan pejalan kaki.

▲Jadual 1｜Perbandingan skor IoU

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi Seperti yang ditunjukkan dalam Jadual 2, kaedah DiffMap juga mempunyai peningkatan ketara dalam ketepatan purata (AP), yang mengesahkan keberkesanan DiffMap.

🎜🎜▲Jadual 2｜perbandingan skor MAP🎜🎜

Seperti yang ditunjukkan dalam Jadual 3, apabila paradigma DiffMap disepadukan ke dalam HDMapNet, dapat diperhatikan bahawa DiffMap boleh meningkatkan prestasi HDMapNet sama ada hanya menggunakan kamera atau kaedah gabungan kamera-lidar. Ini menunjukkan bahawa kaedah DiffMap berkesan dalam pelbagai tugasan segmentasi, termasuk pengesanan jarak jauh dan jarak dekat. Walau bagaimanapun, untuk sempadan, DiffMap tidak berfungsi dengan baik kerana struktur bentuk sempadan tidak tetap dan terdapat banyak herotan yang tidak dapat diramalkan, yang menjadikannya sukar untuk menangkap ciri struktur priori.

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi ▲Jadual 3｜Hasil analisis kuantitatif

4.4 Eksperimen Ablasi

Jadual 4 menunjukkan kesan dalam keputusan VQEmpling yang berbeza Dengan menganalisis kelakuan DiffMap apabila faktor pensampelan turun ialah 4, 8, dan 16, kita dapat melihat bahawa apabila faktor pensampelan menurun ditetapkan kepada 8x, hasil terbaik diperoleh.

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi ▲Jadual 4｜Keputusan percubaan Ablasi

Selain itu, penulis juga mengukur kesan pemadaman modul ramalan berkaitan contoh pada model, seperti yang ditunjukkan dalam Jadual 5. Percubaan menunjukkan bahawa menambah ramalan ini meningkatkan lagi IOU.

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

▲ Jadual 5 ｜ Hasil eksperimen ablasi (sama ada termasuk modul ramalan)

4.5 Visualisasi

Figure 4 menunjukkan perbandingan antara diffmap dan garis dasar (hdmapnet-fusion) dalam adegan kompleks. Adalah jelas bahawa hasil segmentasi garis dasar mengabaikan sifat bentuk dan konsistensi dalam elemen. Sebaliknya, DiffMap menunjukkan keupayaan untuk membetulkan isu ini, menghasilkan output pembahagian yang sejajar dengan spesifikasi peta. Khususnya, dalam kes (a), (b), (d), (e), (h) dan (l), DiffMap membetulkan laluan lintasan yang diramalkan secara tidak tepat. Dalam kes (c), (d), (h), (i), (j), dan (l), DiffMap melengkapkan atau mengalih keluar sempadan yang tidak tepat, menjadikan keputusan lebih hampir kepada geometri sempadan yang realistik. Tambahan pula, dalam kes (b), (f), (g), (h), (k) dan (l), DiffMap menyelesaikan masalah garis pemisah putus dan memastikan keselarian unsur-unsur bersebelahan. . dengan itu mempertingkatkan Model pembahagian peta tradisional diguna pakai. Kaedah ini boleh digunakan sebagai alat bantu untuk mana-mana model pembahagian peta, dan keputusan ramalannya dipertingkatkan dengan ketara dalam kedua-dua senario pengesanan jauh dan dekat. Memandangkan kaedah ini sangat berskala, ia sesuai untuk mengkaji jenis maklumat terdahulu yang lain Sebagai contoh, peta SD sebelum boleh disepadukan ke dalam modul kedua DiffMap untuk meningkatkan prestasinya. Dijangkakan bahawa kemajuan dalam pembinaan peta bervektor akan berterusan pada masa hadapan.

DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi

Atas ialah kandungan terperinci DiffMap: rangkaian pertama yang menggunakan LDM untuk meningkatkan pembinaan peta berketepatan tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!