Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi-AI-php.cn

Dalam pemanduan autonomi, persepsi, kedudukan, perancangan dan membuat keputusan serta kawalan adalah empat modul sistem asas. Memandangkan algoritma semasa tidak dapat mencapai kecerdasan mutlak, sejumlah besar pengetahuan terdahulu masih diperlukan untuk meningkatkan prestasi modul dan keteguhan untuk mencapai pemanduan autonomi yang selamat. Antaranya, peta berketepatan tinggi ialah penyepaduan pengetahuan sedia ada tentang jalan raya dan persekitaran sekitar. Kedudukan yang tepat berdasarkan peta adalah asas penting untuk menilai keadaan pemanduan dan memberikan sokongan kuat untuk persepsi dan keputusan perancangan seterusnya.

Sumber data utama yang digunakan untuk penentududukan pada masa ini termasuk GPS, lidar, penglihatan dan radar gelombang milimeter. Untuk penglihatan, walaupun pada masa ini tiada penyelesaian penentududukan yang boleh dipercayai yang diiktiraf dalam industri, penerokaan dalam bidang ini tidak pernah berhenti sebab-sebab utama adalah seperti berikut:

Keselamatan adalah Penunjuk yang paling penting. sistem pemanduan autonomi, jadi pelaksanaan kebanyakan fungsi, adalah gandingan data berbilang sumber dan keputusan algoritma yang berbeza. Tiada penyelesaian penderia yang sempurna Contohnya, GPS RTK, sebagai penyelesaian yang digunakan secara meluas, mudah dipengaruhi oleh keadaan cuaca dan keadaan penghantaran pautan data, dan tidak boleh digunakan dalam terowong, dalam bangunan dan kawasan berpenduduk padat dengan bangunan tinggi. Tambahan pula, walaupun lidar mempunyai kelebihan beban kerja pengiraan yang kecil, memberikan maklumat mendalam, dan tidak terjejas oleh pencahayaan, maklumat itu jarang, kosnya masih sangat mahal, dan ia belum mempunyai keupayaan untuk memasang kuantiti kenderaan yang banyak. Sebagai perbandingan, walaupun maklumat visual yang disediakan oleh kamera dipengaruhi oleh pencahayaan dan cuaca, ia adalah kos rendah dan kaya dengan kandungan Ia merupakan sumber data utama untuk penyelesaian pemanduan berbantu semasa dan juga mempunyai potensi besar dalam penentududukan peta.

Memandangkan idea teras algoritma penentududukan visual arus perdana adalah sama, artikel ini hanya memperkenalkan penentududukan global yang paling biasa digunakan berdasarkan titik ciri dalam amalan dari perspektif siri algoritma penting komponen rangka kerja. Algoritma, iaitu kedudukan dalam sistem koordinat peta. Artikel ini mengetepikan pengoptimuman dan terbitan formula kekangan geometri yang terlibat, bertujuan untuk memberi pelajar pengenalan makro kepada algoritma kedudukan Untuk butiran khusus, sila rujuk literatur dan buku yang berkaitan.

1 Konsep kedudukan global visual

Kedudukan global visual merujuk kepada mencari 6 kedudukan kamera dalam sistem koordinat peta berdasarkan imej semasa Darjah kebebasan (DoF) pose (Pose), iaitu, (x, y, z) koordinat, dan pesongan sudut (yaw, pic, roll) di sekeliling tiga paksi koordinat. Pada masa ini, ia boleh dikelaskan terutamanya kepada kaedah berasaskan struktur 3D, kaedah berasaskan imej 2D, kaedah berasaskan imej urutan, dan kaedah berasaskan pembelajaran mendalam. Antaranya, kaedah berdasarkan pembelajaran mendalam ialah kaedah hujung ke hujung, manakala kaedah bukan hujung ke hujung berbilang peringkat (Multi-peringkat) lain mempunyai proses yang berbeza, tetapi idea algoritma kebanyakannya seperti yang ditunjukkan dalam Rajah 1. Ditunjukkan:

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 1: Berdasarkan imej pertanyaan, kirakan matriks transformasi 2D-3D dan selesaikan pose kamera

Berdasarkan peta yang dibina, padankan subset peta yang paling serupa (imej/titik awan/titik ciri) dalam sejarah dan berdasarkan nilai sebenar pose sejarah yang disediakan oleh subset peta yang dipadankan , Nilai sebenar koordinat titik ciri, kira matriks transformasi antara pasangan titik, dan selesaikan pose kamera semasa.

Jadi, terasnya merangkumi empat aspek: perihalan imej, pertanyaan pemetaan, padanan ciri dan pengiraan pose. Ini hanyalah klasifikasi makro pada peringkat teknikal Rangka kerja algoritma sebenar mungkin tidak semestinya dilaksanakan dalam susunan ini, dan sarjana terutamanya menumpukan pada meningkatkan teknologi ini dalam penyelidikan mereka. Secara keseluruhan, perihalan imej berdasarkan titik ciri pada asasnya adalah matang dan kurang pembangunan. Memandangkan pengiraan pose adalah masalah pengoptimuman berdasarkan kekangan geometri, kaedahnya adalah tetap. Sebaliknya, terdapat banyak teknik yang dipertingkatkan dalam memetakan pertanyaan dan padanan ciri. Bergantung pada sumber data, pertanyaan pemetaan dan padanan boleh menjadi 2D-2D, 2D-3D atau 3D-3D. Imej 2D diperolehi oleh kamera, dan awan titik 3D boleh dihasilkan oleh kamera binokular atau kamera RGB-D yang memberikan kedalaman.

2 Pengekstrakan titik ciri

Imej 2D itu sendiri ialah matriks yang terdiri daripada kecerahan dan warna Ia sangat sensitif kepada sudut pandangan, pencahayaan, perubahan rona, dsb. , dan sangat sukar untuk digunakan secara langsung. Oleh itu, mata perwakilan biasanya digunakan untuk pengiraan yang berkaitan. Orang ramai berharap titik sedemikian mempunyai kelebihan putaran, terjemahan, skala, invarian pencahayaan, dll. Titik ini dipanggil titik ciri imej, termasuk titik kunci dan deskriptor. Perkara utama menyatakan lokasi titik ciri, manakala deskriptor menerangkan ciri visual titik ciri, kebanyakannya dalam bentuk vektor. Secara umumnya, deskriptor terutamanya mengira perubahan kecerunan skala kelabu/warna di sekitar titik utama dalam corak tertentu. Untuk deskriptor yang teguh, jarak (Jarak) deskriptor bagi titik ciri yang sama hendaklah lebih kecil dalam situasi berbeza bagi imej yang berbeza.

Penerangan secara amnya ialah ciri buatan tangan. Perihalan klasik termasuk HOG (Histogram kecerunan berorientasikan) [1], SIFT (Transformasi ciri invarian skala) [2], SURF (Ciri teguh dipercepatkan) [3], AKAZE (KAZE Dipercepatkan) [4], dsb.

Untuk memenuhi keperluan masa nyata, beberapa deskriptor corak binari dengan kelajuan pengiraan yang lebih pantas telah direka, seperti LBP (Corak binari tempatan) [5], RINGKAS (Teguh binari ciri asas bebas), ORB (Berorientasikan PANTAS dan RINGKAS diputar) [6], BRISK (titik kekunci boleh skala invarian teguh binari) [7], FREAK (Titik kekunci retina pantas) [8], dsb.

Sebelum pembelajaran mendalam menjadi popular, ciri buatan tangan ini telah menerajui keseluruhan industri penglihatan pengiraan Sehingga hari ini, ciri ini masih digunakan secara meluas dalam senario yang tidak mempunyai data berlabel banyak kekangan. Berikut ialah pengenalan ringkas kepada dua deskriptor yang biasa digunakan.

SIFT

SIFT deskriptor boleh Ia adalah salah satu teknologi yang paling berpengaruh dalam dunia CV. Daripada tahap pengesanan titik utama, kaedah Perbezaan Gaussian (DoG) digunakan terutamanya untuk mengesan titik ekstrem pada ruang berbilang skala sebagai titik utama. Babaud et al. [9] membuktikan bahawa pelicinan Gaussian adalah satu-satunya kernel penapis pelicinan ruang berbilang skala yang boleh digunakan, memberikan sokongan teori yang mencukupi untuk kaedah yang berkaitan.

Jadi mengapa kaedah sedemikian boleh mencari titik ciri utama

Oleh kerana kernel Gaussian boleh menskalakan imej kepada skala yang berbeza melalui ruang kabur? dan kawasan licin dengan perubahan kecerunan kecil mempunyai perbezaan nilai yang kecil dalam ruang skala yang berbeza. Sebaliknya, perbezaannya lebih besar dalam bidang seperti tepi, titik, sudut, dan tekstur. Dengan cara ini, dengan membuat perbezaan antara imej skala bersebelahan, titik ekstrem ruang berbilang skala akhirnya boleh dikira. Walau bagaimanapun, butiran imej yang berbeza sememangnya pada skala yang berbeza. Contohnya, dalam potret, wajah mungkin diratakan menjadi satu bahagian selepas sedikit kabur, manakala sudut bingkai mungkin memerlukan pelicinan berskala lebih besar untuk mencerminkan "nilai ekstrem" setempat.

Oleh itu, seperti yang ditunjukkan dalam Rajah 2, imej pertama kali dikumpulkan (Oktaf) menggunakan piramid imej, dan biji Gaussian dengan skala yang berbeza digunakan dalam setiap kumpulan untuk membentuk satu siri lapisan. Kaedah ini lebih baik daripada hanya menggunakan lebih banyak skala kernel Gaussian dan boleh mengesan lebih banyak titik ciri. Perlu diingat bahawa walaupun SIFT menggunakan DoG untuk pengesanan titik utama, kaedah pengesanan lain juga boleh dilaksanakan dan tidak menjejaskan penubuhan deskriptor SIFT.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 2: Perbezaan kaedah Gaussian

Penerangan ciri SIFT mata sub, boleh difahami sebagai versi statistik mudah HOG. Seperti yang ditunjukkan dalam Rajah 3, dengan titik kekunci yang dikesan sebagai pusat, kawasan sekitar 16 × 16 dipilih, dan kawasan itu disusun semula kepada empat tompok 4 × 4. Untuk setiap blok, histogram 8-bin digunakan untuk mengira kecerunan Arah kecerunan menentukan ke dalam tong mana ia jatuh, dan modul kecerunan menentukan saiz nilai. Untuk memastikan ketekalan skala, saiz kecerunan perlu dinormalkan. Untuk memastikan invarian putaran, arah utama dikira berdasarkan semua kecerunan dalam kawasan 16 × 16, dan semua kecerunan diputar mengikut arah utama. Hasilnya ialah vektor 128 dimensi 4 × 4 × 8.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 3: Deskriptor SIFT berdasarkan statistik menyekat kecerunan

Perduaan deskriptor

Walaupun selepas SIFT dicadangkan, beberapa algoritma yang dipertingkatkan seperti SURF, AKAZE, dsb hari ini pada 2019, masih sukar untuk menjamin keperluan masa nyata bagi algoritma dalam beberapa senario. Sebagai contoh, peranti pegang tangan biasanya mempunyai kuasa pengkomputeran yang terhad. Dalam pemanduan autonomi, sumber CPU dan GPU perlu dijadualkan secara serentak oleh berbilang modul intensif pengkomputeran. Oleh itu, kecekapan adalah penunjuk penting untuk mengkaji kepraktisan sesuatu algoritma.

Untuk meningkatkan kecekapan, beberapa deskriptor binari telah dicadangkan oleh para sarjana. Secara amnya, kaedah ini melakukan pensampelan titik di sekitar titik utama ciri. Kemudian saiz skala kelabu sepasang mata dibandingkan, dan hasilnya dinyatakan sebagai 0/1, membentuk vektor penerangan binari N-dimensi, membentuk corak binari titik ciri. Perbezaan terbesar antara deskriptor binari yang berbeza terutamanya terletak pada mod pensampelan ciri yang berbeza dan kaedah pemilihan pasangan titik.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 4: Mod subsampel deskriptor LBP

Seperti yang ditunjukkan dalam Rajah . Seperti yang ditunjukkan dalam 4, deskriptor LBP menggunakan skema persampelan bulat di sekitar titik utama dan membandingkannya dengan skala kelabu titik kunci pusat. Keputusan perbandingan skala kelabu dipaparkan pada gelanggang, dengan titik hitam ialah 0 dan titik putih ialah 1. LBP ialah bentuk deskriptor binari yang paling mudah, manakala ORB menambah baik ciri BRIEF dan merupakan deskriptor binari yang biasa digunakan pada masa ini. Seperti yang ditunjukkan dalam Rajah 5, apabila memilih pasangan titik, ORB menggunakan kaedah rawak untuk menerangkan butiran setempat dengan lebih komprehensif, tidak seperti hanya menggunakan titik tengah. Walau bagaimanapun, korelasi antara pasangan mata akan menjadi agak besar, sekali gus mengurangkan diskriminasi deskriptor. ORB secara langsung menggunakan kaedah tamak dan menyeluruh untuk menyelesaikan masalah ini dan mencari pasangan titik rawak dengan korelasi yang rendah.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 5: Mod pemilihan pasangan titik deskriptor ORB

Di Atas kaedah pensampelan dan kaedah pemilihan pasangan titik deskriptor binari adalah selaras dengan gerak hati umum orang ramai, manakala deskriptor seperti BRISK dan FREAK menyediakan kaedah pembinaan corak binari yang lebih teratur dengan maklumat skala. Contohnya, deskriptor FREAK meniru corak pensampelan visual mata manusia. Seperti yang ditunjukkan dalam Rajah 6, nilai setiap titik persampelan ialah nilai purata kelabu dalam bulatan merah, dan garis biru mewakili pelan pemilihan pasangan titik.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 6: Pensampelan deskriptor FREAK, mod pemilihan pasangan titik

Kecekapan tinggi deskriptor binari terutamanya dicerminkan dalam tiga aspek.

(1) Deskriptor binari menggunakan vektor binari sebagai penerangan ciri, dan hanya perlu membandingkan saiz pasangan titik tanpa mengira kecerunan tertentu.

(2) Jarak Hamming (Jarak Hamming), yang lebih pantas untuk dikira dan lebih mudah untuk dioptimumkan, boleh digunakan untuk membandingkan dua deskriptor.

(3) Memandangkan setiap vektor binari sepadan dengan nombor perpuluhan, ia sendiri juga mewakili corak tanpa perlu menggunakan histogram untuk mewakilinya seperti SIFT.

Penerangan binari secara amnya kurang diskriminasi berbanding deskriptor keluarga SIFT, tetapi dalam senario tertentu, digabungkan dengan pengaturcaraan selari, kecekapan boleh berpuluh-puluh kali lebih tinggi sambil memastikan keupayaan diskriminatif yang serupa kali.

3 Penciptaan dan pertanyaan pangkalan data

Pangkalan data boleh difahami sebagai penyepaduan peta + indeks. Peta boleh terdiri daripada imej 2D tulen, peta awan titik 3D atau gabungan imej 2D dan awan titik 3D. Penjanaan peta awan titik 3D terutamanya menggunakan kaedah pembinaan semula tiga dimensi SfM (Struktur daripada gerakan) untuk membuat kesimpulan maklumat 3D daripada imej 2D siri masa. Jika kamera RGB-D binokular memberikan kedalaman, maklumat titik 3D yang lebih tepat boleh diperolehi. Ia juga termasuk beberapa strategi pemilihan seperti kerangka kunci Kaedah khusus adalah di luar skop artikel ini. Pelajar yang berminat boleh menyemak sendiri maklumat yang berkaitan. Peranan pangkalan data ialah:

Untuk imej pemerhatian input, tanya sejarah pemetaan (imej/titik awan/titik ciri) melalui pangkalan data untuk mendapatkan pemerhatian semasa yang paling mungkin. imej Subset peta (imej/titik awan/titik ciri), padankan peta dengan maklumat pemerhatian, kira matriks transformasi, dan dapatkan pose kamera pemerhatian.

Indeks ialah kunci untuk mempercepatkan proses ini. Pangkalan data itu sendiri cenderung besar. Ambil contoh operasi percubaan robot kantung Meituan di tingkat dua Joy City di Chaoyang, Beijing, sebagai contoh. Memandangkan sifat kedudukan masa nyata, adalah mustahil untuk membandingkan pertanyaan dengan 80,000 imej satu demi satu setiap kali, jadi teknologi pengindeksan mesti digunakan untuk mempercepatkan keseluruhan algoritma. Teknologi ini sangat bertindih dengan ujian gelung balik dalam SLAM, pengambilan imej dan pengecaman lokasi dalam penglihatan Hanya kaedah umum yang diperkenalkan di bawah.

Terdapat beberapa titik ciri dalam imej Titik ciri perlu dikodkan terlebih dahulu, seperti pengekodan VLAD (Vektor deskriptor agregat setempat) dan deskriptor tempatan digunakan untuk membentuk satu. penerangan global imej. Kemudian gunakan indeks, seperti kd-tree, untuk melaksanakan pertanyaan peringkat imej. Sudah tentu, pengekodan dan pengindeksan juga boleh dilakukan pada masa yang sama, seperti model beg-of-words hierarki (Bag-of-words, BoW) + indeks ke hadapan + kaedah indeks terbalik.

Pengekodan VLAD

VLAD(Vector deskriptor teragregat tempatan)[10], seperti yang ditunjukkan dalam Rajah 7, ialah kaedah mudah pengekodan global dengan mengagregatkan deskriptor tempatan untuk membentuk buku kod (Buku Kod), dan mengumpul jarak antara deskriptor dan perkataan kod (Word). kaedah. Satu Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi deskriptor dimensi dikodkan melalui buku kod kata kod untuk membentuk dimensi vektor keterangan, nilai dalam vektor ialah perbezaan antara deskriptor dan perkataan kod dalam dimensi . Kemudian lakukan penormalan Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi untuk membentuk vektor VLAD akhir.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 7: VLAD mengekod mengikut jarak antara deskriptor dan perkataan kod

DenseVLAD[11] dan NetVLAD[12] diperkenalkan khas di sini. Torii et al., membuktikan bahawa DenseSIFT mengatasi SIFT standard dalam kedua-dua pertanyaan, padanan. DenseVLAD mengekstrak mata SIFT pada empat skala dalam corak pensampelan seperti grid dengan selang 2 piksel. Sampel 25M deskriptor secara rawak di seluruh dunia dan gunakan algoritma k-means untuk menjana buku kod 128 kata kod. Vektor VLAD dikurangkan secara dimensi menggunakan PCA (Analisis komponen utama) selepas penormalan untuk membentuk vektor DenseVLAD akhir 4096 dimensi. Seperti yang ditunjukkan dalam Rajah 8, bilangan titik dalaman (hijau) selepas dipadankan menggunakan DenseSIFT adalah lebih besar.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 8: DenseSIFT dan titik ciri SIFT standard, perbandingan titik dalaman (hijau) selepas dipadankan

NetVLAD menambah maklumat penyeliaan kepada VLAD untuk meningkatkan kebolehdiskriminasian pengekodan VLAD. Seperti yang ditunjukkan dalam Rajah 9, andaikan bahawa dua deskriptor merah dan hijau datang daripada dua gambar yang tidak sepatutnya dipadankan bersama. Oleh kerana kedua-duanya berada pada jejari yang lebih besar dan jarak yang sama dari pusat VLAD (×), selepas penormalan L2, nilai yang dikodkan mereka akan sangat serupa. Selepas menambah maklumat penyeliaan bahawa gambar yang sepadan dengan deskriptor merah dan hijau tidak sepadan, titik tengah (★) yang dijana oleh NetVLAD boleh membezakan kedua-dua deskriptor dengan lebih baik dan meningkatkan perbezaan jarak (jejari) yang dikodkan.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 9: Perbandingan antara pusat pengelompokan NetVLAD (×) dan pusat pengelompokan VLAD (★)

Pengekodan BoW + indeks

Berdasarkan model beg perkataan BoW Pengekodan ciri dan idea reka bentuk [13, 14] memainkan peranan penting dalam pembangunan penglihatan komputer dan tidak akan diperkenalkan di sini. Artikel ini mengambil pangkalan data imej 2D padanan imej pertanyaan 2D sebagai contoh untuk memperkenalkan model bersepadu pengekodan dan pengindeksan BoW biasa. Seperti yang ditunjukkan dalam Rajah 10, kamus (Kosa Kata) dijana menggunakan kaedah hierarki Untuk semua deskriptor dalam set data, ruang dibahagikan mengikut struktur pokok, dan setiap lapisan dikira dengan k-means clustering. Nod daun akhir adalah bersamaan dengan perkataan kod (terdapat 9 perkataan kod dalam Rajah 10).

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 10: Model BoW hierarki dengan indeks hadapan dan indeks songsang

Proses pembinaan pokok sebenarnya adalah proses pengekodan imej asal. Namun, pengekodan itu sendiri tidak mempercepatkan proses carian Sama seperti VLAD, ia masih perlu dibandingkan satu persatu dengan imej dalam pangkalan data. Oleh itu, indeks songsang (Indeks songsang) direka di sini, yang tidak memerlukan perbandingan vektor yang dikodkan. Prinsipnya ditunjukkan dalam Rajah 11. Untuk imej pertanyaan (Imej pertanyaan), deskriptor yang diekstrak dimasukkan ke dalam BoW dan akhirnya akan jatuh ke dalam nod daun perkataan kod (Perkataan visual) k.

Setiap perkataan kod sepadan dengan indeks, merekodkan berat perkataan kod Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi untuk gambar dalam pangkalan data (Gamb.10). Di sini berat dikira menggunakan TF-IDF (Kekerapan istilah–kekerapan dokumen songsang). Iaitu, jika perkataan mempunyai kekerapan kejadian yang tinggi dalam imej tertentu Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi dan kekerapan kejadian yang rendah dalam imej lain, maka perkataan ini mempunyai imej yang lebih baik diskriminasi dan nilai berat Lebih tinggi. Akhirnya, imej yang sepadan dipilih melalui mekanisme pengundian. Ia juga harus diperhatikan bahawa indeks terbalik tidak semestinya dibina pada BoW berstruktur pokok, ia hanya menyediakan kaedah pertanyaan pantas.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 11: Terus bertanya imej melalui indeks terbalik + mekanisme pengundian

Fungsi utama indeks hadapan (Indeks Langsung) adalah untuk merekodkan titik ciri imej pangkalan data yang jatuh semasa membina BoW Dengan cara ini, apabila imej disoal, tidak perlu mengira titik ciri dan boleh dikira secara langsung melalui mata ciri ekstrak.

Pertanyaan awan titik 3D

2D Dalam pertanyaan imej, imej pertama kali disoal dari tahap semantik, jadi julat ruang titik ciri boleh dikekang melalui imej. Pertanyaan awan titik 3D tidak mempunyai kekangan sedemikian, jadi ia mempunyai banyak kesukaran. Jika anda perlu mempertimbangkan kesinambungan spatial, sama ada semua titik pertanyaan berada dalam julat yang boleh diperhatikan, dsb. Di sini kami hanya memperkenalkan kaedah [15] yang diterbitkan oleh Sattler di TPAMI 2016. Selepas bertahun-tahun menggilap, rangka kerja kaedah ini agak mudah dan lengkap. Memandangkan langkah carian pengekodan kamus bertindih dengan kandungan dalam bahagian sebelumnya, hanya dua mekanisme Carian Aktif dan Penapisan Keterlihatan diperkenalkan di sini.

Carian Aktif terutamanya untuk menjadikan mata 3D yang dipadankan sedekat mungkin dalam ruang dan mempunyai makna geometri. Seperti yang ditunjukkan dalam Rajah 12, titik merah dipadankan dengan titik dalam awan titik melalui satu siri proses pengekodan dan penghalusan (garis merah). Menurut rangka kerja keutamaan yang dicadangkan, titik 3D dengan kebarangkalian tertinggi ditemui dari awan titik, dan secara songsang (garis biru) sepadan dengan titik 2D yang sepadan dalam imej pertanyaan.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 12: Carian Aktif

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 13: Penapisan Keterlihatan

Penapisan Keterlihatan adalah terutamanya untuk menjadikan titik yang dipadankan kelihatan kepada kamera sebanyak mungkin (kedudukan tidak diawasi, dan tidak mungkin untuk mengetahui sama ada titik yang dipadankan adalah betul). Kaedah yang digunakan di sini adalah untuk mencipta graf keterlihatan dwipartit apabila menggunakan SfM untuk mencipta peta awan titik 3D. Seperti yang ditunjukkan dalam Rajah 13 (kiri), apabila satu titik boleh diperhatikan oleh dua kamera pada masa yang sama, hubungan topologi diwujudkan. Dalam Rajah 13 (tengah), titik biru adalah titik dipadankan, dan ia bercanggah dari perspektif pemerhatian. Dengan melakukan pengelompokan graf pada topologi sedia ada, kamera dikumpulkan kepada dua kumpulan, seperti ditunjukkan dalam Rajah 13 (kanan). Dengan cara ini, hubungan topologi graf baharu boleh dijana. Kemudian, dengan menilai pertindihan antara setiap subgraf, kami menapis mata yang berkemungkinan besar tidak kelihatan.

Perlu diambil perhatian bahawa walaupun kamera binokular dan kamera RGB-D boleh memperoleh kedalaman, pertanyaan imej 2D juga boleh mendapatkan koordinat titik ciri 3D dalam julat terhad, tetapi disebabkan oleh had teknikal semasa , dalam bahan dalaman yang kompleks dan pemandangan luar berskala besar, kedalaman tidak boleh dipercayai. Oleh itu, pemadanan titik imej 2D dan peta awan titik 3D masih merupakan kaedah penting.

4 Pemadanan titik ciri

Proses pemadanan titik ciri boleh diselesaikan secara adaptif dalam pertanyaan pangkalan data, yang lebih biasa dalam struktur 3D- berdasarkan Pertanyaan. Pemadanan juga boleh dilakukan secara berasingan selepas pertanyaan, yang lebih biasa dalam pertanyaan berasaskan imej 2D. Tujuan pemadanan ciri adalah untuk menyediakan pasangan titik padanan untuk pengiraan matriks transformasi seterusnya untuk mencapai pengiraan pose.

RANSAC Klasik

Pensampelan rawak konsisten Algoritma (Konsensus sampel rawak, RANSAC) [16] ialah penapisan data klasik dan algoritma pemasangan parameter. Ia menganggap bahawa pengagihan data (inliers) mematuhi model matematik tertentu, dan melalui pengiraan berulang, ia menghilangkan outlier dan titik hingar, dan pada masa yang sama memperoleh parameter model terbaik dari segi kebarangkalian. Dalam kedudukan global, titik dalaman merujuk pada padanan yang betul, mata luaran merujuk pada padanan yang salah, dan model parametrik merujuk kepada matriks transformasi spatial bagi pasangan mata yang dipadankan. Seperti yang ditunjukkan dalam Rajah 14, selepas pengoptimuman oleh algoritma RANSAC, pemadanan adalah lebih munasabah. Subset padanan yang dijangkakan oleh RANSAC untuk mencari perlu memenuhi dua penunjuk: ralat unjuran semula titik dalaman adalah sekecil mungkin; Jadi proses asasnya adalah seperti berikut:

① Mensampel subset awal.
② Kira matriks transformasi.
③ Kira ralat unjuran semula titik padanan mengikut matriks transformasi.
④ Alih keluar mata dengan ralat besar
⑤ Gelung ①-④ untuk mengekalkan penyelesaian padanan yang paling sesuai dengan indeks.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 14: (Atas) Padanan ciri asal; (Bawah) Padanan dioptimumkan oleh algoritma RANSAC

Antaranya, padanan calon awal dijana berdasarkan jarak antara deskriptor, tetapi ralat unjuran semula hanya berkaitan dengan kedudukan ruang titik utama dan tiada kaitan dengan deskriptor itu sendiri. . Untuk kaedah matriks unjuran khusus, sila rujuk "2.4 Pengiraan Pose". Perlu ditegaskan bahawa algoritma RANSAC dipengaruhi oleh ralat pemadanan asal dan pemilihan parameter Ia hanya boleh memastikan bahawa algoritma mempunyai kebarangkalian yang cukup tinggi untuk menjadi munasabah, tetapi mungkin tidak semestinya memperoleh hasil yang optimum. Parameter algoritma terutamanya termasuk ambang dan bilangan lelaran. Kebarangkalian RANSAC memperoleh model yang boleh dipercayai adalah berkadar terus dengan bilangan lelaran, dan bilangan padanan yang diperoleh adalah berkadar songsang dengan ambang. Oleh itu, dalam penggunaan sebenar, mungkin perlu berulang kali mencuba tetapan parameter yang berbeza untuk mendapatkan hasil yang lebih baik.

Ulama telah membuat banyak penambahbaikan pada algoritma RANSAC klasik Seperti yang ditunjukkan dalam Rajah 15, rajah struktur RANSAC global (Universal-RANSAC) [17] dicadangkan, membentuk satu universal. Algoritma RANSAC Seni bina RANSAC adaptif merangkumi hampir semua aspek peningkatan RANSAC, seperti pra-penapisan, pensampelan subset minimum, penjanaan model yang boleh dipercayai daripada subset minimum, pengesahan parameter dan pemurnian model.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 15: Rangka kerja algoritma umum Universal-RANSAC

RANSAC yang boleh dibezakan

Memandangkan deskriptor manual masih menunjukkan prestasi tinggi dalam bidang penentududukan, beberapa Ulama mula meneroka penggunaan pembelajaran mendalam untuk menggantikan bahagian tertentu rangka kerja algoritma, dan bukannya secara langsung menggunakan model anggaran pose hujung ke hujung untuk menggantikan sepenuhnya kaedah tradisional. RANSAC Boleh Dibezakan (RaNSAC Differentiable, DSAC) [18] bertujuan untuk menggantikan pemilihan hipotesis deterministik dengan pemilihan hipotesis kebarangkalian, supaya proses RANSAC boleh diperolehi dalam Rajah 16, di mana langkah "Pemarkahan" masih menggunakan unjuran semula ralat Sebagai penunjuk, perbezaannya ialah ralat adalah berdasarkan keseluruhan imej dan bukannya titik ciri, dan proses asal pemadanan titik ciri penapisan digantikan dengan proses menyaring terus hipotesis pose kamera h dengan kebarangkalian. Walaupun kaedah semasa mempunyai had yang agak besar, DSAC menyediakan idea yang boleh dilaksanakan untuk cara menambah pengetahuan sedia ada pada rangka kerja algoritma penentududukan tanpa pengawasan semasa.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 16: Rangka kerja algoritma RANSAC pembezaan

5 pose pengiraan

Untuk pasangan titik padanan yang betul diperoleh, matriks transformasi yang sepadan (Matriks Transformasi) perlu dikira melalui kekangan geometri. Oleh kerana koordinat titik dalam pangkalan data dan pose kamera pada masa pensampelan diketahui, pose kamera semasa boleh diperolehi dengan memadankan matriks transformasi titik dengan titik peta. Beberapa simbol asas ditakrifkan di sini. Parameter dalaman kamera ialah Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi , dan bentuk homogen momen transformasi ialah:

di mana, ialah matriks putaran, dan ialah matriks terjemahan.

2.4.1 Pengiraan matriks transformasi 2D-2D

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 17: 2D- Geometri epipolar dalam pengiraan matriks transformasi 2D

Untuk pasangan titik ciri yang dipadankan () dalam dua imej dua dimensi, koordinatnya pada satah ternormal ialah (), yang sepadan matriks transformasi perlu dikira melalui kekangan epipolar. Seperti yang ditunjukkan dalam Rajah 17, makna geometrinya ialah ketiga-tiganya adalah koplanar Permukaan ini juga dipanggil satah kutub, Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi dipanggil garis dasar, dan . dipanggil satah kutub. Kekangan epipolar termasuk terjemahan dan putaran, ditakrifkan sebagai:

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Antaranya, Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi ialah koordinat pada satah ternormal, dan ∧ ialah pengendali produk luar. Kira bahagian tengah formula sebagai matriks asas dan matriks penting , maka kita ada:

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Memandangkan matriks penting Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi tidak mempunyai maklumat skala, kekangan epipolar masih berlaku selepas E didarab dengan sebarang pemalar bukan sifar. boleh diselesaikan dengan algoritma 8 mata klasik (algoritma lapan mata), dan kemudian diuraikan untuk mendapatkan Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi , . Oleh itu, dapat dilihat bahawa kaedah penyelesaian matriks transformasi 2D-2D mempunyai dua kelemahan Pertama, penglihatan monokular mempunyai ketidakpastian skala, dan maklumat skala perlu disediakan oleh dalam permulaan. Sejajar dengan itu, pemulaan monokular tidak boleh hanya putaran tulen, tetapi mesti mempunyai tahap terjemahan yang mencukupi, jika tidak Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi akan menjadi sifar.

Pengiraan matriks transformasi 2D-3D

Padanan 2D-3D ialah kaedah penting dalam anggaran pose. Secara amnya, kaedah PnP digunakan, iaitu diketahui bahawa Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi digunakan untuk menyelesaikan matriks transformasi bagi titik padanan 2D-3D untuk mendapatkan pose kamera. Kami menayangkan titik 3D P(X, Y, Z) pada satah pengimejan kamera ():

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Antaranya, Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi ialah skala, . Penyelesaian persamaan ini boleh dikurangkan kepada masalah persamaan linear, dan setiap ciri boleh memberikan dua kekangan linear:

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Dengan cara ini, sekurang-kurangnya 6 boleh dilalui Selesaikan mata padanan, dan apabila bilangan padanan lebih daripada 6, anda boleh menggunakan SVD dan kaedah lain untuk menyelesaikan masalah dengan membina kaedah kuasa dua terkecil. Kaedah P3P boleh dianggap sebagai penyelesaian khas bagi kaedah PnP Seperti yang ditunjukkan dalam Rajah 18, ia menggunakan sifat persamaan segitiga untuk menambah lebih banyak kekangan dan hanya memerlukan 3 pasang mata untuk menyelesaikan masalah. Kaedah penyelesaian lain termasuk Transformasi linear langsung (DLT), kaedah EPnP (PnP Cekap), dan UPnP (PnP Tidak Dikalibrasi), dsb. Berbanding dengan kaedah pengoptimuman linear di atas, kaedah pengoptimuman bukan linear seperti Pelarasan Bundle (BA) juga digunakan secara meluas. Kaedah BA adalah sejenis "satu-saiz-sesuai-semua" dalam visual SLAM Ia boleh mengoptimumkan berbilang pembolehubah pada masa yang sama, yang boleh mengurangkan ketidakstabilan sistem yang disebabkan oleh ralat tempatan pada tahap tertentu maklumat yang relevan untuk pemahaman yang lebih mendalam.

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Rajah 18: Kaedah P3P dalam pengiraan matriks transformasi 2D-3D

Pengiraan matriks transformasi 3D-3D

Matriks transformasi antara titik 3D boleh digunakan Selesai dengan algoritma titik almari berulang (ICP). Dengan mengandaikan bahawa padanan pasangan titik ( Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi ) adalah betul, matriks transformasi yang diperoleh harus meminimumkan ralat unjuran semula . Anda boleh menggunakan SVD untuk menyelesaikan masalah kuasa dua terkecil:

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

atau gunakan kaedah pengoptimuman tak linear Pelarasan Bundle berdasarkan algebra Lie untuk menyelesaikan

Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi

Antaranya, Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi mewakili pose kamera. Matlamat pengoptimuman di sini adalah serupa dengan Pelarasan Bundle dalam padanan 2D-3D, tetapi tidak perlu mempertimbangkan parameter dalaman kamera kerana imej asal telah diproses oleh kamera binokular atau RGB -Kamera kedalaman D ditayangkan dari satah pengimejan kamera ke dunia 3D.

Masalah ICP telah terbukti mempunyai penyelesaian yang unik dan penyelesaian yang tidak terhingga. Oleh itu, apabila terdapat penyelesaian unik, fungsi pengoptimuman adalah bersamaan dengan fungsi cembung, dan nilai minimum ialah penyelesaian optimum global Tidak kira apa jenis permulaan yang diterima pakai, penyelesaian unik ini boleh diperolehi. Ini adalah salah satu kelebihan hebat kaedah ICP.

Artikel ini memperkenalkan algoritma anggaran pose berdasarkan titik ciri daripada empat aspek: perihalan imej, pertanyaan pemetaan, padanan ciri dan pengiraan pose. Walaupun kaedah penentududukan global visual tradisional masih menjadi pilihan pertama dalam aplikasi praktikal, kaedah tradisional adalah berdasarkan premis bahawa titik ciri ditakrifkan dengan betul, diekstrak dengan betul, dipadankan dengan betul dan diperhatikan dengan betul Premis ini sangat penting untuk penglihatan itu sendiri. Kedua, memandangkan kaedah tradisional adalah rangka kerja berbilang peringkat dan bukannya hujung ke hujung, setiap pautan dan interaksi antara pautan memerlukan banyak pelarasan parameter, dan teknologi setiap pautan boleh digunakan sebagai hala tuju penyelidikan yang berasingan. Dalam aplikasi sebenar, sejumlah besar helah yang sepadan dengan senario tertentu perlu ditambah, yang menjadikan kejuruteraan lebih kompleks.

Dan jangkaan orang ramai terhadap kaedah hujung ke hujung telah menimbulkan rangkaian seperti PoseNet, VLocNet, HourglassNet, dll., yang telah mencapai keputusan yang baik pada penanda aras. Penulis percaya bahawa masih terdapat banyak masalah dalam kaedah hujung ke hujung semasa Yang utama ialah fungsi kehilangan tidak mempunyai kekangan geometri, ruang 6 darjah kebebasan pose semasa membina peta tidak berterusan, dan sukar untuk membentuk pemetaan yang baik dengan ruang input, dan terdapat kekurangan regresi postur, mekanisme penghalusan, dll. Tidak dapat dinafikan bahawa sebagai alat pemodelan yang paling berkuasa untuk ruang tak linear, pembelajaran mendalam akan muncul lebih banyak dalam bidang penentududukan pada masa hadapan.

Kembali kepada kedudukan visual itu sendiri, kerana kelebihan penglihatan yang paling penting ialah kos rendah, semantik yang kaya dan sedikit sekatan pada senario penggunaan. Oleh itu, penyelesaian gabungan kedudukan yang memfokuskan pada penglihatan dan ditambah dengan penderia kos rendah lain juga akan menjadi topik penting pada masa hadapan.

Atas ialah kandungan terperinci Analisis teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!