Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla-AI-php.cn

Persepsi 01: Membina adegan pemanduan autonomi 4D masa nyata

1.

Bidang pandangan kamera Tesla boleh meliputi 360° di sekeliling badan kereta Terdapat fisheye dan lensa telefoto 120° ke arah hadapan untuk meningkatkan pemerhatian.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

2. Prapemprosesan data imej Tesla

Tesla menggunakan data imej asal 36Hz 1280*960-12bit , yang mempunyai 4 lebih bit maklumat berbanding hanya 8-bit ISP data pemprosesan pasca, dan orientasi dinamik telah dikembangkan sebanyak 16 kali. Terdapat dua sebab mengapa Tesla mengendalikan perkara ini:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

1) ISP melakukan fokus automatik (AF), pendedahan automatik (AE), imbangan Putih automatik (AWB), pembetulan piksel mati (DNS) , pengimejan julat dinamik tinggi (HDR), pembetulan warna (CCM), dll., ini memenuhi keperluan visualisasi mata manusia, tetapi tidak semestinya keperluan pemanduan autonomi. Berbanding dengan ISP asas peraturan, rangkaian saraf mempunyai keupayaan pemprosesan yang lebih berkuasa dan boleh menggunakan maklumat asal imej dengan lebih baik sambil mengelakkan kehilangan data yang disebabkan oleh ISP.

2) Kewujudan ISP tidak kondusif untuk penghantaran data berkelajuan tinggi dan menjejaskan kadar bingkai imej. Ia adalah lebih pantas untuk memproses isyarat asal dalam operasi rangkaian.

Kaedah ini mengatasi kepakaran seperti ISP tradisional dan secara langsung memacu rangkaian daripada permintaan bahagian belakang untuk mempelajari keupayaan ISP yang lebih kukuh, yang boleh mengukuhkan sistem dalam cahaya malap dan penglihatan rendah keadaan di luar persepsi mata manusia. Berdasarkan prinsip ini, ia sepatutnya menjadi cara yang lebih baik untuk menggunakan data mentah Lidar dan radar untuk pemasangan rangkaian.

3. rangkaian tulang belakang: Merekabentuk Ruang Reka Bentuk Rangkaian

RegNet Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Tesla menggunakan RegNet, yang mempunyai tahap abstraksi yang lebih tinggi daripada ResNet dan menyelesaikan ruang reka bentuk carian NAS (konvolusi, pengumpulan dan modul lain: gabungan sambungan /Penilaian Latihan/Pilih Optimum) tetap dan tidak dapat mencipta modul baharu, ia boleh mencipta paradigma ruang reka bentuk novel dan meneroka lebih banyak senario untuk menyesuaikan diri dengan "ResNet" baharu, dengan itu mengelakkan keperluan untuk menyelidik dan mereka bentuk seni bina rangkaian neural secara khusus. Jika Tulang Belakang yang lebih baik keluar, bahagian ini boleh diganti.

4. kerja leher : EfficientDet: Pengesanan Objek Boleh Skala dan Cekap

BiFPN Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

PANet lebih tepat daripada FPN kerana: berdasarkan aliran laluan tunggal atas ke bawah FPN, aliran laluan bawah ke atas tambahan ditambah, dan oleh itu Membawa masuk parameter dan pengiraan yang lebih tinggi;

BiFPN mengeluarkan nod dengan hanya satu input (lapisan atas dan bawah), kerana tujuan rangkaian adalah untuk menggabungkan ciri, jadi ia tidak mempunyai keupayaan gabungan Hanya sambungkan nod secara langsung.
BiFPN menghubungkan secara langsung input ke nod output, menyepadukan lebih banyak ciri tanpa meningkatkan pengiraan.
BiFPN menyusun struktur asas dalam berbilang lapisan dan boleh menyepadukan ciri berdimensi lebih tinggi.

FPN->BiFPN Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

5.BEV Fusion : Keupayaan pemahaman ruang bagi persepsi FSD

Persepsi 2D Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Sebelum kemunculan BEV, penyelesaian arus perdana untuk persepsi pemanduan autonomi semuanya berdasarkan Ruang Imej 2D kamera Walau bagaimanapun, aplikasi hiliran persepsi - membuat keputusan dan perancangan laluan semuanya dilakukan dalam Ruang BEV 2D di mana kenderaan terletak Persepsi dan Halangan antara peraturan dan kawalan menghalang pembangunan FSD. Untuk menghapuskan halangan ini, adalah perlu untuk menyusun semula persepsi daripada ruang imej 2D kepada ruang sistem rujukan kenderaan sendiri 2D, iaitu ruang BEV.

Berdasarkan teknologi tradisional:

IPM (Pemetaan Perspektif Songsang) akan digunakan dengan mengandaikan bahawa tanah adalah rata dan menggunakan kamera-auto Rujukan luaran kenderaan menukarkan Ruang Imej 2D kepada ruang kenderaan sendiri 2D, iaitu ruang pandangan mata burung BEV. Terdapat kelemahan yang jelas di sini: andaian pesawat tidak lagi berlaku apabila menghadapi turun naik di jalan raya.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Masalah jahitan tepi berbilang kamera

Disebabkan FOV adalah terhad, jadi walaupun anda menggunakan IPM untuk menukar Ruang Imej 2D kepada ruang BEV 2D, anda masih perlu menyelesaikan penyambungan ruang BEV bagi berbilang imej kamera. Ini sebenarnya memerlukan algoritma penentukuran berbilang kamera berketepatan tinggi dan algoritma pembetulan masa nyata dalam talian. Secara ringkasnya, apa yang perlu dicapai ialah memetakan ciri ruang imej 2D berbilang kamera ke ruang BEV sambil menyelesaikan masalah pertindihan transformasi yang disebabkan oleh andaian penentukuran dan bukan satah.

Pelaksanaan Tesla bagi Lapisan BEV berasaskan Transformer:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

BEV_FUSION

Pertama, lapisan ciri berskala diekstrak melalui rangkaian tulang belakang CNN dan BiFPN dalam setiap kamera Di satu pihak, lapisan ciri berskala menjana Transformer melalui lapisan MLP Sebaliknya, operasi Pengumpulan Global dilakukan pada Peta Ciri berskala untuk mendapatkan vektor penerangan global (iaitu, Ringkasan Konteks dalam rajah Pada masa yang sama, output sasaran BEV ruang dirasterkan, dan kemudian setiap raster BEV dikodkan kedudukan, dan kod kedudukan ini digabungkan (Concatenate) dengan vektor penerangan global, dan kemudian lapisan lapisan MLP digunakan untuk mendapatkan Pertanyaan yang diperlukan oleh Transformer.

Dalam operasi Perhatian Silang, skala Pertanyaan menentukan skala keluaran selepas lapisan BEV akhir (iaitu skala grid BEV), dan Kunci dan Nilai berada dalam Ruang koordinat imej 2D masing-masing Menurut prinsip Transformer, Query dan Key digunakan untuk menetapkan berat pengaruh setiap raster BEV yang diterima oleh piksel satah imej 2D, dengan itu mewujudkan perkaitan antara BEV dan imej input, dan kemudian menggunakan pemberat ini untuk menimbang ciri yang diperolehi oleh ciri di bawah satah imej, akhirnya memperoleh Peta Ciri di bawah sistem koordinat BEV, menyelesaikan misi lapisan penukaran koordinat BEV Kemudian, berdasarkan Peta Ciri di bawah BEV, kepala fungsi penderiaan matang boleh digunakan untuk mengesan secara langsung dalam ruang BEV. Keputusan persepsi dalam ruang BEV disatukan dengan sistem koordinat perancangan membuat keputusan, jadi persepsi dan modul seterusnya berkait rapat melalui transformasi BEV.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Penentukuran

Dengan kaedah ini, parameter luaran kamera sebenarnya dan perubahan dalam geometri tanah dihayati ke dalam parameter oleh model rangkaian saraf semasa proses latihan. Satu masalah di sini ialah terdapat sedikit perbezaan dalam parameter luaran kamera bagi kereta yang berbeza menggunakan set parameter model yang sama Karparthy menambah kaedah untuk Tesla menangani perbezaan dalam parameter luaran pada Hari AI: mereka menggunakan parameter luaran yang ditentukur untuk. bandingkan setiap kenderaan. Imej yang dikumpul ditukar secara seragam kepada kedudukan susun atur set kamera standard maya yang sama melalui nyah herotan, putaran dan pemulihan herotan, dengan itu menghapuskan sedikit perbezaan dalam parameter luaran kamera kenderaan yang berbeza.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Kaedah BEV ialah rangka kerja gabungan berbilang kamera yang sangat berkesan Melalui penyelesaian BEV, anggaran saiz dan penjejakan sasaran besar dalam jarak dekat merentas berbilang kamera, yang pada asalnya sukar untuk dikaitkan dengan betul, menjadi lebih cekap adalah tepat dan stabil Pada masa yang sama, penyelesaian ini juga menjadikan algoritma lebih mantap kepada oklusi jangka pendek dan kehilangan satu atau beberapa kamera. Ringkasnya, BEV menyelesaikan masalah gabungan imej dan penyambungan berbilang kamera dan meningkatkan keteguhan.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Menyelesaikan garisan lorong berbilang kamera dan gabungan sempadan

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Halangan menjadi lebih stabil

(Berdasarkan PPT, rancangan awal Tesla sepatutnya menjadi kamera hadapan utama A digunakan untuk persepsi dan ramalan garis lorong)

6 Senibina Neural Net Video: Pembinaan ciri jujukan spatio-temporal

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Penggunaan BEV akan meningkatkan persepsi daripada Ruang Imej 2D yang tersebar oleh berbilang kamera ke ruang BEV 2D, tetapi persekitaran sebenar pemanduan autonomi ialah 4D Dalam masalah ruang, walaupun ketinggian tidak dipertimbangkan, satu dimensi yang hilang ialah masa. Tesla melatih rangkaian saraf dengan menggunakan klip video dengan maklumat temporal dan bukannya imej, supaya model persepsi mempunyai keupayaan ingatan jangka pendek Kaedah untuk mencapai fungsi ini adalah dengan memperkenalkan baris gilir ciri dalam dimensi masa dan dimensi ruang ke dalam rangkaian saraf. model. Peraturan: setiap 27 milisaat baris gilir tolak atau setiap 1 meter yang dilalui akan dicache dalam jujukan video bersama-sama dengan maklumat gerakan.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Mengenai cara menggabungkan maklumat pemasaan, Tesla telah mencuba tiga penyelesaian arus perdana: lilitan 3D, Transformer dan RNN. Ketiga-tiga kaedah ini semuanya perlu menggabungkan maklumat gerakan kenderaan sendiri dengan persepsi bingkai tunggal Karparthy berkata bahawa maklumat gerakan kenderaan sendiri hanya menggunakan maklumat empat dimensi termasuk kelajuan dan pecutan maklumat gerakan ini boleh diperolehi daripada IMU digabungkan dengan ruang BEV Peta Ciri (20x80x256) dan Pengekodan Kedudukan digabungkan (Concatenate) untuk membentuk baris gilir ciri ciri 20x80x300x12 Dimensi ketiga di sini terdiri daripada ciri visual 256 dimensi + ciri kinematik 4 dimensi (vx. , ax, ay) dan kedudukan 40 dimensi Ia terdiri daripada Pengekodan Kedudukan, jadi 300 = 256 + 4 + 40, dan dimensi terakhir ialah dimensi masa/ruang 12 bingkai selepas pensampelan rendah.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Penukaran 3D, Transformer dan RNN semuanya boleh memproses maklumat jujukan Setiap satu daripada ketiga-tiganya mempunyai kekuatan dan kelemahan tersendiri dalam tugasan yang berbeza, tetapi yang mana Penyelesaian digunakan pada kebanyakan masa? Sebenarnya, tidak banyak perbezaan, tetapi pada Hari AI, Karparthy juga berkongsi penyelesaian yang mudah, berkesan dan sangat menarik dan boleh ditafsirkan yang dipanggil Spatial RNN. Berbeza daripada tiga kaedah di atas, RNN Spatial adalah kerana RNN pada asalnya memproses maklumat jujukan secara bersiri, dan susunan antara bingkai dipelihara Oleh itu, ciri visual BEV boleh dimasukkan terus ke rangkaian RNN tanpa pengekodan kedudukan, jadi anda boleh lihat di sini Input maklumat hanya termasuk Peta Ciri visual BEV 20x80x256 dan maklumat gerakan kenderaan sendiri 1x1x4.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Ciri ruang dalam CNN selalunya merujuk kepada ciri dalam dimensi lebar dan tinggi pada satah imej Di sini, Spatial dalam RNN Ruang merujuk kepada ciri yang serupa kepada Koordinat BEV pada masa tertentu adalah dua dimensi dalam sistem koordinat tempatan berdasarkan rujukan. Lapisan RNN LSTM digunakan untuk ilustrasi di sini Kelebihan LSTM ialah kebolehtafsirannya yang lebih sesuai untuk memahaminya sebagai contoh.

Ciri LSTM ialah Keadaan Tersembunyi boleh mengekalkan pengekodan momen N sebelumnya dengan panjang berubah-ubah (iaitu ingatan jangka pendek), dan kemudian momen semasa boleh menentukan bahagian mana keadaan ingatan diperlukan melalui input dan Hidden State digunakan, bahagian mana yang perlu dilupakan, dsb. Dalam RNN Spatial, Keadaan Tersembunyi ialah kawasan grid segi empat tepat yang lebih besar daripada ruang grid BEV, dengan saiz (WxHxC) (lihat rajah di atas, WxH lebih besar daripada saiz BEV 20x80 Maklumat kinematik kenderaan sendiri menentukan). ciri BEV hadapan dan belakang masing-masing bahagian mana dari grid Keadaan Tersembunyi yang terjejas, supaya data BEV berterusan akan mengemas kini kawasan segi empat tepat besar Keadaan Tersembunyi, dan kedudukan setiap kemas kini adalah konsisten dengan gerakan kenderaan sendiri. Selepas kemas kini berterusan, Peta Ciri Keadaan Tersembunyi yang serupa dengan peta tempatan terbentuk seperti yang ditunjukkan dalam rajah di bawah.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Penggunaan baris gilir temporal memberikan rangkaian saraf keupayaan untuk mendapatkan hasil persepsi berterusan antara bingkai, yang adalah konsisten dengan BEV Selepas gabungan, FSD mempunyai keupayaan untuk menangani titik buta dan oklusi dalam bidang pandangan, dan secara terpilih membaca dan menulis peta tempatan Oleh kerana keupayaan ini untuk membina peta tempatan masa nyata, FSD boleh menjalankan bandar navigasi tanpa bergantung pada peta berketepatan tinggi. Ia bukan sahaja mempunyai keupayaan peta 3D, tetapi juga keupayaan pembinaan pemandangan 4D tempatan, yang boleh digunakan untuk ramalan dan sebagainya. Selepas Occupancy keluar, secara amnya dipercayai bahawa penyelesaian berdasarkan RNN Spatial telah ditukar kepada penyelesaian transformer yang disebutkan di atas.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

7 Rangkaian Penghunian: BEV beralih daripada 2D ke 3D

Pandangan mata burung 2D. BEV adalah jelas Masih terdapat jurang antara adegan 3D yang dihadapi oleh pemanduan autonomi sebenar, jadi mesti ada situasi di mana persepsi BEV2D gagal dalam senario tertentu. Pada tahun 2021, Tesla akan mempunyai keupayaan untuk membina secara mendalam, jadi ia hanya menunggu masa dari 2D ke 3D Pada tahun 2022, ia akan membawa Rangkaian Pendudukan, yang merupakan pengembangan lanjut rangkaian BEV ke arah ketinggian. menurunkan sistem koordinat BEV Pertanyaan yang dijana oleh pengekodan kedudukan raster 2D ditingkatkan kepada Pertanyaan yang dijana oleh pengekodan kedudukan raster 3D, dan Ciri BEV digantikan dengan Ciri Penghuni.

Di CVPR2022, Ashork memberikan alasan untuk menggunakan Ciri Penghuni dan bukannya anggaran kedalaman berasaskan imej:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

1) Anggaran kedalaman adalah OK dekat, tetapi kedalaman tidak konsisten pada jarak yang lebih dekat dengan tanah, semakin sedikit titik nilai kedalaman (ini disebabkan oleh prinsip pengimejan imej, iaitu 20m jauhnya) Jarak menegak. diwakili oleh piksel mungkin melebihi 30cm), dan data sukar digunakan dalam proses perancangan seterusnya.

2) Rangkaian dalam dibina berdasarkan regresi dan sukar untuk diramal melalui oklusi, jadi sukar untuk diramal di sempadan dan boleh beralih dengan lancar dari kenderaan ke latar belakang.

Kelebihan menggunakan Occupancy adalah seperti berikut:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Kelebihan penghunian

1) Voxel bersatu dijana dalam ruang BEV dan kebarangkalian penghunian mana-mana voxel boleh diramalkan

2) Video daripada semua kamera diperolehi aliran, dan disatukan (tiada masalah gabungan lidar-kamera, dimensi maklumat lebih tinggi daripada lidar)

3) Dapat meramal status tersumbat objek dalam masa nyata (dinamik Penghunian Keupayaan perihalan ialah peralihan daripada 3D ke 4D)

4) Kategori semantik yang sepadan boleh dijana untuk setiap voxel (keupayaan pengecaman imej ialah jauh lebih kuat daripada lidar)

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Mengendalikan objek bergerak walaupun tanpa mengenali kategori

5) Keadaan gerakan setiap voxel boleh diramalkan dan gerakan rawak boleh dimodelkan

6) Resolusi setiap kedudukan boleh dilaraskan (iaitu Dengan ruang BEV keupayaan zum)

7) Terima kasih kepada perkakasan Tesla, Occupancy mempunyai kelebihan penyimpanan dan pengkomputeran yang cekap

8 ) Pengiraan boleh diselesaikan dalam masa 10ms , dan kekerapan pemprosesan boleh menjadi sangat tinggi (keupayaan output imej 36Hz sudah lebih kuat daripada frekuensi lidar 10Hz)

Kelebihan penyelesaian Occupancy berbanding penyelesaian persepsi kotak sempadan Ia terletak pada:

boleh menerangkan objek yang tidak diketahui yang tidak mempunyai kotak sempadan tetap dan boleh menukar bentuk dan bergerak sesuka hati Ia meningkatkan butiran perihalan halangan dari kotak ke butiran voxel. yang boleh menyelesaikan masalah persepsi banyak masalah ekor panjang.

Mari kita lihat rancangan keseluruhan Penghunian:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Rangkaian Penghunian

1) Input Imej: Masukkan maklumat imej asal, mengembangkan dimensi data dan julat dinamik

2 ) Ciri Imej: RegNet+BiFPN mengekstrak ciri imej berskala

3) Perhatian Spatial: gabungan berbilang kamera berasaskan perhatian bagi ciri imej 2D melalui pertanyaan spatial dengan kedudukan spatial 3D

Pelan pelaksanaan 1: Unjurkan pertanyaan spatial 3D pada peta ciri 2D mengikut parameter dalaman dan luaran setiap kamera, dan ekstrak ciri kedudukan yang sepadan.

Pelan pelaksanaan 2: Gunakan pembenaman kedudukan untuk melaksanakan pemetaan tersirat, iaitu, tambahkan pembenaman kedudukan yang munasabah pada setiap kedudukan peta ciri 2D, seperti parameter kamera dalaman dan luaran, koordinat piksel , dsb. Kemudian biarkan model mempelajari korespondensi antara ciri 2D dan 3D dengan sendirinya

4) Penjajaran Temporal: Gunakan maklumat trajektori untuk menyambung Ciri Pendudukan 3D setiap bingkai dalam jujukan masa dalam dimensi Saluran spatial Terdapat pereputan berat dari semasa ke semasa, dan ciri gabungan akan memasuki modul Deconvolutions untuk meningkatkan resolusi

5) Output Volume: Output kadar penghunian dan aliran penghunian daripada raster bersaiz tetap

6) Output Boleh Soal: Penyahkod MLP boleh pertanyaan tersirat direka untuk memasukkan nilai koordinat sewenang-wenangnya (x, y, z) untuk mendapatkan semantik voxel berterusan resolusi lebih tinggi . Kadar penghunian dan maklumat aliran penghunian melanggar had peleraian model

7) Menjana turapan kawasan boleh pandu dengan geometri dan semantik tiga dimensi, yang bermanfaat untuk mengawal pada cerun dan jalan melengkung.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Tanah adalah konsisten dengan Penghuni

8) Keadaan NeRF: Nerf membina struktur geometri tempat kejadian, boleh menjana imej dari mana-mana perspektif, dan boleh memulihkan pemandangan sebenar resolusi tinggi.

Jika ia boleh dinaik taraf atau digantikan dengan Nerf, ia akan mempunyai keupayaan untuk memulihkan pemandangan sebenar, dan keupayaan pemulihan pemandangan ini akan menjadi masa hadapan masa lalu-kini. Ia sepatutnya menjadi pelengkap dan penambahbaikan yang hebat kepada pemanduan autonomi adegan 4D yang diusahakan oleh penyelesaian teknikal Tesla.

8.FSD Lanes Neural Network: Ramalkan hubungan sambungan topologi lorong

Hanya membahagikan dan mengenal pasti garisan lorong tidak mencukupi mendapatkan hubungan sambungan topologi antara lorong boleh digunakan untuk perancangan trajektori.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Kesedaran hubungan topologi talian lorong FSD

1) Modul Bimbingan Lorong: Menggunakan perhubungan geometri & topologi jalan dalam peta navigasi, aras lorong, kuantiti, lebar, maklumat atribut, menyepadukan maklumat ini dengan ciri Penghunian untuk mengekod dan menjana Tensor Dunia Padat Untuk modul untuk mewujudkan hubungan topologi, ciri padat aliran video dihuraikan melalui paradigma penjanaan jujukan untuk mendapatkan maklumat topologi jalan yang jarang (segmen lorong nod lorong dan hubungan sambungan bersebelahan).

2) Komponen Bahasa: Maklumat berkaitan lorong termasuk kedudukan nod lorong, atribut (titik permulaan, titik tengah, titik akhir, dll.), titik bifurkasi, titik menumpu dan geometri spline lorong Parameter dikodkan ke dalam kod yang serupa dengan token perkataan dalam model bahasa, dan kemudian diproses menggunakan kaedah pemprosesan masa. Proses khusus adalah seperti berikut:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

bahasa proses lorong

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

bahasa lorong

Akhirnya, bahasa lorong mewakili hubungan sambungan topologi dalam graf.

9 Persepsi Objek: Persepsi dan ramalan peserta trafik lain

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Persepsi halangan Persepsi Objek dengan Ramalan

FSD ialah kaedah 2 Langkah Pada peringkat pertama, kedudukan halangan dalam ruang 3D pertama kali dikenal pasti daripada Occupancy peringkat Concat tensor objek 3D ini untuk mengekod beberapa maklumat kinematik (seperti pergerakan kenderaan, garisan lorong pemanduan sasaran, lampu isyarat, isyarat lalu lintas, dll.) dan kemudian mengakses kepala seperti ramalan trajektori, pemodelan objek dan ramalan pose pejalan kaki . Memfokuskan kepala penderiaan kompleks pada kawasan ROI yang terhad mengurangkan kelewatan pemprosesan. Seperti yang dapat dilihat dari rajah di atas, terdapat dua langkah modul video, yang masing-masing melayani ramalan kenderaan sendiri dan kenderaan lain.

Tinggalkan soalan di sini: Apakah perbezaan antara dua modul video dalam gambar di atas? Adakah terdapat sebarang masalah dengan kecekapan?

02 Perancangan keputusan

1. >

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Senario membuat keputusan dan perancangan belok kiri tanpa perlindungan di persimpangan

Keputusan -membuat dan merancang senario di atas Kesukarannya terletak pada:

Apabila kenderaan sendiri melakukan belok kiri tanpa perlindungan melalui pemandangan persimpangan, ia perlu berinteraksi dengan pejalan kaki dan lurus biasa- kenderaan bergerak, dan memahami hubungan antara pelbagai pihak.

Keputusan interaksi dengan yang pertama secara langsung mempengaruhi strategi interaksi dengan yang terakhir. Penyelesaian terakhir yang dipilih di sini ialah: cuba untuk tidak mengganggu pergerakan peserta trafik yang lain.

2. Kaedah pengoptimuman tradisional: [Perancangan trajektori berbilang objek bersama]: MPC berbilang objek

trajektori perwakilan keadaan 8 dimensi (kedudukan, tajuk , kelajuan s, pecutan mendatar dan menegak, jerk mendatar dan menegak)
Kos pengoptimuman: Cari trajektori masing-masing ego kereta sendiri dan Obj kereta lain, supaya semua objek boleh mencapai gol sebanyak mungkin, manakala mendatar dan menegak Jerk adalah sekecil mungkin (tahap keselesaan)
Kekangan:

Jarak terdekat bagi lintasan objek masing-masing adalah lebih besar daripada jarak selamat
Kekangan ketibaan awal dan lewat untuk trajektori pasangan objek

Kelemahan: prestasi masa nyata yang lemah (setiap Gabungan mengambil masa 10ms, iaitu had yang boleh dicapai oleh Tesla), dan terdapat letupan gabungan. Matlamatnya ialah masa perancangan keseluruhan ialah 50ms (20hz).

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

3. Carian pokok interaktif: perancangan laluan selari dan pemangkasan penilaian

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Proses perancangan keputusan

Tesla menggunakan "carian interaktif" untuk mencapai matlamat ini trajektori gerakan dicari secara selari, dan ruang keadaan yang sepadan termasuk kenderaan, halangan, kawasan boleh dipandu, lorong, lampu isyarat, dsb. Ruang penyelesaian menggunakan satu set trajektori calon gerakan sasaran, yang bercabang selepas mengambil bahagian dalam membuat keputusan interaktif dengan trafik lain, dan kemudian meneruskan dengan membuat keputusan dan perancangan yang progresif, dan akhirnya memilih trajektori yang optimum Prosesnya adalah seperti yang ditunjukkan dalam rajah di atas:

1) Dapatkan mata matlamat atau taburan kebarangkaliannya (trajektori data besar) berdasarkan topologi jalan atau data pemanduan manusia a priori

2) Hasilkan trajektori calon berdasarkan mata matlamat ( Algoritma pengoptimuman + rangkaian saraf)

3) Pelancaran dan pembuatan keputusan interaktif di sepanjang trajektori calon, rancang semula laluan, menilai risiko dan markah setiap laluan, utamakan pencarian untuk laluan terbaik dan ketahui titik matlamat

Ungkapan pengoptimuman keseluruhan perancangan keputusan:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Ungkapan pengoptimuman perancangan keputusan

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Perancangan ringan rangkaian pertanyaan trajektori

Tes La menggunakan pendekatan tambahan untuk terus menambah kekangan membuat keputusan baharu, menggunakan penyelesaian optimum di bawah kekangan yang lebih sedikit sebagai nilai awal untuk terus menyelesaikan pengoptimuman yang lebih kompleks masalah, dan akhirnya memperoleh penyelesaian yang optimum. Walau bagaimanapun, disebabkan kewujudan banyak cawangan yang mungkin, keseluruhan proses membuat keputusan dan perancangan mestilah sangat cekap Setiap perancangan membuat keputusan perancang berdasarkan algoritma pengoptimuman tradisional mengambil masa 1~5ms, yang jelas tidak cukup selamat apabila. terdapat peserta trafik berkepadatan tinggi. Neural Planner yang digunakan oleh Tesla ialah rangkaian yang ringan Trajektori perancangan pertanyaan dilatih menggunakan data pemanduan manusia dalam armada Tesla dan nilai sebenar laluan optimum global yang dirancang dalam keadaan luar talian tanpa kekangan masa , setiap membuat keputusan perancangan hanya memerlukan 100us.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Penilaian keputusan perancangan

Berapa banyak pertanyaan diperoleh selepas setiap keputusan Setiap trajektori calon perlu dinilai Penilaian adalah berdasarkan spesifikasi seperti semakan perlanggaran, analisis keselesaan, kemungkinan pengambilalihan, persamaan dengan orang, dll. Ini membantu untuk memangkas cabang carian dan mengelakkan keseluruhan pokok keputusan daripada menjadi terlalu besar boleh juga Kuasa pengkomputeran tertumpu pada cawangan yang paling mungkin. Tesla menekankan bahawa penyelesaian ini juga boleh digunakan untuk adegan oklusi Semasa proses perancangan, status pergerakan objek yang tersumbat akan dipertimbangkan dan perancangan akan dilakukan dengan menambahkan "hantu".

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

adegan oklusi hantu

Dalam CVPR, kami turut berkongsi proses rangkaian dan perancangan perlanggaran yang sepadan mengelak Proses ini tidak akan diterangkan secara terperinci.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Rangkaian Pengelakan Perlanggaran

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

03 Pembinaan semula adegan & anotasi automatik

Tesla berkuasa keupayaan persepsi memerlukan keupayaan anotasi yang kukuh sebagai sokongan Dari 2018 hingga sekarang, anotasi Tesla telah melalui 4 peringkat:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Lelaran anotasi Tesla.

Fasa 1 (2018): hanya anotasi imej 2 dimensi manual semata-mata, sangat tidak cekap

Fasa 2 (2019): Pelabelan 3D bermula, tetapi ia adalah manual dalam satu pas

Fasa 3 (2020): Menggunakan ruang BEV untuk pelabelan dan penayangan semula Ketepatan berkurangan dengan ketara

Fasa 4 (2021): Pembinaan semula berbilang laluan digunakan untuk anotasi, dan ketepatan, kecekapan dan hubungan topologi telah mencapai tahap yang sangat tinggi

Sistem pelabelan automatik Tesla boleh menggantikan 5 juta jam kerja manual. Pemeriksaan manual dan pembaikan kebocoran hanya memerlukan bahagian yang sangat kecil (

Proses penyelesaian pembinaan semula trajektori berbilang perjalanan ini adalah sebagai berikut: (serupa dengan sistem slam semantik luar talian)

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Sistem pelabelan automatik

Langkah 1: VIO menjana trajektori berketepatan tinggi. Suapkan strim video, IMU dan odometri kepada rangkaian saraf, inferens dan ekstrak titik, garisan, tanah dan ciri segmentasi, kemudian gunakan VIO berbilang kamera untuk penjejakan dan pengoptimuman dalam ruang BEV untuk mengeluarkan trajektori 100Hz 6dof dan struktur 3dof dan jalan raya , dan juga boleh mengeluarkan nilai penentukuran kamera. Ketepatan trajektori yang dibina semula ialah 1.3cm/m, 0.45 rad/m, yang tidak terlalu tinggi. Semua FSD boleh menjalankan proses ini untuk mendapatkan trajektori dan maklumat struktur praproses bagi perjalanan tertentu. (Menonton video, saya merasakan bahawa vio hanya menggunakan ciri titik secara eksplisit dan mungkin menggunakan ciri garis dan permukaan secara tersirat.)

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Lagi Pembinaan semula trajektori perjalanan

Langkah 2: Pembinaan semula trajektori berbilang perjalanan. Berbilang data yang dibina semula daripada kenderaan berbeza dikumpulkan untuk penjajaran kasar -> padanan ciri -> pengoptimuman sendi -> penghalusan permukaan jalan, dan kemudian campur tangan manual dilakukan untuk mengesahkan dan mengesahkan hasil pelabelan. Di sini, pengoptimuman permukaan jalan juga dilakukan selepas pengoptimuman bersama Adalah berspekulasi bahawa ralat pembinaan semula visual adalah agak besar Selepas pengoptimuman global, terdapat masalah pertindihan berlapis-lapis untuk menghapuskan ralat bahagian ini salahlokasi pengoptimuman global, pengoptimuman permukaan jalan telah ditambah. Dari sudut logik algoritma, pengoptimuman global diikuti oleh pengoptimuman tempatan adalah satu kemestian, kerana keperluan pemanduan autonomi adalah untuk dapat memandu di mana-mana. Keseluruhan proses adalah selari pada kelompok.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Penjajaran kasar

Langkah 3: Labelkan data trajektori baharu secara automatik. Pada peta pra-bina, proses pembinaan semula yang sama seperti pembinaan semula trajektori berbilang dilakukan pada data trajektori pemanduan baharu, supaya data trajektori baharu yang dijajarkan secara automatik boleh mendapatkan anotasi semantik daripada peta pra-bina. Ini sebenarnya adalah proses penempatan semula untuk mendapatkan tag semantik. Pelabelan automatik ini sebenarnya hanya boleh melabel objek statik secara automatik, seperti garisan lorong, sempadan jalan, dsb. Melalui model persepsi, kategori semantik seperti garis lorong sebenarnya boleh diperolehi Namun, akan wujud masalah integriti dan salah pengiktirafan dalam senario yang sukar ini boleh diselesaikan melalui anotasi automatik ini. Walau bagaimanapun, kelemahannya ialah ia mungkin tidak sesuai untuk halangan dinamik, seperti kenderaan bergerak, pejalan kaki, dsb. Berikut ialah senario penggunaan:

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Melabelkan senario penggunaan secara automatik

Tes Kebanyakan imej yang ditunjukkan oleh La mempunyai ciri: terdapat oklusi kabur atau comot, tetapi ia tidak menjejaskan hasil persepsi secara serius. Dalam penggunaan biasa, lensa kamera kenderaan mudah kotor, tetapi dengan pelabelan automatik ini, persepsi Tesla akan menjadi sangat mantap dan kos penyelenggaraan kamera akan dikurangkan.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Pelabelan automatik tidak digunakan pada kenderaan dinamik

Semakan 2021 Hari AI menunjukkan bahawa pembinaan semula di atas membina dunia statik, tetapi bukan hanya garisan lorong dan garisan lorong, tetapi juga kenderaan dan bangunan.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

pembinaan semula 3D

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Bina semula dunia statik dan labelkannya

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Pelabelan ruang 4D

Selepas ruang BEV diberi anotasi, anotasi akan dipetakan kepada imej daripada berbilang kamera, supaya satu anotasi dalam ruang 4D boleh digunakan pada berbilang bingkai 2D.

Mengenai pembinaan semula tempat kejadian, keupayaan dan ketepatan pembinaan semula semasa mungkin masih tidak memenuhi jangkaan jurutera Tesla Matlamat utama mereka adalah untuk benar-benar memulihkan dan membina semula semua adegan yang telah dipandu oleh kereta Tesla. Adegan, dan keupayaan untuk benar-benar mengubah keadaan adegan ini untuk menjana adegan sebenar baharu adalah matlamat utama.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Pulihkan dunia nyata

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Bina semula dunia sebenar

04 Simulasi adegan: Cipta adegan pemanduan autonomi berdasarkan maklumat jalan sebenar

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Simulasi Adegan

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Simulasi boleh diperolehi sepenuhnya label yang betul

Adegan sebenar yang dibina berdasarkan pembinaan semula dihadkan oleh data, algoritma, dsb. Pada masa ini sukar untuk dilaksanakan secara besar-besaran dan mengambil masa yang lama Contohnya, simulasi persimpangan sebenar dalam gambar di atas mengambil masa 2 minggu. Walau bagaimanapun, pelaksanaan pemanduan autonomi bergantung pada latihan dan ujian dalam senario yang berbeza, jadi Tesla telah membina sistem simulasi untuk mensimulasikan senario pemanduan autonomi. Sistem ini tidak boleh benar-benar mensimulasikan senario kehidupan sebenar, tetapi kelebihannya ialah ia adalah 1,000 kali lebih pantas daripada penyelesaian pembinaan semula biasa yang disebutkan di atas Ia boleh memberikan data yang sukar diperoleh atau dilabel dalam realiti, dan masih sangat bermakna untuk autonomi latihan memandu.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Seni bina simulasi

Seni bina emulator ini ialah seperti Rajah berikut, langkah berikut diperlukan semasa proses penciptaan pemandangan:

Langkah 1: Susun jalan dalam dunia simulasi, gunakan label sempadan untuk menjana jaringan jalan entiti, dan kaitkan semula dengan hubungan topologi jalan .

Langkah 2: Unjurkan garisan lorong dan elemen penerangan geometri pada permukaan jalan ke bahagian lorong untuk membina butiran lorong

Langkah 3 Langkah: Hasilkan kawasan pemisah lorong tengah di kawasan sempadan tengah jalan, dan jana loji dan tanda lalu lintas secara rawak untuk mengisinya; bangunan, pokok, papan tanda lalu lintas, dsb. di luar sempadan jalan

Langkah 4: Dapatkan lokasi lampu isyarat atau tanda henti dari peta, anda juga boleh mendapatkan bilangan lorong , nama jalan, dsb.

Langkah 5: Gunakan peta lorong untuk mendapatkan lokasi perhubungan Topologi lorong, jana arah pemanduan (tanda belok kiri dan kanan) dan penanda tambahan

Langkah 6: Gunakan peta lorong itu sendiri untuk menentukan jarak lorong dan maklumat berguna lain

Langkah 7: Hasilkan gabungan aliran trafik rawak berdasarkan perhubungan lorong

Dalam proses di atas, parameter simulasi boleh diubah suai untuk menjana perubahan berdasarkan set nilai sebenar peta navigasi lorong, Jana pelbagai senario gabungan. Selain itu, mengikut keperluan latihan, beberapa sifat nilai sebenar boleh diubah suai untuk mencipta senario baharu untuk mencapai tujuan latihan.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Data dibahagikan kepada Tile storage

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Dunia yang dibina berdasarkan butiran Tile

Simulasi yang dibina di atas adalah berdasarkan maklumat jalan sebenar, begitu banyak masalah praktikal boleh diselesaikan dengan bantuan daripada simulasi. Contohnya: fungsi pemanduan autonomi boleh diuji dalam persekitaran jalan Los Angeles yang disimulasikan. (Kaedah storan di atas digunakan dalam pemetaan simulasi, penyimpanan dan pemuatan)

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Pemandu autonomi dalam senario simulasi

Perasaan: Apakah jenis maklumat peta yang tidak boleh digantikan untuk pemanduan autonomi Beberapa jawapan boleh didapati daripada proses pembinaan simulasi ini?

05 Data Enjin: Data kes sudut melombong

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Data ditutup- proses gelung

Enjin data melombong data yang disalah anggap oleh model daripada mod bayang, mengingatnya dan menggunakan alat anotasi automatik untuk pembetulan label, dan kemudian menambahkannya pada latihan dan set ujian, yang boleh terus dioptimumkan rangkaian. Proses ini ialah nod utama gelung tertutup data dan akan terus menjana data sampel kes sudut.

Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla

Perlombongan Data untuk Tempat Letak Lengkung

Gambar di atas menunjukkan penambahbaikan model melalui perlombongan data untuk tempat letak kereta melengkung Dalam kes ini, apabila data ditambah secara berterusan pada latihan, indeks ketepatan terus bertambah baik.

Atas ialah kandungan terperinci Analisis mendalam tentang penyelesaian teknologi pemanduan autonomi Tesla. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!