Kertas kerja "NeuRAD: Rendering Neural untuk Pemanduan Autonomi", daripada Zenseact, Universiti Teknologi Chalmers, Universiti Linkoping dan Universiti Lund.
Medan Sinaran Neural (NeRF) menjadi semakin popular dalam komuniti pemanduan autonomi (AD). Kaedah terkini telah menunjukkan potensi NeRF dalam simulasi gelung tertutup, ujian sistem AD dan teknik penambahan data latihan. Walau bagaimanapun, kaedah sedia ada selalunya memerlukan masa latihan yang panjang, penyeliaan semantik yang intensif, dan kekurangan generalisasi. Ini seterusnya menghalang aplikasi berskala besar NeRF dalam AD. Makalah ini mencadangkan NeuRAD, kaedah sintesis paparan baharu yang teguh untuk data AD dinamik. Kaedah ini menampilkan reka bentuk rangkaian yang ringkas, pemodelan penderia termasuk kamera dan lidar (termasuk pengatup berguling, perbezaan rasuk dan kejatuhan cahaya), dan berfungsi pada beberapa set data di luar kotak.
Seperti yang ditunjukkan dalam rajah: NeuRAD ialah kaedah pemaparan saraf yang disesuaikan untuk pemandangan kereta dinamik. Postur kenderaan sendiri dan pengguna jalan raya lain boleh diubah, dan peserta boleh ditambah dan/atau dialih keluar secara bebas. Ciri-ciri ini menjadikan NeuRAD sesuai sebagai asas untuk komponen seperti simulator gelung tertutup sensor-realistik atau enjin pembesaran data yang berkuasa.
Matlamat kertas kerja ini adalah untuk mempelajari perwakilan dari mana data sensor sebenar boleh dijana, yang boleh mengubah platform kenderaan, postur pelakon, atau kedua-duanya. Diandaikan terdapat akses kepada data yang dikumpul oleh platform mudah alih, yang terdiri daripada set imej kamera dan awan titik lidar, serta anggaran saiz dan pose mana-mana pelakon mudah alih. Untuk kepraktisan, kaedah tersebut perlu berprestasi baik dari segi ralat pembinaan semula pada set data automotif utama sambil mengekalkan masa latihan dan inferens pada tahap minimum.
Angka tersebut ialah gambaran keseluruhan kaedah yang dicadangkan dalam artikel ini NeuRAD: mempelajari medan ciri saraf sendi statik dan dinamik untuk adegan automotif, dibezakan oleh pengekodan cincang yang menyedari aktor. Mata yang berada dalam kotak sempadan pelakon ditukar kepada koordinat tempatan pelakon dan digunakan bersama-sama dengan indeks pelakon untuk menanyakan grid cincang 4D. Ciri aras cahaya yang dihasilkan kelantangan dinyahkodkan kepada nilai RGB menggunakan CNN pensampelan dan ke dalam kebarangkalian dan keamatan jatuh sinar menggunakan MLP.
Membina kerja sintesis pandangan baharu [4, 47], pengarang menggunakan medan ciri saraf (NFF), generalisasi NeRF [25] dan kaedah serupa [23] untuk memodelkan dunia.
Untuk memaparkan imej, satu set sinar kamera perlu diberikan kelantangan untuk menjana peta ciri F. Seperti yang diterangkan dalam kertas [47], rangkaian neural convolutional (CNN) kemudiannya digunakan untuk menghasilkan imej akhir. Dalam aplikasi praktikal, peta ciri mempunyai peleraian rendah dan perlu ditingkatkan sampel menggunakan CNN untuk mengurangkan secara drastik bilangan pertanyaan sinar
Penderia lidar membolehkan kenderaan autonomi mengukur kedalaman dan pemantulan (intensiti) set titik diskret ). Mereka menentukan jarak dan pemantulan kuasa pemulangan dengan menembak denyutan pancaran laser dan mengukur masa penerbangan. Untuk menangkap sifat ini, denyutan yang dihantar daripada sensor lidar sikap dimodelkan sebagai satu set sinar dan teknik pemaparan seperti volum digunakan.
Pertimbangkan sinar pancaran laser yang tidak mengembalikan sebarang titik. Jika kuasa pulangan terlalu rendah, fenomena yang dikenali sebagai kejatuhan sinar berlaku, yang penting untuk pemodelan yang mengurangkan perbezaan simulasi-sebenar [21]. Biasanya, cahaya sedemikian bergerak cukup jauh untuk tidak mengenai permukaan, atau ia mengenai permukaan di mana rasuk melantun ke ruang terbuka, seperti cermin, kaca atau turapan basah. Pemodelan kesan ini adalah penting untuk simulasi realistik penderia tetapi, seperti yang dinyatakan dalam [14], adalah sukar untuk ditangkap semata-mata berdasarkan asas fizik kerana ia bergantung pada (selalunya tidak didedahkan) butiran logik pengesanan sensor peringkat rendah. Oleh itu, kami memilih untuk mempelajari kejatuhan sinar daripada data. Sama seperti keamatan, ciri cahaya boleh diberikan secara isipadu dan melalui MLP kecil untuk meramalkan kebarangkalian penurunan cahaya pd(r). Ambil perhatian bahawa, tidak seperti [14], gema sekunder pancaran lidar tidak dimodelkan kerana maklumat ini tidak terdapat dalam lima set data dalam eksperimen.
Perluas takrifan medan ciri saraf (NFF) kepada fungsi pembelajaran (s, f) = NFF (x, t, d), dengan x ialah koordinat ruang, t mewakili masa dan d mewakili arah tontonan. Takrifan ini memperkenalkan masa sebagai input, penting untuk memodelkan aspek dinamik adegan
Seni bina NFF mengikut pendekatan terbaik yang diiktiraf dalam NeRF [4, 27]. Memandangkan lokasi x dan masa t, tanya kod cincang yang menyedari aktor. Pengekodan ini kemudiannya dimasukkan ke dalam MLP kecil, yang mengira jarak yang ditandatangani s dan ciri perantaraan g. Pengekodan arah pandangan d dengan harmonik sfera [27] membolehkan model menangkap pantulan dan kesan berkaitan pandangan yang lain. Akhir sekali, pengekodan arah dan ciri perantaraan diproses bersama melalui MLP kedua, dipertingkatkan dengan sambungan langkau g, menghasilkan ciri f. . oleh kotak sempadan 3D dan satu set pose SO(3). Kami menyediakan dua tujuan untuk memudahkan proses pembelajaran dan membenarkan tahap kebolehsuntingan yang membolehkan penjanaan pelakon dinamik bagi senario baharu selepas latihan. Tidak seperti pendekatan sebelumnya yang menggunakan NFF berasingan untuk elemen pemandangan yang berbeza, kami menggunakan NFF bersatu tunggal di mana semua rangkaian dikongsi dan perbezaan antara komponen statik dan dinamik dikendalikan secara telus oleh pengekodan cincang yang sedar aktor. Strategi pengekodan adalah mudah: mengekod sampel tertentu (x,t) dengan salah satu daripada dua fungsi berdasarkan sama ada ia terletak dalam kotak sempadan aktor
Menggunakan perwakilan Kekisi jaringan cincang berbilang resolusi adegan statik telah terbukti sebagai kaedah perwakilan yang sangat ekspresif dan cekap. Walau bagaimanapun, untuk memetakan pemandangan tanpa sempadan pada jerat, kami menggunakan kaedah pengecutan yang dicadangkan dalam MipNerf-360. Pendekatan ini dengan tepat boleh mewakili elemen jalan raya berdekatan dan awan jauh dengan satu jaringan cincangan. Sebaliknya, kaedah sedia ada menggunakan NFF khusus untuk menangkap langit dan kawasan lain yang jauh
Apabila sampel (x, t) berada dalam kotak sempadan aktor, koordinat ruang x dan arah tontonan d diubah menjadi sistem koordinat pelakon pada masa tertentu t. Abaikan aspek temporal selepas itu dan contoh ciri daripada grid cincang berbilang resolusi bebas masa, sama seperti pemandangan statik. Ringkasnya, berbilang grid cincang yang berbeza perlu diambil sampel secara berasingan, satu untuk setiap pelakon. Walau bagaimanapun, sebaliknya grid cincang 4D tunggal digunakan, di mana dimensi keempat sepadan dengan indeks pelakon. Pendekatan ini membolehkan pensampelan semua ciri aktor secara selari, mencapai kelajuan yang ketara sambil memadankan prestasi grid cincang individu.
Salah satu cabaran terbesar dalam menerapkan pemaparan saraf kepada data automotif ialah mengendalikan pelbagai peringkat butiran yang terdapat dalam data ini. Apabila kereta bergerak dalam jarak yang jauh, ia melihat banyak permukaan, baik pada jarak jauh dan dekat. Dalam kes berbilang skala ini, hanya menggunakan benam kedudukan iNGP [27] atau NeRF boleh membawa kepada artifak alias [2]. Untuk menyelesaikan masalah ini, banyak kaedah memodelkan sinar sebagai frustum, arah membujur frustum ditentukan oleh saiz tong sampah, dan arah jejari ditentukan oleh kawasan piksel dan jarak dari sensor [2, 3, 13]
Pensampelan Cekap
Satu lagi kesukaran dalam menghasilkan adegan berskala besar ialah keperluan untuk strategi pensampelan yang cekap. Dalam satu imej, anda mungkin mahu memaparkan teks terperinci pada tanda lalu lintas berdekatan sambil menangkap kesan paralaks antara bangunan pencakar langit beberapa kilometer jauhnya. Untuk mencapai kedua-dua matlamat, pensampelan seragam sinar akan memerlukan beribu-ribu sampel setiap sinar, yang tidak boleh dilaksanakan secara pengiraan. Kerja sebelumnya telah banyak bergantung pada data lidar untuk memangkas sampel [47], menjadikannya sukar untuk dibuat di luar kerja lidar.
Sebaliknya, kertas ini memaparkan sampel sepanjang sinar mengikut fungsi kuasa [4], supaya ruang antara sampel bertambah dengan jarak dari asal sinar. Walaupun begitu, adalah mustahil untuk memenuhi semua syarat yang berkaitan dengan peningkatan drastik dalam saiz sampel. Oleh itu, dua pusingan pensampelan cadangan [25] juga digunakan, di mana versi ringan medan ciri saraf (NFF) disoal untuk menjana taburan berat sepanjang sinar. Kemudian, satu set sampel baharu diberikan berdasarkan pemberat ini. Selepas dua pusingan proses ini, satu set sampel yang diperhalusi diperoleh yang tertumpu pada kedudukan yang berkaitan pada sinar dan boleh digunakan untuk menanyakan NFF skala penuh. Untuk menyelia rangkaian yang dicadangkan, kaedah penyulingan dalam talian anti-aliasing [4] diguna pakai, dan LiDAR selanjutnya digunakan untuk penyeliaan.
Dalam rumusan standard berasaskan NeRF, diandaikan bahawa setiap imej ditangkap daripada asal o. Walau bagaimanapun, banyak penderia kamera mempunyai pengatup berguling, di mana barisan piksel ditangkap secara berurutan. Oleh itu, penderia kamera boleh bergerak antara tangkapan baris pertama dan tangkapan baris terakhir, memecahkan andaian asal tunggal. Walaupun ini bukan isu dengan data sintetik [24] atau tangkapan data dengan kamera pegang tangan perlahan, pengatup berguling menjadi ketara dalam tangkapan kenderaan yang bergerak pantas, terutamanya kamera sisi. Kesan yang sama terdapat dalam lidar, di mana setiap imbasan biasanya dikumpulkan dalam 0.1s, yang bersamaan dengan beberapa meter pergerakan apabila melakukan perjalanan pada kelajuan lebuh raya. Walaupun untuk awan titik pampasan gerakan sendiri, perbezaan ini boleh membawa kepada ralat garis pandang yang berbahaya, di mana titik 3D diubah menjadi sinar yang melalui geometri lain. Untuk mengurangkan kesan ini, pengatup berguling dimodelkan dengan memberikan setiap sinar masa yang berasingan dan melaraskan asalnya berdasarkan pergerakan yang dianggarkan. Memandangkan pengatup bergolek mempengaruhi semua elemen dinamik adegan, interpolasi linear dilakukan untuk setiap masa cahaya individu dan pose pelakon.
Masalah lain apabila mensimulasikan urutan pemanduan autonomi ialah imej datang daripada kamera berbeza, dengan parameter tangkapan yang mungkin berbeza seperti pendedahan. Di sini, inspirasi diambil daripada penyelidikan mengenai "NeRF di alam liar" [22], di mana pembenaman penampilan dipelajari untuk setiap imej dan dihantar ke MLP kedua bersama-sama dengan ciri-cirinya. Walau bagaimanapun, apabila diketahui imej yang mana datangnya daripada penderia, satu pembenaman tunggal sebaliknya dipelajari untuk setiap penderia, meminimumkan kemungkinan pemasangan berlebihan dan membenarkan pembenaman penderia ini digunakan apabila menjana paparan baharu. Pembenaman ini digunakan selepas pemaparan volum, dengan ketara mengurangkan overhed pengiraan apabila memaparkan ciri dan bukannya warna.
Model bergantung pada anggaran pose pelakon dinamik, sama ada dalam bentuk anotasi atau sebagai output penjejakan. Untuk menangani kelemahan, pose pelakon dimasukkan ke dalam model sebagai parameter yang boleh dipelajari dan dioptimumkan bersama. Sikap itu diparameterkan sebagai terjemahan t dan putaran R, menggunakan perwakilan 6D [50].
NeuRAD dilaksanakan dalam projek sumber terbuka Nerfstudio[33]. Latihan dilakukan untuk 20,000 lelaran menggunakan pengoptimum Adam[17]. Pada NVIDIA A100, latihan mengambil masa kira-kira 1 jam
Menghasilkan semula UniSim: UniSim [47] ialah simulator sensor gelung tertutup saraf. Ia menampilkan pemaparan fotorealistik dan membuat beberapa andaian tentang penyeliaan yang tersedia, iaitu ia hanya memerlukan imej kamera, awan titik lidar, pose sensor dan kotak sempadan 3D dengan trajektori pelakon dinamik. Ciri-ciri ini menjadikan UniSim garis dasar yang sesuai kerana ia mudah digunakan pada set data pemanduan autonomi baharu. Walau bagaimanapun, kod tersebut adalah sumber tertutup dan tiada pelaksanaan tidak rasmi. Oleh itu, artikel ini memilih untuk melaksanakan semula UniSim sebagai modelnya sendiri dan melaksanakannya dalam Nerfstudio [33]. Memandangkan artikel utama UniSim tidak memperincikan banyak butiran model, seseorang perlu bergantung pada bahan tambahan yang disediakan oleh IEEE Xplore. Namun begitu, beberapa butiran masih tidak diketahui dan pengarang telah menala hiperparameter ini untuk memadankan prestasi yang dilaporkan pada 10 urutan PandaSet [45] terpilih.
Atas ialah kandungan terperinci NeuRAD: Aplikasi teknologi pemaparan saraf multi-dataset terkemuka dalam pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!