Pasukan pembelajaran pengukuhan mendalam Institut Automasi, Akademi Sains China, bersama-sama dengan Li Auto dan lain-lain, mencadangkan rangka kerja perancangan gelung tertutup baharu untuk pemanduan autonomi berdasarkan model bahasa besar berbilang modMLLM - PlanAgent. Kaedah ini mengambil pandangan mata dari tempat kejadian dan gesaan teks berasaskan graf sebagai input, dan menggunakan pemahaman pelbagai modal dan keupayaan penaakulan akal bagi model bahasa besar berbilang mod untuk melaksanakan penaakulan hierarki daripada pemahaman adegan kepada generasi. arahan pergerakan mendatar dan menegak, dan Selanjutnya menjana arahan yang diperlukan oleh perancang. Kaedah ini diuji pada penanda aras nuPlan berskala besar dan mencabar, dan eksperimen menunjukkan bahawa PlanAgent mencapai prestasi terkini (SOTA) pada kedua-dua senario biasa dan panjang. Berbanding dengan kaedah model bahasa besar (LLM) konvensional, jumlah token perihalan adegan yang diperlukan oleh PlanAgent hanyalah kira-kira 1/3. . Universiti, Universiti Aeroangkasa Beijing
Alamat kertas:https://arxiv.org/abs/2406.01587
Rangka kerja PlanAgent ejen perancangan gelung tertutup berdasarkan MLLM ditunjukkan dalam Rajah 1. Kertas kerja ini mereka bentuk tiga modul untuk menyelesaikan masalah kompleks dalam pemanduan autonomi:
modul pengekstrakan maklumat( Modul Transformasi Alam Sekitar): Untuk mencapai perwakilan maklumat pemandangan yang cekap, modul pengekstrakan maklumat persekitaran direka bentuk yang boleh mengekstrak input berbilang modal dengan maklumat lorong.
Modul refleksi: Untuk memastikan perancangan yang selamat, mekanisme refleksi direka bentuk, yang boleh mengesahkan perancang melalui simulasi dan menapis cadangan MLLM yang tidak munasabah. . untuk itu Kualiti mempunyai impak yang penting. Untuk meningkatkan kualiti penjanaan MLLM, modul pengekstrakan maklumat pemandangan dapat mengekstrak maklumat konteks adegan dan menukarnya kepada imej dan perwakilan teks pandangan burung (BEV), menjadikannya konsisten dengan input MLLM. Mula-mula, kertas kerja ini menukar maklumat pemandangan kepada imej Bird Escape (BEV) untuk meningkatkan keupayaan MLLM untuk memahami adegan global. Pada masa yang sama, maklumat jalan raya perlu diwakili secara grafik, seperti yang ditunjukkan dalam Rajah 2. Atas dasar ini, maklumat pergerakan kenderaan utama diekstrak, supaya MLLM boleh memberi tumpuan kepada kawasan yang paling relevan dengan kedudukannya sendiri.
Cara memperkenalkan keupayaan penaakulan model bahasa besar ke dalam proses perancangan pemanduan autonomi dan merealisasikan sistem perancangan dengan keupayaan penaakulan akal adalah isu utama. Kaedah yang direka dalam artikel ini boleh mengambil mesej pengguna dan mesej sistem pratakrif yang mengandungi maklumat pemandangan semasa sebagai input, dan menjana kod perancang model pemandu pintar (IDM) melalui berbilang pusingan penaakulan dalam rantaian pemikiran hierarki. Hasilnya, PlanAgent boleh membenamkan keupayaan penaakulan yang berkuasa MLLM ke dalam tugas perancangan pemanduan autonomi melalui pembelajaran kontekstual.
Antaranya, mesej pengguna termasuk pengekodan BEV dan maklumat pergerakan kenderaan sekeliling yang diekstrak berdasarkan perwakilan graf. Mesej sistem termasuk definisi tugas, pengetahuan akal dan langkah rantai pemikiran, seperti yang ditunjukkan dalam Rajah 3. . . Dalam PlanAgent, pengekoran kereta, garis tengah, had laju, pecutan maksimum dan kod parameter nyahpecutan maksimum akan dijana, dan kemudian pecutan serta-merta dalam adegan tertentu akan dijana oleh IDM, dan akhirnya trajektori akan dijana.
2.3 Modul Refleksi
Melalui kedua-dua modul di atas, keupayaan pemahaman dan penaakulan MLLM tentang adegan diperkukuh. Walau bagaimanapun, ilusi MLLM masih menimbulkan cabaran kepada keselamatan pemanduan autonomi. Diilhamkan oleh proses membuat keputusan manusia "berfikir dua kali sebelum melompat", artikel ini menambah mekanisme refleksi pada reka bentuk algoritma. Simulasikan perancang yang dijana oleh MLLM dan nilai skor pemanduan perancang melalui penunjuk seperti kemungkinan perlanggaran, jarak memandu dan keselesaan. Apabila skor lebih rendah daripada ambang tertentu τ, ini menunjukkan bahawa perancang yang dijana oleh MLLM adalah tidak mencukupi dan MLLM akan diminta untuk menjana semula perancang.
3 Eksperimen dan keputusan3.1 Eksperimen Utama
Keputusan yang kompetitif: Pada penanda aras senario biasa val14, PlanAgent mengatasi prestasi berasaskan peraturan, berasaskan pembelajaran dan kaedah berasaskan model bahasa besar yang lain, mencapai yang terbaik dalam kedua-dua skor NR-CLS dan R-CLS.
Jadual 2 Perbandingan token yang digunakan oleh kaedah yang berbeza untuk menerangkan senario
Pada masa yang sama, PlanAgent menggunakan lebih sedikit kaedah berasaskan Jadual 2, seperti yang ditunjukkan dalam model yang lain mungkin hanya memerlukan GPT 1/3 daripada -Driver[5] atau LLM-ASSIST[6]. Ini menunjukkan bahawa PlanAgent boleh menerangkan adegan dengan lebih berkesan dengan token yang lebih sedikit. Ini amat penting untuk penggunaan model bahasa besar sumber tertutup.
Jadual 4 Eksperimen ablasi bahagian yang berbeza dalam rantaian pemikiran hierarki
Seperti yang ditunjukkan dalam Jadual 3 dan Jadual 4, kertas kerja ini menjalankan eksperimen ablasi pada bahagian berlainan modul pengekstrakan maklumat adegan, dan modul penaakulan. dan eksperimen membuktikan Keberkesanan dan keperluan modul individu. Pemahaman MLLM tentang adegan boleh dipertingkatkan melalui imej BEV dan perwakilan graf, dan keupayaan penaakulan MLLM untuk adegan itu boleh dipertingkatkan melalui rantaian pemikiran hierarki.
Jadual 5 Eksperimen PlanAgent pada model bahasa yang berbeza
Pada masa yang sama, seperti yang ditunjukkan dalam Jadual 5, artikel ini menggunakan beberapa model bahasa besar sumber terbuka untuk ujian. Keputusan eksperimen menunjukkan bahawa pada penanda aras Test-hard NR-CLS, PlanAgent menggunakan model bahasa besar yang berbeza masing-masing boleh mencapai 4.1%, 5.1% dan 6.7% markah pemanduan lebih tinggi daripada PDM-Closed. Ini menunjukkan keserasian PlanAgent dengan pelbagai model bahasa besar berbilang modal.
PDM memilih lorong luar sebagai garis tengah, dan kenderaan memandu di lorong luar dan tersangkut apabila kenderaan bercantum. PlanAgent menentukan bahawa kenderaan sedang bergabung, mengeluarkan arahan perubahan lorong kiri yang munasabah, dan menjana tindakan sisi untuk memilih lorong dalam bulatan sebagai garis tengah, dan kenderaan itu memandu di lorong dalam.
Adegan parkir garisan perhentian persimpangan
PDM memilih kategori lampu isyarat sebagai kategori berikut kereta. PlanAgent mengeluarkan arahan yang munasabah dan memilih garisan berhenti sebagai kategori mengikut kereta.
Kertas kerja ini mencadangkan rangka kerja perancangan gelung tertutup berasaskan MLLM baharu untuk pemanduan autonomi, dipanggil PlanAgent. Kaedah ini memperkenalkan modul pengekstrakan maklumat tempat kejadian untuk mengekstrak imej BEV dan mengekstrak maklumat gerakan kenderaan di sekeliling berdasarkan perwakilan graf jalan. Pada masa yang sama, modul penaakulan dengan struktur hierarki dicadangkan untuk membimbing MLLM memahami maklumat adegan, menjana arahan gerakan dan akhirnya menjana kod perancang. Selain itu, PlanAgent juga meniru pembuatan keputusan manusia untuk refleksi, dan merancang semula apabila skor trajektori lebih rendah daripada ambang untuk meningkatkan keselamatan membuat keputusan. Ejen perancangan gelung tertutup pemacu autonomi PlanAgent berdasarkan model besar berbilang modal telah mencapai prestasi SOTA dalam perancangan gelung tertutup pada penanda aras nuPlan.
Atas ialah kandungan terperinci Ke arah 'Gelung Tertutup' |. PlanAgent: SOTA baharu untuk perancangan gelung tertutup pemanduan autonomi berdasarkan MLLM!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!