Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian-AI-php.cn

Memperkenalkan pembelajaran peneguhan padat dan menggunakan AI untuk mengesahkan AI.

Kemajuan pesat dalam teknologi kenderaan autonomi (AV) menyebabkan kita berada di puncak revolusi pengangkutan pada skala yang tidak pernah dilihat sejak kemunculan automobil satu abad yang lalu. Teknologi pemanduan autonomi berpotensi meningkatkan keselamatan lalu lintas, mobiliti dan kemampanan dengan ketara, dan oleh itu telah menarik perhatian industri, agensi kerajaan, organisasi profesional dan institusi akademik.

Pembangunan kenderaan autonomi telah berkembang pesat sejak 20 tahun yang lalu, terutamanya dengan kemunculan pembelajaran mendalam. Menjelang 2015, syarikat mula mengumumkan bahawa mereka akan mengeluarkan AV secara besar-besaran menjelang 2020. Tetapi setakat ini, tiada AV tahap 4 tersedia di pasaran.

Terdapat banyak sebab untuk fenomena ini, tetapi yang paling penting ialah prestasi keselamatan kereta pandu sendiri masih jauh lebih rendah daripada pemandu manusia. Bagi pemandu purata di Amerika Syarikat, kebarangkalian perlanggaran dalam persekitaran pemanduan semula jadi (NDE) adalah lebih kurang 1.9 × 10^−6 setiap batu. Sebagai perbandingan, kadar pengasingan untuk kenderaan autonomi tercanggih ialah kira-kira 2.0 × 10^−5/batu, menurut Laporan Pengasingan 2021 California.

Nota: Kadar pelepasan ialah penunjuk penting untuk menilai kebolehpercayaan pemanduan autonomi. Ia menerangkan bilangan kali sistem memerlukan pemandu mengambil alih setiap 1,000 batu operasi. Lebih rendah kadar pengasingan sistem, lebih baik kebolehpercayaan. Apabila kadar pengasingan adalah sama dengan 0, ini bermakna sistem pemanduan autonomi telah mencapai tahap tanpa pemandu sedikit sebanyak.

Walaupun kadar pelepasan boleh dikritik kerana berat sebelah, ia telah digunakan secara meluas untuk menilai prestasi keselamatan kenderaan autonomi.

Hambatan utama dalam meningkatkan prestasi keselamatan kenderaan autonomi ialah kecekapan rendah dalam pengesahan keselamatan. Pada masa ini popular untuk menguji ujian tidak merosakkan kenderaan autonomi melalui gabungan simulasi perisian, trek ujian tertutup dan ujian jalan. Akibatnya, pemaju AV mesti menanggung kos ekonomi dan masa yang besar untuk penilaian, menghalang kemajuan penggunaan AV.

Mengesahkan prestasi keselamatan AV dalam persekitaran NDE adalah sangat kompleks. Sebagai contoh, persekitaran pemanduan adalah kompleks dalam ruang dan masa, jadi pembolehubah yang diperlukan untuk mentakrifkan persekitaran tersebut adalah berdimensi tinggi. Apabila dimensi pembolehubah meningkat secara eksponen, begitu juga dengan kerumitan pengiraan. Dalam kes ini, model pembelajaran mendalam sukar dipelajari walaupun diberikan sejumlah besar data.

Dalam artikel ini, penyelidik dari Universiti Michigan, Ann Arbor, Universiti Tsinghua dan institusi lain mencadangkan kaedah pembelajaran tetulang mendalam (D2RL) yang padat untuk menyelesaikan cabaran ini.

Kajian ini adalah pada kulit Alam.

Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian

Alamat kertas: https://www.nature.com/articles/s41586-023-05732-2
Alamat projek: https ://github.com/michigan-traffic-lab/Dense-Deep-Reinforcement-Learning

Ijazah sarjana telah dianugerahkan selepas menulis tesis Pada masa ini, beliau ialah Penolong Profesor Tenure-Track di Jabatan Automasi, Universiti Tsinghua , Selain itu, beliau ialah Penolong Saintis Penyelidikan di Institut Penyelidikan Pengangkutan Universiti Michigan (UMTRI). Beliau menerima ijazah sarjana muda dan kedoktoran daripada Jabatan Automasi, Universiti Tsinghua, pada 2014 dan 2019, di bawah penyeliaan Profesor Zhang Yi. Dari 2017 hingga 2019, beliau merupakan pelajar kedoktoran pelawat dalam Kejuruteraan Awam dan Alam Sekitar di Universiti Michigan, belajar di bawah Profesor Henry X. Liu (pengarang yang sepadan dengan artikel ini).

Pengenalan Penyelidikan

Idea asas kaedah D2RL adalah untuk mengenal pasti dan mengalih keluar data bukan kritikal keselamatan, dan menggunakan data kritikal keselamatan untuk melatih rangkaian saraf. Memandangkan hanya sebahagian kecil data adalah kritikal keselamatan, data yang selebihnya akan padat dengan maklumat.

Berbanding dengan kaedah DRL, kaedah D2RL boleh mengurangkan dengan ketara varians anggaran kecerunan dasar dengan berbilang tertib magnitud tanpa kehilangan sifat berat sebelah. Pengurangan varians yang ketara ini boleh membolehkan rangkaian saraf mempelajari dan menyelesaikan tugasan yang sukar dikawal untuk kaedah DRL.

Untuk ujian AV, penyelidikan ini menggunakan kaedah D2RL untuk melatih kenderaan latar belakang (BV) melalui rangkaian saraf untuk mengetahui masa untuk melakukan operasi lawan, bertujuan untuk meningkatkan kecekapan ujian. D2RL boleh mengurangkan perbatuan ujian yang diperlukan untuk AV dengan berbilang susunan magnitud dalam persekitaran ujian lawan berasaskan AI sambil memastikan ujian tidak berat sebelah.

Kaedah D2RL boleh digunakan pada persekitaran pemanduan yang kompleks, termasuk berbilang lebuh raya, persimpangan dan bulatan, yang tidak boleh dilakukan dengan kaedah berasaskan senario sebelumnya. Selain itu, kaedah yang dicadangkan dalam kajian ini boleh mewujudkan persekitaran ujian pintar yang menggunakan AI untuk mengesahkan AI. Ini adalah anjakan paradigma yang membuka pintu untuk ujian dipercepatkan dan latihan sistem kritikal keselamatan yang lain.

Untuk membuktikan bahawa kaedah ujian berasaskan AI berkesan, kajian ini melatih BV menggunakan set data pemanduan sebenar berskala besar, dan menjalankan eksperimen simulasi dan eksperimen lapangan pada trek ujian fizikal seperti berikut Rajah 1 ditunjukkan.

Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian

Pembelajaran Peneguhan Dalam Padat

Untuk memanfaatkan teknologi AI, kajian ini merumuskan masalah ujian AV sebagai Proses Keputusan Markov ( MDP), Operasi BV ditentukan berdasarkan maklumat status semasa. Kajian ini bertujuan untuk melatih dasar (ejen DRL) yang dimodelkan oleh rangkaian saraf yang mengawal tindakan BV berinteraksi dengan AV untuk memaksimumkan kecekapan penilaian dan memastikan tidak berat sebelah. Walau bagaimanapun, seperti yang dinyatakan di atas, disebabkan oleh batasan dimensi dan kerumitan pengiraan, adalah sukar atau bahkan mustahil untuk mempelajari dasar yang berkesan jika kaedah DRL digunakan secara langsung.

Memandangkan kebanyakan negeri tidak kritikal dan tidak boleh memberikan maklumat untuk peristiwa kritikal keselamatan, D2RL memfokuskan pada mengalih keluar data daripada keadaan tidak kritikal ini. Untuk masalah ujian AV, banyak metrik keselamatan boleh dimanfaatkan untuk mengenal pasti keadaan kritikal dengan kecekapan dan keberkesanan yang berbeza-beza. Metrik kritikal yang digunakan dalam kajian ini ialah anggaran luaran kadar perlanggaran AV dalam rangka masa tertentu keadaan semasa (cth., 1 saat). Kajian itu kemudiannya mengedit proses Markov, membuang data untuk keadaan tidak kritikal dan menggunakan data yang tinggal untuk anggaran kecerunan dasar dan Bootstrap untuk latihan DRL.

Seperti yang ditunjukkan dalam Rajah 2 di bawah, berbanding DRL, kelebihan D2RL ialah ia dapat memaksimumkan ganjaran semasa proses latihan.

Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian

Ujian Simulasi AV

Untuk menilai ketepatan, kecekapan, kebolehskalaan dan keumuman kaedah D2RL, kajian ini telah dijalankan simulasi ujian. Bagi setiap set ujian, kajian mensimulasikan jarak perjalanan trafik yang tetap dan kemudian merekod dan menganalisis keputusan ujian, seperti yang ditunjukkan dalam Rajah 3 di bawah.

Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian

Untuk mengkaji lebih lanjut skalabiliti dan generalisasi D2RL, kajian ini menjalankan model AV-I dengan nombor lorong yang berbeza (2 lorong dan 3 lorong) dan jarak pemanduan (400 m, 2 km, 4 km dan 25 km) eksperimen. Artikel ini mengkaji perjalanan 25 kilometer kerana purata komuter di Amerika Syarikat bergerak lebih kurang 25 kilometer sehala. Keputusan ditunjukkan dalam Jadual 1:

Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian

Atas ialah kandungan terperinci Pembelajaran pengukuhan berada pada kulit Alam semula jadi, dan paradigma baharu pengesahan keselamatan pemanduan berautonomi dengan ketara mengurangkan jarak tempuh ujian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!