高密度強化学習を導入し、AI を使用して AI を検証します。
自動運転車 (AV) 技術の急速な進歩により、私たちは 1 世紀前の自動車の出現以来見られない規模の交通革命の頂点に立っています。自動運転技術は、交通安全、モビリティ、持続可能性を大幅に改善する可能性があるため、産業界、政府機関、専門機関、学術機関の注目を集めています。
自動運転車の開発は、特にディープラーニングの出現により、過去 20 年間で大きく進歩しました。 2015 年までに、企業は 2020 年までに AV を量産すると発表し始めました。しかし、今のところ、レベル 4 の AV は市場で入手できません。
この現象には多くの理由がありますが、最も重要なのは、自動運転車の安全性能が人間のドライバーの安全性能に比べて依然として大幅に低いということです。米国の平均的なドライバーの場合、自然運転環境 (NDE) での衝突の確率は 1 マイルあたり約 1.9 × 10^−6 です。比較すると、カリフォルニア州の 2021 年の離脱レポートによると、最先端の自動運転車の離脱率は約 2.0 × 10^−5/マイルです。
注: 離脱率は自動運転の信頼性を評価するための重要な指標であり、システムが 1,000 マイルの走行ごとにドライバーに運転を引き継ぐことを要求する回数を表します。システムの離脱率が低いほど、信頼性は高くなります。離脱率が0の場合は、自動運転システムがある程度無人運転のレベルに達していることを意味します。
離脱率は偏っていると批判されることもありますが、自動運転車の安全性能を評価するために広く使用されています。
自動運転車の安全性能を向上させる上での主なボトルネックは、安全検証の効率が低いことです。現在、ソフトウェア シミュレーション、クローズド テスト トラック、路上テストを組み合わせて自動運転車の非破壊検査をテストすることが一般的です。その結果、AV 開発者は評価のために多大な経済的および時間的コストを負担する必要があり、AV 展開の進行が妨げられています。
NDE 環境での AV セキュリティ パフォーマンスの検証は非常に複雑です。たとえば、運転環境は時空間的に複雑であるため、そのような環境を定義するために必要な変数は高次元になります。変数の次元が指数関数的に増加するにつれて、計算の複雑さも増加します。この場合、大量のデータが与えられたとしても、深層学習モデルを学習するのは困難です。
この記事では、ミシガン大学、アナーバー大学、清華大学などの研究者が、この課題を解決するための高密度深層強化学習 (D2RL) 手法を提案しています。
この研究は『Nature』誌の表紙に掲載されました。
研究紹介
D2RL 手法の基本的な考え方は、セーフティ クリティカルでないデータを特定して削除し、セーフティ クリティカルなデータを使用してニューラル ネットワークをトレーニングすることです。セキュリティ上重要なデータはほんの一部であるため、残りのデータには情報が非常に高密度になります。
DRL 手法と比較して、D2RL 手法は、不偏性を失うことなく、ポリシー勾配推定の分散を数桁大幅に削減できます。この大幅な分散の減少により、ニューラル ネットワークが DRL 手法では困難なタスクを学習して完了できるようになります。
AV テストでは、この研究では D2RL 手法を利用して、ニューラル ネットワークを通じてバックグラウンド ビークル (BV) をトレーニングし、いつどのような敵対的操作を実行するかを学習し、テスト効率の向上を目指しています。 D2RL は、公平なテストを保証しながら、AI ベースの敵対的テスト環境で AV に必要なテスト距離を数桁削減できます。
D2RL 手法は、以前のシナリオベースの手法では不可能であった、複数の高速道路、交差点、環状交差点などの複雑な運転環境に適用できます。さらに、本研究で提案する手法は、AIを活用してAIを検証するインテリジェントなテスト環境を構築することができます。これは、他の安全性が重要なシステムのテストやトレーニングを加速するための扉を開くパラダイム シフトです。
###本研究では、AIを活用した試験手法の有効性を証明するために、大規模な実走行データセットを用いてBVを学習させ、シミュレーション実験と物理的な試験路でのフィールド実験を実施しました。以下の図 1 を参照してください。 ###高密度深層強化学習
AI テクノロジーを活用するために、この研究では AV テスト問題をマルコフ決定プロセス (MDP) として定式化しました。 , BVの動作は現在のステータス情報に基づいて決定されます。この研究の目的は、AV と対話する BV の動作を制御するニューラル ネットワークによってモデル化されたポリシー (DRL エージェント) をトレーニングして、評価効率を最大化し、公平性を確保することです。ただし、前述したように、次元数と計算の複雑さの制限により、DRL 手法を直接適用した場合、効果的なポリシーを学習することは困難または不可能です。
ほとんどの状態は非クリティカルであり、セキュリティクリティカルなイベントに関する情報を提供できないため、D2RL はこれらの非クリティカルな状態からデータを削除することに重点を置いています。 AV テストの問題については、多くのセキュリティ メトリクスを活用して、さまざまな効率と有効性を持つ重大な状態を特定できます。この研究で利用される重大度メトリクスは、現在の状態の特定の時間フレーム (たとえば、1 秒) 内の AV 衝突率の外部近似です。次に、研究ではマルコフ プロセスを編集して非クリティカル状態のデータを破棄し、残りのデータを政策勾配推定と DRL トレーニング用のブートストラップに使用しました。
以下の図 2 に示すように、DRL と比較した D2RL の利点は、トレーニング プロセス中の報酬を最大化できることです。
AV シミュレーション テスト
D2RL 手法の精度、効率、拡張性、汎用性を評価するために、この研究ではシミュレーションを実施しました。テスト。以下の図 3 に示すように、各テスト セットについて、固定距離の交通移動をシミュレーションし、テスト結果を記録して分析しました。
D2RL のスケーラビリティと一般化をさらに研究するために、この研究では、車線数 (2 車線と 3 車線) と走行距離が異なる AV-I モデルを実施しました。 (400m、2km、4km、25km) の実験。米国の平均的な通勤者の移動距離は片道約 25 キロメートルであるため、この記事では 25 キロメートルの移動について検討します。結果を表 1 に示します。
以上が強化学習が再び Nature の表紙を飾り、自動運転の安全性検証の新しいパラダイムによりテスト走行距離が大幅に削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。