中国科学院オートメーション研究所の深層強化学習チームは、Li Autoらと協力して、マルチモーダル大規模言語モデルMLLM - PlanAgentに基づく自動運転のための新しい閉ループ計画フレームワークを提案しました。この手法は、シーンの鳥瞰図とグラフベースのテキスト プロンプトを入力として受け取り、マルチモーダル大規模言語モデルのマルチモーダル理解機能と常識推論機能を利用して、シーンの理解から生成までの階層的推論を実行します。水平移動と垂直移動の指示を作成し、プランナーが必要とする指示をさらに生成します。このメソッドは、大規模で困難な nuPlan ベンチマークでテストされており、実験では、PlanAgent が通常のシナリオとロングテール シナリオの両方で最先端 (SOTA) のパフォーマンスを達成することが示されています。従来の大規模言語モデル (LLM) 方式と比較して、PlanAgent に必要なシーン記述トークンの量はわずか約 1/3 です。
論文情報
自動運転のコアモジュールの1つとして、目標動作計画の基本は、安全性と快適性を実現する最適な軌道を生成することです。 PDM [1] アルゴリズムなどのルールベースのアルゴリズムは、一般的なシナリオの処理ではうまく機能しますが、より複雑な運転操作 [2] を必要とするロングテール シナリオに対処するのは困難なことがよくあります。学習ベースのアルゴリズム [2、3] はロングテールの状況でオーバーフィットすることが多く、その結果、nuPlan のパフォーマンスはルールベースの手法である PDM ほど良くありません。
最近、大規模な言語モデルの開発により、自動運転計画の新たな可能性が開かれました。最近の研究の中には、大規模な言語モデルの強力な推論機能を使用して、自動運転アルゴリズムの計画および制御機能を強化しようとするものもあります。しかし、いくつかの問題が発生しました。(1) 実験環境は、実際の閉鎖環境シナリオに基づいていませんでした。(2) マップの詳細や動作ステータスを表すために多数の座標番号が使用され、必要なトークンの数が大幅に増加しました。 (3) ) 大規模な言語モデルから直接軌道点を生成しても安全性を確保することは困難である。上記の課題に対処するために、この文書では PlanAgent 方式を提案します。
MLLM に基づく閉ループ計画エージェントの PlanAgent フレームワークを図 1 に示します。この論文では、自動運転における複雑な問題を解決するための 3 つのモジュールを設計しています:
図 1 シーン情報抽出・推論・反映モジュールを含む PlanAgent の全体フレームワーク
大規模言語モデルのプロンプトワード (プロンプト) が出力を生成品質は重要な影響を及ぼします。 MLLM の生成品質を向上させるために、シーン情報抽出モジュールはシーン コンテキスト情報を抽出し、それを鳥瞰図 (BEV) 画像とテキスト表現に変換して、MLLM の入力と一致させることができます。まず、この論文では、MLLM の地球規模のシーンを理解する能力を強化するために、シーン情報を Bird Escape (BEV) 画像に変換します。同時に、図 2 に示すように、道路情報をグラフィックで表現する必要があります。これに基づいて、主要な車両の動き情報が抽出されるため、MLLM は自身の位置に最も関連するエリアに焦点を当てることができます。
図 2 グラフ表現に基づくテキスト プロンプトの説明
大規模言語モデルの推論能力を自動運転計画プロセスにどのように導入し、常識的な推論能力を備えた計画システムを実現するかが重要な課題です。この記事で設計された方法は、現在のシーン情報と事前定義されたシステム メッセージを含むユーザー メッセージを入力として受け取り、階層的思考チェーンにおける複数回の推論を通じてインテリジェント ドライバー モデル (IDM) のプランナー コードを生成できます。その結果、PlanAgent はコンテキスト学習を通じて、MLLM の強力な推論機能を自動運転計画タスクに組み込むことができます。
このうち、ユーザーメッセージには、BEVエンコーディングとグラフ表現に基づいて抽出された周囲車両の運動情報が含まれます。システム メッセージには、図 3 に示すように、タスク定義、常識知識、思考チェーン ステップが含まれます。
図 3 システム プロンプト テンプレート
プロンプト情報を取得した後、MLLM は、シーンの理解、モーション命令、コード生成の 3 つのレベルから現在のシーンについて推論し、最終的にプランナーのコードを生成します。 。 PlanAgentでは、追従車線、センターライン、制限速度、最大加速度、最大減速度のパラメータコードを生成し、IDMによりあるシーンにおける瞬間加速度を生成し、最終的に軌跡を生成します。
上記の 2 つのモジュールを通じて、MLLM のシーンの理解と推論能力が強化されます。しかし、MLLM の幻想は依然として自動運転の安全性に課題をもたらしています。この記事は、「飛びつく前によく考える」という人間の意思決定プロセスにヒントを得て、アルゴリズム設計に反映メカニズムを追加しています。 MLLM によって生成されたプランナーをシミュレートし、衝突の可能性、走行距離、快適性などの指標を通じてプランナーの運転スコアを評価します。スコアがある閾値τよりも低い場合は、MLLMが生成したプランナが不適切であることを示し、MLLMに対してプランナの再生成が要求される。
この論文では、PlanAgent のパフォーマンスを評価するために、大規模なリアル シーン用の閉ループ プランニング プラットフォームである nuPlan [4] 上で閉ループ プランニング実験を実施します。次のように。
表 1 nuPlan の val14 およびテストハード ベンチマークでの PlanAgent と他のアルゴリズムの比較
表 1 に示すように、この記事では PlanA を提案します紳士と比較してください最先端のアルゴリズムの 3 つのカテゴリと、nuPlan の 2 つのベンチマーク、val14 および test-hard でのテスト。 PlanAgent は、他の方法と比較して、競争力があり、一般化可能な結果を示します。
表 2 シナリオを記述するためにさまざまなメソッドで使用されるトークンの比較
同時に、表 2 に示すように、PlanAgent は他の大規模なモデルベースのメソッドよりも少ないトークンを使用します。おそらく -Driver[5] または LLM-ASSIST[6] の GPT 1/3 のみが必要です。これは、PlanAgent がより少ないトークンでより効果的にシーンを記述できることを示しています。これは、クローズドソースの大規模言語モデルを使用する場合に特に重要です。
表 3 シーン抽出モジュールのさまざまな部分のアブレーション実験
表 4 階層的思考連鎖のさまざまな部分のアブレーション実験
表 3 と表 4 に示すように、この論文では、シーン情報抽出モジュールと推論モジュールのさまざまな部分でアブレーション実験を実施しました。そして実験により、個々のモジュールの有効性と必要性が証明されました。 MLLM のシーンの理解は、BEV 画像とグラフ表現を通じて強化でき、MLLM のシーンに対する推論能力は、階層的思考チェーンを通じて強化できます。
表 5 さまざまな言語モデルでの PlanAgent の実験
同時に、表 5 に示すように、この記事ではテストにいくつかのオープンソースの大規模言語モデルを使用します。実験結果は、テストハード NR-CLS ベンチマークで、さまざまな大規模言語モデルを使用した PlanAgent が、PDM-Closed よりもそれぞれ 4.1%、5.1%、および 6.7% 高い運転スコアを達成できることを示しています。これは、PlanAgent とさまざまなマルチモーダル大規模言語モデルとの互換性を示しています。
PDM は外側の車線を中心線として選択し、車両は外側の車線を走行し、車両が合流するときに立ち往生します。 PlanAgent は車両が合流中であると判断し、適切な左車線変更コマンドを出力し、ロータリーの内側車線を中心線として選択する横方向のアクションを生成し、車両は内側車線を走行します。
交差点停止線の駐車シーン
PDMは、車追従カテゴリとして信号機カテゴリを選択しました。 PlanAgent は合理的な指示を出力し、車両追従タイプとして停止線を選択します。
この論文では、PlanAgent と呼ばれる、自動運転用の新しい MLLM ベースの閉ループ計画フレームワークを提案します。この方法では、シーン情報抽出モジュールを導入して、BEV画像を抽出し、道路のグラフ表現に基づいて周囲の車両の運動情報を抽出します。同時に、MLLM がシーン情報を理解し、モーション命令を生成し、最終的にプランナー コードを生成するように導く、階層構造を備えた推論モジュールが提案されています。さらに、PlanAgent は人間の意思決定を模倣して反映し、軌道スコアがしきい値を下回った場合に再計画を行うことで、意思決定の安全性を高めます。マルチモーダル大規模モデルに基づく自動運転閉ループ計画エージェント PlanAgent は、nuPlan ベンチマークで閉ループ計画における SOTA パフォーマンスを達成しました。
以上が「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。