ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。-AI-php.cn

前に書いてあり、著者の個人的な理解

大規模な言語モデルは、インテリジェントな運転の新しいパターンを切り開き、人間のような思考と認知能力を与えます。この記事では、自動運転 (AD) における大規模言語モデル (LLM) の可能性について詳しく説明します。そこでシミュレーション環境で閉ループ自動運転を実現できるLLMベースのADフレームワークであるDriveMLMが提案されている。具体的には次の点があります:

(1) この記事は、既製の動作計画モジュールに基づいて意思決定状態を標準化することで、言語意思決定と車両制御コマンドの間のギャップを埋めます。
(3) 効果的なデータエンジンは、データセットを収集するように設計されています。セットには意思決定が含まれます。モデルのトレーニングと評価のための状態と、対応する解釈可能な注釈。

最後に、DriveMLM について広範な実験を実施しました。その結果、DriveMLM は CARLA Town05 Long で 76.1 の運転スコアを達成し、同じ設定下で Apollo のベースラインを 4.7 ポイント上回ったことがわかり、DriveMLM の有効性が証明されました。。この研究が LLM 自動運転のベースラインとして機能することを願っています。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

DriveMLM の関連紹介

図 1b に示すように、近年、自動運転 (AD) は大幅に進歩しました。事前知識によって提供される事前定義されたルールセットに依存する従来のルールベースのシステム (図 1a を参照) は、データ駆動型のエンドツーエンドシステムに進化します。これらのシステムは進歩しているにもかかわらず、専門知識の限界やトレーニングデータの多様性により、依然として限界に直面しています。このため、コーナーの状況に対処することが困難になりますが、人間のドライバーはこれらの状況に直感的に対処できると感じるかもしれません。これらの従来のルールベースまたはデータ駆動型の AD プランナーと比較して、Web スケールのテキストコーパスを使用してトレーニングされた大規模言語モデル (LLM) は、広範な世界知識、堅牢な論理的推論、および高度な認知機能を備えています。これらの機能により、彼らは AD システムの潜在的なプランナーとして位置づけられ、自動運転への人間のようなアプローチが提供されます。

最近の研究では、LLM を AD システムに統合し、シナリオを推進するための言語ベースの意思決定を生成することに焦点を当てています。ただし、これらの方法には、現実世界の環境または実際のシミュレーションで閉ループ駆動を実行する場合には制限があります。これは、LLM の出力は主に言語と概念であり、車両制御には使用できないためです。従来のモジュラーADシステムでは、高レベルの戦略目標と低レベルの制御動作の間のギャップは動作計画モジュールを通じて接続され、このモジュールの意思決定状態は、その後の動作計画と実行を通じて車両制御信号に簡単に変換できます。コントロール。これにより、LLM を行動計画モジュールの意思決定状態に合わせて調整し、調整された LLM を動作計画に使用して、現実世界の環境または現実的なシミュレーション環境。

これに基づいて、現実的なシミュレーション環境で閉ループ自動運転を実現できる初の LLM ベースの AD フレームワークである DriveMLM を提案しました。これを達成するために、私たちは 3 つの主要な設計を行っています。 (1) Apollo システムの行動計画モジュールの意思決定状態を研究し、それらを LLM が簡単に処理できる形式に変換します。 (2) マルチビュー画像、LIDAR 点群、交通ルール、システムメッセージ、ユーザー指示を含む現在のマルチモーダル入力を受け入れ、意思決定状態を予測できるマルチモーダル LLM (MLLM) プランナーが開発されます。行動計画と状態の調整のための十分なトレーニングデータが必要なため、CARLA で 280 時間の運転データを手動で収集し、効率的なデータエンジンを通じて意思決定状態と対応する説明の注釈に変換しました。これらの設計を通じて、運転シナリオとユーザーのニーズに基づいて意思決定を行うことができる MLLM プランナーを得ることができ、その決定は閉ループ運転のための車両制御信号に簡単に変換できます。

DriveMLM には次の利点があります: (1) 一貫した意思決定状態のおかげで、DriveMLM は既存のモジュラー AD システム (Apollo など) と簡単に統合でき、大きな変更や変更を加えることなく閉ループ駆動を実現できます。修正。 (2) 言語命令を入力として受け取ることにより、私たちのモデルはユーザーのニーズ (例: 車の追い越し) と高レベルのシステムメッセージ (例: 基本的な運転ロジックの定義) を処理できます。これにより、DriveMLM はより柔軟になり、さまざまな運転状況やカーブに適応できるようになります。 (3) 解釈可能性を提供し、さまざまな決定を説明できます。これにより、モデルのアクションと選択をユーザーに説明できるため、モデルの透明性と信頼性が高まります。

要約すると、DriveMLM の主な貢献は次のとおりです。

LLM と閉ループ運転の間のギャップを橋渡しする、LLM に基づく AD フレームワークを提案します。
このフレームワークを実装するために、LLM で簡単に処理できる形式で一連の意思決定状態をカスタマイズし、意思決定予測用の MLLM プランナーを設計し、意思決定状態と対応する説明を効率的に実行できるデータエンジンを開発しました。注釈はモデルのトレーニングと評価のために自動的に生成されます。
DriveMLM の有効性を検証するために、運転スコア (DS) や介入ごとのマイル数 (MPI) などの閉ループ運転指標に基づいてメソッドを評価するだけでなく、精度、F1 インデックスなどの理解指標も使用します。判定状態のBLEU-4、判定説明のCIDEr、METEOR）を用いてモデルの運転理解能力を評価します。私たちの方法では、CARLA Town05 Long で 76.1 DS、0.955 MPI の結果が得られ、これは Apollo よりも 4.7 ポイント、1.25 倍高いことは注目に値します。さらに、図 2 に示すように、救急車や交通規制などの特別な要件を言語指示で記述することで、MLLM プランナーの意思決定を変えることができます。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

概要

DriveMLM フレームワークは、大規模言語モデル (LLM) の世界の知識と推論機能を統合します。自動運転（AD）システムに組み込み、現実的なシミュレーション環境で閉ループ運転を実現します。図 3 に示すように、このフレームワークには 3 つの主要な設計があります。 (1) 行動計画の状態の調整。この部分は、LLM の言語決定出力を、Apollo などの成熟したモジュラー AD システムの動作計画モジュールと調整します。このようにして、LLM の出力を車両制御信号に簡単に変換できます。 (2)MLLMプランナー。これは、マルチモーダルマーカーとマルチモーダル LLM (MLLM) デコーダーの組み合わせです。マルチモーダルタガーは、さまざまな入力 (マルチビュー画像、LIDAR、交通ルール、ユーザー要件など) を統合タグに変換し、MLLM デコーダーは統合タグに基づいて決定を行います。 (3) 効率的なデータ収集戦略。 LLM ベースの自動運転向けにカスタマイズされたデータ収集方法を導入し、意思決定ステータス、意思決定の説明、ユーザーコマンドを含む包括的なデータセットを確保します。

推論プロセス中、DriveMLM フレームワークはマルチモーダルデータを利用して運転上の意思決定を行います。これらのデータには、サラウンド画像と点群が含まれます。システムメッセージは、タスク定義、トラフィックルール、および決定ステータス定義の集合です。これらのトークンは MLLM デコーダに入力され、対応する説明とともに決定状態トークンが生成されます。最後に、決定状態が動作計画および制御モジュールに入力されます。このモジュールは、車両制御の最終軌道を計算します。

行動計画の状態の調整

大規模言語モデル (LLM) からの言語選択を実用的な制御信号に変換することは、車両制御にとって重要です。これを達成するために、LLM の出力を、一般的な Apollo システムの行動計画モジュールの決定フェーズと調整しました。共通のアプローチに基づいて、意思決定プロセスをスピード意思決定とパス意思決定の 2 つのカテゴリに分類します。具体的には、速度決定ステータスには（維持、加速、減速、停止）が含まれ、経路決定ステータスには（追従、左変更、右変更、左ボロー、右ボロー）が含まれる。

言語モデルがこれらの状態間を正確に予測できるようにするために、表 1 のシステム情報に示すように、言語記述と決定状態の間の包括的な接続を確立します。この相関関係はシステムメッセージの一部として使用され、MLLM プランナーに統合されます。したがって、LLM が特定の状況を記述すると、予測は決定空間内の明確な決定に収束します。毎回、速度決定と経路決定が相互に推論され、動作計画フレームワークに送信されます。決定状態のより詳細な定義については、補足資料を参照してください。

MLLM プランナー

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。 DriveMLM の MLLM プランナーは、マルチモーダルトークナイザーと MLLM デコーダーの 2 つのコンポーネントで構成されています。 2 つのモジュールは緊密に連携し、さまざまな入力を処理して運転上の決定を正確に決定し、その決定に対する説明を提供します。

マルチモーダルトークナイザー。このトークナイザーは、さまざまな形式の入力を効率的に処理するように設計されています。時間ルックアラウンドイメージの場合: 時間 QFormer を使用して、タイムスタンプ -T から 0 (現在のタイムスタンプ) までのルックアラウンドイメージを処理します。 LIDAR データの場合、最初に点群を入力として Sparse Pyramid Transformer (SPT) バックボーンに入力し、LIDAR フィーチャを抽出します。システムメッセージとユーザー指示については、単純に通常のテキストデータとして扱い、LLM のトークン埋め込み層を使用して埋め込みを抽出します。

MLLM デコーダ 。デコーダは、トークン化された入力を決定状態と決定解釈に変換する中核です。この目的を達成するために、表 1 に示すように、LLM ベースの AD 用のシステムメッセージテンプレートを設計しました。見てわかるように、システムメッセージには、AD タスクの説明、トラフィックルール、決定状態の定義、および各モーダル情報がマージされる場所を示すプレースホルダーが含まれています。このアプローチにより、さまざまなモダリティやソースからの入力をシームレスに統合できます。

出力は、意思決定ステータス (表 1 の Q2 を参照) と意思決定の説明 (表 1 の Q3 を参照) を提供する形式になっているため、意思決定プロセスの透明性と明確さが提供されます。教師ありメソッドに関して、私たちのフレームワークは、次のトークンの予測でクロスエントロピー損失を使用するという一般的な手法に従っています。このようにして、MLLM プランナーは、さまざまなセンサーやソースからのデータを詳細に理解して処理し、それを適切な決定と解釈に変換することができます。

効率的なデータエンジン

CARLA シミュレーターのさまざまなシナリオから意思決定状態と説明の注釈を作成できるデータ生成パラダイムを提案します。このパイプラインは、LLM ベースの AD システムをトレーニングするための決定状態や詳細な説明が不足している既存の運転データの制限に対処できます。私たちのパイプラインは、データ収集とデータアノテーションという 2 つの主要なコンポーネントで構成されています。

データ収集は、現実的でありながら意思決定の多様性を高めるように設計されています。まず、シミュレーション環境でさまざまな挑戦的なシナリオを構築します。安全運転には複雑な運転行動が必要です。経験豊富なドライバーやエージェントなどの専門家は、多くのアクセス可能な場所の 1 つでトリガーされるこれらのシナリオを安全に運転することが求められます。特に、インタラクションデータは、専門家がランダムに運転要求を提案し、それに応じて運転するときに生成されます。専門家が安全に目的地まで運転すると、データが記録されます。

データアノテーションは主に意思決定と解釈に焦点を当てます。まず、速度と経路の決定状態は、手動で作成されたルールを使用して、専門家の運転軌跡に基づいて自動的に注釈が付けられます。次に、説明の注釈が最初にシーンに基づいて生成され、近くの現在の要素によって動的に定義されます。第三に、生成された説明アノテーションは手動アノテーションによって洗練され、その多様性は GPT-3.5 によって拡張されます。さらに、対話コンテンツは、人間の要求の実行または拒否など、人間のアノテーターによって洗練されます。このようにして、コストのかかるフレームごとの決定状態のアノテーションや、コストのかかる説明アノテーションを最初から手作業で記述することを回避し、データアノテーションプロセスを大幅にスピードアップします。

実験

データ分析

トレーニング用に 280 時間の走行データを収集しました。データには、CARLA の 8 つのマップ (Town01、Town02、Town03、Town04、Town06、Town07、Town10HD、Town12) で収集された 50 キロメートルのルートと、さまざまな天候と照明条件での 30 の運転シナリオが含まれています。平均して、各シーンには各マップ上に約 200 のトリガーポイントがあり、ランダムにトリガーされます。それぞれの状況は、運転において一般的またはまれに安全上重要な状況になります。これらのシナリオの詳細については、補足ノートに記載されています。各フレームごとに、前後左右の 4 台のカメラからの画像と、自車両の中心に追加された LIDAR センサーからの点群が収集されます。私たちが収集するすべてのデータには、シナリオをうまく前進させるための対応する解釈と正確な決定が含まれています。

表 2 は、自然言語を使用して理解を促進するために設計された以前のデータセットとの比較を示しています。私たちのデータには 2 つのユニークな特徴があります。 1 つ目は、行動計画の状態の一貫性です。これにより、MLLM プランナーの出力を制御信号に変換し、フレームワークが閉ループ運転で車両を制御できるようになります。 2 つ目は、対人インタラクションアノテーションです。人間による自然言語による指示とそれに対応する決定と解釈が特徴です。目標は、人間のコマンドを理解し、それに応じて応答する能力を向上させることです。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

閉ループ自動運転評価

最も広く使用され、現実的に公開されている CARLA で閉ループ運転を評価します。シミュレーションベンチマーク。 CARLA で閉ループ駆動を実行できる最先端の手法がパフォーマンス比較のために含まれています。オープンソースの Apollo も、ベースラインとして CARLA で評価されました。私たちのアプローチを除けば、LLM ベースのアプローチで導入と評価の準備ができていることはありません。すべてのメソッドは Town05 の長期ベンチマークで評価されます。

表 4 に、運転スコア、ルート完了スコア、および違反スコアを示します。 Apollo はルールベースのアプローチですが、そのパフォーマンスは最近のエンドツーエンドのアプローチとほぼ同等であることに注意してください。 DriveMLM は、スコアの向上において他のすべての方法よりも大幅に優れています。これは、状態遷移を処理してハードドライブを安全に通過するのに DriveMLM の方が適していることを示唆しています。表 4 の最後の列は、MPI 評価の結果を示しています。エージェントはすべてのルートを完了する必要があるため、この指標はより包括的な運転パフォーマンスを示します。言い換えれば、テスト対象のエージェントは、すべてのルート上のすべての状況に遭遇します。 Thinktwice は Interfuser よりも優れた DS を実装していますが、停止線を頻繁に横切るため MPI が低くなります。ただし、この行為に対する CARLA の罰則は最小限です。対照的に、MPI はすべての交通違反を乗っ取りとして扱います。また、DriveMLM は他のすべての方法の中で最も高い MPI を達成しており、より多くの状況を回避できるため、より安全な運転体験が得られることを示しています。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

運転知識評価

オープンループ評価を使用して、意思決定の予測タスクや説明予測タスクなどの運転知識を評価します。。表 3 は、予測された決定ペアの精度、決定によって予測された各決定タイプの F1 スコア、および予測によって説明された BLEU-4、CIDEr、および METEOR を示しています。 Apollo の場合、Town05 で手動で収集されたシーンは、表 3 のモデルへの入力として再生されます。再生の各タイムスタンプにおける対応するモデルの状態と出力は、メトリック計算の予測として保存されます。他の方法では、対応する画像を入力として提供し、適切なプロンプトを表示します。モデルの予測を手動で収集したグラウンドトゥルースと比較することで、精度によって意思決定の正しさと人間の行動との類似性が明らかになり、F1 スコアは各パスの意思決定能力と意思決定のスピードを示します。 DriveMLM は全体的に最高の精度を達成し、LLaVA の 40.97% の精度を上回りました。 Apollo ベースラインと比較して、DriveMLM はより高い F1 スコアを達成しており、さまざまな道路状況の解決においてルールベースのステートマシンよりも効果的に優れていることを示しています。 LLaVA、structBLIP、および私たちが提案する DriveMLM は、質問と回答の形式で意思決定の説明を出力できます。 BLEU-4、CIDEr、METEOR に関しては、DriveMLM が最高のパフォーマンスを達成できます。これは、DriveMLM が決定に対して最も合理的な説明を提供できることを示しています。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

アブレーション実験

センサーモダリティ: 表 5 は、DriveMLM に対する入力センサーモダリティの影響を示しています。さまざまな影響の結果。マルチビュー (MV) 画像により、パスと速度の F1 スコアの両方でパフォーマンスが大幅に向上し、精度が 18.19% 向上しました。 Temporal QFormer は、テンポラルトークンを直接接続する場合と比較して、マルチモーダルな意思決定機能を確保しながら 7.4% の向上を達成し、その結果、速度決定の平均 F1 スコアが 0.05 向上しました。点群にはパフォーマンスを向上させる機能はありません。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

ケーススタディと視覚化

人間とコンピューターの対話: 図 4 は、これを実現する方法を示しています。人間による指示車両制御の例制御プロセスには、道路状況の分析、意思決定の選択、および説明文の提供が含まれます。同じ「追い越し」コマンドが与えられると、DriveMLM は現在の交通状況の分析に基づいて異なる応答を示しました。右車線が占有されており、左車線が利用可能な状況では、システムは左からの追い越しを選択します。ただし、すべての車線が占有されている場合など、特定の指示によって危険が生じる可能性がある状況では、DriveMLM は追い越し操作を実行しないことを選択し、適切に対応します。この場合、DriveMLM は人間と車両のインタラクションのためのインターフェイスであり、最終的に行動方針を選択する前に、交通力学に基づいて指示の妥当性を評価し、事前に定義されたルールに準拠していることを確認します。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

実際のシナリオでのパフォーマンス: nuScenes データセットに DriveMLM を適用して、開発した駆動システムのゼロショットパフォーマンスをテストします。検証セットの 6019 フレームに注釈を付け、判定精度として 0.395 のゼロショットパフォーマンスを達成しました。図 5 は 2 つの実際の運転シナリオの結果を示しており、DriveMLM の多用途性を示しています。

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。

結論

この研究では、自動運転 (AD) に大規模言語モデル (LLM) を利用する新しいフレームワークである DriveMLM を提案します。 DriveMLM は、マルチモーダル LLM (MLLM) を使用してモジュラー AD システムの動作計画モジュールをモデル化することで、現実的なシミュレーション環境で閉ループ AD を実装できます。 DriveMLM は、運転上の決定について自然言語による説明を生成することもできるため、AD システムの透明性と信頼性を高めることができます。 CARLA Town05 Long ベンチマークでは、DriveMLM が Apollo ベンチマークを上回るパフォーマンスを示しました。私たちは、私たちの研究が LLM と AD の統合に関するさらなる研究を促すことができると信じています。

オープンソースリンク: https://github.com/OpenGVLab/DriveMLM

ループを閉じるために全力を尽くしてください！ DriveMLM: LLM と自動運転行動計画を完全に組み合わせます。