新しいタイトル: ADAPT: エンドツーエンドの自動運転の説明可能性の予備調査-AI-php.cn

この記事は自動運転ハート公式アカウントの許可を得て転載しておりますので、転載については転載元にご連絡ください。

著者の個人的な考え

エンドツーエンドは今年非常に人気のある方向性であり、今年の CVPR 最優秀論文も受賞しました。ただし、エンドツーエンドには、解釈可能性の低さ、収束トレーニングの難しさなど、多くの問題もあります。エンドツーエンドの解釈可能性を共有します。最新の説明作品は ADAPT です。このメソッドは、Transformer アーキテクチャに基づいており、マルチタスクの共同トレーニングを通じて、車両の動作の説明と各決定の推論をエンドツーエンドで出力します。 ADAPT に関する著者の考えの一部は次のとおりです:

ここでは、ビデオの 2D 特徴を使用した予測を示します。2D 特徴を 2D 特徴に変換した後、効果がより良くなる可能性があります。 bev 機能です。
LLM と組み合わせると、効果がさらに高まる可能性があります。たとえば、テキスト生成部分は LLM に置き換えられます。
現在の作業は、歴史的なビデオを入力として使用することです。予測されたアクションとその説明も歴史的なものです。将来のアクションとそのアクションに対応する原因を予測することの方が意味があるかもしれません。
画像をトークン化したトークンは少し多すぎます。役に立たない情報がたくさんあるかもしれません。Token-Learner を試してみるとよいでしょう。

出発点は何ですか?

エンドツーエンドの自動運転は運輸業界において大きな可能性を秘めており、現在この分野の研究が盛んに行われています。例えば、CVPR2023の最優秀論文であるUniADは、エンドツーエンドの自動運転を行っています。しかし、自動化された意思決定プロセスの透明性と説明可能性の欠如は、その発展を妨げるでしょう結局のところ、道路を走行する実際の車両にとって安全性は最優先事項です。モデルの解釈可能性を向上させるためにアテンションマップやコストボリュームを使用するという初期の試みがいくつかありましたが、これらの方法を理解するのは困難です。したがって、この研究の出発点は、意思決定を説明するわかりやすい方法を見つけることです。下の図はいくつかの方法を比較したものですが、明らかに言葉で見た方が理解しやすいです。

新しいタイトル: ADAPT: エンドツーエンドの自動運転の説明可能性の予備調査

ADAPT の利点は何ですか?

車両の動作の説明と各決定の理由をエンドツーエンドで出力できます;
この方法は、変圧器ネットワーク構造に基づいており、次のように組み合わせられます。トレーニング;
BDD-X (Berkeley DeepDrive eXplanation) データセットで SOTA 効果を達成;
実際のシナリオでシステムの有効性を検証するために、展開可能な一連のこのシステムは、オリジナルのビデオを入力し、アクションの説明と推論をリアルタイムで出力できます。

##エフェクト表示

＃効果は依然として非常に優れており、特に3番目の暗い夜のシーン、信号機が注目されました。新しいタイトル: ADAPT: エンドツーエンドの自動運転の説明可能性の予備調査

この分野の現在の進捗状況

ビデオキャプション

ビデオ説明の主な目的は、特定のビデオを次の形式で説明することです。自然言語オブジェクトとその関係。初期の研究では、特定の要素を固定テンプレートに埋め込むことで、特定の構文構造を持つ文が生成されていましたが、柔軟性に欠け、豊かさに欠けていました。

柔軟な構文構造を持つ自然な文を生成するために、いくつかの方法ではシーケンス学習技術を使用します。具体的には、これらのメソッドはビデオエンコーダを使用して特徴を抽出し、言語デコーダを使用して視覚的なテキストの配置を学習します。説明をより豊かにするために、これらのメソッドはオブジェクトレベルの表現も利用して、ビデオ内で詳細なオブジェクト認識インタラクション機能を取得します。

既存のアーキテクチャは一般的なビデオキャプションの方向で一定の結果を達成しましたが、アクションに直接適用することはできません。なぜなら、単純にビデオの説明を自動運転アクションの表現に転送すると、自動運転タスクにとって重要な車速などの重要な情報が失われるからです。このマルチモーダルな情報を効果的に利用して文章を生成する方法はまだ研究中です。 PaLM-E は、マルチモーダルな文で優れた仕事をします。

エンドツーエンドの自動運転

学習ベースの自動運転は、活発な研究分野です。最近の CVPR2023 の最優秀論文である UniAD (その後の FusionAD を含む)、および Wayve の World モデルベースの作品 MILE はすべて、この方向の研究です。出力形式には、UniAD のような軌道ポイントと、MILE のような直接の車両動作が含まれます。

さらに、車両、自転車、歩行者などの交通参加者の将来の行動をモデル化して車両のウェイポイントを予測する方法もあれば、センサー入力から直接車両の制御を予測する方法もあります。この作業の予測サブタスク

自動運転の解釈可能性

自動運転の分野では、ほとんどの解釈可能方法は視覚に基づいており、一部は LiDAR の作業に基づいています。一部の方法では、アテンションマップを利用して重要でない画像領域を除外し、自動運転車の動作が合理的で説明可能に見えるようにします。ただし、アテンションマップには、それほど重要ではない領域が含まれる場合があります。 LIDAR と高精度地図を入力として使用し、他の交通参加者の境界ボックスを予測し、オントロジーを利用して意思決定推論プロセスを説明する方法もあります。さらに、HD マップへの依存を減らすために、セグメンテーションを通じてオンラインマップを構築する方法もあります。ビジョンまたは LIDAR ベースの方法では良好な結果が得られますが、口頭での説明が不足しているため、システム全体が複雑で理解しにくいように見えます。研究では、ビデオの特徴をオフラインで抽出して制御信号を予測し、ビデオ説明のタスクを実行することで、自動運転車のテキスト解釈の可能性を初めて調査しています。

自動運転におけるマルチタスク学習

このエンドツーエンドのフレームワークは、マルチタスク学習を使用して、テキスト生成と予測制御信号の 2 つのタスクでモデルを共同トレーニングします。マルチタスク学習は自動運転に広く使用されています。データ活用の向上と機能の共有により、異なるタスクを共同トレーニングすることで各タスクのパフォーマンスが向上するため、本研究では制御信号予測とテキスト生成の 2 つのタスクの共同トレーニングを使用します。

ADAPT メソッド

次はネットワーク構造図です。

新しいタイトル: ADAPT: エンドツーエンドの自動運転の説明可能性の予備調査

全体構造は 2 つに分かれていますタスク:

運転キャプション生成 (DCG): ビデオを入力し、2 つの文を出力します。最初の文は車の動作を説明し、2 番目の文はこの動作を実行する理由を説明します。信号が青になったため、車は加速しています。"
制御信号予測 (CSP): 同じビデオを入力し、速度、方向、加速度などの一連の制御信号を出力します。

そのうち、DCG と CSP の 2 つのタスクはビデオエンコーダーを共有しますが、異なる予測ヘッドを使用して異なる最終出力を生成します。

DCG タスクでは、ビジョン言語変換エンコーダーを使用して 2 つの自然言語文を生成します。

CSP タスクの場合、モーション変換エンコーダを使用して制御信号のシーケンスを予測します

ビデオエンコーダ

ビデオスイングトランスフォーマは、ここで入力に使用されます。ビデオフレームはビデオ特徴トークンに変換されます。

Input zhenimage、形状は、フィーチャのサイズは、ここではフィーチャの寸法ですチャネル .

予測ヘッド

テキスト生成ヘッド

上記の機能はトークン化後に取得されます。寸法のビデオトークンを作成し、MLP を使用してテキストトークンの埋め込みに合わせて寸法を調整し、テキストトークンとビデオトークンを一緒にビジョンにフィードします。アクションを生成するための言語変換エンコーダ説明と推論。

制御信号予測ヘッド

は、入力フレームビデオに対応します。制御信号の出力があります。 CSP ヘッド Yes 。各制御信号は必ずしも 1 次元である必要はなく、速度、加速度、方向などを同時に含むなど、多次元にすることもできます。ここでのアプローチは、ビデオ特徴をトークン化し、モーショントランスフォーマーを通じて一連の出力信号を生成することです。損失関数は MSE、

新しいタイトル: ADAPT: エンドツーエンドの自動運転の説明可能性の予備調査

であることに注意してください。いいえ最初のフレームでは動的情報が少なすぎるため、最初のフレームが含まれます

共同トレーニング

このフレームでは、共有ビデオエンコーダのため、実際にはCSP と DCG の 2 つのタスクがビデオ表現のレベルで連携していると仮定しました。出発点は、動作記述と制御信号の両方がきめ細かい車両動作の異なる表現であり、動作推論の説明は主に車両動作に影響を与える運転環境に焦点を当てているということです。

共同トレーニングをトレーニングに使用する

新しいタイトル: ADAPT: エンドツーエンドの自動運転の説明可能性の予備調査

共同トレーニングの場所ですが、推論中に独立して実行できることに注意してください。CSP タスクわかりやすいフローチャートに従って映像を直接入力して制御信号を出力するだけ DCGタスクは映像を直接入力して説明と推論を出力テキストの生成は自己回帰手法に基づいており、ワードごとに行われる[CLS ] の単語が [SEP] で終わるか、長さのしきい値に達しています。

実験計画と比較

データセット

使用されたデータセットは BDD-X です。このデータセットには 7000 セグメントが含まれています。ビデオ信号と制御信号。各ビデオの長さは約 40 秒、画像サイズは、周波数は FPS です。各ビデオには、加速、右折、合流などの 1 ～ 5 つの車両の動作が含まれています。これらのアクションはすべて、アクションの説明 (例: 「車が停止した」) や推論 (例: 「信号が赤だから」) を含むテキストで注釈が付けられます。合計で約 29,000 の動作アノテーションのペアがあります。

具体的な実装の詳細

ビデオ swin トランスフォーマーは Kinetics-600 で事前トレーニングされています
ビジョン言語トランスフォーマーとモーショントランスフォーマーはランダムです初期化された
には固定ビデオ swin パラメーターがないため、全体がエンドツーエンドのトレーニングになります。
入力ビデオフレームサイズはサイズ変更およびトリミングされ、ネットワークへの最終入力となります。は 224x224
説明と推論には、単語全体ではなく WordPiece 埋め込み [75] を使用します (例: 「stops」は「stop」と「#s」に切り取られます)。各文の最大長は次のとおりです。 15
トレーニング中、マスクされた言語モデリングはトークンの 50% をランダムにマスクします。各マスクトークンには [MASK] トークンになる確率が 80%、単語がランダムに選択される確率が 10% あります。残りの 10% の確率は変わりません。
AdamW オプティマイザーが使用されており、トレーニングステップの最初の 10% にはウォームアップメカニズムがあります
4 つの V100 GPU でのトレーニングには約 13 時間かかります