エンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブラーニング!-AI-php.cn

エンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブラーニング!

#自動運転のためのエンドツーエンドの微分可能学習は、最近、顕著なパラダイムとなっています。大きなボトルネックは、3D ボックスやセマンティックセグメンテーションなどの高品質のラベル付きデータへの需要が膨大であることです。これらのデータは、手動で注釈を付けるのに費用がかかることで知られています。この問題は、AD におけるサンプル内挙動が長い尾部分布を持つことが多いという顕著な事実によってさらに悪化します。言い換えれば、収集されるデータのほとんどは取るに足らないもの (直線道路での前進走行など) であり、安全上重要な状況はほんのわずかです。この論文では、エンドツーエンドの AD でサンプルとラベルの効率をどのように達成するかという、実用上重要だが十分に研究されていない問題を検討します。

具体的には、この論文は、提案された計画ルートの多様性と有用性の基準に基づいて、収集された生データの一部に徐々に注釈を付ける計画指向のアクティブラーニング手法を設計します。経験的には、提案された計画指向のアプローチは、一般的なアクティブラーニングアプローチよりも大幅に優れたパフォーマンスを発揮できます。特に、私たちの手法は、nuScenes データのわずか 30% を使用して、最先端のエンドツーエンド AD 手法と同等のパフォーマンスを達成します。私たちの研究が、方法論的な取り組みに加えて、データ中心の観点からの将来の研究にインスピレーションを与えることを願っています。

論文リンク: https://arxiv.org/pdf/2403.02877.pdf

この記事の主な貢献:

E2E-AD データの問題を抱えている人。また、限られた予算内で計画を立てるために貴重なデータを特定して注釈を付けるための、シンプルかつ効果的なソリューションも提供します。
エンドツーエンドのアプローチの計画指向の哲学に基づいて、ルートを計画するためにタスク固有の新しい多様性と不確実性の尺度が設計されています。
多数の実験とアブレーション研究により、この方法の有効性が証明されています。 ActiveAD は、一般的なピアツーピアメソッドよりも大幅にパフォーマンスが優れており、nuScenes データの 30% のみを使用して完全なラベルを使用する SOTA メソッドと同等のパフォーマンスを達成します。

手法の紹介

ActiveAD はエンドツーエンド AD フレームワークで詳細に説明され、データの特性に基づいて多様性と不確実性の指標が設計されます。 ADの。

1) ラベルの最初のサンプル選択

コンピュータビジョンのアクティブラーニングの場合、最初のサンプル選択は通常、追加情報や学習特性を含まない元の画像のみに基づいて行われます。そのため、ランダムな初期化が一般的に行われるようになりました。 AD の場合、追加の事前情報が利用可能です。具体的には、センサーからデータを収集する際に、自車の速度や軌跡といった従来の情報も同時に記録できる。さらに、天候や照明の状態は継続的なことが多く、フラグメントレベルで注釈を付けるのが簡単です。この情報により、初期セット選択の情報に基づいた選択が容易になります。したがって、初期選択のための自己多様性尺度を設計しました。

Ego Diversity: 1) 気象照明、2) 運転指示、3) 平均速度の 3 つの部分で構成されます。まず、nuScenes の記述を使用して、完全なデータセットを 4 つの相互に排他的なサブセット、Day Sunny (DS)、Day Rainy (DR)、Night Sunny (NS)、NightRainy (NR) に分割します。次に、各サブセットは、完全なセグメント内の左、右、直進の運転コマンドの数に基づいて、左折 (L)、右折 (R)、追い越し (O)、および直進 (S) の 4 つのカテゴリに分類されます。この論文ではしきい値 τc を設計しており、クリップ内の左右のコマンドの数がしきい値 τc 以上の場合、それをクリップ内の超越的な動作と見なします。左コマンドの数のみが閾値 τc より大きい場合、左折を示します。右方向のコマンドの数だけが閾値τcより大きい場合、それは右折を示す。他のすべてのケースは直接とみなされます。 3 番目に、各シーンの平均速度を計算し、関連するサブセット内で昇順に並べ替えます。

# 図 2 は、多方向ツリーに基づく初期選択プロセスの直感的なプロセスを詳細に示しています。

2) 増分選択の基準設計

このセクションでは、注釈付きフラグメントでトレーニングされたモデルに基づいて、フラグメントの新しい部分に増分注釈を付ける方法を紹介します。中間モデルを使用してラベルのないセグメントに対して推論を実行し、その後の選択はこれらの出力に基づいて行われます。それにもかかわらず、計画指向の観点が採用され、その後のデータ選択のための 3 つの基準、つまり変位誤差、ソフト衝突、代理不確実性が導入されます。

標準 1: 変位誤差 (DE)。は、モデルの予測計画ルート τ とデータセットに記録されている人の軌跡 τ* との間の距離として表されます。

ここで、T はシーン内のフレームを表します。変位誤差自体がパフォーマンスメトリックであるため (注釈は必要ありません)、アクティブな選択では当然、最初で最も重要な基準になります。

標準 2: ソフトコリジョン (SC)。 LSC は、予測される自車両の軌道と予測されるエージェントの軌道の間の距離として定義されます。信頼性の低いエージェントの予測は、しきい値 ε によって除外されます。各シナリオでは、ハザード係数の尺度として最短距離が選択されます。同時に、項と最近接距離との間の正の相関関係を維持します。

「ソフト衝突」を基準として使用する理由は次のとおりです。一方で、「変位誤差」とは異なります。 , " 「衝突率」の計算は、ラベルのないデータでは利用できない、ターゲットの 3D ボックスの注釈に依存します。したがって、モデルの推論結果のみに基づいて基準を計算できるはずです。一方、ハード衝突基準を考慮します。予測された自車の軌道が他の予測されたエージェントの軌道と衝突する場合は 1 を割り当て、そうでない場合は 0 を割り当てます。ただし、AD の最先端モデルの衝突率は通常小さい (1% 未満) ため、ラベル 1 のサンプルが少なすぎる可能性があります。したがって、「衝突率」指標の代わりに、他のターゲットのペアまでの最も近い距離を使用することが選択されました。他の車両や歩行者との距離が近すぎる場合、リスクは非常に高くなると考えられます。つまり、「ソフト衝突」は衝突の可能性を測る効果的な尺度であり、集中的な監視を提供できます。

標準 III: エージェントの不確実性 (AU)。周囲のエージェントの将来の軌道の予測は当然ながら不確実であるため、動作予測モジュールは通常、複数のモダリティと対応する信頼スコアを生成します。私たちの目標は、近くのエージェントの不確実性が高いデータを選択することです。具体的には、遠くにある被写体が距離閾値 δ によって除外され、残りの被写体に対する複数のモードの予測確率の重み付きエントロピーが計算されます。モダリティの数がであり、さまざまなモダリティにおけるエージェントの信頼スコアが Pi(a) であると仮定します (i∈{1,…,Nm})。次に、エージェントの不確実性は次のように定義できます。

##全体の損失:

3) 全体的なイニシアチブ学習パラダイム

Alg1 では、メソッドのワークフロー全体を紹介します。利用可能な予算 B、初期選択サイズ n0、各ステップで行われるアクティビティ選択の数 ni、および合計 M 個の選択ステージが与えられるとします。選択は、まず、前述のランダム化または自己多様性の方法を使用して初期化されます。次に、現在注釈が付けられているデータを使用してネットワークをトレーニングします。訓練されたネットワークに基づいて、ラベルのないネットワークを予測し、総損失を計算します。最後に、サンプルは全体の損失に従って並べ替えられ、現在の反復で注釈が付けられる上位 ni 個のサンプルが選択されます。このプロセスは、反復が上限 M に達し、選択されたサンプルの数が上限 B に達するまで繰り返されます。

実験結果

実験は、広く使用されている nuScenes データセットに対して行われました。すべての実験は PyTorch を使用して実装され、RTX 3090 および A100 GPU で実行されます。

エンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブラーニング! #表 1: 計画のパフォーマンス。 ActiveAD は、すべてのアノテーション予算設定において、一般的なアクティブラーニングベースラインを上回ります。さらに、30% のデータを含む ActiveAD は、データセット全体を使用したトレーニングと比較して、わずかに優れた計画パフォーマンスを達成しました。 * の付いた VAD は、元の研究で報告された結果よりも優れた更新された結果を示します。 UniAD に † が付いている場合は、結果の更新に VAD のインジケーターが使用されていることを示します。

エンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブラーニング! 表 2: 計画されたアブレーション実験。「RA」と「ED」は、ランダム性と自己多様性に基づく初期セットの選択を表します。「DE」、「SC」、「AU」は変位誤差を表し、それぞれソフト衝突とエージェントの不確実性を表します。「ED」との組み合わせはすべて同じ 10% データで初期化されます。 LDE、LSC、LAU はそれぞれ [0, 1] に正規化され、ハイパーパラメータ α と β は 1 に設定されます。

図 3: 選択したシーンの視覚化。データの 10% でトレーニングされたモデルに基づく、選択されたフロントカメラ画像に基づく、変位誤差 (列 1)、ソフト衝突 (列 2)、エージェントの不確実性 (列 3)、およびハイブリッド (列 4) 基準。混合は、最終的な選択戦略である ActiveAD を表し、最初の 3 つのシナリオが考慮されます。

#表 4、さまざまなシナリオでのパフォーマンス。データの 30% を使用するアクティブモデルの平均 L2(m)/平均衝突率 (%) が小さいほど、さまざまな天候/照明、運転コマンド条件下でのパフォーマンスが向上します。

エンドツーエンドでデータがない場合はどうすればよいでしょうか? ActiveAD: 計画のための自動運転のためのエンドツーエンドのアクティブラーニング! # 図 4: 複数の基準間の類似性。これは、変位誤差 (DE)、ソフト衝突 (SC)、エージェントの不確実性 (AU)、混合 (MX) の 4 つの基準によって選択された 10% (左) と 20% (右) の新しいサンプリングシナリオを示しています