DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク-AI-php.cn

論文のタイトル:

DiffMap: 拡散モデルを使用したマップ事前のマップセグメンテーションの強化

論文の著者:

Peijin Jia、Tuopu Wen、Ziang Luo、Mengmeng Yang、Kun Jiang、クァン・レイ、 Xuewei Tang、Ziyuan Liu、Le Cui、Kehua Sheng、Bo Zhang、Diange Yang

01 背景の紹介

自動運転車の場合、高解像度 (HD) マップは環境への理解を深めるのに役立ちます(知覚) ) 精度とナビゲーションの精度。ただし、手動マッピングには複雑さとコストがかかるという問題があります。この目的を達成するために、現在の研究では、BEV (鳥瞰図) 認識タスクにマップ構築を統合しています。BEV 空間でラスター化された HD マップを構築することは、FCN と同様のものの使用を追加すると理解できます。 (フルボリューム) BEV 特徴を取得した後、製品ネットワークのセグメンテーションヘッド)。たとえば、HDMapNet は、LSS (Lift、Splat、Shoot) を介してセンサー機能をエンコードし、セマンティックセグメンテーション、インスタンス検出、および方向予測に多重解像度 FCN を使用してマップを構築します。

しかし、現時点では、そのような方法 (ピクセルベースの分類方法) には依然として固有の制限があり、特定の分類属性を無視する可能性が含まれ、これにより中央分離帯の歪みや中断、ぼやけた横断歩道、その他の種類のアーティファクトが発生する可能性があります。図 1(a) に示すように、ノイズが発生します。これらの問題は、地図の構造精度に影響を与えるだけでなく、自動運転システムの下流の経路計画モジュールにも直接影響を与える可能性があります。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

▲ 図1｜HDMapNet、DiffMap、GroundTruthの効果の比較

したがって、モデルはHDマップの平行や直線などの構造的な事前情報を考慮することが最善です車線の特徴。一部の生成モデルには、画像の信頼性と固有の特性を捉えるこの機能があります。たとえば、LDM (潜在拡散モデル) は、高忠実度の画像生成において大きな可能性を示し、セグメンテーション強化に関連するタスクにおいてその有効性が証明されています。さらに、制御変数を導入して、特定の制御要件を満たすように画像生成をさらにガイドすることができます。したがって、マップ構造の事前分布を取得するために生成モデルを適用すると、セグメンテーションアーティファクトが削減され、マップ構築のパフォーマンスが向上することが期待されます。

この記事で、著者は DiffMap ネットワークについて言及しました。このネットワークは初めて、既存のセグメンテーションモデルに対してマップ構造化された事前モデリングを実行し、改良された LDM を拡張モジュールとして使用することでプラグアンドプレイをサポートします。 DiffMap は、ノイズの追加と除去のプロセスを通じて事前にマップを学習して、出力が現在のフレームの観測値と一致することを確認するだけでなく、BEV 機能を制御信号として統合して、出力が現在のフレームの観測値と一致することを確認することもできます。実験結果は、DiffMap がアーティファクトを大幅に削減し、全体的なマップ構築パフォーマンスを向上させながら、よりスムーズで合理的なマップセグメンテーション結果を効果的に生成できることを示しています。

02 関連作業

2.1 セマンティックマップの構築

従来の高解像度 (HD) マップの構築では、通常、セマンティックマップは LIDAR 点群に基づいて手動または半自動で注釈が付けられます。一般に、グローバルに一貫したマップは SLAM アルゴリズムに基づいて構築され、意味論的な注釈が手動でマップに追加されます。ただし、このアプローチは時間と労力がかかり、マップの更新に大きな課題が生じるため、そのスケーラビリティとリアルタイムパフォーマンスが制限されます。

HDMapNet は、オンボードセンサーを使用してローカルセマンティックマップを動的に構築する方法を提案しています。 LIDAR 点群とパノラマ画像の特徴を鳥瞰図 (BEV) 空間にエンコードし、3 つの異なるヘッドを使用してデコードし、最終的にベクトル化されたローカルセマンティックマップを生成します。 SuperFusion は、長距離の高精度セマンティックマップの構築、LIDAR 深度情報を使用して画像深度推定を強化すること、および画像特徴を使用して長距離 LIDAR 特徴予測をガイドすることに重点を置いています。次に、HDMapNet と同様のマップ検出ヘッドを使用して、セマンティックマップを取得します。 MachMap はタスクをポリライン検出とポリゴンインスタンスセグメンテーションに分割し、後処理を使用してマスクを調整して最終結果を取得します。その後の研究は、ベクトル化された高精細地図を直接取得するためのエンドツーエンドのオンラインマッピングに焦点を当てています。手動の注釈を使用しないセマンティックマップの動的な構築により、構築コストが効果的に削減されます。

2.2 セグメンテーションと検出に適用される拡散モデル

ノイズ除去拡散確率モデル (DDPM) は、マルコフ連鎖に基づく生成モデルの一種で、画像生成などの分野で優れたパフォーマンスを示し、段階的に拡張されています。セグメンテーションや検出などのさまざまなタスクに使用できます。 SegDiff は拡散モデルを画像セグメンテーションタスクに適用します。このタスクでは、使用される UNet エンコーダーがさらに 3 つのモジュール (E、F、G) に分離されます。モジュール G と F はそれぞれ入力画像 I とセグメンテーションマップをエンコードし、これらは E で加算的にマージされ、セグメンテーションマップを反復的に改良します。 DDPMS は、基本セグメンテーションモデルを使用して初期事前予測を生成し、拡散モデルを使用して事前予測を改良します。 DiffusionDet は、拡散モデルをターゲット検出フレームワークに拡張し、ノイズボックスからターゲットボックスへのノイズ除去拡散プロセスとしてターゲット検出をモデル化します。

拡散モデルは自動運転の分野でも使用されており、幾何学的制約を使用して街路シーンを合成する MagicDrive や、拡散モデルをマルチエージェントの動作予測問題に拡張する Motiondiffuser などがあります。

2.3 事前マップ

現在、事前情報 (明示的な標準地図情報と暗黙的な時間情報を含む) 不確実性を利用してモデルの堅牢性を強化し、車両センサーの負荷を軽減する方法がいくつかあります。 MapLite2.0 は、標準解像度 (SD) の以前の地図を出発点として使用し、それをオンボードセンサーと組み合わせて、ローカルの高解像度地図をリアルタイムで推論します。 MapEx と SMERF は、標準の地図データを活用して、車線の認識とトポロジの理解を向上させます。 SMERF は、Transformer ベースの標準地図エンコーダを採用して車線境界線と車線タイプをエンコードし、標準地図情報とセンサーベースの鳥瞰図 (BEV) 機能の間の相互注意を計算して標準地図情報を統合します。 NMP は、過去の地図以前のデータと現在の認識データを組み合わせることで、自動運転車に長期記憶機能を提供します。 MapPrior は、識別モデルと生成モデルを組み合わせ、既存のモデルに基づいて生成された予備予測を予測フェーズ中に事前予測としてエンコードし、生成モデルの離散潜在空間を注入して、生成モデルを使用して予測を改良します。 PreSight は、以前の旅行からのデータを使用して、都市規模の神経放射線場を最適化し、神経事前分布を生成し、その後のナビゲーションでのオンライン認識を強化します。

03 メソッド分析

3.1 準備

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

3.2 全体的なアーキテクチャ

図2に示すように。デコーダとして、DiffMap は拡散モデルをセマンティックマップセグメンテーションモデルに組み込み、周囲のマルチビュー画像と LiDAR 点群を入力として受け取り、それらを BEV 空間にエンコードして、融合された BEV 特徴を取得します。次に、DiffMap をデコーダとして使用してセグメンテーションマップを生成します。 DiffMap モジュールでは、BEV 特徴がノイズ除去プロセスをガイドする条件として使用されます。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク ▲ 図2｜DiffMapアーキテクチャ ©️[Deep Blue AI]でコンパイルされた

◆セマンティックマップ構築のベースライン: ベースラインは主にBEVエンコーダ-デコーダパラダイムに従います。エンコーダ部分は、入力データ (LiDAR および/またはカメラデータ) から特徴を抽出し、それを高次元表現に変換する役割を果たします。同時に、デコーダは通常、高次元の特徴表現を対応するセグメンテーションマップにマッピングするセグメンテーションヘッドとして機能します。ベースラインは、フレームワーク全体でスーパーバイザーとコントローラーという 2 つの主要な役割を果たします。スーパーバイザとして、ベースラインは補助的な監視としてセグメンテーション結果を生成します。同時に、コントローラーとして、中間の BEV 特性を条件付き制御変数として提供し、拡散モデルの生成プロセスをガイドします。

◆DiffMap モジュール: LDM に続いて、著者はベースラインフレームワークのデコーダとして DiffMap モジュールを紹介します。 LDM は主に、画像認識圧縮モジュール (VQVAE など) と UNet を使用して構築された拡散モデルの 2 つの部分で構成されます。まず、エンコーダはマップセグメンテーションのグラウンドトゥルースを潜在空間にエンコードします。ここで、は潜在空間の低次元を表します。続いて、低次元の潜在変数空間で拡散とノイズ除去が実行され、デコーダを使用して潜在空間を元のピクセル空間に復元します。

まず、拡散プロセスを通じてノイズを追加し、各タイムステップでノイズポテンシャルマップを取得します。その後、ノイズ除去プロセス中に、UNet がノイズ予測のバックボーンネットワークとして機能します。セグメンテーション結果の監視部分を強化するために、DiffMap モデルがトレーニング中にインスタンス関連の予測の意味論的特徴を直接提供することが期待されます。したがって、著者は UNet ネットワーク構造を 2 つのブランチに分割し、1 つのブランチは従来の拡散モデルなどのノイズの予測に使用され、もう 1 つのブランチは潜在空間のノイズの予測に使用されます。

図 3 に示すとおり。潜在マップ予測を取得した後、意味論的特徴マップとして元のピクセル空間に復号化されます。次に、HDMapNet が提案する方法に従ってインスタンス予測をそれらから取得でき、セマンティックセグメンテーション、インスタンスの埋め込み、およびレーンの方向という 3 つの異なるヘッドの予測を出力できます。これらの予測は後処理ステップで使用され、マップがベクトル化されます。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

▲図3｜ノイズ除去モジュール

プロセス全体は条件付き生成プロセスであり、マップセグメンテーションの結果は現在のセンサー入力に基づいて取得されます。結果の確率分布は次のようにモデル化できます。ここで、はマップ分割結果を表し、は条件付き制御変数、つまり BEV 特徴を表します。著者はここで制御変数を統合するために 2 つの方法を使用します。まず、BEV 特徴と BEV 特徴は空間領域で同じカテゴリとスケールを持っているため、式 5 に示すように、潜在空間サイズに調整されてから、ノイズ除去プロセスの入力として連結されます。

第二に、クロスアテンションメカニズムは、キー/値およびクエリとして UNet ネットワークの各層に統合されます。クロスアテンションモジュールの式は以下のとおりです:

3.3 具体的な実装

◆トレーニング:

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

◆推論:

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

04 実験

4.1 実験の詳細

◆データセット: nuScenes データセットで DiffMap を検証します。 nuScenes データセットには、1000 シーンのマルチビューイメージと点群が含まれており、そのうち 700 シーンがトレーニングに使用され、150 シーンが検証に使用され、150 シーンがテストに使用されます。 nuScenes データセットには、注釈付きの HD マップセマンティックラベルも含まれています。

◆アーキテクチャ: カメラブランチのバックボーンネットワークとして ResNet-101 を使用し、モデルの LiDAR ブランチバックボーンネットワークとして PointPillars を使用します。ベースラインモデルのセグメンテーションヘッドは、ResNet-18 ベースの FCN ネットワークです。オートエンコーダーには VQVAE が採用されており、モデルは nuScenes のセグメント化された地図データセットで事前トレーニングされ、地図の特徴を抽出して地図を基本潜在空間に圧縮します。最後に、UNet を使用して拡散ネットワークを構築します。

◆トレーニングの詳細: AdamW オプティマイザーを使用して、30 エポックの間 VQVAE モデルをトレーニングします。使用される学習率スケジューラは LambdaLR で、減衰係数 0.95 の指数関数的減衰モードで学習率を徐々に低下させます。初期学習率はに設定され、バッチサイズは 8 です。次に、AdamW オプティマイザーを使用して、初期学習率 2e-4 で 30 エポックの間、拡散モデルを最初からトレーニングしました。 MultiStepLR スケジューラーが採用されており、指定されたマイルストーン時点 (0.7、0.9、1.0) およびさまざまなトレーニング段階での 1/3 のスケーリング係数に従って学習率を調整します。最後に、BEV セグメンテーションの結果は 0.15m の解像度に設定され、LiDAR 点群がボクセル化されます。 HDMapNet の検出範囲は [-30m, 30m]×[-15m, 15m]m であるため、対応する BEV マップサイズは 400×200 ですが、Superfusion は [0m, 90m]×[-15m, 15m] を使用して 600 を取得します。 × 200 件の結果。 LDM の次元制約 (VAE および UNet では 8 倍のダウンサンプリング) のため、セマンティックグラウンドトゥルースマップのサイズは 64 の倍数にパディングする必要があります。

◆推論詳細:現在のBEV特徴条件でノイズマップのノイズ除去処理を20回実行することで予測結果が得られます。 3 つのサンプルの平均が最終的な予測結果として使用されます。

4.2 評価指標

は、主にマップのセマンティックセグメンテーションとインスタンス検出タスクに対して評価されます。そして、主に、車線境界線、車線分離帯、横断歩道という 3 つの静的な地図要素に焦点を当てています。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

4.3 評価結果

表1にセマンティックマップセグメンテーションのIoUスコアの比較を示します。 DiffMap はすべての区間で大幅な改善を示し、特に車線分離帯や横断歩道で最良の結果が得られました。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク ▲表1｜IoUスコアの比較

表2に示すように、DiffMap方式では平均精度（AP）も大幅に向上しており、DiffMapの有効性が実証されています。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク ▲表2｜MAPスコア比較

表 3 に示すように、DiffMap パラダイムが HDMapNet に統合されると、カメラのみを使用する場合でも、カメラとライダーの融合方法を使用する場合でも、DiffMap が HDMapNet のパフォーマンスを向上させることができることがわかります。これは、DiffMap メソッドが長距離および近距離の検出を含むさまざまなセグメンテーションタスクに有効であることを示しています。ただし、境界の場合、DiffMap はうまく機能しません。境界の形状構造が固定されておらず、予測できない歪みが多く、先験的な構造特徴を捕捉することが困難であるためです。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク ▲表3｜定量分析結果

4.4 アブレーション実験

表4は、VQVAEのさまざまなダウンサンプリング係数が検出結果に及ぼす影響を示しています。ダウンサンプリング係数が 4、8、および 16 の場合の DiffMap の動作を分析すると、ダウンサンプリング係数を 8x に設定すると最良の結果が得られることがわかります。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク ▲表4｜アブレーション実験結果

さらに、表5に示すように、著者はインスタンス関連の予測モジュールを削除した場合のモデルへの影響も測定しました。実験では、この予測を追加すると IOU がさらに改善されることが示されています。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク

▲表5｜アブレーション実験結果（予測モジュール含むか否か）

4.5 可視化

図4は、複雑なシーンにおけるDiffMapとベースライン（HDMapNet-fusion）の比較を示しています。ベースラインセグメンテーションの結果が、要素内の形状特性と一貫性を無視していることは明らかです。対照的に、DiffMap はこれらの問題を修正し、マップ仕様とよく一致したセグメンテーション出力を生成する機能を示しています。具体的には、(a)、(b)、(d)、(e)、(h)、および (l) の場合、DiffMap は不正確に予測された横断歩道を効果的に補正します。 (c)、(d)、(h)、(i)、(j)、および (l) の場合、DiffMap は不正確な境界を完成または削除し、結果を現実的な境界ジオメトリに近づけます。さらに、(b)、(f)、(g)、(h)、(k)、(l) の場合、DiffMap は分割線の切れの問題を解決し、隣接する要素の平行性を保証します。

DiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワーク ▲図4｜定性分析結果

05 まとめと今後の展望

本論文で著者が設計したDiffMapネットワークは、潜在拡散モデルを利用してマップ構造事前分布を学習する新しい手法であり、これにより、従来のマップセグメンテーションモデルが採用されます。この方法は、任意のマップセグメンテーションモデルの補助ツールとして使用でき、その予測結果は遠距離と近距離の両方の検出シナリオで大幅に改善されます。この方法は拡張性が高いため、他のタイプの事前情報を調査するのに適しています。たとえば、SD マップ事前情報を DiffMap の 2 番目のモジュールに統合して、パフォーマンスを向上させることができます。ベクトル化された地図構築の進歩は今後も続くことが予想されます。

以上がDiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。