BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)-AI-php.cn

文前＆筆者の個人的理解

現在、自動運転技術が成熟し、自動運転認知タスクの需要が高まる中、産業界や学界はBEV 空間に基づく 3 次元ターゲット検出とセマンティックセグメンテーションタスクを同時に完了できる理想的な知覚アルゴリズムモデルが非常に期待されています。自動運転可能な車両には、通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーが搭載されており、さまざまなモダリティでデータを収集します。これにより、異なるモーダルデータ間の補完的な利点が最大限に活用され、たとえば、3D 点群データは 3D ターゲット検出タスクに情報を提供でき、カラー画像データはセマンティックセグメンテーションタスクに多くの情報を提供できます。。正確な情報。異なるモーダルデータ間の補完的な利点を考慮すると、異なるモーダルデータの有効な情報を同じ座標系に変換することで、その後の共同処理や意思決定が容易になります。例えば、3D点群データをBEV空間に基づく点群データに変換したり、サラウンドビューカメラの画像データをカメラの内部パラメータと外部パラメータのキャリブレーションを通じて3D空間に投影したりすることで、一元的な処理を実現します。異なるモーダルデータ。異なるモーダルデータを利用することで、単一モーダルデータよりも正確な知覚結果を取得できます。現在では、マルチモーダル知覚アルゴリズムモデルをすでに車両に展開して、より堅牢で正確な空間知覚結果を出力することができ、正確な空間知覚結果を通じて、自動運転機能の実現に対してより信頼性が高く安全な保証を提供できます。

最近、Transformer ネットワークフレームワークに基づく多感覚およびマルチモーダルデータ融合のための多くの 3D 認識アルゴリズムが学術界や産業界で提案されていますが、それらはすべて Transformer のクロスアテンションメカニズムを使用して、多機能を実現します。感覚データとマルチモーダルデータの融合。モーダルデータを融合して、理想的な 3D ターゲット検出結果を実現します。ただし、このタイプのマルチモーダル特徴融合方法は、BEV 空間に基づくセマンティックセグメンテーションタスクには完全に適しているわけではありません。さらに、クロスアテンションメカニズムを使用して異なるモダリティ間の情報融合を完了することに加えて、多くのアルゴリズムは LSA で順方向ベクトル変換を使用して融合された特徴を構築しますが、次のようないくつかの問題もあります。 (制限ワード数、詳細な説明は以下にあります) ）。

現在提案されているマルチモーダル融合に関する3Dセンシングアルゴリズムでは、異なるモーダルデータ特徴の融合手法の設計が不十分であり、その結果、知覚アルゴリズムモデルが正確に捉えることができません。センサーデータ間の関係は複雑な接続関係にあり、それによってモデルの最終的な知覚パフォーマンスに影響を与えます。
異なるセンサーからデータを収集するプロセスでは、無関係なノイズ情報が必然的に導入されます。異なるモダリティ間のこの固有のノイズにより、異なるモダリティの特徴を融合するプロセスにもノイズが混入し、結果として複数のノイズが発生します。不正確なモーダル特徴融合は、その後の知覚タスクに影響を与えます。

最終モデルの知覚能力に影響を与える可能性があるマルチモーダル融合プロセスにおける上記の多くの問題を考慮し、生成モデルによって最近実証された強力なパフォーマンスを考慮して、このモデルは、複数のセンサー間のマルチモーダル融合およびノイズ除去タスクのために調査されています。これに基づいて、マルチモーダル知覚タスクを実装するための条件付き拡散に基づく生成モデル知覚アルゴリズム DifFUSER を提案します。下の図からわかるように、私たちが提案したDifFUSERマルチモーダルデータ融合アルゴリズムは、より効果的なマルチモーダル融合プロセスを実現できます。 ![DifFUSER マルチモーダルデータ融合アルゴリズム](画像リンク) DifFUSER マルチモーダルデータ融合アルゴリズムは、より効果的なマルチモーダルフュージョンプロセスを実現できます。この方法には主に 2 つの段階が含まれます。まず、生成モデルを使用して入力データのノイズを除去および強化し、クリーンでリッチなマルチモーダルデータを生成します。次に、生成モデルによって生成されたデータは、より良い知覚効果を達成するためにマルチモーダル融合に使用されます。 DifFUSER アルゴリズムの実験結果は、私たちが提案したマルチモーダルデータ融合アルゴリズムがより効果的なマルチモーダル融合プロセスを達成できることを示しています。マルチモーダル知覚タスクを実装する場合、このアルゴリズムはより効果的なマルチモーダル融合プロセスを実現し、モデルの知覚能力を向上させることができます。さらに、アルゴリズムのマルチモーダルデータ融合アルゴリズムにより、より効率的なマルチモーダル融合プロセスを実現できます。要約

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

提案されたアルゴリズムモデルと他のアルゴリズムモデルの結果の視覚的な比較表

論文リンク: https://arxiv.org/pdf /2404.04629. pdf

ネットワークモデルの全体的なアーキテクチャと詳細

「条件付き拡散モデルに基づくマルチタスク認識アルゴリズムである DifFUSER アルゴリズムのモジュールの詳細」」は、タスクを意識した問題のアルゴリズムを解決するために使用される手法です。以下の図は、私たちが提案する DifFUSER アルゴリズムの全体的なネットワーク構造を示しています。このモジュールでは、タスク認識問題を解決するための条件付き拡散モデルに基づくマルチタスク認識アルゴリズムを提案します。このアルゴリズムの目標は、ネットワーク内でタスク固有の情報を分散および集約することにより、マルチタスク学習のパフォーマンスを向上させることです。 DifFUSER アルゴリズムの整数

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA) 提案された DifFUSER 知覚アルゴリズムモデルのネットワーク構造図

上図からわかるように、私たちが提案した DifFUSER ネットワーク構造には、主に 3 つのサブネットワーク、つまりバックボーンネットワーク部分と DifFUSER のマルチネットワークが含まれています。 -mode 状態データ融合部分と最終的な BEV セマンティックセグメンテーションタスクのヘッド部分。 3D オブジェクト検出認識タスクの先頭部分。バックボーンネットワーク部分では、ResNet や VGG などの既存の深層学習ネットワークアーキテクチャを使用して、入力データの高レベルの特徴を抽出します。 DifFUSER のマルチモーダルデータフュージョン部分は複数の並列ブランチを使用し、各ブランチはさまざまなセンサーデータタイプ (画像、LIDAR、レーダーなど) を処理するために使用されます。各ブランチには独自のバックボーンネットワークパーツがあり、

#: このパーツは主に、ネットワークモデルへの 2D 画像データ入力と、出力用の対応する BEV セマンティックフィーチャの 3D LIDAR 点群データから特徴を抽出します。。画像特徴を抽出するバックボーンネットワークとしては、主に2D画像バックボーンネットワークと透視変換モジュールから構成されます。 3D LIDAR 点群フィーチャを抽出するバックボーンネットワークには、主に 3D 点群バックボーンネットワークとフィーチャ Flatten モジュールが含まれます。
: 私たちが提案した DifFUSER モジュールは、階層的な双方向機能ピラミッドネットワークの形式で相互にリンクされています。この構造を cMini-BiFPN と呼びます。この構造は、潜在的な拡散に代わる構造を提供し、さまざまなセンサーデータからのマルチスケールおよび幅高さの詳細な特徴情報をより適切に処理できます。
: 私たちのアルゴリズムモデルは 3D ターゲット検出結果とセマンティックセグメンテーション結果を BEV 空間に同時に出力できるため、3D 知覚タスクヘッダーには 3D が含まれます。検出ヘッドとセマンティックセグメンテーションヘッド。さらに、私たちが提案したアルゴリズムモデルに含まれる損失には、拡散損失、検出損失、セマンティックセグメンテーション損失が含まれており、すべての損失を合計することで、ネットワークモデルのパラメータがバックプロパゲーションによって更新されます。

フュージョンアーキテクチャ設計 (Conditional-Mini-BiFPN、cMini-BiFPN)

自動運転システムの認識タスクの場合、アルゴリズムモデルは現在の外部信号を分析できます。環境をリアルタイムで認識することが重要であるため、拡散モジュールのパフォーマンスと効率を確保することが非常に重要です。したがって、私たちは双方向機能ピラミッドネットワークからインスピレーションを得て、同様の条件を持つ BiFPN 拡散アーキテクチャを導入しました。これを Conditional-Mini-BiFPN と呼びます。その具体的なネットワーク構造を上の図に示します。

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

プログレッシブセンサードロップアウトトレーニング (PSDT)

自動運転車の場合自動運転取得センサーの性能は非常に重要であり、自動運転車両の日常運転中に、カメラセンサーやライダーセンサーがブロックされたり、誤動作したりする可能性が非常に高く、最終的な自動運転システムの性能に影響を与えます。そして業務効率化。この考慮に基づいて、センサーがブロックされる可能性がある状況で提案されたアルゴリズムモデルの堅牢性と適応性を強化するための、漸進的なセンサードロップアウトトレーニングパラダイムを提案しました。

私たちが提案した漸進的センサードロップアウトトレーニングパラダイムを通じて、アルゴリズムモデルは、カメラセンサーと LIDAR センサーによって収集された 2 つのモーダルデータの分布を使用して欠落している特徴を再構築し、それによって過酷な条件で最高のパフォーマンスを達成できます。優れた適応性と堅牢性。具体的には、画像データと LIDAR 点群データの特徴を 3 つの異なる方法で利用します。トレーニングターゲットとして、拡散モジュールへのノイズ入力として、センサーの紛失または誤動作の状況をシミュレートします。トレーニング中に、カメラセンサーまたは LIDAR センサー入力の損失率を 0 から事前定義された最大値 a = 25 まで徐々に増加させます。プロセス全体は次の式で表すことができます:

このうち、は現在のモデルが含まれるトレーニングラウンドの数を表し、特徴内の各特徴がドロップされる確率を表すドロップアウトの確率を定義します。この漸進的なトレーニングプロセスを通じて、モデルは効果的にノイズを除去し、より表現力豊かな特徴を生成するようにトレーニングされるだけでなく、単一のセンサーへの依存を最小限に抑え、それによって不完全なセンサーの処理を強化し、データの復元力を高めます。

ゲート自己調整変調拡散モジュール (GSM 拡散モジュール)

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

具体的には、ゲート自己調整変調拡散モジュールネットワーク構造は以下の図に示されています。

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

ゲート自己条件付き変調拡散モジュールのネットワーク構造の概略図

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

## 実験結果と評価指標

##定量分析部分 ##提案したアルゴリズムモデル DifFUSER の知覚結果を複数の環境で検証するために、タスクでは、主に nuScenes データを使用しました。3D ターゲット検出と BEV 空間に基づくセマンティックセグメンテーションの実験がセットで行われました。

まず、提案されたアルゴリズムモデル DifFUSER のパフォーマンスを、セマンティックセグメンテーションタスクにおける他のマルチモーダルフュージョンアルゴリズムと比較しました。具体的な実験結果を次の表に示します。

nuScenes データセット上の BEV 空間ベースのセマンティックセグメンテーションタスクにおけるさまざまなアルゴリズムモデルの実験結果の比較

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA) 実験結果から、私たちが提案したアルゴリズムモデルのパフォーマンスがベースラインモデルよりも優れていることがわかります。大幅な改善が見られました。具体的には、BEVFusion モデルの mIoU 値はわずか 62.7% ですが、私たちが提案したアルゴリズムモデルは 69.1% に達し、6.4% ポイント改善しました。これは、私たちが提案したアルゴリズムがさまざまなカテゴリでより多くの利点があることを示しています。さらに、下の図は、私たちが提案したアルゴリズムモデルの利点をより直感的に示しています。具体的には、BEVFusion アルゴリズムは、特にセンサーの位置ずれがより明らかな長距離シナリオでは、不十分なセグメンテーション結果を出力します。比較すると、私たちのアルゴリズムモデルはより正確なセグメンテーション結果を持ち、詳細がより明白でノイズが少なくなります。

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA) 提案されたアルゴリズムモデルとベースラインモデルのセグメンテーション視覚化結果の比較

さらに、提案されたアルゴリズムモデルを他の 3D ターゲットと比較します。検出アルゴリズムモデル比較のために、特定の実験結果を以下の表に示します

##nuScenes データセットの 3D ターゲット検出タスクにおけるさまざまなアルゴリズムモデルの実験結果の比較 BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

合格表にリストされた結果からわかるように、私たちが提案したアルゴリズムモデル DifFUSER は、ベースラインモデルと比較して NDS と mAP の両方の指標を改善しました。ベースラインモデル BEVFusion の NDS 72.9% と mAP 70.2% と比較して、私たちのアルゴリズムでは、モデルはそれぞれ 1.8% と 1.0% 高くなります。関連する指標の改善は、私たちが提案したマルチモーダル拡散融合モジュールが特徴削減と特徴改善プロセスに効果的であることを示しています。

さらに、センサーの故障または閉塞の場合における、提案したアルゴリズムモデルの知覚的な堅牢性を示すために、以下の図に示すように、関連するセグメンテーションタスクの結果を比較しました。

さまざまな状況下でのアルゴリズムのパフォーマンスの比較 BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

上の図からわかるように、サンプリングが十分であれば、提案したアルゴリズムモデルは次のようになります。効果的欠落している機能の補正は、欠落しているセンサーで収集された情報の代替として使用されます。私たちが提案する DifFUSER アルゴリズムモデルの合成特徴を生成して利用する機能により、単一のセンサーモダリティへの依存が効果的に軽減され、モデルが多様で困難な環境でもスムーズに実行できるようになります。

定性分析部分

次の図は、提案した DifFUSER アルゴリズムモデルの BEV 空間の 3D ターゲット検出とセマンティックセグメンテーションの結果を視覚化したものです。提案されたアルゴリズムモデルには、優れた検出効果とセグメンテーション効果があります。

BEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

結論

本稿では、拡散モデルに基づいて、ネットワークモデルアーキテクチャを構築し、拡散モデルのノイズ除去特性を利用してネットワークモデルの融合品質を向上させます。 Nuscenes データセットの実験結果は、私たちが提案したアルゴリズムモデルが BEV 空間のセマンティックセグメンテーションタスクにおいて SOTA セグメンテーションパフォーマンスを達成し、3D ターゲット検出タスクにおいて現在の SOTA アルゴリズムモデルと同様の検出パフォーマンスを達成できることを示しています。

以上がBEVFusionを超えて！ DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。