CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。-AI-php.cn

前に書いた&著者の個人的な理解

現在、自動運転システム全体において、道路を走行するときに認識モジュールが重要な役割を果たします自動運転車の後にのみ認識モジュールを通じて正確なセンシング結果を取得し、自動運転システムの下流の制御モジュールはタイムリーで正しい判断と行動決定を行うことができます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。

純粋な視覚に基づくBEV知覚アルゴリズムは、ハードウェアコストが低く、導入が容易であり、その出力結果はさまざまな下流タスクに簡単に適用できるため、産業界および学界から広く注目されています。近年、BEV空間に基づく多くの視覚認識アルゴリズムが次々に登場し、公開データセット上で優れた認識性能を実証しています。

現在、BEV 空間に基づく知覚アルゴリズムは、BEV 特徴の構築方法に基づいて 2 種類のアルゴリズムモデルに大別できます。

1 つのタイプは前方 BEV 特徴で表されます。 LSS アルゴリズムによる構築方法: このタイプの知覚アルゴリズムモデルは、最初に知覚モデル内の深度推定ネットワークを使用して、特徴マップの各ピクセルの意味論的特徴情報と離散深度確率分布を予測し、次に外部メソッドを使用して、意味的特徴情報と離散深さ確率を取得し、積演算によって意味的錐台特徴を構築し、BEV プーリングおよびその他の方法を使用して、最終的に BEV 空間特徴の構築プロセスを完了します。
もう 1 つのタイプは、BEVFormer アルゴリズムに代表される逆 BEV 特徴構築方法です。このタイプの知覚アルゴリズムモデルは、まず知覚される BEV 空間内の 3D ボクセル座標点を明示的に生成し、次にカメラの内部および外部の座標点を使用します。パラメータは、3D ボクセル座標点を画像座標系に投影し、対応する特徴位置でピクセル特徴を抽出および集約して、BEV 空間内に BEV 特徴を構築します。

どちらのアルゴリズムも BEV 空間で正確に特徴を生成し、3D 知覚結果を達成できますが、BEVFormer アルゴリズムなど、BEV 空間に基づく現在の 3D ターゲット知覚アルゴリズムには次の 2 つの問題があります。 ##

質問 1: BEVFormer 知覚アルゴリズムモデルの全体的なフレームワークはエンコーダー-デコーダーネットワーク構造を採用しているため、主なアイデアはエンコーダーモジュールを使用して BEV 空間の特徴を取得し、その後デコーダーを使用することです。最終的な知覚結果を予測するモジュールを実装し、出力された知覚結果と真の目標値との間の損失を計算することにより、モデルの BEV 空間特性を予測するプロセスが実現されます。ただし、このネットワークモデルのパラメータ更新方法は、デコーダモジュールの知覚パフォーマンスに依存しすぎるため、モデルによって出力される BEV 特徴が真の値の BEV 特徴と一致しないという問題が発生する可能性があり、そのため、さらに制約が生じます。知覚モデルの最終パフォーマンス。
質問 2: BEVFormer 知覚アルゴリズムモデルの Decoder モジュールは依然としてセルフアテンションモジュール -> クロスアテンションモジュール -> フィードフォワードニューラルネットワークステップを Transformer で使用して、クエリ機能の構築を完了します。検出結果に関しては、プロセス全体が依然としてブラックボックスモデルであり、適切な解釈性に欠けています。同時に、モデルトレーニングプロセス中のオブジェクトクエリと真の値ターゲットの間の1対1マッチングプロセスには大きな不確実性もあります。

BEVFormer 知覚アルゴリズムモデルの問題点を解決するために、我々はそれを改良し、サラウンド画像に基づく 3D 検出アルゴリズムモデル CLIP-BEVFormer を提案しました。対照学習手法を導入することで、BEV 特徴を構築するモデルの能力が強化され、nuScenes データセットで最高レベルの知覚パフォーマンスを達成しました。

記事リンク: https://arxiv.org/pdf/2403.08919.pdf

全体的なアーキテクチャとネットワークモデルの詳細

詳細この記事で提案する CLIP-BEVFormer 知覚アルゴリズムモデルの詳細を紹介する前に、次の図に CLIP-BEVFormer アルゴリズムの全体的なネットワーク構造を示します。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。この記事で提案するCLIP-BEVFormer知覚アルゴリズムモデルの全体フローチャート

アルゴリズムの全体フローチャートから、CLIP-BEVFormerアルゴリズムモデルがこの記事で提案するアルゴリズムは BEVFormer アルゴリズムモデルに基づいており、その改良点に基づいて、BEVFormer 知覚アルゴリズムモデルの実装プロセスを簡単にレビューします。まず、BEVFormer アルゴリズムモデルは、カメラセンサーによって収集されたサラウンド画像データを入力し、2D 画像特徴抽出ネットワークを使用して、入力サラウンド画像のマルチスケール意味論的特徴情報を抽出します。次に、時間的セルフアテンションと空間的クロスアテンションを含むエンコーダモジュールを使用して、2D 画像特徴から BEV 空間特徴への変換プロセスを完了します。次に、オブジェクトクエリのセットが 3D 知覚空間で正規分布の形式で生成され、デコーダモジュールに送信され、エンコーダモジュールが出力する BEV 空間特徴との空間特徴のインタラクティブな利用が完了します。最後に、フィードフォワードニューラルネットワークを使用して、オブジェクトクエリによってクエリされた意味特徴を予測し、ネットワークモデルの最終的な分類と回帰の結果が出力されます。同時に、BEVFormer アルゴリズムモデルのトレーニングプロセス中に、1 対 1 のハンガリーマッチング戦略を使用して陽性サンプルと陰性サンプルの分配プロセスを完了し、分類と回帰損失を使用してサンプルの更新プロセスを完了します。全体的なネットワークモデルパラメーター。 BEVFormer アルゴリズムモデルの全体的な検出プロセスは、次の数式で表すことができます。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。

このうち、式中のは、BEVFormerアルゴリズムにおけるEncoder特徴抽出モジュールを表し、BEVFormerアルゴリズムにおけるDecoder復号モジュールを表し、データセットにおける真値ターゲットラベルを表し、現在の BEVFormer アルゴリズムモデルを表し、3D 認識結果を出力します。

真の値 BEV の生成

前述したように、BEV 空間に基づく既存の 3D ターゲット検出アルゴリズムのほとんどには明示的な位置合わせがありません。生成される BEV 空間特徴は次のとおりです。これは、モデルによって生成された BEV 特徴が実際の BEV 特徴と一致しない可能性があるという問題につながり、この BEV 空間特徴の分布の違いにより、モデルの最終的な知覚パフォーマンスが制限されます。この検討に基づいて、私たちは Ground Truth BEV モジュールを提案しました。このモジュールを設計する際の中心的なアイデアは、モデルによって生成された BEV 特徴を現在の真の値の BEV 特徴と一致させ、それによってモデルのパフォーマンスを向上させることです。

具体的には、全体的なネットワークフレームワーク図に示すように、グラウンドトゥルースエンコーダー () を使用して、BEV 特徴マップ上の任意のグラウンドトゥルースインスタンスのカテゴリラベルと空間境界ボックスの位置情報をエンコードします。このプロセスは、次の形式の式で表すことができます。

式は、生成された BEV 特徴マップと同じサイズの特徴次元を持ち、真値ターゲットの符号化された特徴情報を表します。符号化処理では、大規模言語モデル (LLM) と多層パーセプトロン (MLP) の 2 つの形式を採用しましたが、実験の結果、2 つの方式は基本的に同じ性能を達成できることがわかりました。

さらに、BEV 特徴マップ上の真値ターゲットの境界情報をさらに強化するために、空間的位置に応じて BEV 特徴マップ上の真値ターゲットをクロップし、クロッピングを実行します。特徴はプーリング操作を使用して、対応する特徴情報表現を構築します。プロセスは次の形式で表現できます:

最後に、モデルによって生成された BEV 特徴を真の値の BEV 特徴とさらに調整するために、比較学習手法を採用し、2 種類の BEV 特徴間の要素関係と距離を最適化します。最適化プロセスは次の形式で表現できます。生成された BEV 特徴量と真の BEV 特徴量の間の類似度行列は、対比学習における論理スケールファクターを表し、行列間の乗算演算を表し、クロスエントロピー損失関数を表します。上記の対照学習方法を通じて、私たちが提案する方法は、生成されたBEV特徴に対してより明確な特徴ガイダンスを提供し、モデルの知覚能力を向上させることができます。

True value ターゲットクエリの相互作用

この部分については、前の記事でも説明しています。BEVFormer 認識アルゴリズムモデルのオブジェクトクエリは、Decoder モジュールを通じて生成された BEV 特徴と相互作用し、対応するターゲットクエリの特性を取得しますが、プロセス全体としては依然としてブラックボックスプロセスであり、プロセスの完全な理解が不足しています。この問題に対処するために、真理値クエリインタラクションモジュールを導入しました。このモジュールは、真理値ターゲットを使用して Decoder モジュールの BEV 特徴インタラクションを実行し、モデルパラメーターの学習プロセスを刺激します。具体的には、truth encoder()モジュールが出力する真理ターゲットの符号化情報をObject Queryに導入し、Decoderモジュールの復号処理に参加させ、通常のObject Queryと同様にセルフアテンションモジュール、クロスアテンションモジュールに参加します。フィードフォワードニューラルネットワークは、最終的な知覚結果を出力します。ただし、デコード処理中、すべてのオブジェクトクエリは、真の値のターゲット情報の漏洩を防ぐために並列計算を使用することに注意する必要があります。真理値ターゲットクエリ対話プロセス全体は、次の形式で抽象的に表現できます。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。

このうち、式内のは初期化されたオブジェクトクエリを表し、真理値オブジェクトを表します。それぞれクエリ処理デコーダモジュールとセンシング検出ヘッドの出力結果。モデルトレーニングプロセスに真値ターゲットのインタラクションプロセスを導入することにより、私たちが提案した真値ターゲットクエリインタラクションモジュールは、真値ターゲットクエリと真値BEV特徴の間のインタラクションを実現し、それによって、モデルのパラメータ更新プロセスを支援します。モデルデコーダモジュール。

実験結果と評価指標

定量分析部分

CLIP-BEVFormerアルゴリズムの有効性を検証するために私たちが提案した性別モデルを使用して、3D 知覚効果、データセット内のターゲットカテゴリのロングテール分布、ロバスト性の観点から nuScenes データセットで関連する実験を実施しました。次の表は、私たちが提案したアルゴリズムモデルと他のアルゴリズムモデルの違いを示しています。 3D 認識アルゴリズムモデル nuScenes データセットでの精度比較。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。

本記事で提案する手法と他の知覚アルゴリズムモデルの比較結果

実験のこの部分では、さまざまなモデル構成での知覚パフォーマンスを評価しました。具体的には、CLIP-BEVFormer アルゴリズムモデルを BEVFormer の小さなバリアントと基本バリアントに適用しました。さらに、事前トレーニングされた CLIP モデルまたは MLP レイヤーをグランドトゥルースターゲットエンコーダーとして使用した場合のモデルの知覚パフォーマンスへの影響も調査しました。実験結果から、オリジナルの tiny バリアントであっても、base バリアントであっても、私たちが提案した CLIP-BEVFormer アルゴリズムを適用した後、NDS および mAP インジケーターのパフォーマンスが安定して向上していることがわかります。さらに、実験結果を通じて、私たちが提案したアルゴリズムモデルは、グランドトゥルースターゲットエンコーダーに MLP 層または言語モデルが選択されるかどうかに影響を受けないことがわかり、この柔軟性により、私たちが提案した CLIP-BEVFormer アルゴリズムをより効果的にすることができます。適応性があり、車両への導入が簡単です。要約すると、提案されたアルゴリズムモデルのさまざまなバリアントのパフォーマンス指標は、提案された CLIP-BEVFormer アルゴリズムモデルが優れた知覚ロバスト性を持ち、さまざまなモデルの複雑さとパラメーター量の下で優れた検出パフォーマンスを達成できることを一貫して示しています。

3D 認識タスクで提案した CLIP-BEVFormer のパフォーマンスを検証することに加えて、データセット内のロングテール分布に対するアルゴリズムの堅牢性を評価するためにロングテール分布実験も実施しました。スティッキー性と汎化能力、実験結果は次の表にまとめられています。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。

ロングテール問題に対する提案された CLIP-BEVFormer アルゴリズムモデルのパフォーマンス

表の実験結果から、nuScenes データセットはカテゴリ数に大きな不均衡を示していることがわかります。(建設車両、バス、オートバイ、自転車など) などの一部のカテゴリは、非常に大きな割合を占めています。割合は低いですが、自動車の場合はその割合が非常に高くなります。ロングテール分布を使用して関連する実験を実行することにより、特徴カテゴリに対する提案された CLIP-BEVFormer アルゴリズムモデルの知覚パフォーマンスを評価し、それによってあまり一般的ではないカテゴリを解決するその処理能力を検証します。上記の実験データから、提案された CLIP-BEVFormer アルゴリズムモデルがすべてのカテゴリでパフォーマンスの向上を達成し、非常に小さな割合を占めるカテゴリでは、CLIP-BEVFormer アルゴリズムモデルが明らかな実質的なパフォーマンスの向上を示していることがわかります。

実際の環境における自動運転システムは、ハードウェアの故障、厳しい気象条件、人工障害物によって容易に引き起こされるセンサーの故障などの問題に直面する必要があることを考慮して、提案されたアルゴリズムの堅牢性をさらに実験的に検証しました。モデル。具体的には、センサーの故障問題をシミュレートするために、モデルの実装推論プロセス中にカメラのカメラをランダムにブロックして、カメラが故障する可能性のあるシーンをシミュレートしました。関連する実験結果は以下の表に示されています

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。提案されたCLIP-BEVFormerアルゴリズムモデルのロバストネス実験結果

実験結果から、tiny または Base のモデルパラメーター構成に関係なく、私たちが提案した CLIP-BEVFormer アルゴリズムモデルは、BEVFormer の同じ構成のベースラインモデルよりも常に優れていることがわかります。アルゴリズムモデルはシミュレーションで良好なパフォーマンスを発揮します。センサーの故障状況下でも優れたパフォーマンスと優れた堅牢性を備えています。

定性分析パート

次の図は、私たちが提案したCLIP-BEVFormerアルゴリズムモデルとBEVFormerアルゴリズムモデルの知覚結果の視覚的な比較を示しています。視覚的な結果から、私たちが提案したCLIP-BEVFormerアルゴリズムモデルの知覚結果が真の値ターゲットに近いことがわかり、私たちが提案した真の値BEV特徴生成モジュールと真の値ターゲットクエリインタラクションモジュールの有効性を示しています。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。

提案されたCLIP-BEVFormerアルゴリズムモデルとBEVFormerアルゴリズムモデルの知覚結果の視覚的比較

結論

この記事では、元の BEVFormer アルゴリズムで BEV 特徴マップを生成するプロセスにおける表示監視の欠如と、Decoder モジュールのオブジェクトクエリと BEV 特徴の間の対話型クエリの不確実性を考慮して、CLIP- BEVFormer アルゴリズムモデルから始まり、アルゴリズムモデルの 3D 認識性能、ターゲットのロングテール分布、センサー故障に対するロバスト性について実験が行われ、多くの実験結果が私たちが提案した CLIP-BEVFormer アルゴリズムモデルの有効性を示しています。

以上がCLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。