新しい BEV LV Fusion ソリューション: BEVFusion を超えた Lift-Attend-Splat-AI-php.cn

論文: Transformer テクノロジーを使用した鳥瞰図カメラと LIDAR の融合のための Lift-Attend-Splat メソッド

リンクをクリックしてファイルを表示してください: https://arxiv.org/pdf/2312.14919 .pdf

自動運転などの安全性が重要なアプリケーションでは、補完的なセンサーモダリティを組み合わせることが重要です。最近の自動運転カメラとライダーの融合手法では、単眼の奥行き推定を利用して知覚を改善していますが、これはライダーからの奥行き情報を直接利用する場合に比べて困難な作業です。私たちの調査では、このアプローチでは深度情報が十分に活用されていないことがわかり、単純に深度推定を改善しても物体検出パフォーマンスは向上しないことが実証されています。驚くべきことに、深度推定を完全に削除しても物体検出パフォーマンスは低下せず、単眼の深度への依存がカメラとライダーの融合中に不必要なアーキテクチャ上のボトルネックになる可能性があることを示唆しています。この研究では、単眼の深度推定を完全にバイパスし、代わりに単純なアテンションメカニズムを利用して、BEV グリッド内のカメラと LIDAR の特徴を選択して融合する新しい融合方法を提案します。結果は、提案されたモデルが LIDAR 機能の利用可能性に基づいてカメラ機能の使用を調整でき、nuScenes データセット上で単眼深度推定に基づくベースラインモデルよりも優れた 3D 検出パフォーマンスを備えていることを示しています

この研究では、「Lift Attented Splat」と呼ばれる新しいカメラとライダーの融合手法。この方法では、単眼による深度推定を回避し、代わりに単純な変換器を利用して、BEV のカメラと LIDAR の機能を選択して融合します。実験により、単眼奥行き推定に基づく方法と比較して、この研究方法はカメラをより有効に活用し、物体検出性能を向上できることが証明されています。この研究の貢献は次のとおりです。

Lift Splat パラダイムに基づくカメラとライダーの融合手法は、期待どおりに深度を利用しません。特に、単眼の深度予測が完全に削除された場合、それらは同等かそれ以上のパフォーマンスを発揮することを示します。

このペーパーでは、シンプルなアテンションメカニズムを使用して純粋な BEV のカメラとライダーの機能を融合する、新しいカメラとライダーの融合方法を紹介します。この論文は、Lift Splat パラダイムに基づくモデルと比較して、カメラをより有効に活用し、3D 検出パフォーマンスを向上させることができることを実証しています。

主な構造の紹介

深度予測の精度は通常低いです。絶対相対誤差 (Abs.Rel.) と二乗平均平方根誤差 (RMSE) を使用して、BEVFusion によって予測された深度の品質を LIDAR 深度マップと比較することで、定性的および定量的な分析を実行できます。図 1 に示すように、深度予測はシーンの構造を正確に反映しておらず、LIDAR 深度マップとは大きく異なります。これは、単眼の深度が期待どおりに十分に活用されていないことを示しています。この研究では、深度予測を改善しても物体検出パフォーマンスは向上しないことも判明しました。深さ予測を完全にキャンセルしても、物体検出のパフォーマンスには影響しません

超越BEVFusion！Lift-Attend-Splat：最新BEV LV融合方案我々は、カメラとライダーを融合するために単純なトランスを使用しながら、単眼の深さ推定を完全にバイパスするカメラとライダーの融合方法を提案します。 LIDAR 機能を鳥瞰図で表示します。ただし、多数のカメラと LIDAR の機能と注意の二次的な性質により、トランスフォーマーアーキテクチャをカメラと LIDAR の融合問題に単純に適用することは困難です。 BEV でカメラフィーチャを投影する場合、カメラフィーチャは対応する光線に沿った位置にのみ寄与する必要があるため、問題のジオメトリを使用して注目範囲を大幅に制限できます。このアイデアをカメラとライダーの融合の場合に適用し、カメラ平面の列と LIDAR BEV グリッドの極光線の間の相互注意を使用する簡単な融合方法を紹介します。単眼の深度を予測する代わりに、クロスアテンションは、光線に沿った LIDAR 特徴によって提供されるコンテキスト内でどのカメラ特徴が最も顕著かを学習します。

私たちのモデルは、Lift Splat パラダイムに基づく手法と類似点があります。全体的なアーキテクチャは、次の点を除きます。 BEV のカメラ機能を投影します。下図に示すように、カメラとライダーのバックボーン、各モーダル特徴を独立して生成するモジュール、カメラの特徴を BEV に埋め込んでライダーと融合する投影および融合モジュール、および検出ヘッドで構成されます。ターゲット検出を考慮する場合、モデルの最終出力は、位置、寸法、方向、速度、分類情報を含むシーン内のターゲットの属性であり、3D 境界ボックスの形式で表されます。 Splat Camera Lidar Fusion アーキテクチャは次のとおりです。 (左) 全体的なアーキテクチャ: カメラと LIDAR バックボーンからの機能は、検出ヘッドに渡される前に融合されます。 (挿入図) 3D 投影のジオメトリ: 「リフト」ステップでは、双線形サンプリングを使用して LIDAR フィーチャを Z 方向に沿ってリフトすることにより、LIDAR BEV フィーチャを投影された地平線に埋め込みます。「スプラット」ステップは、双線形サンプリングを使用して、投影された地平線から再び Z 方向に沿ってフィーチャを BEV グリッドに投影するため、逆変換に対応します。右側にはプロジェクトモジュールの詳細が表示されます。

＃＃＃＃＃＃実験結果＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃ ##元のリンク: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ

以上が新しい BEV LV Fusion ソリューション: BEVFusion を超えた Lift-Attend-Splatの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。