UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。-AI-php.cn

前書き&個人的な理解

近年、自動運転技術における視覚中心の3D認識が急速に発展しています。 3D 認識モデルは構造的および概念的に類似していますが、特徴の表現、データ形式、目的には依然としてギャップがあり、統一された効率的な 3D 認識フレームワークを設計することが課題となっています。したがって、研究者は、より正確で信頼性の高い自動運転システムを実現するために、これらのギャップに対処するために懸命に取り組む必要があります。私たちは、コラボレーションとイノベーションを通じて、自動運転の安全性とパフォーマンスをさらに向上させたいと考えています。

特に、BEV での検出タスクと占有タスクでは、共同トレーニングを実施して良好な結果を達成することは非常に困難です。これは、不安定性や制御が難しい影響により、多くのアプリケーションに大きな問題をもたらします。ただし、UniVision は、視覚中心の 3D 認識の 2 つの主要なタスク、つまり占有予測とオブジェクト検出を統合するシンプルで効率的なフレームワークです。フレームワークの中核は、相補的な 2D-3D フィーチャ変換のための明示的-暗黙的ビュー変換モジュールです。さらに、UniVision は、効率的かつ適応的なボクセルと BEV の特徴抽出、強化、および相互作用のためのローカルグローバル特徴抽出および融合モジュールも提案しています。これらの方法を採用することにより、UniVision は BEV での検出タスクと占有タスクで満足のいく結果を達成することができます。

UniVision は、マルチタスクフレームワークトレーニングの効率と安定性を向上させるために、共同占有検出データ強化戦略と段階的な減量調整戦略を提案しています。シーンフリー LIDAR セグメンテーション、シーンフリー検出、OpenOccupancy、Occ3D を含む 4 つの公開ベンチマークで広範な実験が行われています。実験結果は、UniVision が各ベンチマークでそれぞれ 1.5 mIoU、1.8 NDS、1.5 mIoU、1.8 mIoU のゲインを達成し、SOTA レベルに達したことを示しています。したがって、UniVision フレームワークは、統合されたビジョン中心の 3D 認識タスクの高性能ベースラインとして機能します。

3D 認識分野の現状

3D 認識は自動運転システムの主なタスクであり、一連のセンサー (LIDAR など) を利用することを目的としています。、レーダー、カメラ）取得されたデータは、走行シーンを総合的に把握し、その後の計画や意思決定に活用することができます。これまで、3D 認識の分野は、点群データから得られた正確な 3D 情報により、LIDAR ベースのモデルが主流でした。ただし、LIDAR ベースのシステムは高価で、悪天候の影響を受けやすく、導入が不便です。対照的に、ビジョンベースのシステムには、低コスト、簡単な導入、優れた拡張性など、多くの利点があります。したがって、視覚を中心とした三次元認識は研究者の間で広く注目を集めています。

最近、ビジョンベースの 3D 検出は、改善された特徴表現変換、時間融合、および監視信号設計を通じて大幅な進歩を遂げており、LiDAR ベースのモデルとの差は縮小し続けています。さらに、視覚ベースの占有タスクも近年急速に発展しています。 3D ボックスを使用してオブジェクトを表現するのとは異なり、占有率は運転シーンの幾何学的および意味論的な特性をより包括的に記述することができ、オブジェクトの形状やカテゴリによって制限されません。

検出方法と占有方法には構造的および概念的な類似点がありますが、これら 2 つのタスクを同時に処理し、それらの相互関係を調査することに関する研究は不十分です。占有モデルと検出モデルは通常、異なる特徴表現を抽出します。占有予測タスクには徹底的な意味論的および幾何学的な判断が必要なため、きめの細かい 3D 情報を保存するためにボクセル表現が広く使用されています。ただし、検出タスクでは、ほとんどのオブジェクトが同じ水平面上にあり、重なりが小さいため、BEV 表現の方が適しています。

BEV 表現と比較すると、ボクセル表現は精細度が高くなりますが、効率は低くなります。さらに、多くの高度なオペレータは主に 2D フィーチャ向けに設計および最適化されているため、3D ボクセル表現との統合はそれほど単純ではありません。 BEV 表現は時間効率とメモリ効率の点でより有利ですが、高さの次元で構造情報が失われるため、密な空間予測には次善です。特徴の表現に加えて、認識タスクが異なれば、データ形式と目標も異なります。したがって、マルチタスク 3D 認識フレームワークのトレーニングの均一性と効率を確保することは、大きな課題です。

UniVision ネットワーク構造

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

UniVision フレームワークの全体的なアーキテクチャを図 1 に示します。このフレームワークは、周囲の N 台のカメラからの多視点画像を入力として受け取り、画像特徴抽出ネットワークを通じて画像特徴を抽出します。次に、Ex-Im ビュー変換モジュールを使用して、2D 画像特徴を 3D ボクセル特徴に変換します。このモジュールは、深度ガイドによる明示的な特徴ブースティングとクエリによる暗黙的な特徴サンプリングを組み合わせたものです。ビュー変換後、ボクセル特徴はローカルグローバル特徴抽出および融合ブロックに供給され、ローカルコンテキスト認識ボクセル特徴とグローバルコンテキスト認識 BEV 特徴がそれぞれ抽出されます。次に、相互表現特徴相互作用モジュールを通じて、さまざまな下流の知覚タスクのボクセル特徴と BEV 特徴に関する情報が交換されます。トレーニングプロセス中、UniVision フレームワークは、効果的なトレーニングのために、Occ-Det データ強化と段階的な減量調整戦略を組み合わせて使用します。これらの戦略により、トレーニング効果とフレームワークの汎化能力を向上させることができます。つまり、UniVision フレームワークは、マルチビュー画像と 3D ボクセル特徴の処理、および特徴相互作用モジュールのアプリケーションを通じて、周囲の環境をセンシングするタスクを実現します。同時に、データ強化と減量調整戦略の適用を通じて、フレームワークのトレーニング効果が効果的に向上します。

1) Ex-Im View Transform

深度指向の明示的な機能強化。ここでは LSS アプローチに従います:

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

#2) クエリガイドによる暗黙的な特徴サンプリング。ただし、3D 情報の表現にはいくつかの欠点があります。の精度は、推定された深度分布の精度と高い相関があります。さらに、LSS によって生成されるポイントは均一に分配されません。ポイントはカメラの近くでは密集しており、遠くでは疎になります。したがって、クエリガイドによる特徴サンプリングをさらに使用して、上記の欠点を補います。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

LSS から生成されたポイントと比較して、ボクセルクエリは 3D 空間に均一に分散されており、すべてのトレーニングサンプルの統計的特性から学習されます。これは深度に一致します。 LSS で使用される事前情報は無関係です。したがって、相互に補完し、ビュー変換モジュールの出力特徴としてそれらを接続します。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

#2) ローカルおよびグローバル特徴の抽出と融合

与えられた入力ボクセル特徴を、最初に Z 軸上に特徴をオーバーレイし、畳み込み層を使用してチャネルを削減し、BEV 特徴を取得します。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

次に、モデル特徴抽出と拡張のために 2 つの並列ブランチに分割されます。ローカル特徴抽出、グローバル特徴抽出、そして最後の相互表現特徴相互作用!図 1(b) に示すように。

#3) 損失関数と検出ヘッド

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

#段階的な減量調整戦略。実際には、上記の損失を直接組み込むと、トレーニングプロセスが失敗し、ネットワークが収束しなくなることがよくあります。トレーニングの初期段階では、ボクセル特徴 Fvoxel はランダムに分散されており、占有ヘッドと検出ヘッドでの監視は、収束における他の損失よりも寄与が小さくなります。同時に、検出タスクにおける分類損失 Lcl などの損失項目が非常に大きく、トレーニングプロセスを支配するため、モデルの最適化が困難になります。この問題を克服するために、損失重量を動的に調整する漸進的損失重量調整戦略が提案されています。具体的には、異なるトレーニングエポックにおける損失の重みを調整するために、制御パラメータδが非画像レベル損失（すなわち、占有損失および検出損失）に追加される。制御重み δ は、最初は小さな値 Vmin に設定され、N トレーニングエポックにわたって Vmax まで徐々に増加します。

4) Occ-Det 空間データ強化との組み合わせ

3D 検出タスクでは、一般的な画像レベルのデータ強化に加えて、空間レベルのデータ強化も改善に効果的です。モデルのパフォーマンス、効果的。ただし、占有タスクに空間レベルの強化を適用するのは簡単ではありません。データ拡張 (ランダムなスケーリングや回転など) を個別の占有ラベルに適用する場合、結果として得られるボクセルのセマンティクスを判断するのは困難です。したがって、既存の方法では、占有タスクにおけるランダムな反転などの単純な空間拡張のみが適用されます。

この問題を解決するために、UniVision は、フレームワーク内の 3D 検出タスクと占有タスクの同時強化を可能にする共同 Occ-Det 空間データ強化を提案しています。 3D ボックスのラベルは連続値であり、強化された 3D ボックスはトレーニング用に直接計算できるため、検出には BEVDet の強化方法に従います。占有ラベルは離散的で操作が困難ですが、ボクセルフィーチャは連続的なものとして扱うことができ、サンプリングや補間などの操作を通じて処理できます。したがって、データ拡張のために占有ラベルを直接操作するのではなく、ボクセルフィーチャを変換することをお勧めします。

具体的には、まず空間データ拡張がサンプリングされ、対応する 3D 変換行列が計算されます。占有ラベルとそのボクセルインデックスについて、その 3 次元座標を計算します。次に、それを適用して正規化して、拡張ボクセル機能のボクセルインデックスを取得します :

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

#実験結果の比較

検証には、NuScenes LiDAR セグメンテーション、NuScenes 3D オブジェクト検出、OpenOccupancy、Occ3D の複数のデータセットを使用しました。

NuScenes LiDAR セグメンテーション: 最近の OccFormer および TPVFormer によると、カメラ画像は LIDAR セグメンテーションタスクの入力として使用され、LIDAR データは出力フィーチャをクエリするための 3D 位置を提供するためにのみ使用されます。評価指標として mIoU を使用します。

NuScenes 3D オブジェクト検出: 検出タスクには、nuScenes の公式メトリックである nuScene 検出スコア (NDS) を使用します。これは、平均 mAP と、平均変換誤差 (ATE) を含むいくつかのメトリックの加重合計です。平均スケール誤差 (ASE)、平均配向誤差 (AOE)、平均速度誤差 (AVE)、および平均属性誤差 (AAE)。

OpenOccupancy: OpenOccupancy ベンチマークは nuScenes データセットに基づいており、512×512×40 の解像度でセマンティック占有ラベルを提供します。ラベル付けされたクラスは、評価指標として mIoU を使用する LIDAR セグメンテーションタスクのクラスと同じです。

Occ3D: Occ3D ベンチマークは nuScenes データセットに基づいており、200×200×16 解像度でセマンティック占有ラベルを提供します。 Occ3D はさらに、トレーニングと評価用の可視マスクを提供します。ラベル付けされたクラスは、評価指標として mIoU を使用する LIDAR セグメンテーションタスクのクラスと同じです。

1) Nuscenes LiDAR セグメンテーション

表 1 は、nuScenes LiDAR セグメンテーションベンチマークの結果を示しています。 UniVision は、最先端のビジョンベース手法である OccFormer を 1.5% mIoU 上回り、リーダーボードにおけるビジョンベースのモデルの新記録を樹立しました。特に、UniVision は、PolarNe や DB-UNet などの一部の LIDAR ベースのモデルよりも優れたパフォーマンスを発揮します。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

#2) NuScenes 3D オブジェクト検出タスク

表 2 に示すように、公平な比較に同じトレーニング設定を使用する場合、 UniVision は他の方法よりも優れたパフォーマンスを発揮することが示されました。 512×1408 の画像解像度での BEVDepth と比較して、UniVision は mAP と NDS でそれぞれ 2.4% と 1.1% の向上を達成します。モデルをスケールアップし、UniVision を時間入力と組み合わせると、SOTA ベースの時間検出器を大幅に上回ります。 UniVision は、より小さい入力解像度でこれを実現し、CBGS を使用しません。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

3) OpenOccupancy の結果の比較

OpenOccupancy ベンチマークテストの結果を表 3 に示します。 UniVision は、MonoScene、TPVFormer、C-CONet などの最近のビジョンベースの占有方法よりも、mIoU の点でそれぞれ 7.3%、6.5%、1.5% 大幅に優れています。さらに、UniVision は、LMSCNet や JS3C-Net などの LIDAR ベースのメソッドよりも優れたパフォーマンスを発揮します。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

4) Occ3D 実験結果

表 4 に、Occ3D ベンチマークテストの結果を示します。 UniVision は、さまざまな入力画像解像度での mIoU の点で、最近のビジョンベースの手法よりも、それぞれ 2.7% および 1.8% 以上大幅に優れています。 BEVFormer と BEVDet-stereo は、事前にトレーニングされた重みをロードし、推論で時間入力を使用しますが、UniVision はそれらを使用しませんが、それでもより良いパフォーマンスを達成することに注目する価値があります。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

#5) 検出タスクにおけるコンポーネントの有効性

検出タスクのアブレーション研究を表 5 に示します。 BEV ベースのグローバル特徴抽出ブランチがベースラインモデルに挿入されると、パフォーマンスは mAP で 1.7%、NDS で 3.0% 向上します。ボクセルベースの占有タスクが補助タスクとして検出器に追加されると、モデルの mAP ゲインは 1.6% 増加します。相互表現相互作用がボクセル特徴から明示的に導入されると、モデルは最高のパフォーマンスを達成し、ベースラインと比較して mAP と NDS をそれぞれ 3.5% と 4.2% 改善します;

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

6) 占有タスクにおけるコンポーネントの有効性

占有タスクのアブレーション研究を表 6 に示します。ボクセルベースのローカル特徴抽出ネットワークにより、ベースラインモデルに対して 1.96% の mIoU ゲインの向上がもたらされます。検出タスクが補助監視信号として導入されると、モデルのパフォーマンスは 0.4% mIoU 向上します。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

7) その他

表 5 と表 6 は、UniVision フレームワークにおいて、検出タスクと占有タスクが相互に補完していることを示しています。の。検出タスクの場合、占有監視により mAP および mATE メトリクスが改善され、ボクセルのセマンティック学習により、オブジェクトの幾何学形状、つまり中心性とスケールに対する検出器の認識が効果的に向上することが示されています。占有タスクの場合、検出監視により前景カテゴリ (つまり、検出カテゴリ) のパフォーマンスが大幅に向上し、全体的な向上が得られます。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。

Occ-Det 空間強調、Ex-Im ビュー変換モジュール、および漸進的損失重量調整戦略を組み合わせた効果を表 7 に示します。提案された空間拡張と提案されたビュー変換モジュールにより、mIoU、mAP、NDS メトリックに関する検出タスクと占有タスクが大幅に改善されました。減量調整戦略は、マルチタスクフレームワークを効果的にトレーニングできます。これがないと、統合フレームワークのトレーニングは収束できず、パフォーマンスが非常に低くなります。

UniVision は、新世代の統合フレームワークを導入しています。BEV 検出と占有のデュアルタスクが最も高度なレベルに達しています。