Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します-AI-php.cn

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

WBOY

リリース： 2023-04-08 21:41:04

転載

1160 人が閲覧しました

arXiv 論文「Unifying Voxel-based Representation with Transformer for 3D Object Detection」、6 月 22 日、香港中文大学、香港大学、Megvii Technology (孫建博士を追悼)、および Simou Technology、等

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

この論文では、UVTR と呼ばれる統合マルチモーダル 3D ターゲット検出フレームワークを提案します。この方法は、ボクセル空間のマルチモーダル表現を統合し、正確かつ堅牢なシングルモーダルまたはクロスモーダル 3D 検出を可能にすることを目的としています。この目的を達成するために、まずモダリティ固有の空間が、ボクセル特徴空間へのさまざまな入力を表すように設計されます。高さを圧縮せずにボクセル空間を維持し、意味上のあいまいさを軽減し、空間相互作用を可能にします。この統一されたアプローチに基づいて、知識伝達やモーダル融合など、さまざまなセンサーの固有の特性を十分に活用するためのクロスモーダルインタラクションが提案されています。このようにして、点群のジオメトリを意識した表現と画像内のコンテキストに富んだ特徴をうまく活用することができ、その結果、パフォーマンスと堅牢性が向上します。

トランスフォーマーデコーダは、学習可能な位置を持つ統一空間から特徴を効率的にサンプリングするために使用され、オブジェクトレベルの対話が容易になります。一般的に言えば、UVTR は、統一されたフレームワークでさまざまなモダリティを表現する初期の試みを表しており、シングルモーダルおよびマルチモーダル入力に関する以前の研究を上回り、nuScenes テストセット、LIDAR、カメラ、およびマルチモーダル出力の NDS で優れたパフォーマンスを達成しています。はそれぞれ69.7%、55.1%、71.1%です。

コード:https://github.com/dvlab-research/UVTR.

図に示すように:

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します

#表現統一プロセスでは、入力レベルのフローと特徴レベルのフローの表現に大別できます。最初のアプローチでは、マルチモーダルデータがネットワークの先頭で調整されます。特に、(a) の疑似点群は予測深度支援画像から変換され、(b) のレンジビュー画像は点群から投影されます。擬似点群の深度の不正確さとレンジビュー画像の 3D 幾何学的崩壊により、データの空間構造が破壊され、結果が悪くなります。特徴レベルの方法の場合、図 (c) に示すように、画像特徴を錐台に変換し、BEV 空間に圧縮するのが一般的な方法です。ただし、光線のような軌道のため、各位置での高さ情報 (高さ) の圧縮によりさまざまなターゲットの特徴が集約され、意味上の曖昧さが生じます。同時に、その暗黙的なアプローチでは、3 次元空間での明示的なフィーチャの相互作用をサポートすることが難しく、さらなる知識の伝達が制限されます。したがって、モーダルギャップを埋め、多面的な相互作用を促進するには、より統一された表現が必要です。

この記事で提案するフレームワークは、ボクセルベースの表現とトランスフォーマーを統合します。特に、ボクセルベースの明示的な空間における画像と点群の特徴表現と相互作用。画像の場合、図 (d) に示すように、予測された深さと幾何学的制約に従って画像平面から特徴をサンプリングすることによってボクセル空間が構築されます。点群の場合、位置が正確であれば、自然にフィーチャをボクセルに関連付けることができます。次に、空間相互作用のためにボクセルエンコーダーが導入され、隣接するフィーチャ間の関係が確立されます。このようにして、クロスモーダルインタラクションは各ボクセル空間内のフィーチャで自然に進行します。ターゲットレベルのインタラクションの場合、図 (d) に示すように、デコーダとして変形可能トランスが使用され、統合ボクセル空間内の各位置 (x、y、z) でターゲットクエリ固有の特徴がサンプリングされます。同時に、3D クエリ位置の導入により、BEV 空間の高さ情報 (高さ) 圧縮によって引き起こされる意味上の曖昧さが効果的に軽減されます。

図に示すように、マルチモーダル入力の UVTR アーキテクチャです。単一フレームまたはマルチフレームのイメージと点群が与えられると、まず単一のバックボーンで処理され、モダリティ固有の空間 VI に変換されます。 VP では、画像に対してビュー変換が使用されます。ボクセルエンコーダーでは、特徴が空間的に相互作用するため、トレーニング中に知識の伝達を簡単にサポートできます。設定に応じて、モーダルスイッチを使用してシングルモーダル機能またはマルチモーダル機能を選択します。最後に、学習可能な位置を含む統合空間 VU から特徴がサンプリングされ、トランスフォーマーデコーダーを使用して予測されます。

Transformer は 3D オブジェクト検出のためにボクセルベースの表現を統合します