QTNet: 点群、画像、マルチモーダル検出器用の新しい時間融合ソリューション (NeurIPS 2023)-AI-php.cn

事前に書かれた個人的な理解

時系列融合は、自動運転の 3D ターゲット検出の知覚能力を向上させる効果的な方法ですが、現在の方法を応用するとコストがかかります。実際の自動運転シナリオやその他の問題。最新の研究記事「3D オブジェクト検出のためのクエリベースの明示的モーションタイミングフュージョン」では、NeurIPS 2023 で新しいタイミングフュージョン手法を提案しました。この手法は、スパースクエリをタイミングフュージョンの対象とし、明示的なモーション情報を使用してタイミングアテンションマトリックスを生成し、それに適応します。大規模点群の特徴。この方法は、華中科技大学と Baidu の研究者によって提案されたもので、QTNet と呼ばれています。クエリと明示的なモーションに基づいて 3D ターゲットを検出するための時間融合方法です。実験により、QTNet はほとんどコストをかけずに点群、画像、およびマルチモーダル検出器のパフォーマンスを一貫して向上させることができることが証明されました。

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

紙のリンク :https:/ /openreview.net/pdf?id=gySmwdmVDF
コードリンク: https://github.com/AlmoonYsl/QTNet

問題の背景

現実世界の時間的連続性のおかげで、時間次元の情報により知覚情報がより完全になり、それによってターゲット検出の精度とロバスト性が向上します。たとえば、タイミング情報はターゲット検出の問題の解決に役立ちます。オクルージョン問題を解決し、ターゲットの動作ステータスと速度情報を提供し、ターゲットの永続性と一貫性情報を提供します。したがって、タイミング情報をいかに効率的に活用するかが自動運転の知覚において重要な課題となる。既存のタイミング融合手法は主に 2 つのカテゴリに分類されます。 1 つは高密度 BEV 特徴に基づく時系列融合 (点群/画像時系列融合に適用)、もう 1 つは 3D プロポーザル機能に基づく時系列融合 (主に点群時系列融合手法を対象) です。 BEV の特徴に基づく時間融合の場合、BEV 上のポイントの 90% 以上が背景であるため、このタイプの方法では前景のオブジェクトにあまり注意が払われず、その結果、多くの不必要な計算オーバーヘッドが発生し、最適なパフォーマンスが得られません。 3D プロポーザルに基づく時系列融合アルゴリズムの場合、時間のかかる 3D RoI プーリングを通じて 3D プロポーザルフィーチャを生成します。特にターゲットが多く、点群の数が多い場合、3D RoI プーリングによって生じるオーバーヘッドは実際には非常に高くなります。申請しても受理されにくい場合が多いです。さらに、3D プロポーザル機能はプロポーザルの品質に大きく依存しており、複雑なシーンではプロポーザルの品質が制限されることがよくあります。したがって、現在の方法では、時間的融合を効率的に導入して、非常に低いオーバーヘッドの方法で 3D ターゲット検出のパフォーマンスを向上させることは困難です。

効率的なタイミング融合を実現するにはどうすればよいでしょうか?

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

DETR は非常に優れたターゲット検出パラダイムであり、そのクエリ設計とセット予測のアイデアにより、後処理なしでエレガントな検出パラダイムを効果的に実現します。 DETR では、各クエリはオブジェクトを表し、クエリは密な特徴に比べて非常に疎です (通常、クエリの数は比較的小さい固定数に設定されます)。 Quey をタイミング融合の対象として使用すれば、計算オーバーヘッドの問題は当然低いレベルに下がります。したがって、DETR のクエリパラダイムは、当然ながらタイミング融合に適したパラダイムです。時間的融合では、時間的コンテキスト情報の合成を達成するために、複数のフレーム間のオブジェクトの関連付けを構築する必要があります。したがって、主な問題は、クエリベースのタイミングフュージョンパイプラインを構築し、2 つのフレーム間のクエリ間の相関関係を確立する方法です。

実際のシーンでの自車の動きにより、2 つのフレームの点群/画像は座標系でずれていることが多く、実際のアプリケーションでは過去のすべてのフレームを比較することは不可能です現在のフレーム内でネットワークを再転送して、位置合わせされた点群/画像の特徴を抽出します。したがって、この記事では、計算の繰り返しを避けるために、メモリバンクを使用して履歴フレームから取得したクエリ特徴とそれに対応する検出結果のみを保存します。
点群と画像はターゲットフィーチャの記述において大きく異なるため、フィーチャレベルを通じて統一された時間融合手法を構築することは現実的ではありません。ただし、3 次元空間では、点群と画像モダリティの両方が、ターゲットの幾何学的位置と動き情報の関係を通じて、隣接するフレーム間の相関関係を表現できます。したがって、この論文では、オブジェクトの幾何学的位置と対応する動き情報を使用して、2 つのフレーム間のオブジェクトの注目行列をガイドします。

メソッドの紹介

QTNet の中心的なアイデアは、メモリバンクを使用して、履歴フレームで取得されたクエリ特徴とそれに対応する検出結果を保存することです。重複を避ける過去のフレームのコストを計算します。クエリの 2 つのフレーム間で、リレーションシップモデリングにモーションガイド付きアテンションマトリックスを使用します

#全体的なフレームワーク

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

フレームワーク図に示されているように、QTNet には、3D DETR 構造を備えた 3D ターゲット検出器 (LiDAR、カメラ、マルチモーダルが利用可能)、メモリバンク、およびタイミング融合のためのモーションガイド付き時間モデリングモジュール (MTM) が含まれています。。 QTNet は、DETR 構造の 3D ターゲット検出器を通じて、対応するフレームのクエリ特徴と検出結果を取得し、取得したクエリ特徴と検出結果を先入れ先出しキュー (FIFO) 方式でメモリバンクに送信します。メモリバンクの数は、タイミングフュージョンに必要なフレーム数に設定されます。タイミング融合の場合、QTNet は最も遠い時間から始めてメモリバンクからデータを読み取り、MTM モジュールを使用してメモリバンク内のすべての機能をフレームからフレームまで繰り返し融合します。現在のフレームのクエリ機能を強化し、強化されたクエリ機能に基づいて現在のフレームの対応する検出結果を調整します。

具体的には、QTNet はフレームとフレームのフレームとフレームのクエリ機能を融合します。フレームの拡張クエリ機能を取得します。次に、QTNet はフレームとフレームのクエリ機能を融合します。このようにして、繰り返しを通じてフレームに継続的に統合されます。ここで使用される MTM は、フレームからフレームまですべてパラメーターを共有していることに注意してください。

モーションガイド付きアテンションモジュール

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

MTM は、オブジェクトの中心点の位置を使用して、明示的にフレームを生成しますクエリとフレームクエリのアテンションマトリックス。エゴポーズ行列と、オブジェクトの中心点、および速度が与えられるとします。まず、MTM はエゴポーズとオブジェクト予測の速度情報を使用して、前のフレームのオブジェクトを次のフレームに移動し、2 つのフレームの座標系を揃えます。

次に、# を渡します。 ##フレームオブジェクトの中心点とフレームの修正された中心点は、ユークリッドコスト行列を構築します。さらに、誤った一致の可能性を避けるために、この記事ではカテゴリと距離しきい値を使用してアテンションマスク:

Convert を構築します。コストマトリックス最終的な目標は、アテンションマトリックスを形成することです。

アテンションマトリックス

をフレームの強化されたクエリ機能に適用して、集計します。強化する時間的特徴フレームのクエリ特徴:

最終的に強化された

フレームのクエリ特徴単純な FFN を通じて、対応する検出結果を洗練します検出性能の向上を実現します。

分離された時間融合構造

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）時間融合の分類と回帰学習に不均衡の問題があることが観察されています。ソリューション時系列融合ブランチは、それぞれ分類と回帰のために設計されています。ただし、この分離アプローチでは、計算コストと待ち時間がさらに増加するため、ほとんどの方法では受け入れられません。対照的に、QTNet は効率的なタイミングフュージョン設計を利用しており、その計算コストと遅延は無視でき、3D 検出ネットワーク全体よりも優れたパフォーマンスを発揮します。したがって、この記事では、図

# 実験効果

## に示すように、無視できるコストでより優れた検出パフォーマンスを達成するために、時系列融合における分類と回帰ブランチの分離方法を採用しています。#QTNet は、点群/画像/マルチモダリティで一貫したポイント増加を実現します

nuScenes データセットの検証後、QTNet は将来の When 情報、TTA、およびモデルが統合され、68.4 の mAP と 72.2 の NDS が達成され、SOTA パフォーマンスが達成されます。未来情報を使用する MGTANet と比較すると、3 フレームタイミングフュージョンの場合、QTNet は MGTANet よりも優れたパフォーマンスを示し、それぞれ mAP が 3.0、NDS が 1.0 増加します

さらに、この記事は、マルチモーダルおよびリングビューベースの方法でも検証されており、nuScenes 検証セットの実験結果は、さまざまなモダリティにおける QTNet の有効性を証明しています。 QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

実際のアプリケーションでは、タイミング融合のコストのオーバーヘッドが非常に重要です。この記事では、QTNet について、計算量、遅延、パラメータ量の 3 つの側面から解析と実験を行います。結果は、ネットワーク全体と比較して、異なるベースラインによって引き起こされる QTNet の計算オーバーヘッド、時間遅延、パラメータ量が無視できるほど小さいことを示しています。特に計算量は 0.1G FLOP (LiDAR ベースライン) のみを使用します

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

さまざまなタイミング融合パラダイムの比較

クエリベースのタイミング融合パラダイムの優位性を検証するために、さまざまな代表的なフロンティアタイミングを選択し、融合手法を比較しました。実験結果を通じて、クエリパラダイムに基づくタイミング融合アルゴリズムは、BEVおよび提案パラダイムに基づくものよりも効率的であることが判明した。 0.1G FLOP と 4.5ms オーバーヘッドのみを使用すると、QTNet はより優れたパフォーマンスを示しますが、パラメーター全体の量はわずか 0.3M

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

アブレーション実験

この研究では、nuScenes 検証セット上の LiDAR ベースラインに基づいて、3 フレームの時間融合によるアブレーション実験を実施しました。実験結果は、単にクロスアテンションを使用して時間的関係をモデル化しても明らかな効果がないことを示しています。ただし、MTM を使用すると、検出パフォーマンスが大幅に向上します。これは、大規模な点群における明示的なモーションガイダンスの重要性を示しています。さらに、アブレーション実験を通じて、QTNet の全体的な設計が非常に軽量で効率的であることもわかりました。 4 フレームのデータをタイミングフュージョンに使用する場合、QTNet の計算量はわずか 0.24G FLOP、遅延はわずか 6.5 ミリ秒です。

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

MTM の可視化

MTM がクロスアテンションよりも優れている理由を探るため、この記事では 2 つのフレーム間のオブジェクトのアテンションマトリックスを視覚化します。ここでは、2 つのフレーム間で同じ ID が同じオブジェクトを表します。 MTM によって生成された注意行列 (b) は、Cross Attend によって生成された注意行列 (a) よりも識別力が高いことがわかります。特に小さなオブジェクト間の注意行列がそうです。これは、明示的な動きによって誘導されるアテンションマトリックスにより、モデルが物理モデリングを通じて 2 つのフレーム間のオブジェクトの関連付けを確立しやすくなることを示しています。この記事では、タイミングフュージョンにおけるタイミング相関を物理的に確立する問題について簡単に説明するだけですが、タイミング相関をより適切に構築する方法を検討する価値は依然としてあります。

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）