DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！-人工智慧-PHP中文網

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！

本文提出了一套離線3D物體偵測演算法框架DetZero，透過在Waymo 公開資料集上進行全面的研究和評估，DetZero可產生連續且完整的物體軌跡序列，並充分利用長時序點雲特徵顯著提升感知結果的品質。同時以 85.15 mAPH (L2) 的效能在 WOD 3D 物件偵測排行榜上取得排名第一。此外，DetZero可以為線上模型的訓練提供高品質的自動標籤，其結果已達到甚至高於人工標籤的水平。

這是論文連結：https://arxiv.org/abs/2306.06023

需要重新寫的內容是：程式碼連結：https://github.com/PJLab-ADG/ DetZero

請造訪首頁連結：https://superkoma.github.io/detzero-page

1 引言

##為了提高資料標註的效率，我們研究了一種新的方法。這種方法基於深度學習和無監督學習，可以自動產生標註資料。透過使用大量的未標註數據，我們可以訓練一個自動駕駛感知模型，使其能夠識別和偵測道路上的物體。這種方法不僅可以減少標註資料的成本，還可以提高後處理的效率。我們在實驗中使用了Waymo的離線3D物體偵測方法3DAL[]作為基準進行比較，結果顯示我們提出的方法在準確性和效率方面都有顯著的改進。我們相信這種方法將在未來的自動駕駛技術中發揮重要作用

Detection）：輸入少量連續的點雲幀數據，輸出每一幀中3D物體的邊界框和類別資訊；
Tracking）：將每一幀偵測到的物體進行關聯，形成物體序列，並分配唯一的物體ID ;
Motion Classification）：基於物體軌跡特徵，確定物體的運動狀態（靜止或運動）；
Object-centric Refining）：根據前一模組預測的運動狀態，分別提取靜止和運動物體的時序點雲特徵，以預測準確的邊界框。最終，透過姿態矩陣將最佳化後的3D邊界框轉移回該物體所在的每一幀座標系中。

然而，許多主流的線上3D目標偵測方法透過利用點雲的時序情境特徵，取得了比現有的離線3D偵測方法更好的效果。然而，我們意識到這些方法未能有效地利用長序列點雲的特徵

物件序列的品質會對下游的最佳化模型產生很大的影響 DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！

基於運動狀態的最佳化模型預測物體的尺寸(a)，幾何最佳化模型將不同視角的點雲全部聚合後預測物體的尺寸(b) DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！

2 方法

本文提出了一個名為DetZero的新離線3D物件偵測演算法框架。該框架具有以下特點：（1）使用多幀3D檢測器和離線追蹤器作為上游模組，以提供準確和完整的物體跟踪，重點關注物體序列的高召回率（track-level recall）；（2）下游模組包含基於注意力機制的最佳化模型，利用長時序點雲特徵分別學習預測物體的不同屬性，包括精細化幾何尺寸、平滑運動軌跡位置以及更新置信度分數

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！

2.1 產生完整的物件序列

我們採用公開的CenterPoint[]作為基礎偵測器，為了提供更多的偵測候選框，我們在三個方面進行了加強：（1）將不同幀點雲組合作為輸入，最大化性能而不降低性能；（2）使用點雲密度資訊將原始點雲特徵和體素特徵融合為二階段模組，以優化一階段的邊界結果；（3）使用推理階段資料增強（TTA）、多模型結果融合（Ensemble）等技術來提高模型對複雜環境的適應能力

離線追蹤模組中引入了兩階段關聯策略以減少錯誤匹配，根據置信度將框分為高分組和低分組，對高分組進行關聯更新現有軌跡，未更新的軌跡與低分組關聯。同時，物體軌跡的長度可持續至序列終止，避免ID切換問題。此外，我們會反向執行追蹤演算法產生另一組軌跡，並透過位置相似性關聯，最後以WBF策略融合匹配成功的軌跡，進一步提升序列首尾的完整性。最後，對於區分好的物體序列，提取其對應的每一幀點雲進行保存；而未更新的冗餘框和一些較短的序列和會直接合併至最終的輸出，無需下游優化。

2.2 基於屬性預測的物體最佳化模組

先前的以物體為中心的最佳化模型忽略了物體之間在不同運動狀態下的相關性，例如幾何形狀的一致性以及相鄰時刻的物體運動狀態的一致性。基於這些觀察，我們將傳統的邊界框回歸任務分解為三個模組：分別預測物體的幾何形狀、位置和置信度屬性

局部與全域位置的交互作用：隨機選擇物體序列中的任意框作為原點，將所有其他框和對應的物體點雲轉移到此座標系下，併計算出每個點到各自邊界框中心點和8個角點的距離，作為全域位置特徵的key和value。物體序列中的每一個樣本都會作為位置query，送入自註意力層來判斷當前位置與其他位置的相對距離，隨後輸入交叉注意力層模擬局部到全局位置的上下文關係，並預測出此坐標系下每個初始中心點與真值中心點之間的偏移量，以及航向角差異。
置信度最佳化：分類分支用於分類該物體是TP還是FP，IoU回歸分支預測出一個物體在被幾何模型和位置模型優化後，與真值框之間的IoU大小。最後的置信度分數就是這兩個分支的幾何平均。

3 實驗

3.1 主要效能

DetZero在Waymo 3D偵測排行榜上以85.15 mAPH ( L2)取得了最佳成績，無論是與處理長時序點雲的方法相比，還是與最先進的多模態融合3D檢測器相比，DetZero都展現出了顯著的性能優勢

Waymo 3D偵測排行榜結果，所有結果均使用TTA或ensemble技術，†指離線模型，‡指點雲影像融合模型，*表示匿名提交結果 DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！

同樣，得益於偵測框的準確性和物件追蹤序列的完整性，我們以75.05 MOTA（L2）取得了Waymo 3D追蹤排行榜上的性能第一。

Waymo 3D追蹤排行榜，*表示匿名提交結果 DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！

3.2 消融實驗

為了更好地驗證我們提出的每個模組的作用，我們在Waymo驗證集上進行了消融實驗，並且採用了更嚴格的IoU閾值作為衡量標準

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！在Waymo驗證集上對Vehicle和Pedestrian進行，IoU閾值分別選取標準值（0.7 & 0.5）和嚴格值（0.8 & 0.6）

同時，對於同一組檢測結果，我們分別選擇3DAL中的跟踪器和優化模型與DetZero進行交叉組合驗證，結果進一步證明DetZero的跟踪器和優化器性能更好，且二者組合在一起後發揮出更大的優勢。

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！不同上下游模組組合的交叉驗證實驗，下角標1和2分別代表3DAL和DetZero，指標是3D APH

我們的離線追蹤器更注重物體序列的完整性，雖然兩者的MOTA性能差異很小，但是Recall@track的性能卻是導致最終優化性能差異很大的一個原因

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！離線跟踪器（Trk2）與3DAL跟踪器（Trk1）的性能對比，性能為MOTA和Recall@track

此外，與其他最先進的跟踪器相比，也能證明這一點

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！ Recall@track是經過追蹤演算法處理後的序列召回，3D APH是經過同一個最佳化模型處理後的最終效能

3.3 泛化效能

為了驗證我們的最佳化模型是否能夠固定擬合到特定的上游結果集，我們選擇了具有不同性能的上游檢測追蹤結果作為輸入。結果顯示，我們取得了明顯的性能提升，進一步證明了只要上游模組能夠召回更多更完整的物體序列，我們的優化器就能夠有效地利用其時序點雲的特徵進行優化

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！ #Waymo驗證集上的泛化性能驗證，指標是3D APH

3.4 與人類標註能力進行對比

我們將根據3DAL的實驗設定來報告DetZero在5個指定序列上的AP性能，透過比較基於單幀的重標註結果與原始真值標註結果的一致性來衡量人類性能。相對於3DAL和人類，DetZero在不同的性能指標上都表現出了優勢

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！ #對於Vehicle類別在不同IoU閾值下的3D AP和BEV AP性能對比

為了驗證高品質的自動標註結果是否能夠取代人工標註結果進行線上模型訓練，我們在Waymo驗證集上進行了半監督學習的驗證。我們從訓練數據中隨機選擇了10%作為老師模型（DetZero）的訓練數據，並對剩下的90%數據進行推理，得到了自動標註的結果，這些結果將作為學生模型的標籤。我們選擇了單幀CenterPoint作為學生模型。在車輛類別上，使用90%的自動標籤和10%的真值標籤進行訓練的結果接近使用100%真值標籤訓練的結果，而在行人類別上，自動標籤訓練的模型結果已經優於原始結果，這表明自動標籤可以用於線上模型訓練

DetZero：Waymo在3D檢測排行榜上排名第一，與人工標註媲美！在Waymo驗證集上進行的半監督實驗結果