高效率提升偵測能力：突破200公尺以上小目標偵測-人工智慧-PHP中文網

本文經自動駕駛之心公眾號授權轉載，轉載請聯絡來源。

基於LiDAR點雲點3D Object Detection一直是一個很經典的問題，學術界和工業界都提出了各種各樣的模型來提高精度、速度和穩健性。但因為室外的複雜環境，所以室外點雲的Object Detection的效能都還不算太好。而光達點雲本質上比較稀疏，如何針對性得解決這個問題呢？論文給了自己的答案：依照時序資訊的聚合來完成資訊的擷取。

1. 論文資訊

高效率提升偵測能力：突破200公尺以上小目標偵測

#2. 引言

高效率提升偵測能力：突破200公尺以上小目標偵測

這篇論文討論了自動駕駛中一個關鍵的挑戰：準確創建周圍環境的三維表示。這對於自動駕駛汽車的可靠性和安全性非常重要。尤其是，自動駕駛車輛需要能夠識別周圍的物體，如車輛和行人，並準確地確定它們的位置、大小和方向。通常情況下，人們會使用深度神經網路來處理光達（LiDAR）資料以完成這個任務。

大部分現有文獻集中在單一畫面方法上，即一次使用一個感測器掃描的資料。這種方法在經典基準測試中表現良好，這些測試的物體距離可達75公尺。然而，光達點雲本質上是稀疏的，特別是在遠距離範圍內。因此，論文指出僅使用單一掃描進行長距離檢測（例如，達到200公尺）是不夠的。這意味著需要採用多幀融合的方法來增加點雲密度和提高距離測量的準確性。透過將多個時間步的掃描資料進行配準和融合，可以得到更完整、更準確的場景重建和距離測量結果。這樣的方法在長距離目標偵測和避障等任務中具有更高的可靠性和穩健性。因此，論文的貢獻在於提出了一種基於多幀融合

為了解決這個問題，一種方法是透過點雲聚合來連續獲取雷射雷達掃描數據，從而獲得更密集的輸入。然而，這種方式在運算上代價高昂，且無法充分利用網路內部聚合的優勢。因此，一個明顯的替代方案是採用遞歸方法，透過逐步累積資訊來解決這個問題。遞歸方法在時間上可以不斷更新訊息，從而提供更準確和全面的結果。透過遞歸方法，可以有效地處理大量的輸入數據，並且在計算上更有效率。這樣，我們可以在解決問題的同時節省運算資源。

文章中也提到了其他增加偵測範圍的技術，如稀疏卷積、注意力模組和3D卷積。然而，這些方法往往忽略了目標硬體的兼容性問題。在部署和訓練神經網路時，所使用的硬體可能在支援的操作和延遲方面有顯著差異。例如，Nvidia Orin DLA等目標硬體通常不支援稀疏卷積或註意力等操作。此外，由於即時延遲的要求，使用3D卷積等層可能不可行。因此，使用簡單操作，如2D卷積，變得更加必要。

論文中提出了一個新型的時序遞歸模型，TimePillars，該模型尊重常見目標硬體上支援的操作集，依賴於2D卷積，基於點柱（Pillar）輸入表示和一個卷積遞歸單元。透過單一卷積和輔助學習的幫助，對遞歸單元的隱藏狀態應用了自我Motion Compensation。透過消融研究表明，使用輔助任務來確保這種操作的正確性是適當的。論文還研究了遞歸模組在管道中的最佳位置，並清楚地表明，將其放置在網路的骨幹和檢測頭之間可以獲得最佳性能。在新發布的Zenseact開放資料集（ZOD）上，論文展示了TimePillars方法的有效性。與單幀和多幀點柱基線相比，TimePillars取得了顯著的評估性能提升，特別是在重要的自行車手和行人類別中，在遠距離（長達200米）的檢測上表現尤為突出。最後，TimePillars的延遲顯著低於多幀點柱，使其適合即時系統。

這篇論文提出了一個名為TimePillars的新類型時序遞歸模型，用於解決3D雷射雷達物體偵測任務。相較於單幀和多幀點柱基線，TimePillars展現了在長距離檢測上顯著更好的性能，並且尊重了常見目標硬體支援的操作集。該論文也首次在新的Zenseact開放資料集上對3D雷射雷達物體偵測模型進行了基準測試。然而，論文的局限性在於它僅考慮了雷射雷達數據，沒有綜合考慮其他感測器輸入，並且其方法基於單一的最新基線。儘管如此，作者認為他們的框架是通用的，即未來基線的改進將會帶來整體性能的提升。

3. 方法

高效率提升偵測能力：突破200公尺以上小目標偵測

3.1 Input preprocessing

在這篇論文的「輸入預處理」部分，作者採用了「柱化」（Pillarisation）技術來處理輸入的點雲資料。這種方法不同於常規的體素化，它將點雲分割成垂直的柱狀結構，僅在水平方向（x和y軸）上分割，而在垂直方向（z軸）上保持固定高度。這樣做可以保持網路輸入尺寸的一致性，並允許使用2D卷積進行有效處理。

然而，Pillarisation處理的一個問題是產生了許多空的柱子，導致資料非常稀疏。為解決這個問題，論文中提出了使用動態體素化技術。這種技術避免了為每個柱子設定預定義點數的需求，從而不需要對每個柱子進行截斷或填充操作。相反，整個點雲資料被整體處理，以匹配到所需的總點數，這裡設定為20萬個點。這種預處理方法的好處是，它最大程度地減少了資訊的損失，並且使得產生的數據表示更加穩定和一致。

3.2 Model architecture

然後對於Model architecture，作者詳細介紹了一個由柱特徵編碼器（Pillar Feature Encoder）、2D卷積神經網路（CNN）骨幹和檢測頭組成的神經網路架構。

Pillar Feature Encoder：這個部分將預處理後的輸入張量映射成鳥瞰視圖（BEV）偽影像。使用動態體素化後，簡化的PointNet進行了相應的調整。輸入經過1D卷積，批量歸一化和ReLU激活函數處理，得到一個形狀為 # 的張量，其中代表通道數。在最終的散射最大化（scatter max）層之前，對通道應用最大池化，形成形狀為的潛在空間。由於初始張量被編碼為，在前面的層之後變成，因此去掉了最大池化運算。
Backbone：採用原始柱狀論文中提出的2D CNN骨幹架構，由於其深度效率較為優越。使用三個下取樣區塊（Conv2D-BN-ReLU）縮小潛在空間，並使用三個上取樣區塊和轉置卷積將其恢復，輸出形狀為。
Memory Unit：將系統的記憶建模為遞歸神經網路（RNN），具體採用卷積GRU（convGRU），也就是Gated Recurrent Unit的捲積版本。卷積GRU的優點在於避免了梯度消失問題，並且在維持空間資料特性的同時提高了效率。與其他選擇，如LSTM相比，GRU由於門的數量較少，因此具有較少的可訓練參數，可視為一種記憶正規化技術（降低隱藏狀態的複雜性）。透過合併類似性質的操作，減少了所需卷積層的數量，從而使單元更有效率。
Detection Head：對SSD（Single Shot MultiBox Detector）進行了簡單的修改。保留了SSD的核心理念，即單次通過且無需區域提議，但取消了錨盒（anchor boxes）的使用。直接為網格中的每個單元格輸出預測，雖然失去了單元格多物件偵測能力，但避免了繁瑣且常常不精確的錨盒參數調整，並簡化了推理過程。線性層處理分類和定位（位置、大小和角度）迴歸的各自輸出。只有大小使用激活函數（ReLU），以防止負值。此外，不同於相關文獻，論文透過獨立預測車輛行駛方向的正弦和餘弦分量，並從中提取角度，避免了直接角度回歸的問題。

3.3 Feature Ego-Motion Compensation

在論文這一部分，作者討論如何處理由卷積GRU輸出的隱藏狀態特徵，這些特徵是先前一幀的座標系表示的。如果直接儲存並用於計算下一個預測，由於自我運動（ego-motion）會發生空間不匹配。

為了進行轉換，可以應用不同的技術。理想情況下，已經校正的資料將被輸入網絡，而不是在網絡內部進行轉換。然而，這不是論文提出的方法，因為它需要在推理過程中的每一步重置隱藏狀態，轉換先前的點雲，並將它們傳播到整個網路。這不僅效率低下，也違背了使用RNN的目的。因此，在循環上下文中，補償需要在特徵層級進行。這使得假設的解決方案更有效率，但也使問題變得更複雜。傳統的插值方法可以用來取得變換座標系中的特徵。

與此相反，論文中受到Chen等人工作的啟發，提出使用卷積操作和輔助任務來執行變換。考慮到前述工作的細節有限，論文提出了針對此問題的客製化解決方案。

論文採取的方法是透過一個額外的捲積層，為網路提供執行特徵轉換所需的資訊。首先計算兩個連續幀之間的相對變換矩陣，即成功變換特徵所需執行的操作。然後，從中提取2D資訊（旋轉和平移部分）：

##這種簡化避免了主要矩陣常數，並在2D（偽圖像）域中工作，將16個值簡化為6個。然後將矩陣展平，並擴展以符合要補償的隱藏特徵的形狀。第一個維度表示需要轉換的幀數。這種表示法使其適合於在隱藏特徵的通道維度中串聯每個潛在柱子。

最後，隱藏狀態特徵被輸入到一個2D卷積層中，該層適合變換過程。需要注意的一個關鍵面向是：卷積的執行並不保證變換的進行。通道串聯只是為網路提供了關於如何可能執行變換的額外資訊。在這種情況下，使用輔助學習是適當的。在訓練過程中，增加了一個額外的學習目標（座標變換）與主要目標（物件偵測）並行。設計一個輔助任務，其目的是在監督下引導網路通過變換過程，以確保補償的正確性輔助任務僅限於訓練過程。一旦網路學會了正確地變換特徵，它就失去了適用性。因此，在推理時不考慮該任務。下一節將進一步實驗，以對比其影響。

4. 實驗

高效率提升偵測能力：突破200公尺以上小目標偵測

實驗結果表明，TimePillars模型在處理Zenseact Open Dataset（ZOD）幀資料集時表現出色，特別是在處理長達120公尺的範圍時。這些結果凸顯了TimePillars在不同運動轉換方法下的表現差異，並與其他方法進行了比較。

在比較基準模型PointPillars和多幀（MF）PointPillars後，可以看出TimePillars在多個關鍵效能指標上取得了顯著提升。尤其是在NuScenes Detection Score（NDS）上，TimePillars展示了更高的綜合評分，反映了其在檢測性能和定位精度方面的優勢。此外，TimePillars在平均轉換誤差（mATE）、平均尺度誤差（mASE）和平均方向誤差（mAOE）上也取得了較低的數值，顯示其在定位準確度和方向估計上較為精確。特別值得注意的是，TimePillars在運動轉換方面的不同實作方法對表現有顯著影響。當採用卷積基的運動轉換（Conv-based）時，TimePillars在NDS、mATE、mASE和mAOE上的表現特別突出，證明了這種方法在Motion Compensation和提高檢測精度方面的有效性。相較之下，使用內插法的TimePillars雖然也優於基準模型，但在某些指標上不如卷積方法。平均精確度（mAP）的結果顯示，TimePillars在車輛、騎乘者和行人類別的偵測上均表現良好，特別是在處理騎乘者和行人這些更為挑戰性的類別時，其效能提升更為顯著。從處理頻率（f (Hz））的角度來看，TimePillars雖然不如單幀PointPillars那麼快，但與多幀PointPillars相比，其處理速度更快，同時保持了較高的偵測效能。這顯示TimePillars在保持即時處理的同時，能夠有效地進行長距離偵測和Motion Compensation。也就是說TimePillars模型在長距離偵測、Motion Compensation以及處理速度方面展現出顯著優勢，尤其是在處理多幀資料和採用卷積基運動轉換技術時。這些結果強調了TimePillars在自動駕駛車輛的3D雷射雷達物體偵測領域的應用潛力。

高效率提升偵測能力：突破200公尺以上小目標偵測

上述實驗結果表明，TimePillars模型在不同距離範圍內的物件偵測效能上表現卓越，尤其是與基準模型PointPillars相比。這些結果分為三個主要的檢測範圍：0至50公尺、50至100公尺和100公尺以上。

首先，NuScenes Detection Score（NDS）和平均精確度（mAP）為整體效能指標。 TimePillars在這兩項指標上均優於PointPillars，顯示出整體上更高的偵測能力和定位精度。具體來說，TimePillars的NDS為0.723，遠高於PointPillars的0.657；而在mAP方面，TimePillars也以0.570顯著超越了PointPillars的0.475。

高效率提升偵測能力：突破200公尺以上小目標偵測

在不同距离范围内的性能对比中，可以看到TimePillars在各个范围内均有更好的表现。对于车辆类别，TimePillars在0至50米、50至100米和100米以上的范围内的检测精度分别为0.884、0.776和0.591，均高于PointPillars在相同范围内的性能。这表明TimePillars在车辆检测方面，无论是近距离还是远距离，都具有更高的准确性。在处理易受伤害的交通工具（如摩托车、轮椅、电动滑板车等）时，TimePillars同样展现了更好的检测性能。特别是在100米以上的范围内，TimePillars的检测精度为0.178，而PointPillars仅为0.036，显示出在远距离检测方面的显著优势。对于行人检测，TimePillars也呈现出更好的性能，尤其是在50至100米的范围内，其检测精度达到了0.350，而PointPillars仅为0.211。即便在更远的距离（100米以上），TimePillars仍能实现一定程度的检测（0.032的精度），而PointPillars在这一范围内的表现为零。

这些实验结果强调了TimePillars在处理不同距离范围内的物体检测任务上的优越性能。无论是在近距离还是在更具挑战性的远距离范围内，TimePillars均能提供更准确和可靠的检测结果，这对于自动驾驶车辆的安全和效率至关重要。

5. 讨论

高效率提升偵測能力：突破200公尺以上小目標偵測

首先，TimePillars模型的主要优点在于其对长距离物体检测的有效性。通过采用动态体素化和卷积GRU结构，模型能够更好地处理稀疏的激光雷达数据，尤其是在远距离物体检测方面。这对于自动驾驶车辆在复杂和变化的道路环境中的安全运行至关重要。此外，模型在处理速度上也显示出了较好的性能，这对于实时应用是必不可少的。另一方面，TimePillars在Motion Compensation方面采用了基于卷积的方法，这是对传统方法的一大改进。这种方法在训练过程中通过辅助任务确保了转换的正确性，提高了模型在处理运动对象时的精确度。

然而，论文的研究也存在一些局限。首先，虽然TimePillars在处理远距离物体检测方面表现出色，但这种性能的提升可能以牺牲一定的处理速度为代价。虽然模型的速度仍适用于实时应用，但与单帧方法相比，仍有所下降。此外，论文主要关注于LiDAR数据，没有考虑其他传感器输入，如相机或雷达，这可能限制了模型在更复杂多传感器环境中的应用。

也就是说TimePillars在自动驾驶车辆的3D激光雷达物体检测方面展现出了显著的优势，特别是在长距离检测和Motion Compensation方面。尽管存在处理速度的轻微折衷和对多传感器数据处理的局限性，TimePillars仍然代表了在这一领域中的一个重要进步。

6. 结论

这项工作表明，考虑过去的传感器数据比仅利用当前的信息更为优越。访问先前的驾驶环境信息，可以应对激光雷达点云的稀疏性质，并导致更准确的预测。我们证明了递归网络作为实现后者的手段是合适的。与通过大量处理创建更密集数据表示的点云聚合方法相比，赋予系统记忆力带来了更加稳健的解决方案。我们提出的方法，TimePillars，实现了解决递归问题的一种方式。仅通过在推理过程中增加三个额外的卷积层，我们证明了基本的网络构建模块足以取得显著成果，并保证了现有的效率和硬件集成规范得以满足。据我们所知，这项工作为新引入的Zenseact开放数据集上的3D物体检测任务提供了首个基准结果。我们希望我们的工作能为未来更安全、更可持续的道路做出贡献。

高效率提升偵測能力：突破200公尺以上小目標偵測