本文經自動駕駛之心公眾號授權轉載,轉載請聯絡來源。
基於LiDAR點雲點3D Object Detection一直是一個很經典的問題,學術界和工業界都提出了各種各樣的模型來提高精度、速度和穩健性。但因為室外的複雜環境,所以室外點雲的Object Detection的效能都還不算太好。而光達點雲本質上比較稀疏,如何針對性得解決這個問題呢?論文給了自己的答案:依照時序資訊的聚合來完成資訊的擷取。
這篇論文討論了自動駕駛中一個關鍵的挑戰:準確創建周圍環境的三維表示。這對於自動駕駛汽車的可靠性和安全性非常重要。尤其是,自動駕駛車輛需要能夠識別周圍的物體,如車輛和行人,並準確地確定它們的位置、大小和方向。通常情況下,人們會使用深度神經網路來處理光達(LiDAR)資料以完成這個任務。
大部分現有文獻集中在單一畫面方法上,即一次使用一個感測器掃描的資料。這種方法在經典基準測試中表現良好,這些測試的物體距離可達75公尺。然而,光達點雲本質上是稀疏的,特別是在遠距離範圍內。因此,論文指出僅使用單一掃描進行長距離檢測(例如,達到200公尺)是不夠的。這意味著需要採用多幀融合的方法來增加點雲密度和提高距離測量的準確性。透過將多個時間步的掃描資料進行配準和融合,可以得到更完整、更準確的場景重建和距離測量結果。這樣的方法在長距離目標偵測和避障等任務中具有更高的可靠性和穩健性。因此,論文的貢獻在於提出了一種基於多幀融合
為了解決這個問題,一種方法是透過點雲聚合來連續獲取雷射雷達掃描數據,從而獲得更密集的輸入。然而,這種方式在運算上代價高昂,且無法充分利用網路內部聚合的優勢。因此,一個明顯的替代方案是採用遞歸方法,透過逐步累積資訊來解決這個問題。遞歸方法在時間上可以不斷更新訊息,從而提供更準確和全面的結果。透過遞歸方法,可以有效地處理大量的輸入數據,並且在計算上更有效率。這樣,我們可以在解決問題的同時節省運算資源。
文章中也提到了其他增加偵測範圍的技術,如稀疏卷積、注意力模組和3D卷積。然而,這些方法往往忽略了目標硬體的兼容性問題。在部署和訓練神經網路時,所使用的硬體可能在支援的操作和延遲方面有顯著差異。例如,Nvidia Orin DLA等目標硬體通常不支援稀疏卷積或註意力等操作。此外,由於即時延遲的要求,使用3D卷積等層可能不可行。因此,使用簡單操作,如2D卷積,變得更加必要。
論文中提出了一個新型的時序遞歸模型,TimePillars,該模型尊重常見目標硬體上支援的操作集,依賴於2D卷積,基於點柱(Pillar)輸入表示和一個卷積遞歸單元。透過單一卷積和輔助學習的幫助,對遞歸單元的隱藏狀態應用了自我Motion Compensation。透過消融研究表明,使用輔助任務來確保這種操作的正確性是適當的。論文還研究了遞歸模組在管道中的最佳位置,並清楚地表明,將其放置在網路的骨幹和檢測頭之間可以獲得最佳性能。在新發布的Zenseact開放資料集(ZOD)上,論文展示了TimePillars方法的有效性。與單幀和多幀點柱基線相比,TimePillars取得了顯著的評估性能提升,特別是在重要的自行車手和行人類別中,在遠距離(長達200米)的檢測上表現尤為突出。最後,TimePillars的延遲顯著低於多幀點柱,使其適合即時系統。
這篇論文提出了一個名為TimePillars的新類型時序遞歸模型,用於解決3D雷射雷達物體偵測任務。相較於單幀和多幀點柱基線,TimePillars展現了在長距離檢測上顯著更好的性能,並且尊重了常見目標硬體支援的操作集。該論文也首次在新的Zenseact開放資料集上對3D雷射雷達物體偵測模型進行了基準測試。然而,論文的局限性在於它僅考慮了雷射雷達數據,沒有綜合考慮其他感測器輸入,並且其方法基於單一的最新基線。儘管如此,作者認為他們的框架是通用的,即未來基線的改進將會帶來整體性能的提升。
在這篇論文的「輸入預處理」部分,作者採用了「柱化」(Pillarisation)技術來處理輸入的點雲資料。這種方法不同於常規的體素化,它將點雲分割成垂直的柱狀結構,僅在水平方向(x和y軸)上分割,而在垂直方向(z軸)上保持固定高度。這樣做可以保持網路輸入尺寸的一致性,並允許使用2D卷積進行有效處理。
然而,Pillarisation處理的一個問題是產生了許多空的柱子,導致資料非常稀疏。為解決這個問題,論文中提出了使用動態體素化技術。這種技術避免了為每個柱子設定預定義點數的需求,從而不需要對每個柱子進行截斷或填充操作。相反,整個點雲資料被整體處理,以匹配到所需的總點數,這裡設定為20萬個點。這種預處理方法的好處是,它最大程度地減少了資訊的損失,並且使得產生的數據表示更加穩定和一致。
然後對於Model architecture,作者詳細介紹了一個由柱特徵編碼器(Pillar Feature Encoder)、2D卷積神經網路(CNN)骨幹和檢測頭組成的神經網路架構。
在論文這一部分,作者討論如何處理由卷積GRU輸出的隱藏狀態特徵,這些特徵是先前一幀的座標系表示的。如果直接儲存並用於計算下一個預測,由於自我運動(ego-motion)會發生空間不匹配。
為了進行轉換,可以應用不同的技術。理想情況下,已經校正的資料將被輸入網絡,而不是在網絡內部進行轉換。然而,這不是論文提出的方法,因為它需要在推理過程中的每一步重置隱藏狀態,轉換先前的點雲,並將它們傳播到整個網路。這不僅效率低下,也違背了使用RNN的目的。因此,在循環上下文中,補償需要在特徵層級進行。這使得假設的解決方案更有效率,但也使問題變得更複雜。傳統的插值方法可以用來取得變換座標系中的特徵。
與此相反,論文中受到Chen等人工作的啟發,提出使用卷積操作和輔助任務來執行變換。考慮到前述工作的細節有限,論文提出了針對此問題的客製化解決方案。
論文採取的方法是透過一個額外的捲積層,為網路提供執行特徵轉換所需的資訊。首先計算兩個連續幀之間的相對變換矩陣,即成功變換特徵所需執行的操作。然後,從中提取2D資訊(旋轉和平移部分):
在不同距离范围内的性能对比中,可以看到TimePillars在各个范围内均有更好的表现。对于车辆类别,TimePillars在0至50米、50至100米和100米以上的范围内的检测精度分别为0.884、0.776和0.591,均高于PointPillars在相同范围内的性能。这表明TimePillars在车辆检测方面,无论是近距离还是远距离,都具有更高的准确性。在处理易受伤害的交通工具(如摩托车、轮椅、电动滑板车等)时,TimePillars同样展现了更好的检测性能。特别是在100米以上的范围内,TimePillars的检测精度为0.178,而PointPillars仅为0.036,显示出在远距离检测方面的显著优势。对于行人检测,TimePillars也呈现出更好的性能,尤其是在50至100米的范围内,其检测精度达到了0.350,而PointPillars仅为0.211。即便在更远的距离(100米以上),TimePillars仍能实现一定程度的检测(0.032的精度),而PointPillars在这一范围内的表现为零。
这些实验结果强调了TimePillars在处理不同距离范围内的物体检测任务上的优越性能。无论是在近距离还是在更具挑战性的远距离范围内,TimePillars均能提供更准确和可靠的检测结果,这对于自动驾驶车辆的安全和效率至关重要。
首先,TimePillars模型的主要优点在于其对长距离物体检测的有效性。通过采用动态体素化和卷积GRU结构,模型能够更好地处理稀疏的激光雷达数据,尤其是在远距离物体检测方面。这对于自动驾驶车辆在复杂和变化的道路环境中的安全运行至关重要。此外,模型在处理速度上也显示出了较好的性能,这对于实时应用是必不可少的。另一方面,TimePillars在Motion Compensation方面采用了基于卷积的方法,这是对传统方法的一大改进。这种方法在训练过程中通过辅助任务确保了转换的正确性,提高了模型在处理运动对象时的精确度。
然而,论文的研究也存在一些局限。首先,虽然TimePillars在处理远距离物体检测方面表现出色,但这种性能的提升可能以牺牲一定的处理速度为代价。虽然模型的速度仍适用于实时应用,但与单帧方法相比,仍有所下降。此外,论文主要关注于LiDAR数据,没有考虑其他传感器输入,如相机或雷达,这可能限制了模型在更复杂多传感器环境中的应用。
也就是说TimePillars在自动驾驶车辆的3D激光雷达物体检测方面展现出了显著的优势,特别是在长距离检测和Motion Compensation方面。尽管存在处理速度的轻微折衷和对多传感器数据处理的局限性,TimePillars仍然代表了在这一领域中的一个重要进步。
这项工作表明,考虑过去的传感器数据比仅利用当前的信息更为优越。访问先前的驾驶环境信息,可以应对激光雷达点云的稀疏性质,并导致更准确的预测。我们证明了递归网络作为实现后者的手段是合适的。与通过大量处理创建更密集数据表示的点云聚合方法相比,赋予系统记忆力带来了更加稳健的解决方案。我们提出的方法,TimePillars,实现了解决递归问题的一种方式。仅通过在推理过程中增加三个额外的卷积层,我们证明了基本的网络构建模块足以取得显著成果,并保证了现有的效率和硬件集成规范得以满足。据我们所知,这项工作为新引入的Zenseact开放数据集上的3D物体检测任务提供了首个基准结果。我们希望我们的工作能为未来更安全、更可持续的道路做出贡献。
原文链接:https://mp.weixin.qq.com/s/94JQcvGXFWfjlDCT77gjlA
以上是高效率提升偵測能力:突破200公尺以上小目標偵測的詳細內容。更多資訊請關注PHP中文網其他相關文章!