擴散一切？ 3DifFusionDet：擴散模型殺進LV融合3D目標偵測！-人工智慧-PHP中文網

筆者的個人理解

近年來，擴散模型在生成任務上非常成功，自然而然地擴展到目標偵測任務上，它將目標偵測建模為從雜訊框(noisy boxes)到目標框(object boxes)的去噪擴散過程。在訓練階段，目標框從真值框(ground-truth boxes)擴散到隨機分佈，模型學習如何逆轉這種向真值標註框添加雜訊過程。在推理階段，模型以漸進的方式將一組隨機產生的目標框細化為輸出結果。與傳統目標偵測方法相比，傳統目標偵測依賴一組固定的可學習查詢，3DifFusionDet不需要可學習的查詢就能進行目標偵測。

3DifFusionDet的主要思路

3DifFusionDet 框架將 3D 目標偵測表示為從有雜訊的 3D 框到目標框的去噪擴散過程。在這個框架中，真值框以隨機分佈擴散進行訓練，模型學習反向雜訊過程。在推理過程中，模型逐漸細化了一組隨機產生的框框。在特徵對齊策略下，漸進式細化方法可以對光達-Camera 融合做出重要貢獻。迭代細化過程還可以透過將此框架應用於需要不同等級的精度和速度的各種檢測環境，從而顯示出極大的適應性。 KITTI 是一個真實交通目標識別的基準，在KITTI 上進行了大量的實驗表明，與早期的檢測器相比，在KITTI 能夠取得良好的性能

3DifFusionDet主要貢獻如下：

將3D目標偵測表示為生成式去噪過程，並提出了3DifFusionDet，這是第一個將diffusion模型應用於3D目標偵測的研究。
研究了產生去噪過程框架下的最佳Camera-LiDAR 融合對齊策略，並提出了 2 個分支融合對齊策略以利用兩種模態提供的互補資訊。
在 KITTI 基準測試上進行了大量的實驗。與現有精心設計的方法相比，3DifFusionDet 取得了有競爭力的結果，展示了diffusion模型在 3D目標偵測任務中的前景。

使用 LiDAR-Camera融合進行 3D 目標偵測

對於 3D 目標偵測，Camera和 LiDAR 是兩種互補的感測器類型。 LiDAR 感測器專注於 3D 定位，並提供有關 3D 結構的豐富信息，而Camera則提供顏色信息，從中可以導出豐富的語義特徵。為了透過融合來自攝影機和 LiDAR 的數據來準確檢測 3D 目標，人們做出了許多努力。最先進的方法主要基於 LiDAR 基於 3D 目標偵測器，並努力將影像資訊納入 LiDAR 偵測流程的各個階段，因為基於 LiDAR 的偵測方法的效能明顯優於基於Camera的方法。由於基於雷射雷達和基於Camera的偵測系統的複雜性，將兩種模式結合起來必然會增加計算成本和推理時間延遲。因此，有效融合多種模式資訊的問題仍然存在。

擴散模型

擴散模型是一種生成模型，它透過引入雜訊來逐漸解構觀察到的數據，並透過反轉該過程來恢復原始數據。擴散模型和去噪分數匹配透過去噪擴散機率模型連接起來（Ho、Jain 和 Abbeel 2020a），該模型最近引發了人們對電腦視覺應用的興趣。已被多個領域應用，例如圖生成、語言理解、穩健學習和時態資料建模等。
擴散模型在影像生成和合成方面取得了巨大成功。有些先驅作品採用擴散模型進行影像分割任務。與這些領域相比，它們在目標檢測方面的潛力尚未得到充分開發。先前使用擴散模型進行物件偵測的方法僅限於 2D 邊界框。與2D 檢測相比，3D 檢測提供了更豐富的目標空間信息，可實現準確的深度感知和體積理解，這對於自動駕駛等應用至關重要，在自動駕駛等應用中，識別周圍車輛的精確距離和方向是自動駕駛等應用的重要面向。

3DifFusionDet的網路設計

圖 1 顯示了 3DifFusionDet 的整體架構。其接受多模式輸入，包括 RGB 影像和點雲。將整個模型分為特徵提取和特徵解碼部分，與 DiffusionDet相同，在每個迭代步驟中直接應用於原始 3D 特徵會很困難。特徵提取部分僅運行一次，以從原始輸入 X 中提取深層特徵表示，而特徵解碼組件將此深層特徵作為條件並訓練以逐步從噪聲框 #中繪製框預測。

為了充分利用兩種模態提供的互補訊息，將每種模態的編碼器和解碼器分開。此外，使用擴散模型分別產生雜訊框和，分別訓練影像解碼器和點雲解碼器以細化 2D 和 3D 特徵。至於這兩個特徵分支的連接，簡單地連接它們會導致資訊剪切，從而導致性能下降。為此，引入了多頭交叉注意機制來深度對齊這些特徵。這些對齊的特徵被輸入到檢測頭以預測最終的真值，而不會產生雜訊。

對於點雲編碼器，使用基於體素的方法進行萃取，並採用基於稀疏的方法進行處理。基於體素的方法將 LiDAR 點轉換為體素。與其他系列的點特徵提取方法（例如基於點的方法）相比，這些方法將點雲離散為等間距的 3D 網格，在盡可能保留原始 3D 形狀資訊的同時減少記憶體需求。基於稀疏性的處理方法進一步幫助網路提高運算效率。這些好處平衡了擴散模型相對較高的計算要求。

與 2D 特徵相比，3D 特徵包含額外的維度，使得學習更具挑戰性。考慮到這一點，除了從原始模態提取特徵之外，還添加了一條融合路徑，將提取的圖像特徵添加為點編碼器的另一個輸入，促進資訊交換並利用來自更多樣化來源的學習。採用PointFusion 策略，其中來自 LiDAR 感測器的點被投影到影像平面上。然後，影像特徵和對應點的串聯由 VoxelNet 架構共同處理。

特徵解碼器。提取的影像特徵和提取的點特徵用作相應影像和點解碼器的輸入。每個解碼器還結合了來自獨特創建的噪音框或的輸入，除了相應的提取特徵之外，還可以學習分別細化 2D 和 3D 特徵。

受到Sparse RCNN的啟發，圖像解碼器接收來自2D提議框集合的輸入，並從圖像編碼器創建的特徵圖中裁剪RoI特徵。點解碼器則接收來自3D提議框集合的輸入，並從影像編碼器建立的特徵圖中裁剪RoI特徵。對於點解碼器而言，輸入是一組3D提議框，用於從點編碼器產生的特徵圖中裁剪3D RoI特徵

交叉注意力模組。在對兩個特徵分支進行解碼之後，需要一種將它們組合起來的方法。一種直接的方法是透過連接這兩個功能分支來簡單地連接它們。這種方式顯得過於粗糙，可能會導致模型遭受資訊剪切，導致效能下降。因此，引入了多頭交叉注意機制來深度對齊和細化這些特徵，如圖 1 所示。具體來說，點解碼器的輸出被視為 k 和 v 的來源，而影像解碼器的輸出被投影到 q 上。

擴散一切？ 3DifFusionDet：擴散模型殺進LV融合3D目標偵測！

實驗結果

在 KITTI 3D 目標偵測基準上進行實驗。遵循用於測量檢測性能的標準 KITTI 評估協議 (IoU = 0.7)，表 1 顯示了 3DifFusionDet 方法與 KITTI 驗證集上最先進的方法相比的平均精度 (mAP) 分數。報告了的性能，遵循 [diffusionDet, difficileist] 並粗體顯示每個任務的兩個性能最佳的模型。

根據表1的結果，本研究的方法相對於基線表現出了顯著的表現提升。當D=4時，此方法能夠在較短的推理時間內超越大多數基線模型。進一步增加D至8時，雖然推理時間較長，但在所有模型中達到了最佳表現。這種靈活性揭示了該方法具有廣泛的潛在應用

消融實驗 首先，展示了保持影像RoI 對齊分支和編碼器特徵融合的必要性。要使用擴散模型從Camera和雷射雷達設計 3D 目標偵測器，最直接的方法應該是直接應用產生的雜訊 3D 框作為融合 3D 特徵的輸入。然而，這種方式可能會受到資訊剪切的影響，導致性能下降，如表2所示。利用它，除了將點雲RoIAlign放在編碼的3D特徵下之外，我們還創建了第二個分支，使圖像RoIAlign 在編碼的 2D 特徵下。顯著提高的性能表明可以更好地利用兩種模式提供的補充資訊。

然後，我們將分析不同融合策略的影響：給定學習的2D和3D表示特徵，我們要如何更有效地組合它們。與2D特徵相比，3D特徵多了一個額外的維度，這使得學習過程更具挑戰性。我們透過將來自LiDAR感測器的點投影到影像特徵上，並將其與要聯合處理的對應點串聯起來，從而添加了從影像特徵到點特徵的資訊流路徑。這就是VoxelNet架構。從表3可以看出，這種融合策略對偵測精度有很大的好處

需要融合的另一部分是解碼後兩個特徵分支的連接。在這裡，應用了多頭交叉注意機制來深度對齊和細化這些特徵。除此之外，還研究了更直接的方法，例如使用串聯運算、求和運算、直接乘積運算以及使用多層感知器（MLP）。結果如表4所示。其中，交叉注意力機製表現出最佳的表現，訓練和推理速度幾乎相同。

研究準確性和推理速度的權衡。透過比較 3D 檢測精度和每秒幀數 (FPS)，展示了選擇不同提案框以及 D 的影響。提案框的數量從 100、300 中選擇，而 D 從 1, 4, 8 中選擇. 運行時間是在批量大小為 1 的單個 NVIDIA RTX A6000 GPU 上進行評估的。結果發現，將提案框的數量從 100 增加到 300 可顯著提高準確性增益，而延遲成本可以忽略不計（1.3 FPS 與 1.2 FPS）。另一方面，更好的檢測精度會導致更長的推理時間。當 D 從 1 改為 8 時，3D 偵測精度從急劇（Easy：87.1 mAP 到 90.5 mAP）增加到相對緩慢（Easy：90.5 AP 到 91.3 mAP），而 FPS 不斷下降。

Case研究和未來的工作基於其獨特的屬性，本文討論了 3DifFusionDet 的潛在用途。一般來說，準確、穩健和即時的推論是目標偵測任務的三個要求。在自動駕駛汽車的感知領域，考慮到高速行駛的汽車由於慣性需要花費額外的時間和距離來減速或改變方向，因此感知模型對即時性要求特別敏感。更重要的是，為了確保舒適的乘坐體驗，汽車應該在安全的前提下，以最小的加速度絕對值盡可能平穩地行駛。與其他同類自動駕駛汽車產品相比，其主要優勢之一就是擁有更流暢的乘坐體驗。為此，無論是加速、減速或轉彎，自動駕駛汽車都應該開始快速反應。汽車反應越快，為後續操作和調整贏得的空間就越大。這比首先獲得最精確的檢測到的目標的分類或位置更重要：當汽車開始響應時，仍然有時間和距離來調整其行為方式，可以利用這些時間和距離以更精確的方式做出進一步的推斷，其結果隨後微調汽車的駕駛操作。

重寫後的內容如下：根據表4的結果顯示，當推理步長較小時，我們的3DifFusionDet模型可以快速進行推理，並獲得相對較高的準確度。這種初步的感知結果足夠精確，足以讓自動駕駛汽車做出新的反應。隨著推理步驟的增加，我們能夠產生更準確的目標偵測結果，並進一步微調我們的回應。這種漸進式的偵測方式非常適合我們的任務。此外，由於我們的模型可以在推理過程中調整提案框的數量，因此我們可以利用從小步驟中獲得的先驗資訊來優化即時提案框的數量。根據表4的結果顯示，不同先驗提案框下的表現也有所不同。因此，開發這種自適應探測器是一個具有前景的工作

除了自動駕駛汽車之外，本文的模型本質上匹配任何在連續反應空間中需要短推斷時間的現實場景，特別是在檢測器根據檢測結果移動的場景中。受益於擴散模型的性質，3DifFusionDet 可以快速找到幾乎準確的真實空間感興趣區域，觸發機器開始進行新的操作和自我優化。接下來的更高精度的感知機進一步微調機器的操作。為了將模型部署到這些移動探測器中，一個懸而未決的問題是結合較大步驟的早期推斷和較小步驟的最新推斷之間的推斷資訊的策略，這是另一個懸而未決的問題。

擴散一切？ 3DifFusionDet：擴散模型殺進LV融合3D目標偵測！

總結

#本文介紹了一種名為3DifFusionDet的新型3D目標偵測器，該偵測器具有強大的LiDAR和相機融合功能。將3D目標偵測表述為生成式去噪過程，這是第一個將擴散模型應用於3D目標偵測的工作。在產生去噪過程框架的背景下，本研究探討了最有效的相機光達融合對準策略，並提出了融合對準策略以充分利用兩種模式提供的補充資訊。與成熟的偵測器相比，3DifFusionDet表現良好，展示了擴散模型在目標偵測任務中的廣泛應用前景。其強大的學習結果和靈活的推理模式使其具有廣闊的潛在用途

擴散一切？ 3DifFusionDet：擴散模型殺進LV融合3D目標偵測！