LidaRF：研究用於街景神經輻射場的光達資料（CVPR\'24）-人工智慧-PHP中文網

光真實感模擬在自動駕駛等應用中發揮關鍵作用，其中神經網路輻射場（NeRFs）的進步可能透過自動創建數位3D資產來實現更好的可擴展性。然而，由於街道上相機運動的高度共線性和在高速下的稀疏採樣，街景的重建品質受到影響。另一方面，該應用通常需要從偏離輸入視角的相機視角進行渲染，以準確模擬如變換車道等行為。 LidaRF提出了幾個見解，允許更好地利用光達數據來改善街景中NeRF的品質。首先，框架從雷射雷達資料中學習幾何場景表示，這些表示與基於隱式網格的解碼器相結合，從而提供了由顯示點雲提供的更強的幾何資訊。其次，提出了一種穩健的遮蔽感知深度監督訓練策略，允許透過累積使用密集雷射雷達點雲的強勢資訊來改善街景中的NeRF重建品質。第三，根據雷射雷達點的強度產生增強的訓練視角，以進一步改進在真實駕駛場景下的新視角合成中獲得的顯著改進。這樣，透過框架從雷射雷達數據中學習到的更準確的幾何場景表示，可以一步改進方法並在真實駕駛場景下獲得更好的顯著改進。

LidaRF的貢獻主要體現在三個方面：

(i)混合雷射雷達編碼和網格特徵以增強場景表示。雖然光達已被用作自然的深度監控來源，但將雷射雷達納入NeRF輸入中，為幾何歸納提供了巨大的潛力，但實現起來並不簡單。為此，借用了基於網格的表示法，但將從點雲中學習的特徵整合到網格中，以繼承顯式點雲表示法的優勢。透過3D感知框架成功的啟動，利用3D稀疏療卷積網路作為有效且高效的結構，從雷射雷達點雲的局部和全局上下文中提取幾何特徵。

（ii）魯棒的遮蔽感知深度監督。與現有工作類似，這裡也使用光達作為深度監督的來源，但更深入。由於光達點的稀疏性限制了其有效性，尤其是在低紋理區域，透過跨鄰近幀集化光達點來產生更密集的深度圖。然而，這樣獲得的深度圖沒有考慮到遮擋，產生了錯誤的深度監督。因此，提出了一種健壯的深度監督方案，借用class學習的方式－從近場到遠場逐步監督深度，並在NeRF訓練過程中逐漸濾除錯誤的深度，從而更有效地從雷射雷達中學習深度。

（iii）基於光達的視野增強。此外，鑑於駕駛場景中的視圖稀疏性和覆蓋範圍有限，利用光達來密集化訓練視圖。也就是說，將累積的光達點投影到新的訓練視圖中；請注意，這些視圖可能與駕駛軌跡有一定的偏離。這些從雷射雷達投影的視圖被添加到訓練資料集中，它們並沒有考慮到遮蔽問題。然而，我們應用了前面提到的監督方案來解決遮蔽問題，從而提高了效能。雖然我們的方法也適用於一般場景，但在這項工作中更專注於街道場景的評估，並與現有技術相比，無論是定量還是定性，都取得了顯著的改進。

LidaRF在需要更大程度偏離輸入視圖的有趣應用中也顯示出優勢，在具有挑戰性的街道場景應用中顯著提高了NeRF的品質。