CVPR最佳論文候選 | NeRF新突破，以啟發式引導分割去除瞬態幹擾物，無需額外先驗知識-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

論文第一任作者為中生山大學電腦研究研究院校研究專業導師，二維研究研究中心為中生山大學電腦研究研究人員。該論文是他的第一份工作。論文通訊作者為中山大學電腦學院、人機物智慧融合實驗室李冠彬教授，博士生導師，國家優秀青年基金得主。團隊主要研究領域為視覺感知、場景建模、理解與生成。迄今累計發表 CCF A 類 / 中科院一區論文 150 餘篇，Google Scholar 引用超過 12000 次，曾獲得吳文俊人工智能優秀青年獎等榮譽。

自被提出以來，神經輻射場（Neural Radiance Fields, NeRF）因其在新視角合成及三維重建中的出色表現而受到極大關注。

雖然大量工作都在嘗試改進NeRF 的渲染質量或運行速度，但一個現實的問題很少被人提及：如果待建模場景中出現了意想不到的瞬態幹擾物，我們應該如何消除它們對NeRF 造成的影響？

本文中，來自中山大學、卡迪夫大學、賓州大學和思謀科技的研究人員對此展開了深入研究，並提出了一種解決該問題的新穎範式。

透過總結現有方法的優勢缺陷、拓寬已有技術的應用思路，該方法不僅可以在各類場景中準確區分靜瞬態元素、提高NeRF 的渲染質量，還入圍了CVPR 2024 最佳論文候選。

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

論文連結：https://arxiv.org/abs/2403.17537
專案連結：https://www.sysu-hcp.net/projects///13331331335

讓我們一起來了解下這項工作。

背景介紹

新視角合成是電腦視覺與圖形學的重要任務，演算法模型需要利用給定的多視角影像及相機位姿來產生目標位姿的影像。 NeRF 在該任務上取得了重要突破，但其有效性與靜態場景的假設有關。

具體來說，NeRF 要求待建模場景在拍攝過程中保持靜止、多視角影像內容必須一致。在現實中，我們很難滿足這種要求，例如在戶外拍攝時場景以外的車輛或路人可能會在鏡頭中隨機出現移動，在室內拍攝時某個物體或陰影會不經意間遮擋鏡頭。我們把這類場景以外的表現出動作或不一致的元素稱為瞬態幹擾物（Transient Distractors）。如果我們不能消除它們，它們會為 NeRF 的渲染結果帶來偽影。

^{瞬態中幹擾物（黃色方框）中造成大量的偽影。}

目前解決瞬態幹擾物問題的方法大致可分為兩種。 第一種方法使用語意分割等已有分割模型明確地得到與幹擾物有關的遮罩，然後在訓練 NeRF 時屏蔽對應像素。雖然這類方法可以得到精確的分割結果，但它們並不通用。這是因為我們需要事先得知與幹擾物有關的先驗知識（如物體類別、初始掩膜等）、模型可以辨識這些幹擾物。

與第一種方法不同，第二種方法在訓練 NeRF 時使用啟發式演算法隱式地處理瞬態幹擾物，不要求先驗知識。雖然這類方法更為通用，但它們因設計複雜性和高度不適定性而無法準確分離瞬態幹擾物和靜態場景元素。例如，由於瞬態像素對應的顏色紋理在不同視角下不一致，在訓練 NeRF 時該像素的預測值和真值之間的顏色殘差往往大於靜態像素的殘差。然而，場景中的高頻靜態細節也會因難以擬合而有過大的殘差，因此一些透過設定殘差閾值來去除瞬態幹擾物的方法很容易丟失高頻靜態細節。

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

^{現有方法與本文提出的啟發式引導分割（HuGS）之間的比較。當靜態場景被瞬態幹擾物幹擾時，（a）基於分割的方法依賴先驗知識，會因無法辨識意料之外的瞬態物體（例如比薩）而出現相關偽影；（b）基於啟發式的方法更具通用性但不夠準確（例如丟失了高頻靜態桌布紋理）；（c）HuGS 結合了它們的優點，能夠精確地分離瞬態幹擾物和靜態場景元素，從而顯著改善NeRF 的結果。}

方法概述

基於分割模型的方法準確但不通用、基於啟發式演算法的方法通用但不准確，那麼是否可以把它們結合起來既準確又通用呢？

因此，論文作者以「horses for courses」為動機，提出了一種名為啟發式引導分割（Heuristics-Guided Segmentation, HuGS）的新穎範式。透過巧妙結合手工設計的啟發式演算法和由提示驅動的分割模型，HuGS 可以在沒有額外先驗知識的情況下準確區分場景中的瞬態幹擾物和靜態元素。

具體來說，HuGS 首先使用啟發式演算法大致區分多視角影像中的靜瞬態元素並輸出粗糙提示，然後使用粗糙提示引導分割模型產生更精確的分割掩膜。在訓練 NeRF 時，這些掩膜會被用來屏蔽瞬態像素、消除瞬態幹擾物對 NeRF 的影響。

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

^{HuGS 設計想法中。}

在具體實現上，論文作者選用 Segment Anything Model (SAM) 作為 HuGS 的分割模型。 SAM 是目前最先進的基於提示驅動的分割模型，可以接受點、框、遮罩等不同類型的提示輸入並輸出對應的實例分割遮罩。

至於啟發式演算法，作者在深入分析後提出了一種組合啟發式：基於Structure-from-Motion (SfM) 的啟發式被用於捕獲場景的高頻靜態細節，而基於顏色殘差的啟發式被用來捕捉低頻靜態細節。兩種啟發式演算法輸出的粗糙靜態遮罩互不相同，而它們的並集會被用來引導 SAM 得到更精確的靜態遮罩。透過無縫結合這兩種啟發式演算法，HuGS 在面對不同紋理細節時可以穩健地識別各類靜態元素。

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

^{HuGS 流程圖。 (a) 給定帶有瞬態幹擾物的靜態場景下的無序多視角影像，HuGS 首先獲得兩種啟發式資訊。 (b) 基於SfM 的啟發式演算法透過SfM 來取得區分}^{靜態特徵點和瞬態特徵點}瞬態特徵點

生成稠密的靜態掩膜。 (c) 基於色彩殘差的啟發式演算法依賴於部分訓練（即只經過數千次迭代訓練）的 NeRF。其預測影像和真實影像之間的顏色殘差可以用於產生另一組靜態遮罩。 (d) 兩種不同遮罩的結合最終引導 SAM 產生 (e) 每個影像的準確靜態遮罩。

基於 SfM 的啟發式演算法

SfM 是一種從二維影像重建三維結構的技術。在提取影像的二維特徵後，SfM 會對特徵進行匹配和幾何驗證、重建稀疏三維點雲。 SfM 在 NeRF 中常被用來估計影像相機位姿，而論文作者發現

SfM 也可以用來區分場景的靜瞬態元素

。設某個二維特徵點的匹配數量為與其對應相同三維點雲點的其他二維特徵點數量，那麼來自靜態區域的二維特徵點的匹配數量要大於來自瞬態區域的特徵點匹配數量。

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

基於這個發現，我們可以在匹配數量上設定閾值來過濾得到靜態特徵點，再透過 SAM 將靜態特徵點轉換為靜態遮罩。為了驗證該發現的正確性，論文作者在 Kubric 資料集上進行了統計。如下圖所示，不同影像區域的特徵點匹配數量有顯著的差異。另一個視覺化結果表明合理的閾值設定可以在去除瞬態特徵點的同時保留靜態特徵點。 CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

左圖為來自不同影像區域的特徵點在匹配數量上的數量分佈直方圖，其中靜態區域特徵點的匹配數量均勻分佈在[0,200] 區間內，而瞬態區域特徵點的配對數量趨近於0、集中分佈在[0,10] 區間內。右圖為經過過濾後不同影像區域的剩餘特徵點密度隨閾值變化的曲線圖，其中整張影像與靜態區域的剩餘特徵點密度隨著閾值上升呈線性下降，而瞬態區域的剩餘特徵點密度指數下降、且在閾值大於0.2 後幾乎為0。

兩個不同視角影像的剩餘特徵點隨閾值上升而變化的可視化分佈。位於瞬態區域內的剩餘特徵點被逐漸移除，而靜態區域的大部分特徵點仍被保留。

基於顏色殘差的啟發式演算法

雖然基於SfM 的啟發式在大部分場景中都很好地捕捉紋理平滑紋理缺乏顯著特徵、難以被SfM 的特徵提取演算法辨識。

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

🎜🎜為了能夠識別低頻紋理，論文作者引入了基於顏色殘差的啟發式演算法：首先在原始多視角圖像上部分訓練NeRF（即只迭代數千次）、得到欠擬合模型，然後取得渲染影像和目標影像之間的色彩殘差。如背景介紹所述，低頻靜態紋理區域的顏色殘差要小於其他類型區域的殘差，因此可以在顏色殘差上設定閾值獲取與低頻靜態紋理相關的粗糙掩膜。透過顏色殘差得到的掩膜可以和透過 SfM 得到的掩膜互補，形成完整結果。 🎜🎜🎜🎜

^{兩種啟發式演算法的組合，其中（a）為輸入的目標影像，（d）為只迭代五千次的 NeRF 渲染結果。基於 SfM 的啟發式所得到的靜態遮罩 (b) 在捕捉高頻靜態細節（如盒子紋理）的同時遺漏了靜態平滑部分（如白色椅背）。基於色彩殘差的啟發式所得到的靜態遮罩（e）及其單獨引導 SAM 所得到的分割遮罩（f）取得了相反效果。它們的並集（c）在覆蓋所有靜態元素的同時區分了瞬態幹擾物（即粉紅色氣球）。}

實驗結果

可視化結果

335533光，

可視化結果

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

335膜前後的渲染結果比較。在組合啟發式演算法和 SAM 的幫助下，HuGS 可以產生準確的靜態遮罩，而 Mip-NeRF 360 在應用靜態遮罩後消除了大量偽影，RGB 圖和深度圖的渲染品質有明顯提升。

定性 / 定量渲染結果比較

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

這裡展示了論文方法在三個資料集和兩個基準模型上的實驗結果，以及與現有方法的比較。現有方法要麼無法消除瞬態幹擾物帶來的偽影，要麼抹除過多的靜態紋理細節。相較之下，論文方法可以在有效消除偽影的同時更好地保留靜態細節。

定性 / 定量分割結果比較

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

論文作者同樣在 Kubric 資料集上與現有分割演算法進行了比較。實驗結果表明，即使提供了先驗知識，語義分割、視訊分割等現有分割模型依然表現不佳，這是因為現有分割模型都沒有針對該任務進行設計。現有基於啟發式的方法雖然可以大致定位瞬態幹擾物的位置，但無法得到更精確的分割結果。與之相比，HuGS 透過結合啟發式演算法和分割模型，在沒有額外先驗知識的情況下準確分離瞬態幹擾物和靜態場景元素。

消融實驗結果

CVPR最佳论文候选 | NeRF新突破，用启发式引导分割去除瞬态干扰物，无需额外先验知识

論文作者也透過移除不同組件的方式來驗證各組件對 HuGS 造成的影響。結果表明，缺少基於SfM 的啟發式的模型(b) 無法很好地重建藍色方框中的低頻靜態紋理，而缺少基於顏色殘差的啟發式的模型(c) 和(d) 丟失了黃色方框中的高頻靜態細節。相較之下，完整方法 (f) 的數值指標和視覺化結果最佳。

全文總結

🎜🎜🎜論文提出了一種新穎的啟發式引導分割範式，有效解決了 NeRF 現實訓練中常見的瞬時幹擾問題。透過策略性地結合手工設計的啟發式和最先進的分割模型的互補優勢，該方法在沒有任何先驗知識的情況下實現了對不同場景中瞬時幹擾物的高度準確分割。透過精心設計的啟發式，論文方法能夠穩健地捕捉高頻和低頻的靜態場景元素。大量實驗證明了該方法的先進性。 🎜

以上是CVPR最佳論文候選 | NeRF新突破，以啟發式引導分割去除瞬態幹擾物，無需額外先驗知識的詳細內容。更多資訊請關注PHP中文網其他相關文章！