NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮-人工智慧-PHP中文網

神經輻射場（NeRF）已經成為一種流行的新視圖合成方法。雖然 NeRF 正在快速泛化到更廣泛的應用以及資料集中，但直接編輯 NeRF 的建模場景仍然是一個巨大的挑戰。一個重要的任務是從 3D 場景中刪除不需要的對象，並與其周圍場景保持一致性，這個任務稱為 3D 影像修復。在 3D 中，解決方案必須在多個視圖中保持一致，並且在幾何上具有有效性。

本文來自三星、多倫多大學等機構的研究人員提出了一種新的三維修復方法來解決這些挑戰，在單一輸入影像中給定一小組姿態影像和稀疏註釋，提出的模型框架首先快速獲得目標對象的三維分割掩碼並使用該掩碼，然後引入一種基於感知優化的方法，該方法利用學習到的二維圖像再進行修復，將他們的信息提取到三維空間，同時確保視圖的一致性。

研究也透過訓練一個很有挑戰性的現實場景的資料集，為評估三維場景內修復方法帶來了新的基準測試。特別是，該資料集包含了有或沒有目標物件的相同場景的視圖，從而使三維空間內修復任務能夠進行更有原則的基準測試。

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

#論文網址：https://arxiv.org/pdf/2211.12254.pdf
論文首頁：https://spinnerf3d.github.io/

下面為效果展示，移除一些物件後，還能與周圍場景保持一致性：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

#本文方法和其他方法的比較，其他方法存在明顯的偽影，而本文的方法不是很明顯：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

#方法介紹

作者透過一個整合的方法來應對三維場景編輯任務中的各種挑戰，該方法獲取場景的多視圖圖像，以用戶輸入提取到的3D 掩碼，並用NeRF 訓練來擬合到掩碼圖像中，這樣目標對象就被合理的三維外觀和幾何形狀取代。現有的互動式二維分割方法沒有考慮三維方面的問題，而且目前基於 NeRF 的方法不能使用稀疏註釋得到好的結果，也沒有達到足夠的精度。雖然目前一些基於 NeRF 的演算法允許去除物體，但它們並不試圖提供新生成的空間部分。根據目前的研究進展，這項工作是第一個在單一框架中同時處理互動式多視圖分割和完整的三維圖像修復的方法。

研究者利用現成的、無 3D 的模型進行分割和影像修復，並以視圖一致性的方式將其輸出轉移到 3D 空間。建立在 2D 互動式分割工作的基礎上，作者所提出的模型從一個目標物件上的少量使用者用滑鼠標定的圖像點開始。由此，他們的演算法用一個基於視訊的模型初始化掩碼，並透過擬合一個語義掩碼的 NeRF ，將其訓練成一個連貫的 3D 分割。然後，再應用預先訓練的二維影像修復到多視圖影像集上，NeRF 擬合過程用於重建三維影像場景，利用感知損失去約束2 維畫影像的不一致，以及畫深度影像規範化遮罩的幾何區域。總的來說，研究者提供了一個完整的方法，從物件選擇到嵌入的場景的新視圖合成，在一個統一的框架中對使用者的負擔最小，如下圖所示。

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

綜上所述，這篇工作的貢獻如下：

一個完整的3D 場景操作過程，從使用者互動的物件選擇開始，到3D 修復的NeRF 場景結束；
將二維的分割模型擴展到多視圖情況，能夠從稀疏註釋中恢復出具有三維一致的掩碼；
#確保視圖一致性和感知合理性，一種新的基於優化的三維修復公式，利用二維影像修復；
一個新的用於三維編輯任務評估的資料集，包括對應的操作後的Groud Truth。

具體到方法上面，研究首先描述如何從單一視圖註解中初始化一個粗略的 3D 遮罩。將已標註的原始碼檢視表示為 I_1。將物件和來源視圖的稀疏資訊給一個互動式分割模型，用來估計初始來源物件遮罩 NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮 #。然後將訓練視圖作為一個視訊序列，與一起給予一個視訊實例分割模型V ，以計算，其中 #是I_i 的物件掩碼的初始猜測。初始的遮罩通常在邊界附近是不準確的，因為訓練視圖實際上並不是相鄰的視訊幀，而視訊分割模型通常是未知 3D 的。

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

多視圖分割模組取得輸入的RGB 影像、對應的相機內在和外部參數，以及初始遮罩去訓練一個語意NeRF 。上圖描述了語意 NeRF 中使用的網路；對於點 x 和視圖目錄 d，除了密度 σ 和顏色 c 外，它還傳回一個 pre-sigmoid 型的物件 logit，s (x)。為了其快速收斂，研究者使用 instant-NGP 作為他們的 NeRF 架構。與光線r 相關聯的期望客觀性是透過在方程式中呈現r 上的點的對數而不是它們相對於密度的顏色而得到的：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

然後使用分類損失進行監督：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

用於監督基於NeRF 的多視圖分割模型的總體損失為：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

#最後，採用兩個階段進行最佳化，進一步改進掩碼；在獲得初始三維掩碼後，從訓練視圖呈現掩碼，並用於監督二次多視圖分割模型作為初始假設（而不是視訊分割輸出）。

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

上圖顯示了視圖一致的修正方法概述。由於資料的缺乏妨礙了直接訓練三維修改修復模型，該研究利用現有的二維修復模型來獲得深度和外觀先驗，然後監督 NeRF 對完整場景的渲染擬合。這個嵌入的 NeRF 使用以下損失進行訓練：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

該研究提出具有視圖一致性的修復方法，輸入為 RGB。首先，該研究將影像和遮罩對傳輸給影像修復器以獲得 RGB 影像。由於每個視圖都是獨立修復的，因此直接使用修復的視圖監督 NeRF 的重建。本文中，研究者並沒有使用均方誤差（MSE）作為 loss 生成掩碼，而是建議使用感知損失 LPIPS 來優化影像的遮罩部分，同時仍使用 MSE 來優化未遮罩部分。此損失的計算方法如下：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

#即使有感知損失，修復視圖之間的差異也會錯誤地引導模型收斂到低品質幾何（例如，攝影機附近可能形成“模糊” 幾何測量，以解釋每個視圖的不同資訊）。因此，研究員使用已產生的深度圖作為 NeRF 模型的額外指導，並在計算感知損失時分離權值，使用感知損失只擬合場景的顏色。為此，研究者使用了一個對包含不需要的物件的圖像進行了最佳化的 NeRF，並渲染了與訓練視圖對應的深度圖。其計算方法是用到相機的距離而不是點的顏色代替的方法：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

然後將渲染的深度輸入到修復器模型，以獲得修復完的深度圖。研究發現，使用 LaMa 進行深度繪製，例如 RGB，可以獲得足夠高品質的結果。這個 NeRF 可以是與用於多視圖分割的相同模型，如果使用其他來源來獲取掩碼，如人工註釋的掩碼，一個新的 NeRF 將被安裝到場景中。然後，這些深度圖被用來監督已修復的 NeRF 的幾何形狀，透過其渲染深度然後將渲染的深度輸入到修復器模型，以獲得修復完的深度圖。研究發現，使用 LaMa 進行深度繪製，例如 RGB，可以獲得足夠高品質的結果。這個 NeRF 可以是與用於多視圖分割的相同模型，如果使用其他來源來獲取掩碼，如人工註釋的掩碼，一個新的 NeRF 將被安裝到場景中。然後，這些深度圖被用來監督已修復的NeRF 的幾何形狀，透過其渲染深度到修復的深度的 NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮到修復的深度的距離：

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮 ##多視圖分割：首先評估MVSeg 模型，沒有任何編輯修復。在本實驗中，假設稀疏影像點已經給出了一個現成的互動式分割模型，並且來源遮罩是可用的。因此，該任務是將來源遮罩傳輸到其他視圖中。下表顯示，新模型優於 2D（3D 不一致）和 3D 基準。此外研究者提出的兩階段最佳化有助於進一步改進所得到的遮罩。

###############定性分析來說，下圖將研究人員的分割模型的結果與NVOS 和一些視訊分割方法的輸出進行了比較。與 3D 視訊分割模型的粗邊相比，他們的模型降低了雜訊並提高了視圖的一致性。雖然 NVOS 使用塗鴉（scribbles）不是研究者新模型中使用的稀疏點，但新模型的 MVSeg 在視覺上優於 NVOS。由於 NVOS 程式碼庫不可用，研究人員複製了已發布的 NVOS 的定性結果（更多的例子請參見補充文件）。 #########################

下表顯示了 MV 方法與基準的比較，總的來說，新提出的方法明顯優於其他二維和三維修復方法。下表進一步顯示，移除幾何圖形結構的引導會降低已修復的場景品質。

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛髮