CVPR 2024 | 僅需文字或圖像提示，新框架CustomNeRF精準編輯3D場景-人工智慧-PHP中文網

美圖影像研究院（MT Lab）與中國科學院資訊工程研究所、北京航空航天大學、中山大學共同提出了3D場景編輯方法——CustomNeRF。該研究成果已被CVPR 2024接收。 CustomNeRF不僅支援文字描述和參考圖片作為3D場景的編輯提示，還能根據使用者提供的資訊產生高品質的3D場景。

Neural Radiance Field (NeRF) 自 2020 年神經輻射場 (Neural Radiance Field, NeRF) 提出以來，將隱式表達推上了一個新的高度。作為當前最前沿的技術之一，NeRF 快速泛化應用在電腦視覺、電腦圖形、擴增實境、虛擬實境等領域，並持續受到廣泛關注。 NeRF 透過對場景中每個點的輻射和密度進行建模，從而實現高品質的影像合成，這使得它在電腦視覺、電腦圖形、擴增實境和虛擬實境等領域的應用廣泛關注。 NeRF 的獨特之處在於其能夠從輸入的場景中產生高品質的影像，而不需要複雜的 3D 掃描或密集的視角影像。這項特性使得 NeRF 在許多領域具有廣泛的應用前景，包括電腦視覺、電腦圖形、擴增實境和虛擬實境等領域，並持續受到廣泛關注。 NeRF 透過對場景中的每個點的輻射和密度進行建模，從而實現高品質的影像合成。 NeRF 還可以用於產生高品質的 3D 渲染，這使得它在虛擬實境和擴增實境等領域的應用非常有前景。 NeRF 的快速發展和廣泛應用將繼續受到廣泛關注，預計在未來將會有更多基於 NeRF 的創新和應用湧現。

NeRF（神經輻射場）是一種用於最佳化和連續表示的特點，在3D場景重建中具有許多應用。它甚至帶動了3D場景編輯領域的研究，例如3D對物或場景的紋理重繪、風格化等。為了進一步提高3D場景編輯的靈活性，近期基於預訓練模型的NeRF編輯方法也正在被大量探索，而且由於NeRF的隱式表徵以及3D場景的幾何特性可以獲得符合文字提示的編輯結果，這些都是非常容易實現的事情。

為了使文本驅動的3D場景編輯也能夠實現精準控制，美圖影像研究院（MT Lab）與中國科學院資訊工程研究所、北京航空航天大學、中山大學共同提出了一種將文字描述和參考圖像統一為編輯提供的CustomNeRF框架。該框架內建了特定視角主體V∗，嵌入到混合表示中，從而滿足一般化和客製化的3D場景編輯要求。該研究成果已被CVPR 2024記錄，程式碼也已開源。

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

論文連結：https://arxiv.org/abs/2312.01663
程式碼連結： https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

## 驅動（右）的編輯效果

CustomNeRF 解決的兩大挑戰

目前，基於預訓練擴散模型進行3D 場景編輯的主流方法主要分為兩類。

其一，是使用圖像編輯模型迭代地更新資料集中的圖像，但是受限於圖像編輯模型的能力，會在部分編輯情況下失效。其二，則是利用分數蒸餾採樣（SDS）損失對場景進行編輯，但由於文本和場景之間的對齊問題，這類方法在真實場景中無法直接適配，會對非編輯區域造成不必要的修改，往往需要mesh 或voxel 等顯式中間表達。

此外，目前的這兩類方法主要集中在由文字驅動的3D 場景編輯任務中，文字描述往往難以準確表達使用者的編輯需求，無法將圖像中的具體概念客製化到3D 場景中，只能對原始3D 場景進行一般化編輯，因此難以獲得使用者預期中的編輯結果。

事實上，獲得預期編輯結果的關鍵在於精確識別影像前景區域，這樣能夠在保持影像背景的同時促進幾何一致的影像前景編輯。

因此，為了實現僅對圖像前景區域進行準確編輯，該論文提出了一種局部- 全局迭代編輯（LGIE）的訓練方案，在圖像前景區域編輯和全圖像編輯之間交替進行。該方案能夠準確定位影像前景區域，並在保留影像背景的同時僅對影像前景進行操作。

此外，在由影像驅動的 3D 場景編輯中，存在因微調的擴散模型過度擬合到參考影像視角，所造成的編輯結果幾何不一致問題。對此，該論文設計了一種類引導的正則化，在局部編輯階段僅使用類詞來表示參考圖像的主體，並利用預訓練擴散模型中的一般類先驗來促進幾何一致的編輯。

CustomNeRF 的整體流程

如圖2 所示，CustomNeRF 透過3 個步驟，來實現在文字提示或參考影像的指導下精確編輯重建3D 場景這一目標。

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{圖上使用中對列開始1#NeRF 的整體執行圖#D#1#311131131 月11313 月的原始流程# CustomNeRF 引入了額外的mask field 來估計除常規顏色和密度之外的編輯機率。如圖 2（a）所示，對於一組需要重建 3D 場景的圖像，論文先使用 Grouded SAM 從自然語言描述中提取圖像編輯區域的掩碼，結合原始圖像集訓練 foreground-aware NeRF。在 NeRF 重建後，編輯機率用於區分要編輯的影像區域（即影像前景區域）和不相關的影像區域（即影像背景區域），以便於在影像編輯訓練過程中進行解耦合的渲染。}其次，為了統一圖像驅動和文字驅動的3D 場景編輯任務，如圖2（b）所示，該論文採用了Custom Diffusion 的方法在圖像驅動條件下針對參考圖進行微調，以學習特定主體的關鍵特徵。經過訓練後，特殊字 V∗可以作為常規的單字標記用於表達參考影像中的主體概念，從而形成一個混合提示，例如 “a photo of a V∗ dog”。透過這種方式，CustomNeRF 能夠對自適應類型的資料（包括圖像或文字）進行一致且有效的編輯。

在最終的編輯階段，由於 NeRF 的隱式表達，如果使用 SDS 損失對整個 3D 區域進行最佳化會導致背景區域發生顯著變化，而這些區域在編輯後理應與原始場景保持一致。如圖 2（c）所示，論文提出了局部 - 全局迭代編輯（LGIE）方案進行解耦合的 SDS 訓練，使其能夠在編輯佈局區域的同時保留背景內容。

具體而言，該論文將 NeRF 的編輯訓練過程進行了更精細的劃分。透過 foreground-aware NeRF，CustomNeRF 可以在訓練中靈活地控制 NeRF 的渲染過程，即在固定相機視角下，可以選擇渲染前景、背景、以及包含前景和背景的常規影像。在訓練過程中，透過迭代渲染前景和背景，並結合相應的前景或背景提示，可以利用 SDS 損失在不同層面編輯當前的 NeRF 場景。其中，局部的前景訓練使得在編輯過程中能夠只專注於需編輯的區域，簡化複雜場景中編輯任務的難度；而全局的訓練將整個場景考慮在內，能夠保持前景和背景的協調性。為了進一步保持非編輯區域不改變，論文還利用編輯訓練前的背景監督訓練過程中所新渲染的背景，來保持背景像素的一致性。

此外，影像驅動 3D 場景編輯中存在著加劇的幾何不一致問題。因為經過參考影像微調過的擴散模型，在推理過程中傾向於產生和參考影像視角相近的影像，造成編輯後 3D 場景的多個視角均是前視圖的幾何問題。為此，論文設計了一種類引導的正則化策略，在全局提示中使用特殊描述符V*，在局部提示中僅使用類詞，以利用預訓練擴散模型中包含的類先驗，使用更幾何一致的方式將新概念注入場景中。

實驗結果

如圖3 和圖4 展示了CustomNeRF 與基準方法的3D 場景重建結果對比，在參考影像和文字驅動的3D 場景編輯任務中，CustomNeRF 均取得了不錯的編輯結果，不僅與編輯提示達成了良好的對齊，且背景區域和原始場景保持一致。此外，表 1、表 2 展示了 CustomNeRF 在圖像、文字驅動下與基線方法的量化比較，結果顯示在文字對齊指標、圖像對齊指標和人類評估中，CustomNeRF 均超越了基線方法。

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景 # 圖上與基準化方法的視覺化比較中與基準方法的視覺化比較## 圖

#圖片##11221#>

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{圖4 文本驅動編輯下與基線的可視化比較}

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{表1 影像驅動編輯下與基線之間的定量比較#o}## # # 表2 文字驅動編輯下與基準的定量比較

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

總結本論文創新地提出了CustomNeRF 模型，同時支持文本描述或參考圖像的編輯提示，並解決了兩個關鍵性挑戰—— 精確的僅前景編輯以及在使用單視圖參考圖像時多個視圖的一致性。該方案包括局部- 全局迭代編輯（LGIE）訓練方案，使得編輯操作能夠在專注於前景的同時保持背景不變；以及類引導正則化，減輕圖像驅動編輯中的視圖不一致，通過大量實驗，也驗證了CustomNeRF 在各種真實場景中，能夠準確編輯由文字描述和參考圖像提示的3D 場景。

以上是CVPR 2024 | 僅需文字或圖像提示，新框架CustomNeRF精準編輯3D場景的詳細內容。更多資訊請關注PHP中文網其他相關文章！