高畫質影片竟不是真的，幾張照片渲染的3D場景讓你難辨真偽-人工智慧-PHP中文網

高畫質影片竟不是真的，幾張照片渲染的3D場景讓你難辨真偽

PHPz

發布： 2024-08-05 20:15:51

原創

664 人瀏覽過

請注意，上述動圖完全是由多張照片渲染出來的 3D 場景。人類很難發現它們的破綻。

那讓我們一起看看，這種場景是怎麼實現的。

網格和點是最常見的三維場景表示法，因為它們是顯式的，非常適合基於 GPU/CUDA 的快速光柵化。相較之下，最新的神經輻射場（NeRF）方法建立在連續場景表徵的基礎上，通常使用體積光線渲染優化多層感知器（MLP），對捕捉到的場景進行新視角合成。雖然這些方法的連續性有助於最佳化，但渲染所需的隨機取樣成本很高，而且會產生雜訊。

來自法國蔚藍海岸大學的研究者引入了一種新方法，能夠結合這兩種方法的優點：3D 高斯表徵有著SOAT 視覺質量，並且在訓練時間上也進行了最佳化，而基於tile 的拋雪球演算法（tile-based splatting）在幾個資料集上以1080p 解析度實現SOTA 即時渲染。

論文地址：https://huggingface.co/papers/2308.04079

研究團隊下目標：對多張照片拍攝的場景進行即時渲染，並在典型真實場景中實現時間最優化。先前，Fridovich-Kei 等人提出的方法雖然實現了快速訓練，但難以達到目前 SOTA NeRF 方法所獲得的視覺質量，而後者需要長達 48 小時的訓練時間。還有研究提出快速但品質較低的輻射場方法，可以根據場景實現互動式渲染（每秒 10-15 幀），但這種方法無法實現高解析度下的即時渲染。

接下來，我們來看看本文是如何實現的。

方法

團隊的解決方案主要由三個部分組成。

第一，引入 3D 高斯作為一種靈活而富有表現力的場景表徵。輸入與 NeRF 方法類似，即使用結構 - 運動（SfM）校準像機，並且使用稀疏點雲初始化 3D 高斯集合，點雲來自 SfM 過程。此外，研究只用 SfM 點作為輸入就能獲得高品質的結果。需要注意的是，對於 NeRF 合成資料集，即使採用隨機初始化，本文方法也能獲得高品質的結果。研究表明，3D 高斯是一個很好的選擇。

第二，最佳化 3D 高斯屬性，即 3D 位置、不透明度?、各向異性協方差和球諧波（SH）係數。最佳化過程產生了一個相當緊湊、非結構化和精確的場景表徵。

第三，即時渲染解決方案，研究使用快速 GPU 排序演算法。不過，由於採用了3D 高斯表徵，可以在遵循可見度排序的情況下進行各向異性拼接，這要歸功於排序和?- blending— 並通過跟踪所需的盡可能多排序拼接的遍歷，實現快速準確的向後傳遞。