無論真實還是AI視頻，'摩斯卡”都能重建恢復4D動態可渲染場景-人工智慧-PHP中文網

無論真實還是AI視頻，'摩斯卡”都能重建恢復4D動態可渲染場景

WBOY

發布： 2024-06-22 07:09:52

原創

482 人瀏覽過

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

雷嘉暉，美國賓州大學電腦系博士生(2020 - 今), 指導教授為Kostas Daniilidis 教授，目前主要研究方向為四維幾何的建模表示和演算法以及應用。他在電腦視覺和機器學習頂會 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份發表文章 7 篇。此前他本科 (2016-2020) 以專業第一名的成績畢業於浙江大學控制系，竺可楨學院混合班。

從任意單目影片重建可渲染的動態場景是電腦視覺研究領域的一個聖杯。本文中，賓州大學和史丹佛大學研究團隊嘗試朝著這個目標邁進一小步。

互聯網上有海量單目視頻，其中蘊含了大量物理世界的信息，但三維視覺仍缺乏行之有效的手段，將三維動態信息從這些視頻中提取出來，從而支撐未來三維大模型建模及理解動態物理世界。儘管重要，這個反問題極具挑戰性。

其一，真實拍攝的二維視頻往往缺乏多視角信息，因此不能利用多視角幾何進行三維重建，甚至在很多情況下無法通過已有軟體（如 COLMAP）求解相機位姿和內參。
其二，動態場景的自由度極高，其變形和長時間訊息融合的四維表示仍然不成熟，使這一困難的反問題更加複雜。

本文提出了一種新穎的神經信息處理系統—— 摩斯卡(MoSca)，只需提供一連串視頻幀圖片，無需任何額外信息，即可從SORA 生成的視頻、電影電視劇片段、網路影片和公開資料集的單目野生(in-the-wild) 影片中重建可渲染的動態場景。

無論真實還是AI視頻，摩斯卡”都能重建恢復4D動態可渲染場景

ArXiv地址: https://arxiv.org/pdf/2405.17421
代碼(近期將開源)：www.ggithub.com/Jiahui cis.upenn.edu/~leijh/projects/mosca/
影片(bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a35
以下為兩個視訊Demo。

方法概覽

為了克服上述的困難，摩斯卡首先利用了儲存在電腦視覺基石模型 (foundation models) 中的強先驗知識將問題的強先驗知識縮小。無論真實還是AI視頻，摩斯卡”都能重建恢復4D動態可渲染場景

具體而言，摩斯卡利用了單目有尺度的深度估計(mono metric-depth) 模型UniDepth、視頻任一點長時間跟踪(track any point) 模型CoTracker、光流估計(optical flow ) 模型RAFT 計算出的對極幾何誤差(epipolar error), 以及預訓練語意模型DINO-v2 所提供的語意特徵。詳參論文 3.1 章節.

我們觀察到，大多數真實世界的動態變形本質上都是緊湊和稀疏的，其複雜度往往遠低於真實幾何結構的複雜度。例如，一個硬物體的運動可以用旋轉和平移表示，一個人的運動大致可以用多個關節的旋轉平移近似。

基於這個觀察，本文提出了一種

新穎的緊湊動態場景表示—— 四維運動鷹架(4D Motion Scaffold) 無論真實還是AI視頻，摩斯卡”都能重建恢復4D動態可渲染場景，將上述基石模型輸出從二維提升至四維並進行融合，同時也融入物理啟發的變形正規化(ARAP) 。

四維運動鷹架是一個圖，圖的每一個節點是一串剛體運動 (SE (3)) 軌跡，圖的拓撲結構是全局考慮剛體運動軌跡曲線距離而構建的最近鄰邊。透過使用對偶四元數 (dual-quaternion) 在時空中平滑插值圖上節點的剛體軌跡，可表示空間中任一點的變形。這一表示大大簡化了需解的運動參數。 (詳見論文 3.2 章節）。

四維運動鷹架的另一個巨大優勢在於可以直接被單目深度和視頻二維點跟踪初始化，再通過高效的物理正則項優化求解出未知的遮擋點位置以及局部坐標系方向。詳參論文 3.3 章節.

有了四維運動鷹架，任何時刻的任何一點都可以被變形到任意目標時刻，這讓全局融合觀測資訊變得可能。具體而言，影片每一幀都可以利用估計的深度圖反投影到三維空間並初始化三維高斯 (3DGS)。這些高斯被「綁定」在四維運動鷹架上，自由穿梭於任何時刻。想要渲染某一時刻的場景，只需將全局所有其他時刻的高斯透過四維腳手架傳送到當下時刻融合即可。這項基於四維運動鷹架和高斯的動態場景表示可有效率地被高斯渲染器優化（詳見論文 3.4 章節）。

最後值得一提的是，摩斯卡是一個無需相機內外參的系統。透過利用上述基石模型輸出的對極幾何誤差確定靜態背景掩碼，利用基石模型輸出的深度和點跟踪，摩斯卡可以高效地優化重投影誤差，求解全局集束優化(bundle adjustment)，從而直接輸出相機內參與位姿，並透過後續的渲染持續優化相機（詳見論文3.5 章節）。

實驗結果

摩斯卡可以在 DAVIS 資料集影片中重建動態場景。值得注意的是，摩斯卡可靈活支援多種基於高斯的渲染器。除了原生的 3DGS 渲染器，本文也測試了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field)，如圖中最右列的火車，GOF 可渲染出更高品質的 normal 和 depth。

無論真實還是AI視頻，摩斯卡”都能重建恢復4D動態可渲染場景