MotionClone：無需訓練，一鍵克隆視訊運動-人工智慧-PHP中文網

MotionClone：無需訓練，一鍵克隆視訊運動

PHPz

發布： 2024-07-18 17:06:12

原創

965 人瀏覽過

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

無需訓練或微調，在提示詞指定的新場景中克隆參考視頻的運動，無論是全局的相機運動還是局部的肢體運動都可以克隆參考視頻的運動，無論是全局的相機運動還是局部的肢體運動都可以一鍵搞定。 MotionClone：無需訓練，一鍵克隆視訊運動

論文：https://arxiv.org/abs/2406.05338
主頁：https://bujiazi.github.io/motionclone.gith
主頁：https://bujiazi.github.io/motionclone.github
. github.com/Bujiazi/MotionClone

本文提出了名為MotionClone 的新框架，給定任意的參考視頻，能夠在不進行模型訓練或微調的情況下提取對應的運動信息；這種運動信息可以直接和文字提示一起指導新影片的生成，實現具有客製化運動的文本生成影片(text2video)。

MotionClone：無需訓練，一鍵克隆視訊運動

相較於先前的研究，MotionClone 具備如下的優點：

無需訓練或微調：先前的方法通常需要訓練模型來編碼運動線索或微調視訊擴散模型來擬合特定運動模式。訓練模型編碼運動線索對於訓練域以外的運動泛化能力較差，而微調現有的視訊生成模型可能會損害基底模型潛在的視訊生成品質。 MotionClone 無需引入任何額外的訓練或微調，在提高運動泛化能力的同時最大程度保留了基座模型的生成品質。
更高的運動質量：已有的開源文生視頻模型很難生成大幅度的合理的運動，MotionClone 通過引入主成分時序注意力運動指導在大幅加強生成視頻運動幅度的同時有效保障了運動的合理性。
更好的空間位置關係：為了避免直接的運動克隆可能導致的空間語義錯配，MotionClone 提出了基於交叉注意力掩碼的空間語義信息指導來輔助空間語義信息和時空運動信息的正確耦合。

時序注意力模組中的運動資訊

MotionClone：無需訓練，一鍵克隆視訊運動

在文字生視訊工作中，時序注意力模組 (Temporal Attention) 被廣泛用於建模視訊的幀間相關性。由於時序注意力模組中的注意力分數 (attention map score) 表徵了幀間的相關性，因此一個直觀的想法是是否可以透過約束完全一致的注意力分數來複製的幀間聯繫從而實現運動克隆。

然而，實驗發現直接複製完整的注意力圖(plain control) 只能實現非常粗糙的運動遷移，這是因為注意力中大多數權重對應的是噪聲或者非常細微的運動信息，這些信息一方面難以和文本指定的新場景相結合，另一方面掩蓋了潛在的有效的運動指導。

為了解決這個問題，MotionClone 引入了主成分時序注意力運動指導機制(Primary temporal-attention guidance)，僅利用時序注意力中的主要成分來對視頻生成進行稀疏指導，從而過濾噪音和細微運動訊息的負面影響，實現運動在文本指定的新場景下的有效克隆。

MotionClone：無需訓練，一鍵克隆視訊運動

空間語義修正

主成分時序注意力運動指導能夠實現對參考視頻的運動克隆，但是無法確保運動的主體和用戶意圖相一致，這會降低視頻生成的質量，在某某有些情況甚至會導致運動主體的錯位。

為了解決上述問題，MotionClone 引入空間語義引導機制(Location-aware semantic guidance)，透過交叉注意力掩碼（Cross Attention Mask）劃分影片的前後背景區域，透過分別約束影片前後背景的語意資訊來保障空間語義的合理佈局，促進時序運動和空間語義的正確耦合。

MotionClone 實作細節

MotionClone：無需訓練，一鍵克隆視訊運動

DDIM 反轉：MotionClone 採用 DDIM Inversion 將輸入的參考影片反轉至 latent space 中，實現對參考影片的時序注意力主成分擷取。
引導階段：在每次去噪時，MotionClone 同時引入了主成分時序注意力運動指導和空間語義信息指導，它們協同運行，為可控視頻生成提供全面的運動和語義引導。
高斯遮罩：在空間語義引導機制中，採用高斯核函數對交叉注意力遮罩進行模糊處理，消除潛在的結構訊息影響。

DAVIS 資料集中的 30 個影片被用於測試。實驗結果顯示 MotionClone 實現了在文本契合度、時序一致性以及多項用戶研究指標上的顯著提升，超越了以往的運動遷移方法，具體結果如下表所示。

MotionClone：無需訓練，一鍵克隆視訊運動