時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了-人工智慧-PHP中文網

在 AI 繪畫領域，阿里提出的 Composer 和史丹佛提出的基於 Stable diffusion 的 ControlNet 引領了可控影像生成的理論發展。但是，業界在可控影片產生的探索依舊處於相對空白的狀態。

相較於影像生成，可控的影片更加複雜，因為除了影片內容的空間的可控性之外，還需要滿足時間維度的可控性。基於此，阿里巴巴和螞蟻集團的研究團隊率先做出嘗試並提出了 VideoComposer，即透過組合式生成範式同時實現影片在時間和空間兩個維度上的可控性。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

#論文網址：https://arxiv.org/abs/2306.02018
專案首頁：https://videocomposer.github.io

前段時間，阿里巴巴在魔搭社群和Hugging Face 低調開源了文生影片大模型，意外地受到國內外開發者的廣泛關注，該模型生成的影片甚至得到馬斯克本尊的回應，模型在魔搭社群上連續多天獲得單日上萬次國際訪問量。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

Text-to-Video 在推特

VideoComposer 作為該研究團隊的最新成果，又一次受到了國際社區的廣泛關注。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

VideoComposer 在推特上

############################################### ############事實上，可控性已經成為視覺內容創作的更高基準，其在客製化的影像生成方面取得了顯著進步，但在影片生成領域仍然具有三大挑戰：######

複雜的資料結構，產生的影片需同時滿足時間維度上的動態變化的多樣性和時空維度的內容一致性；
複雜的引導條件，已存在的可控的視頻生成需要複雜的條件是無法人為手動構建的。例如Runway 提出的Gen-1/2 需要依賴深度序列作條件，其能較好的實現視訊間的結構遷移，但無法很好的解決可控性問題；
缺乏運動可控性，運動模式是影片即複雜又抽象的屬性，運動可控性是解決影片生成可控性的必要條件。

在此之前，阿里巴巴提出的Composer 已經證明了組合性對影像生成可控性的提升具有極大的幫助，而VideoComposer 這項研究同樣是基於組合式生成範式，在解決以上三大挑戰的同時提高影片產生的靈活性。具體是將影片分解成三種引導條件，即文字條件、空間條件、和影片特有的時序條件，然後基於此訓練 Video LDM (Video Latent Diffusion Model)。特別地，其將高效的 Motion Vector 作為重要的顯式的時序條件以學習視訊的運動模式，並設計了一個簡單有效的時空條件編碼器 STC-encoder，保證條件驅動視訊的時空連續性。在推理階段，則可以隨機組合不同的條件來控制影片內容。

實驗結果表明，VideoComposer 能夠靈活控制視頻的時間和空間的模式，例如透過單張圖、手繪圖等生成特定的視頻，甚至可以透過簡單的手繪方向輕鬆控制目標的運動風格。該研究在 9 個不同的經典任務上直接測試 VideoComposer 的性能，兩者都獲得滿意的結果，證明了 VideoComposer 通用性。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

圖（a-c）VideoComposer 能夠產生符合文字、空間和時間條件或其子集的影片；（d ）VideoComposer 可以僅利用兩筆畫來生成滿足梵高風格的視頻，同時滿足預期運動模式（紅色筆畫）和形狀模式（白色筆畫）

方法介紹

Video LDM

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

##隱空間。時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

Video LDM 首先引入預先訓練的編碼器將輸入的視訊

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

#對應到隱空間表達，其中

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

。然後，在用預先訓練的解碼器 D 將隱空間映射到像素空間上去

。在 VideoComposer 中，參數設定。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

擴散模型。

###為了學習實際的影片內容分佈###########################，擴散模型學習從常態分佈雜訊中逐步去噪來恢復真實的視覺內容，該過程實際上是在模擬可逆的長度為 T=1000 的馬可夫鏈。為了在隱空間中進行可逆過程，Video LDM 將雜訊注入

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

中，得到雜訊注入的隱變數

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

。然後其透過用去噪函數

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

作用在

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

和輸入條件c 上，那麼其最佳化目標如下：

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

為了充分探討利用空間局部的歸納偏移和序列的時間歸納偏移進行去噪，VideoComposer 將

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

實例化為一個3D UNet，同時使用時序卷積算符和交叉注意機制。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

#VideoComposer

組合條件。 VideoComposer 將影片分解為三種不同類型的條件，即文字條件、空間條件和關鍵的時序條件，它們可以共同確定影片中的空間和時間模式。 VideoComposer 是一個通用的組合式視訊生成框架，因此，可以根據下游應用程式將更多的自訂條件納入VideoComposer，不限於下述列出的條件：

文字條件：文字(Text) 描述以粗略的視覺內容和運動方面提供影片的直覺指示，這也是常用的T2V 常用的條件；

##空間條件：
單張圖(Single Image)，選擇給定影片的第一個畫面作為空間條件來進行影像到影片的生成，以表達該視頻的內容和結構；
單張早圖(Single Sketch)，使用PiDiNet 提取第一個視頻幀的草圖作為第二個空間條件；
風格（Style），為了進一步將單張圖像的風格轉移到合成的影片中，選擇圖像嵌入作為風格指導；

時序條件：
運動向量（Motion Vector），運動向量作為視訊特有的元素表示為二維向量，即水平和垂直方向。它明確地編碼了相鄰兩幀之間的逐像素移動。由於運動向量的自然屬性，將此條件視為時間平滑合成的運動控制訊號，其從壓縮影片中提取標準MPEG-4 格式的運動向量；
## 深度序列（ Depth Sequence），為了引入視訊層級的深度訊息，利用PiDiNet 中的預訓練模型提取視訊畫面的深度圖；
掩膜序列（Mask Sequence），引入管狀掩膜來屏蔽局部時空內容，並強制模型根據可觀察到的信息預測被屏蔽的區域；
草圖序列（Sketch Sequnce），與單一草圖相比，草圖序列可以提供更多的控制細節，從而實現精確的客製化合成。

時空條件編碼器。序列條件包含豐富且複雜的時空依賴關係，對可控制的指示帶來了較大挑戰。為了增強輸入條件的時序感知，研究設計了一個時空條件編碼器（STC-encoder）來納入空時關係。具體而言，首先應用一個輕量級的空間結構，包括兩個 2D 卷積和一個 avgPooling，用於提取局部空間信息，然後將得到的條件序列被輸入到一個時序 Transformer 層進行時間建模。這樣，STC-encoder 可以促進時間提示的明確嵌入，為多樣化的輸入提供統一的條件植入入口，從而增強幀間一致性。另外，研究在時間維度上重複單一影像和單一草圖的空間條件，以確保它們與時間條件的一致性，從而方便條件植入過程。

經過 STC-encoder 處理條件後，最終的條件序列具有與相同的空間形狀，然後透過元素加法融合。最後，沿著通道維度將合併後的條件序列與連接起來作為控制訊號。對於文本和風格條件，利用交叉注意力機制注入文本和風格指導。

訓練與推理

兩階段訓練策略。雖然VideoComposer 可以透過影像LDM 的預訓練進行初始化，其能夠在一定程度上緩解訓練難度，但模型難以同時具有時序動態感知的能力和多條件生成的能力，這個會增加訓練組合影片產生的難度。因此，研究採用了兩階段最佳化策略，第一階段透過 T2V 訓練的方法，讓模型初步具有時序建模能力；第二階段在透過組合式訓練來優化 VideoComposer，以達到比較好的表現。

推理。在推理過程中，採用 DDIM 來提高推理效率。並採用無分類器指導來確保產生結果符合指定條件。生成過程可以形式化如下：

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

其中，ω 是指導比例；c1 和 c2 是兩組條件。這種指導機制在兩條件集合判斷，可以透過強度控制來讓模型有更靈活的控制。

實驗結果

在實驗探索中，該研究證明作為 VideoComposer 作為統一模型具有通用生成框架，並在 9 項經典任務上驗證 VideoComposer 的能力。

本研究的部分結果如下，在靜態圖片到影片產生（圖4）、影片Inpainting（圖5）、靜態草圖產生生影片（圖6）、手繪運動控制影片（圖8）、運動遷移（圖A12）均能反映可控影片生成的優勢。

時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了

團隊介紹

###公開資訊顯示，阿里巴巴在視覺基礎模型上的研究主要圍繞視覺表徵大模型、視覺生成式大模型及其下游應用的研究，並在相關領域已經發表CCF-A 類論文60 餘篇以及在多項行業競賽中獲得10 餘項國際冠軍，例如可控圖像生成方法Composer、圖文預訓練方法RA-CLIP 和RLEG、未裁剪長視訊自監督學習HiCo/HiCo 、說話人臉生成方法LipFormer 等均出自該團隊。 ######

以上是時間、空間可控的影片生成走進現實，阿里大模型新作VideoComposer火了的詳細內容。更多資訊請關注PHP中文網其他相關文章！