Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂-人工智慧-PHP中文網

微軟版Sora誕生了！

Sora雖爆火但閉源，為學術界帶來了不小的挑戰。學者們只能嘗試使用逆向工程來對Sora復現或擴展。

儘管提出了Diffusion Transformer和空間patch策略，但想要達到Sora的效能還是很難，何況還缺乏算力和資料集。

不過，研究者發起的新一波復現Sora的衝鋒，這不就來了麼！

就在剛剛，理海大學聯手微軟團隊一種新型的多AI智能體框架－—Mora。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

論文網址：https://arxiv.org/abs/2403.13248

沒錯，理海大學和微軟的思路，是靠AI智能體。

Mora比較像是Sora的通才影片產生。透過整合多個SOTA的視覺AI智能體，來復現Sora所展示的通用視訊生成能力。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

具體來說，Mora能夠利用多個視覺智能體，在多種任務中成功模擬Sora的視訊生成能力，包括：

- 文字到影片產生

- 基於文字條件的圖像到影片產生

-擴充功能已產生影片

- 影片到影片編輯

#- 拼接影片

##- 模擬數字世界

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

#實驗結果表明，Mora在這些任務中取得了接近Sora的表現。

值得一提的是，它在文字到影片生成任務中的表現超越了現有的開源模型，在所有模型中排名第二，僅次於Sora。

不過，在整體表現上，與Sora還有明顯差距。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Mora可依文字提示產生高解析度、時間連貫的視頻，解析度為1024 × 576，長度為12秒，共75幀。

復刻Sora所有能力

Mora基本上還原了Sora的所有能力，怎麼體現？

文字到影片產生

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

提示：A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the waterswimming among the coral, rays of sunlight filtering through the waterswimming among the coral, and a gentle current moving the sea plants.

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

提示：A majestic mountain range covered in snow, with the peaks touching the clouds and a crystal-clear lake at its base, reflecting the mountains and the sky, creating a breathtaking natural mirror.

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

提示：In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

基於文字條件圖像到影片的生成

輸入這張經典的「SORA字樣的逼真雲朵圖像」。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

提示：An image of a realistic cloud that spells “SORA”.

Sora模型生成的效果是這樣的。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Mora產生出來的視頻，絲毫不差。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

還有輸入一張小怪獸圖片。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

提示：Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas , a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

Sora將其轉換為視頻的效果，讓這些小怪獸們活靈活現動起來。

Mora雖也讓小怪獸們動起來，但明顯可以看出有些不穩定，圖中卡通人物樣子沒有保持一致。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

#已產生的影片

先給到一個影片

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Sora能夠產生穩定的AI視頻，而且風格一致。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

但Mora生成的影片中，前面騎自行車的人最後自行車沒了，人也變形了，效果不是很好。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

影片到影片編輯

給到一個提示「將場景切換到20世紀20年代的老式汽車」，並輸入一個視頻。 Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Sora經過風格替換後，整體看起來非常絲滑。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Mora這段老式汽車的生成，破舊的有點不真實。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

#拼接視頻

#輸入兩個視頻，然後完成拼接。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Mora拼接後的影片

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

類比數位世界

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

#整體接近，但不如Sora

一大波示範之後，大家對Mora的影片產生能力有了一定了解。

與OpenAI Sora相比，Mora在六個任務中的表現非常接近，不過也存在著很大的不足。

文字到影片產生

#具體來說，Mora的影片品質分數為0.792，僅次於第一名Sora的0.797，並且超過了目前最好的開源模型（如VideoCrafter1）。

在物件一致性方面，Mora得分0.95，與Sora持平，在整個影片中都表現出了卓越的一致性。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

在下圖中，Mora文字到影片產生的視覺保真度非常引人注目，體現了高解析度圖像以及對細節的敏銳關注，和對場景的生動描繪。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

在基於文字條件的圖像生成任務中，模型在將圖片和文字指令，轉化成連貫視訊能力上，Sora肯定是最完美的。

不過Mora的結果，與Sora相差很小。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

# 擴展生成的影片

再來看擴展生成影片測試中，在連續性和品質上的結果，也是Mora與Sora比較接近。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

儘管Sora處於領先地位，但Mora的能力，特別是在遵循時間風格和擴展現有影片而不顯著損失品質方面，證明了其在視訊擴展領域的有效性。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

影片到影片編輯影片拼接

#針對影片到影片編輯，Mora在保持視覺和風格連貫性的能力方面接近Sora。還有拼接影片任務中，Mora也可以實現將不同影片進行無縫拼接。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

在這個例子中，Sora和Mora都被指示將設定修改為1920年代風格，同時保持汽車的紅色。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

#類比數位世界

還有最後的類比數位世界的任務，Mora也能像Sora一樣具備創造虛擬環境世界的能力。不過品質方面，比Sora差一些。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

Mora：基於智能體的影片產生

Mora這個多智能體框架，是如何解決當前視訊生成模型的限制的？

它的關鍵，就是透過將視訊產生過程分解為多個子任務，並為每個任務指派專門的智能體，來靈活地完成一系列視訊生成任務，滿足用戶的多樣化需求。

在推理過程中，Mora會產生一個中間圖像或視頻，從而保持文本到圖像模型中的視覺多樣性、風格和質量，並增強編輯功能。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

透過有效率地協調處理從文字到影像、從影像到影像、從影像到影片以及從影片到影片的轉換任務的智能體，Mora能夠處理一系列複雜的影片生成任務，提供出色的編輯靈活性和視覺真實度。

總結來說，團隊的主要貢獻如下：

- 创新性的多智能体框架，以及一个直观的界面，方便用户配置不同的组件和安排任务流程。

- 作者发现，通过多个智能体的协同工作（包括将文本转换成图像、图像转换成视频等），可以显著提升视频的生成质量。这一过程从文本开始，先转化为图像，然后将图像和文本一起转换成视频，最后对视频进行优化和编辑。

- Mora在6个与视频相关的任务中都展现出了卓越的性能，超过了现有的开源模型。这不仅证明了Mora的高效性，也展示了其作为一个多用途框架的潜力。

智能体的定义

在视频生成的不同任务中，通常需要多个具有不同专长的智能体协同工作，每个智能体都提供其专业领域的输出。

为此，作者定义了5种基本类型的智能体：提示选择与生成、文本到图像生成、图像到图像生成、图像到视频生成、以及视频到视频生成。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

- 提示选择与生成智能体：

在开始生成初始图像之前，文本提示会经过一系列严格的处理和优化步骤。这个智能体可以利用大型语言模型（如GPT-4）来精确分析文本，提取关键信息和动作，大大提高生成图像的相关性和质量。

- 文本到图像生成智能体：

这个智能体负责将丰富的文本描述转化为高质量的图像。它的核心功能是深入理解和可视化复杂的文本输入，从而能够根据提供的文本描述创建详细、准确的视觉图像。

- 图像到图像生成智能体：

根据特定的文本指令修改已有的源图像。它能够精确解读文本提示，并据此调整源图像（从细微修改到彻底改造）。通过使用预训练模型，它能够将文本描述与视觉表现有效拼接，实现新元素的整合、视觉风格的调整或图像构成的改变。

- 图像到视频生成智能体：

在初始图像生成之后，这个智能体负责将静态图像转化为动态视频。它通过分析初始图像的内容和风格，生成后续的帧，确保视频的连贯性和视觉一致性，展现了模型理解、复制初始图像，以及预见并实现场景逻辑发展的能力。

- 视频拼接智能体：

这个智能体通过选择性使用两段视频的关键帧，确保它们之间平滑且视觉上一致的过渡。它能够准确识别两个视频中的共同元素和风格，生成既连贯又具有视觉吸引力的视频。

智能體的實現

文字到圖像的生成

研究者利用預訓練的大型文字到圖像模型，來產生高品質且具代表性的第一張圖像。

第一個實現，用的是Stable Diffusion XL。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

它引入了文字到圖像合成的潛在擴散模型的架構和方法的重大演變，在該領域樹立了新的基準。

其架構的核心，就是一個擴大的UNet主幹網絡，它比Stable Diffusion 2先前版本所使用的主幹大三倍。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

這種擴展主要是透過增加註意力塊的數量和更廣泛的交叉注意力上下文來實現的，並透過整合雙文本編碼器系統來促進。

第一個編碼器是基於OpenCLIP ViT-bigG，而第二個編碼器則利用CLIP ViT-L，透過拼接這些編碼器的輸出，來允許對文字輸入進行更豐富、更細緻的解釋。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

這種架構創新輔以多種新穎的調節方案的引入，這些方案不需要外部監督，從而增強了模型的靈活性和產生跨多個長寬比的影像的能力。

此外，SDXL還具有一個細化模型，該模型採用事後影像到影像轉換來提高生成影像的視覺品質。

此細化過程利用雜訊去噪技術，進一步完善輸出影像，而不會影響生成過程的效率或速度。

圖片到圖像的生成

#在這個過程中，研究者用初始框架，實作了使用InstructPix2Pix作為圖像到圖像生成智能體。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

InstructPix2Pix經過精心設計，可以根據自然語言指令進行有效的圖像編輯。

該系統的核心整合了兩個預訓練模型的廣泛知識：GPT-3用於根據文字描述產生編輯指令和編輯後的標題；Stable Diffusion用於將這些基於文字的輸入轉換為視覺輸出。

這種巧妙的方法首先在精選的圖像標題資料集和相應的編輯指令上微調GPT-3，從而產生一個可以創造性地建議合理編輯並產生修改後的標題的模型。

在此之後，透過Prompt-to-Prompt技術增強的Stable Diffusion模型，會根據GPT-3產生的字幕產生影像對(編輯前和後)。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

然後在產生的資料集上訓練InstructPix2Pix核心的條件擴散模型。

InstructPix2Pix直接利用文字指令和輸入影像，在單次前向傳遞中執行編輯。

透過對影像和指令條件採用無分類器指導，進一步提高了這種效率，使模型能夠平衡原始像的保真度和遵守編輯指令。

圖像到視頻的生成

#在文字到視頻生成智能體中，視頻生成代理在確保視頻品質和一致性方面發揮著重要作用。

研究者的第一個實現，是利用目前的SOTA影片產生模型Stable Video Diffusion來產生影片。

Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂

SVD架構利用最初為影像合成而開發的LDMs Stable Diffusion v2.1的優勢，將其功能擴展到處理視訊內容固有的時間複雜性，從而引入了一種產生高解析度視訊的先進方法。

SVD模型的核心遵循三階段訓練體系，從文字到圖像相關開始，模型從一組不同的圖像中學習穩健的視覺表示。這個基礎，使模型能夠理解並產生複雜的視覺圖案和紋理。

在第二階段，即視訊預訓練中，模型接觸大量視訊數據，使其能夠透過將時間卷積和注意力層與其空間對應層結合來學習時間動態和運動模式。

訓練是在系統管理的資料集上進行的，確保模型從高品質且相關的影片內容中學習。

最後階段是高品質視訊微調，重點是改進模型使用更小但更高品質的資料集，產生解析度和保真度更高的影片的能力。

這種分層訓練策略輔以新穎的資料管理流程，使SVD能夠出色地生成最先進的文字到視訊和影像到視訊合成，並且隨著時間的推移，具有非凡的細節、真實性和連貫性。

拼接影片

#對於這個任務，研究者利用SEINE來拼接影片。

SEINE是基於預訓練的T2V模型LaVie智能體建構的。

SEINE以隨機遮罩視訊擴散模型為中心，後者根據文字描述產生過渡。

透過將不同場景的像與基於文字的控制相集成，SEINE可以產生保持連貫性和視覺品質的過渡影片。

此外，模型還可以擴展到圖像到視訊動畫和白回歸視訊預測等任務。

討論

優勢

- 創新框架與彈性：

Mora引進了一種革命性的多智能體視訊生成框架，大大拓展了此領域的可能性，使得執行各種任務變得可能。

它不僅簡化了將文字轉換成影片的過程，還能模擬出數位世界，展現出前所未有的靈活性和效率。

- 開源貢獻：

Mora的開源特性是對AI社群一個重要的貢獻，它透過提供一個堅實的基礎，鼓勵進一步的發展與完善，為未來的研究奠定了基礎。

如此一來，不僅可以讓進階影片生成技術更加普及，還促進了該領域內的合作和創新。

限制

- 視訊資料至關重要：

##想捕捉人類動作的細微差別，就需要高解析度、流暢的影片序列。這樣才能夠詳細展現動力學的各個層面，包括平衡、姿勢及與環境的互動。

但高品質的視訊資料集多來自如電影、電視節目和專有遊戲畫面等專業管道。其中往往包含受版權保護的資料，不易合法收集或使用。

而缺乏這些資料集，使得像Mora這樣的影片生成模型難以模擬人類在現實環境中的動作，例如走路或騎自行車。

- 質量與長度的差距：

#Mora雖然可以完成類似Sora的任務，但在涉及大量物體移動的場景中，產生的影片品質明顯不高，品質隨影片長度增加而降低，尤其是在超過12秒之後。

- 指令跟隨能力：

Mora雖然可以在影片中包含提示所指定的所有對象，但它難以準確解釋和展示提示中所描述的運動動態，例如移動速度。

此外，Mora還無法控制物件的運動方向，例如無法讓物件向左或向右移動。

這些限制主要是因為Mora的影片生成，是基於影像轉影片的方法，而不是直接從文字提示中取得指令。

- 人類偏好對齊：

由於影片領域缺少人類的標註訊息，實驗結果可能不總是符合人類的視覺偏好。

舉個例子，上面其中的一個視頻拼接任務，要求生成一個男性逐漸變成女性的過渡視頻，看起來非常不合邏輯。

以上是Sora不開源，微軟都給你開源！全球最接近Sora視訊模型誕生，12秒生成效果逼真炸裂的詳細內容。更多資訊請關注PHP中文網其他相關文章！