中國在生成AI中迅速發展,基於DeepSeek模型和Kimi K1.5的成功,語言模型中的成功。現在,它以Omnihuman和Goku在3D建模和視頻綜合方面取得了卓越的表現。借助Step-Video-T2V,中國直接挑戰了Sora,Weo 2和Stepfun AI開發的電影《 video 2》和《電影將軍》,Step-Video-T2V是一個30B參數模型,它會產生高質量的204-Frame視頻。它利用視頻VAE,雙語編碼器和3D注意事項來設定新的視頻生成標準。它是否應對文本訪問的核心挑戰?讓我們潛入。
Table of contents
Challenges in Text-to-Video Models- How Step-Video-T2V is Solving These Problems?
- Model Architecture
Text Encoding with Bilingual Understanding- Variational Autoencoder (Video-VAE) for Compression
- Diffusion具有3D全神貫注的變壓器(DIT)
- >自適應層的歸一化(adaln-single)
- >
- > step-video-t2v如何工作? 3D全部關注)
- 優化(微調和視頻DPO培訓)
- 最終輸出(高質量的204-frame Video)
-
-
-
-
>千年獵鷹旅程
結論
文本到視頻模型中的挑戰
雖然文本到視頻模型已經走了很長一段路,但他們仍然面臨著基本的障礙:
-
複雜的動作序列
- 當前的模型難以生成遵循複雜動作序列的現實視頻,例如,體操運動員表現翻轉或籃球實際上彈跳。 - >
物理和因果關係
- 大多數基於擴散的模型無法有效地模擬現實世界。物體相互作用,重力和物理定律經常被忽略。 -
>以下說明
- 模型經常錯過用戶提示中的關鍵細節,尤其是在處理稀有概念時(例如,同一視頻中的企鵝和大象)。 - >
>計算成本 - 生成高分辨率,長期視頻是極其資源密集型
,限制了研究人員和創作者的可訪問性。 - >
>字幕和對齊 - 視頻模型依賴於大量數據集,但是較差的視頻字幕會導致較弱的迅速依從性,導致幻覺的內容
>。
。
step-video-t2v如何解決這些問題?
> step-video-t2v通過幾個創新來應對這些挑戰:
- 深度壓縮視頻vae:成就 16×16空間和8x時間壓縮,在保持高視頻質量的同時大大降低了計算要求。 >
- >雙語文本編碼器:集成,允許該模型在中文和英語>。 中有效地處理提示
> 3D全注意力:而不是傳統的時空注意力,而是增強了運動連續性和場景一致性
。
-
video-dpo(直接偏好優化):合併>人類的反饋循環
以減少工件,改善現實主義和使生成的內容與用戶期望保持一致。 - >
模型體系結構
> Step-Video-T2V模型體系結構圍繞三部分管道構建,以有效地處理文本提示並生成高質量的視頻。該模型集成了雙語文本編碼器,變量自動編碼器(視頻VAE)和一個具有3D注意的擴散變壓器(DIT),將其與傳統的文本到視頻模型區分開來。
1。用雙語理解編碼的文本
在輸入階段,step-video-t2v採用
>兩個強大的雙語文本編碼:
> hunyuan-clip:一種針對文本和圖像之間的語義對齊優化的視覺模型。
step-llm- :一種專門了解複雜說明中文和英語的大型語言模型。
這些編碼器處理
用戶提示- 並將其轉換為有意義的潛在表示,以確保模型準確地遵循說明。
2。用於壓縮的變量自動編碼器(視頻VAE)
生成長,高分辨率的視頻在計算上很昂貴。 Step-Video-T2V使用A 深度壓縮變化自動編碼器(Video-Vae)>有效地降低視頻數據的問題:>
>空間壓縮(16×16)
>和時間壓縮(8x)>降低視頻尺寸的同時保留運動詳細信息。
此啟用更長的序列(204幀)
比以前的型號低的計算成本
。
3。擴散變壓器(DIT)具有3D的全部注意
Step-Video-T2V的核心是其- 擴散變壓器(DIT),具有3D的全部注意力,它顯著提高了運動平滑度和場景相干性。
DIT的> ITH塊由多個組成的組件組成,這些組件完善了視頻生成過程:>
每個變壓器塊的關鍵組件
交叉注意:通過對文本嵌入式上生成的幀進行調節,請確保更好的文本對視頻對齊- 。
>自我注意事項(帶有繩索3D):使用旋轉位置編碼(rope-3d)以增強
時空的理解- ,確保對象自然地跨幀。
qk-norm(Query-Key規範化):提高注意力機制的穩定性,減少對象定位的不一致。
柵極機制:這些自適應門
調節信息流,防止過度適合特定模式- >並改善概括。 >
比例/偏移操作- :歸一化和微調中間表示,確保視頻幀之間的平滑過渡。
4。自適應層歸一化(Adaln-single)
該模型還包括
自適應層的歸一化(adaln-single)- ,該>基於> timeStep(t)。
這可以確保
跨視頻序列的時間一致性。 。
step-video-t2v如何工作? -
step-video-t2v模型是一種尖端的
文本到視頻AI系統,它基於文本描述生成高質量的運動豐富的視頻。工作機制涉及多種複雜的AI技術,以確保運動,遵守提示和現實輸出。讓我們逐步將其分解:-
1。用戶輸入(文本編碼)
- 該模型以處理用戶輸入開始,這是一個文本提示,描述了所需的視頻。
- 這是使用>雙語文本編碼器完成的(例如,)。
雙語能力- 確保可以準確理解英語和中文的提示。 >
2。潛在表示(帶視頻VAE的壓縮)
視頻生成在計算上很重,因此該模型採用a
差異自動編碼器(vae)
>專門用於視頻壓縮,稱為
video-vae-vae>。
- 視頻vae的函數:
將視頻幀壓縮到A
>較低維的潛在空間- ,大大降低了計算成本。
- 維護關鍵的視頻質量方面,例如運動連續性,紋理和對象詳細信息。 。
>使用- 16×16的空間和8x時間壓縮,在保留高保真度的同時使模型有效。
3。去核過程(擴散變壓器具有3D的全部注意力)-
獲得潛在表示後,下一步是 denoising Process
,它可以完善視頻幀。
這是使用
擴散變壓器(DIT)的高級模型來完成的,該模型旨在生成高度逼真的視頻。
- 密鑰創新:
- 擴散變壓器適用3D完全注意
,這是一種強大的機制,專注於空間,時間和運動動力學- 。
的使用流量匹配
> - 在跨幀的範圍內增強運動一致性,以確保視頻過渡更平滑。
4。優化(微調和視頻DPO培訓)
-
生成的視頻經歷了一個優化階段,使其更加準確,連貫和視覺吸引力。這涉及:
用高質量數據來提高其遵循複雜提示的能力。
> video-dpo(直接偏好優化)
培訓,其中包含人類的反饋>:
減少不需要的偽影。
改善運動和紋理的現實主義。
>將視頻生成與用戶期望相結合。
- 5。最終輸出(高質量204框架視頻)
-
- 最終視頻是> 204幀長,這意味著它為講故事提供了重要的持續時間。
>高分辨率生成
確保視覺效果清晰和清除對象渲染。 -
>強烈的運動現實主義
表示視頻保持- 平穩而自然的運動,使其適用於人類手勢,對象相互作用和動態背景等複雜場景。
針對競爭對手的>基準測試
> step-video-t2v在
> spep-video-t2v-eval上進行評估,
> 128-prompt-prompt Benchmark覆蓋體育,食物,美食,風景,超現實主義,人,人和動畫>>。與領先的模型相比,它在運動動力學和現實主義中提供了最先進的表現。
在整體視頻質量和光滑方面,優勝於hunyuanvideo。
競爭對手電影gen video ,但由於有限的高質量標籤數據而導致細粒度的美學滯後。
擊敗運動一致性的跑道gen-3 alpha- ,但在電影吸引力中略有滯後。
挑戰中國頂級商業模型(T2VTOPA和T2VTOPB)- ,但由於較低的分辨率而降低了美學質量(540p vs. 1080p)。
>性能指標
- step-video-t2v介紹新評估標準:
-
>以下說明
- 測量生成的視頻與提示的對齊程度。
運動平滑度 - 評分視頻中動作的自然流動。
身體合理性
- 評估運動是否遵循物理定律。
-
美學上的吸引力 - 判斷視頻的藝術和視覺質量。
-
在人類評估中, Step-Video-T2V始終優於運動平滑性和物理合理性的競爭者,使其成為最先進的開源模型之一。
>如何訪問step-video-t2v?
- >>步驟1:訪問此處的官方網站。
>
步驟2:- 使用您的手機號碼註冊。 >
>注意:
當前,註冊僅針對有限數量的國家開放。不幸的是,它在印度不可用,所以我無法註冊。但是,如果您位於受支持的地區,則可以嘗試。
>
>步驟3:
>添加您的提示符,然後開始生成驚人的視頻!
由step-video-t2v創建的vidoes的示例
這是該工俱生成的一些視頻。我從他們的官方網站上拿走了這些。 van gogh在巴黎
>提示:“ 在巴黎的街道上,梵高坐在咖啡館外面,用手裡拿著繪圖板畫一個夜面場景。相機以中型拍攝拍攝,顯示了他專注的表情和快速移動的刷子。背景中的路燈和行人略微模糊,使用了淺水深度來突出他的形象。隨著時間的流逝,天空從黃昏變成了夜晚,星星逐漸出現。相機慢慢拉開,看看他完成的作品與真實的夜幕界之間的比較。
提示:“在廣闊的宇宙中,《星球大戰》中的千年獵鷹正在穿越星星。相機顯示航天器在遙遠的視野中飛行。相機很快遵循航天器的軌跡,顯示了其高速班車。進入駕駛艙後,攝像機專注於緊張地操作樂器的Han Solo和Chewbacca的面部表情。儀表板閃爍的燈光,背景星空迅速在舷窗外面穿過。
結論
在中國以外的情況下, Step-Video-T2V尚不可用。公開後,我將測試並分享我的評論。儘管如此,它仍然標誌著中國生物AI的重大進步,證明其實驗室正在與Openai和DeepMind一起塑造多模式AI的未來。視頻生成的下一步需要更好的指導遵循,物理模擬和更豐富的數據集。 Step-Video-T2V為開源視頻模型鋪平了道路,從而增強了全球研究人員和創作者的能力。中國的人工智能勢頭表明之前更現實,更有效的文本與視頻創新
以上是中國新的AI視頻明星:Step-Video-T2V的詳細內容。更多資訊請關注PHP中文網其他相關文章!