智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調-人工智慧-PHP中文網

智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調

PHPz

發布： 2024-08-07 18:05:32

原創

421 人瀏覽過

智譜AI把自研打造的大模型給開源了。

國內影片產生領域越來越捲了。剛剛，智譜 AI 宣布將與「清影」同源的影片生成模型 ——CogVideoX 開源。短短幾個小時狂攬 4k 星標。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

代碼倉庫：https://github.com/THUDM/CogVideo
模型： https://huggingface.co/THUDM/CogVideoX-2b
技術報告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月26 日，智譜AI 正式發表影片產生產品

「清影」，得到大家廣泛好評。只要你有好的創意（幾個字到幾百個字），再加上一點點耐心（30 秒），「清影」就能產生 1440x960 清晰度的高精度影片。

官宣即日起，清影上線清言 App，所有使用者都可以全方位體驗。想嘗試的朋友可以去「智譜清言」體驗「清影」生影片的能力。

「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天，「清影」生成影片數就突破百萬量級。

PC 端訪問鏈接：https://chatglm.cn/
移動端訪問鏈接：https://chatglm.cn/download?fr=web_home

為何智譜AI 開源模式如此爆火？要知道雖然現在視訊生成技術正逐步走向成熟，然而，仍未有一個開源的視訊生成模型，能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。 CogVideoX 的開源就好比 OpenAI 將 Sora 背後的模型開源，對廣大研究者而言，意義重大。

CogVideoX 開源模型包含多個不同尺寸大小的模型，目前智譜AI 開源CogVideoX-2B，它在FP-16 精度下的推理僅需18GB 顯存，微調則只需需要40GB 顯存，這意味著單張4090 顯示卡即可進行推理，而單張A6000 顯示卡即可完成微調。

CogVideoX-2B 的提示字上限為 226 個 token，影片長度為 6 秒，影格率為 8 張 / 秒，影片解析度為 720*480。智譜 AI 為影片品質的提升預留了廣闊的空間，期待開發者在提示詞優化、影片長度、幀率、解析度、場景微調以及圍繞影片的各類功能開發上貢獻開源力量。

表現更強參數量更大的模型正在路上，敬請關注與期待。

模型

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

VAE

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

VAEVA 視訊資料因包含空間和時間信息，其資料量和計算負擔遠超影像資料。為因應此挑戰，智譜提出了基於 3D 變分自編碼器（3D VAE）的視訊壓縮方法。 3D VAE 透過三維卷積同時壓縮視訊的空間和時間維度，實現了更高的壓縮率和更好的重建品質。

模型結構包括編碼器、解碼器和潛在空間正則化器，透過四個階段的下取樣和上取樣實現壓縮。時間因果卷積確保了資訊的因果性，減少了通訊開銷。智譜採用上下文並行技術以適應大規模視訊處理。

實驗中，智譜 AI 發現大解析度編碼易於泛化，而增加幀數則挑戰較大。因此，智譜分兩階段訓練模型：首先在較低幀率和小批量上訓練，然後透過上下文並行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家Transformer

智譜器使用視訊壓縮至潛在的編碼器然後將潛在空間分割成區塊並展開成長的序列嵌入z_vision。同時，智譜 AI 使用 T5，將文字輸入編碼為文字嵌入 z_text，然後將 z_text 和 z_vision 沿著序列維度拼接。拼接後的嵌入送入專家 Transformer 塊堆疊中處理。最後，反向拼接嵌入來恢復原始潛在空間形狀，並使用 VAE 進行解碼以重建影片。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

Data

視訊產生模型訓練需篩選數據，以學習如何篩選數據，以學習如何學習真實世界動態。影片可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標籤來識別和排除低品質視頻，如過度編輯、運動不連貫、品質低下、講座式、文字主導和螢幕噪音視頻。透過 video-llama 訓練的過濾器，智譜 AI 標註並篩選了 20,000 個視訊資料點。同時，計算光流和美學分數，動態調整閾值，確保生成影片的品質。

視訊資料通常沒有文字描述，需要轉換為文字描述以供文字到視訊模型訓練。現有的視訊字幕資料集字幕較短，無法全面描述影片內容。智譜 AI 提出了一種從圖像字幕生成視訊字幕的管道，並微調端到端的視訊字幕模型以獲得更密集的字幕。這種方法透過 Panda70M 模型產生簡短字幕，使用 CogView3 模型產生密集影像字幕，然後使用 GPT-4 模型總結產生最終的短影片。智譜 AI 還微調了一個基於 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕資料進行訓練，以加速視訊字幕產生過程。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

性能

為了評估文本到視頻生成的質量，智譜AI 使用了VBench 中的多個指標，如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的視訊評估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，這些工具專注於影片的動態特性。如下表所示。

智譜AI 已經驗證了scaling law 在視頻生成方面的有效性，未來會在不斷scale up 數據規模和模型規模的同時，探究更具突破式創新的新型模型架構、更有效率地壓縮視訊資訊、更充分地融合文字和視訊內容。

最後，我們來看看「清影」的效果。

提示語：「一艘精緻的木製玩具船，桅杆和船帆雕刻精美，平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃鬱的棕色，有小窗戶。童年的純真與想像力，玩具船的旅程象徵著在異想天開的室內環境中無盡的冒險。 SUV，它在陡峭的山坡上沿著松樹環繞的土路加速行駛，輪胎揚起塵土，陽光照射在沿著土路飛馳的SUV 身上，為場景投下溫暖的光芒。到其他汽車或車輛。的山丘和山脈，頭頂是湛藍的天空，上面飄著薄薄的雲彩。被白雪覆蓋的樹木，地面也被白雪覆蓋。的森林之美和道路的寧靜。

以上是智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調的詳細內容。更多資訊請關注PHP中文網其他相關文章！