更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅-人工智慧-PHP中文網

一轉眼，2024 年已經過半。我們不難發現，AI 尤其是AIGC 領域出現一個越來越明顯的趨勢：文生圖賽道進入到了穩步推進、加速商業落地的階段，但同時僅生成靜態圖像已經無法滿足人們對生成式AI 能力的期待，對動態影片的創作需求前所未有的高漲。

因此，文生視頻賽道持續高熱，尤其是自年初 OpenAI 發布 Sora 以來，以 Diffusion Transformer（DiT）為底層架構的視頻生成模型迎來了井噴期。在這條賽道，國內外影音生成模型廠商們正默默展開一場技術競速。

在國內，一家成立於去年 3 月、專注於構建視覺多模態基礎模型及應用的生成式 AI 新創公司不斷出現在人們的視野中。它就是智象未來（HiDream.ai），其自主研發的視覺多模態基礎模型實現了不同模態之間的生成轉換，支持文生圖、文生視頻、圖生視頻和文生3D，並推出了一站式AI 影像與影片產生平台「Pixeling 千象」供社會大眾上手使用。

體驗地址：www.hidreamai.com

自智像大模型2023 年8 月上線以來，期間歷經數次迭代與打磨，透過最佳化基礎模型來深展文生圖與挖文生影片等AIGC 能力。尤其是在視訊生成領域，支援的生成時長從最開始的 4 秒增加到了 15 秒，成像效果也肉眼可見地更優。

如今，智像大模型再次迎來升級，基於中文原生的獨有DiT 架構釋放出更強大、更穩定、對用戶更友好的圖像和視頻生成能力，包括更具美感和藝術性的圖像生成、圖像中文字嵌入、分鐘級視訊生成等。

所有這些圖像和視頻生成新技能的展示，離不開智象未來在多模態視覺生成領域的技術積累和持續創新。

生成效果持續提升

生成效果持續提升

更強大基模能力是引擎

像大模型從一開始就瞄準了文字、圖片互動式生成技術實現精準可控的多模態內容生成，建構強大的基模能力，讓使用者在其文生圖、文生影片AIGC 平台中有更好的創作體驗。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅此次

智像大模型2.0 的整體升級，相較於1.0 版本在底層架構、訓練資料和訓練策略上均有質的變化

，由此帶來了文本、圖像、視頻和3D多模能力的另一個飛躍和互動體驗上的切實提升。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

🎜可以說，升級後的智像大模型在圖像、視頻生成領域迎來了全方位加強，並為多模態大模型創作一站式 AIGC 生成平台注入了更加強勁的驅動力。 🎜🎜🎜🎜

文生圖技能再進化

有了更高層次的「追求」

作為 AIGC 的一站式生成平台，文生圖是文生視頻的前提和重要的技術壁壘。因此智象未來在文生圖方向上寄予了很高的預期，以自己的節奏推進更多樣性功能、更逼真視覺效果以及更友善用戶體驗。

經過了一系列針對性調整和優化，智像大模型 2.0 文生圖能力相較以往版本顯著改進，並從多個外在呈現效果上很容易看出來。

首先，智像大模型 2.0 生成的圖像更有美感、更具藝術性。目前的文生圖大模型在語意理解、生成影像結構和畫面細節等較為直觀的方面可以做得很好，但在質感、美感、藝術性等偏感官方面可能無法讓人滿意。因此，追求美感成為了這次文生圖升級的重點。究竟效果如何呢？我們可以來看下面兩個範例。

第一個範例輸入的 Prompt 為「一個戴著巨大帽子的小女孩，帽子上有很多城堡，花草樹木，鳥類，五顏六色，特寫，細節，插畫風格」。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

第二個範例輸入的 Prompt 為「綠色植物葉子特寫照片，深色主題，水滴細節，移動壁紙」。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

產生的兩張影像，無論是構圖色調，還是細節豐富度，看起來都有一種讓人眼前一亮的感覺，這些都極大地拉升了整體畫面美感。

除了讓生成的圖像看起來更美之外，生成圖像的相關性也更強。這也是影像生成發展到某個階段後，大家非常重視的一個面向。

為了提升生成圖像的相關性，智像大模型重點強化了對一些複雜邏輯的理解，例如不同的空間佈局、位置關係、不同類型的物體、生成物體的數量等，這些都是實現更高相關性的重要因素。一番調教下來，智像大模型可以輕鬆搞定包含多物體、多位置分佈、複雜空間邏輯的圖像生成任務，更好地滿足現實生活中使用者的實際需求。

我們來看下面三個需要對不同物體、空間位置關係進行深刻理解的生成範例。結果表明，對於包含複雜邏輯的長短文字 Prompt，文生圖現在都能輕鬆完成。

第一個範例輸入的Prompt 為「廚房桌上有三個裝滿水果的籃子。中間的籃子裡裝滿了青蘋果。左邊的籃子裡裝滿了草莓。右邊的籃子裡滿是藍莓。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

第二個範例輸入的 Prompt 為「右邊是一隻貓，左邊是一隻狗，中間是一個綠色的立方體放在一個藍色的球上」。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

第三個範例輸入的Prompt 為「在月球上，一名太空人騎著一頭牛，穿著粉紅色芭蕾裙，手拿著藍色傘。牛的右邊是一隻戴著高頂帽的企鵝。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

同時，圖像中嵌入文字的生成更加準確、高效，這一海報或營銷文案中使用比較多的功能得到加強。

在技術實現上，生成圖像中嵌入文字需要大模型深刻理解輸入的 Prompt 中視覺外觀描述和精準文字內容，從而在保證圖像整體美感和藝術性的同時實現對文字內容的精準刻畫。

在接受本站的專訪時，智象未來CTO 姚霆博士提到，對於此類任務，以往版本很多時候無法生成，即便能生成也存在問題，在生成的字符或者準確性上都有欠缺。現在這些問題已經很好地解決，智像大模型實現了圖像中長文字的嵌入生成，最多可以做到幾十個單字。

下面從左到右三個生成範例顯示出了很好的文字嵌入效果，尤其是圖右準確無誤地嵌入了二十幾個單字及標點符號。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

可以說，這次智像大模型的文生圖功能在業界實現了產業引領的效果，為影片生成打下了關鍵的牟定基礎。

視頻生成邁入分鐘級

如果說升級後的智像大模型 2.0 在文生圖方向做到了穩固穩打，那麼在文生式視頻方向上迎來了跨越文生式。

去年 12 月，智像大模型的文生影片打破了 4 秒時長限制，做到了支援 15 秒以上的生成時長。半年過去了，文生影片在長度、畫面自然度、內容和角色一致性上均有顯著提升，而這要歸功於其自研了一套成熟的 DiT 架構。

相較於 U-Net，DiT 架構靈活度更高，且能增強影像、影片的生成品質。 Sora 的出現更直觀地驗證了這一點，採用此類架構的擴散模型表現出了自然生成高品質影像和影片的傾向，並在可自訂化、生成內容可控性方面具有相對優勢。對於智像大模型 2.0 而言，其採用的 DiT 架構又有一些獨特的地方。

我們知道，DiT 架構的底層實作都是基於Transformer，智像大模型2.0 在整個Transformer 網路結構、訓練資料的構成和訓練策略上採用完全自研的模組，尤其在網路訓練策略上下足了功夫。

首先，Transformer 網路結構採用了高效的時空聯合注意力機制，不僅契合了視訊兼具空間域和時間域的特徵，而且解決了傳統注意力機制在實際訓練過程中速度跟不上的難題。

其次，AI 視訊任務中的長鏡頭產生對訓練資料的來源、篩選提出了更高要求。因此，智像大模型最多支援幾分鐘甚至十幾分鐘影片片段的訓練，這樣一來，直接輸出分鐘級時長的影片有了可能。同時，分鐘級視訊內容的描述也是比較困難的事情，智象未來自研了視訊描述產生的 Captioning Model，實現了詳細且精準的描述輸出。

最後在訓練策略上，由於長鏡頭視訊資料有限，因此智像大模型2.0 使用了不同長度的視訊片段，進行視訊和圖片資料的聯合訓練，並動態地改變不同長度視訊的取樣率，進而完成長鏡頭訓練，同時在訓練時也會根據使用者回饋資料進行強化學習以進一步優化模型表現。

也因此，更強大自研 DiT 架構為此次文生視頻效果的進一步提升提供了技術支撐。

現在，智像大模型 2.0 支持生成的視頻時長從 15 秒左右提升到了分鐘級，達到了業界較高水平。

在視訊時長邁入分鐘級之外，可變時長和尺寸也是此次文生視頻功能升級的一大看點。

當前視訊生成模型通常是固定生成時長，使用者無法選擇。智象未來將生成時長的選擇權開放給了用戶，既可以讓他們指定時長，也能夠根據輸入的 Prompt 內容進行動態判斷。如果比較複雜則產生較長視頻，比較簡單則產生較短視頻，透過這樣一個動態過程來自適應地滿足用戶的創作需求。生成影片的尺寸也可以按需定制，對用戶使用非常友好。

此外，整體畫面觀感變得更好，生成視頻中物體的動作或運動更加自然流暢，細節渲染更加到位，並支持了 4K 超清畫質。

短短半年時間，與以往版本相比，升級後的文生視訊功能用「脫胎換骨」來形容也不為過。不過在姚霆博士看來，目前無論是智象未來還是其他同行，影片生成大部分仍處於單鏡頭階段。如果對標自動駕駛領域的 L1 到 L5 階段，文生影片大致處於 L2 階段。這次借助基模能力的升級，智象未來想要追求更高品質的多鏡頭影片生成，也邁出了探索 L3 階段的關鍵一步。

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

Zhixiang Future는 반복된 Vincent 비디오 기능이 7월 중순에 출시될 것이라고 밝혔습니다. 다들 기대하셔도 좋을 것 같아요!

마지막에 작성

기본 모델 역량의 지속적인 반복인지 빈첸시안 사진의 실제 경험 향상인지 1년 반도 채 되지 않았습니다. 그리고 Vincentian 비디오, 지능형 이미지는 앞으로 더욱 시각적일 것입니다. 모달 세대는 이 방향으로 꾸준하고 빠르게 진행되고 있으며 많은 수의 C-side 및 B-side 사용자를 확보하고 있습니다.

Zhixiang Future C-end 사용자의 월간 방문 수가 백만을 초과했으며, 생성된 AI 이미지 및 동영상의 총 개수도 1천만을 초과한 것으로 나타났습니다. 낮은 임계값과 우수한 응용성은 지능형 코끼리 모델의 특징을 구성하며, 이를 기반으로 대중에게 가장 적합한 최초의 AIGC 응용 플랫폼이 만들어집니다.

B측에서 Zhixiang Future는 China Mobile, Lenovo Group, iFlytek, Shanghai Film Group, Ciwen Group, Digital China, CCTV, Evernote, Tiangong Yicai, Hangzhou Lingban 및 기타 기업과 적극적으로 협력하고 있습니다. 전략적 협력 모델 적용 시나리오를 심화하고, 운영자, 스마트 단말기, 영화 및 TV 제작, 전자 상거래, 문화 관광 진흥 및 브랜드 마케팅을 포함한 더 많은 산업으로 모델 기능을 확장하고, 최종적으로 상용화 프로세스 잠재력에 모델을 사용하고 가치를 창출하기로 합의했습니다. .

현재 Zhixiang Large Model은 약 100개의 상위 기업 고객을 보유하고 있으며 30,000개 이상의 중소기업 고객에게 AIGC 서비스를 제공했습니다.

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

Zhixiang Large Model 2.0 출시에 앞서 Zhixiang Future는 China Mobile Migu Group과 협력하여 일반 사용자에게 제로를 제공할 뿐만 아니라 국가 수준의 AIGC 애플리케이션 "영화를 만드는 AI One Word"를 출시했습니다. 기반 AI 비디오 벨소리 생성 기능은 또한 기업 고객이 풍부한 브랜드 및 마케팅 비디오 콘텐츠를 생성할 수 있도록 지원하여 기업이 자체 벨소리 브랜드를 가질 수 있도록 함으로써 비디오 생성 및 업계 시나리오와의 통합의 엄청난 잠재력을 볼 수 있게 해줍니다.

또한 AI 생태계는 대형 모델 제조사가 발전해야 할 중요한 위치이기도 합니다. 이와 관련하여 Zhixiang은 앞으로 개방적인 태도를 갖고 Lenovo Group, iFlytek, Digital China와 같은 주요 고객은 물론 소규모 개발 팀 및 독립 개발자와 협력하여 비디오 생성을 포함한 광범위한 AI 생태계를 구축할 것입니다. 더 많은 사용자의 요구가 다양해졌습니다.

2024년은 대형 모델 애플리케이션 구현의 첫 해로 간주되며 모든 제조업체의 핵심 개발 노드입니다. 앞으로 Zhixiang은 더욱 강력한 프로토타입 기능에 대한 심층적인 기사를 작성할 예정입니다.

영상 생성 분야의 기본 아키텍처, 알고리즘 및 데이터를 지속적으로 최적화하는 등 통합 프레임워크에서 이미지, 비디오 및 3D 다중 양식에 대한 이해 및 생성 기능을 강화합니다. 지속시간과 품질 향상을 달성하기 위한 획기적인 발전은 미래의 일반 인공 지능을 추진하는 데 있어 필수적인 부분이 되었으며, 한편으로는 산업 확장을 위해 사용자 경험, 혁신적인 애플리케이션, 산업 생태계 등 다방면의 노력을 기울여 왔습니다. 영향.

비디오 세대 트랙에서 높은 자리를 차지한 Zhixiang은 미래를 위해 만반의 준비를 갖추고 있습니다.

以上是更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅的詳細內容。更多資訊請關注PHP中文網其他相關文章！