より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍-AI-php.cn

あっという間に2024年も半分が過ぎました。 AI、特に AIGC の分野で、ますます明らかな傾向があることを見つけるのは難しくありません。文生図トラックは着実に進歩し、商用実装が加速される段階に入りましたが、同時に、静止画像の生成だけではもはや実現できません。 AI の生成機能に対する人々の需要を満たします。ダイナミックなビデオ作成に対する需要はかつてないほど高まっています。

したがって、Wensheng ビデオトラックは依然としてホットであり、特に OpenAI が年初に Sora をリリースして以来、基礎となるアーキテクチャとして拡散トランスフォーマー (DiT) を使用したビデオ生成モデルが爆発的な時期を迎えています。この路線で、国内外のビデオ生成モデルメーカーが密かに技術競争を開始している。

中国では、視覚的なマルチモーダル基本モデルとアプリケーションの構築に重点を置く、昨年 3 月に設立された生成 AI スタートアップ企業が、人々の視界に登場し続けています。それは HiDream.ai であり、その独自開発のビジュアルマルチモーダル基本モデルは、異なるモダリティ間の生成と変換を実現し、文生写真、文生ビデオ、文生 3D をサポートし、ワンストップ AI 画像とビデオ生成を開始しました。プラットフォーム「Pixeling」は一般公開されています。

体験アドレス: www.hidreamai.com

Zhixiang 大型モデルは 2023 年 8 月に発売されて以来、数回の反復と改良を経て、基本モデルを最適化し、より深く掘り下げて拡張しました。 Wensheng ダイアグラムと Vincent Video およびその他の AIGC 機能。特にビデオ生成の分野では、サポートされる生成時間が最初の 4 秒から 15 秒に増加し、画像効果も目に見えて向上しました。

今回、Zhixiang 大型モデルが再びアップグレードされ、中国語ネイティブに基づいた独自の DiT アーキテクチャが、より強力で、より安定し、よりユーザーフレンドリーな画像およびビデオ生成機能をリリースしました。これには、

より美しく芸術的な画像生成が含まれます。、画像へのテキスト埋め込み、分単位のビデオ生成など。

これらすべての新しい画像およびビデオ生成スキルのデモンストレーションは、マルチモーダルビジュアル生成分野における Zhixiang Future の技術蓄積と継続的な革新から切り離すことができません。

生成効果は向上し続けています

より強力な基本モデル機能はエンジンです

Zhixiang Large Modelは、テキスト、画像、ビデオ、および3Dの共同モデリングをターゲットとしてきました。インタラクティブ生成テクノロジーにより、正確で制御可能なマルチモーダルコンテンツ生成が可能になり、強力なプロトタイプ機能が構築され、ユーザーは Vincent Picture および Vincent Video AIGC プラットフォームでより優れたクリエイティブエクスペリエンスを得ることができます。

この

Intelligent Elephant Large Model 2.0 の全体的なアップグレードでは、1.0 バージョンと比較して、基礎となるアーキテクチャ、トレーニングデータ、トレーニング戦略に質的な変更が加えられており、テキスト、画像、ビデオ、および 3D マルチモード機能がさらに飛躍します。インタラクティブなエクスペリエンスが目に見えて向上しました。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

アップグレードされた AIGC 大型モデルは、画像とビデオ生成の分野における全面的な強化を先導し、マルチモーダル大型モデル向けのワンストップ AIGC 生成プラットフォームにより強力な推進力を注入したと言えます。モデルの作成。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

Vincent Pictureのスキルが再び進化しました

より高いレベルの「追求」で

AIGCのワンストップ生成プラットフォームとして、Vincent TuはVincent Videoの前提であり重要な技術的障壁です。したがって、Zhixiang は今後の Wenshengtu の方向性に大きな期待を寄せており、より多様な機能、よりリアルな視覚効果、よりユーザーフレンドリーな体験を自分のペースで推進していきます。

一連の的を絞った調整と最適化を経て、Zhixiang Large Model 2.0 の Vincentian ダイアグラム機能は以前のバージョンと比べて大幅に向上し、複数の外部プレゼンテーション効果から簡単に確認できるようになりました。

まず第一に、Zhixiang Large Model 2.0 によって生成された画像はより美しく、芸術的です。現在の Vincentian 大型モデルは、意味の理解、画像構造と画像の詳細の生成など、より直観的な側面では非常にうまく機能しますが、質感、美しさ、芸術性などの部分的な感覚的な側面では満足のいくものではない可能性があります。したがって、美の追求が今回の Vincent Picture のアップグレードの焦点となっています。効果は何ですか?次の 2 つの例を見てみましょう。

最初の例のプロンプト入力は、帽子に「城、花、木、鳥、カラフル、クローズアップ、詳細、イラストスタイルがたくさん付いた巨大な帽子をかぶった少女」です。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

2 番目の例のプロンプト入力は、「緑の植物の葉のクローズアップ写真、暗いテーマ、水滴の詳細、モバイルの壁紙」です。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

生成された 2 つの画像は、構成、トーン、細部の豊かさの点で目を引くものとなっており、画像全体の美しさが大幅に向上しています。

生成された画像がより美しく見えることに加えて、生成された画像の相関性も強化されます。これは、画像生成がある程度の段階まで発展すると、誰もが非常に注目する側面でもあります。

生成された画像の関連性を向上させるために、インテリジェント画像の大規模モデルは、さまざまな空間レイアウト、位置関係、さまざまな種類のオブジェクト、生成されたオブジェクトの数など、いくつかの複雑なロジックの理解を強化することに重点を置いています。、など、これらはより高い関連性を達成するための重要な要素です。いくつかのトレーニングの後、スマートエレファントモデルは、複数のオブジェクト、複数位置の分布、複雑な空間ロジックを含む画像生成タスクを簡単に処理できるようになり、実生活でのユーザーの実際のニーズをより適切に満たすことができます。

さまざまなオブジェクトと空間的な位置関係を深く理解する必要がある、次の 3 つの生成例を見てみましょう。結果は、Vincent Diagram が複雑なロジックを含む長文および短文のプロンプトを簡単に処理できることを示しています。

最初の例のプロンプト入力は、「台所のテーブルの上に果物がいっぱい入ったバスケットが 3 つあります。真ん中のバスケットには青リンゴが入っています。左のバスケットにはイチゴが入っています。右のバスケットにはブルーベリーが入っています。」バスケットの後ろには、「Pixeling v2」というカラフルな文字が描かれたターコイズ色の壁が背景にあります。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

2 番目の例の入力プロンプトは、「右側に猫、左側に犬、中央の青いボールの上に緑色の立方体が置かれています。」

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

3 番目の例のプロンプト入力は、「月面では、宇宙飛行士が牛に乗って、ピンクのチュチュスカートを着て、青い傘を持っています。牛の右側には、シルクハットをかぶったペンギンがいます。」下部に「HiDream.Al」という文字が書かれています。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

同時に、画像内の埋め込みテキストの生成がより正確かつ効率的になりました。これは、ポスターやマーケティングのコピーライティングでより頻繁に使用される機能です。

技術的な実装の観点から、画像内の埋め込みテキストを生成するには、全体的な美しさを確保しながらテキスト内容の正確な描写を実現するために、入力プロンプト内の外観の説明と正確なテキスト内容を深く理解するための大規模なモデルが必要です。そして映像の芸術性。

Zhixiang Future の CTO である Yao Ting 博士は、このサイトの独占インタビューで、このようなタスクについては、以前のバージョンでは生成できたとしても問題が依然として存在していたと述べました。生成された文字や正確さの点で、すべてが不足しています。現在、これらの問題はうまく解決されており、Zhixiang の大型モデルでは、最大数十語にも及ぶ長いテキストの画像への埋め込み生成が実現されています。

以下の左から右に生成された 3 つの例は、良好なテキスト埋め込み効果を示しています。特に、画像の右側では 20 以上の単語と句読点が正確に埋め込まれています。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

Intelligent Elephant モデルの Vincentian ダイアグラム機能は、業界をリードする成果を達成し、ビデオ生成の重要な基盤を築いたと言えます。

ビデオ生成は分刻みのレベルに達しました

アップグレードされたIntelligent Image Model 2.0がVincentianグラフィックスの方向で着実な進歩を達成したとすれば、それはVincentianビデオの方向で飛躍を遂げたことになります。

昨年12月、Zhixiang大型モデルのVincentビデオは4秒の制限を突破し、15秒以上の生成時間をサポートしました。半年後、Wensheng Video は再生時間、画像の自然さ、コンテンツ、文字の一貫性の点で大幅に向上しました。これは、自社開発された成熟した DiT アーキテクチャのおかげです。

U-Net と比較して、DiT アーキテクチャはより柔軟であり、画像とビデオ生成の品質を向上させることができます。 Sora の登場は、このタイプのアーキテクチャを使用した拡散モデルが高品質の画像とビデオを生成する自然な傾向を示し、生成されたコンテンツのカスタマイズ性と制御性において相対的な利点を持っていることをより直感的に検証します。 Intelligent Elephant Large Model 2.0 の場合、採用されている DiT アーキテクチャにはいくつかのユニークな機能があります。

DiT アーキテクチャの基礎となる実装は Transformer に基づいていることがわかっています。Intelligence Model 2.0 は、Transformer ネットワーク構造全体、トレーニングデータの構成、トレーニング戦略、特にネットワークトレーニングにおいて完全に自社開発のモジュールを採用しています。戦略はよく考えられています。

まず、Transformer ネットワーク構造は効率的な時空間共同注意メカニズムを採用しており、空間領域と時間領域の両方でビデオの特性に適合するだけでなく、従来の注意メカニズムでは追いつけない問題も解決します。実際のトレーニングプロセス中の速度。

次に、AI ビデオタスクでのロングショットの生成により、トレーニングデータのソースとスクリーニングに対する要件が高くなります。したがって、Zhixiang 大型モデルは、最大数分から 10 分のビデオクリップのトレーニングをサポートし、数分間のビデオを直接出力することが可能になります。同時に、分単位のビデオコンテンツを記述することも困難です。Zhixiang Future は、ビデオの説明を生成するためのキャプションモデルを独自に開発し、詳細かつ正確な説明出力を実現しました。

最後に、トレーニング戦略に関しては、限られた長距離レンズのビデオデータのため、インテリジェントエレファントモデル 2.0 は、ビデオと画像データの共同トレーニングに異なる長さのビデオクリップを使用し、ビデオのサンプリングを動的に変更します。同時に、トレーニング中にユーザーのフィードバックデータに基づいて強化学習が実行され、モデルのパフォーマンスがさらに最適化されます。

したがって、より強力な自社開発の DiT アーキテクチャは、Wensheng ビデオ効果をさらに改善するための技術サポートを提供します。

現在、Intelligent Elephant Large Model 2.0 がサポートする動画再生時間は、約 15 秒から数分に延長され、業界最高レベルに達しています。

ビデオの長さが分レベルに達していることに加えて、長さとサイズが可変であることも、この Wensheng ビデオ機能アップグレードの大きなハイライトです。

現在のビデオ生成モデルには通常、生成期間が固定されており、ユーザーが選択することはできません。将来的には、Zhixiang は生成期間の選択をユーザーに開放し、ユーザーが期間を指定したり、入力されたプロンプトの内容に基づいて動的に判断したりできるようにします。より複雑な場合は長いビデオが生成され、比較的単純な場合は短いビデオが生成されるため、ユーザーのクリエイティブなニーズに適応的に対応できます。生成されるビデオのサイズも必要に応じてカスタマイズできるため、非常に使いやすいです。

さらに、全体的な画像のルックアンドフィールが向上し、生成されたビデオ内のオブジェクトのアクションや動きがより自然でスムーズになり、細部がより適切にレンダリングされ、4K超鮮明をサポートします。画質。

わずか半年で、以前のバージョンと比較して、アップグレードされた Vincent Video 機能は「生まれ変わった」と言えます。しかし、Yao Ting 博士の見解では、Intelligent Future であろうと他の同業他社であろうと、ほとんどのビデオ生成はまだ一眼レフの段階にあります。自動運転分野の L1 ～ L5 段階に比べると、Vincent Video はおおよそ L2 段階にあたります。基本モデルの機能のこのアップグレードの助けを借りて、Zhixiang は将来、より高品質のマルチレンズビデオの生成を追求し、L3 ステージの探索に向けた重要な一歩も踏み出しました。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

Zhixiang Future は、反復的な Vincent ビデオ機能が 7 月中旬に開始されると述べました。皆さんも楽しみにしていてください！

最後に書きました

基本的なモデルの機能の継続的な反復であるか、Vincentian Picturesの実体験の改善であるかは、設立から1年半未満です。および Vincentian ビデオ、インテリジェントイメージは将来的にはより視覚的なものになるでしょう。モーダル世代はこの方向に着実かつ急速に進歩しており、多くの C サイドと B サイドのユーザーを獲得しています。

Zhixiang Future Cエンドユーザーの月間訪問者数は百万を超え、生成されたAI画像と動画の総数も1,000万を超えたことが分かりました。敷居が低く、優れたアプリケーションが Intelligent Elephant モデルの特徴を構成し、これに基づいて、一般向けに最適な最初の AIGC アプリケーションプラットフォームが作成されます。

B面では、Zhixiang Futureは、China Mobile、Lenovo Group、iFlytek、Shanghai Film Group、Ciwen Group、Digital China、CCTV、Evernote、Tiangong Yicai、Hangzhou Lingbanなどの企業と積極的に協力しており、戦略的協力に達しています。モデルの適用シナリオを深化し、モデルの機能を通信事業者、スマート端末、映画およびテレビ制作、電子商取引、文化観光促進、ブランドマーケティングなどのより多くの業界に拡張し、最終的には商業化プロセスの可能性でモデルを使用して価値を創造することに合意しました。。

現在、Zhixiang Large Model には約 100 のトップ企業顧客がおり、30,000 以上 の中小企業および零細企業の顧客に AIGC サービスを提供しています。

より美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍

Zhixiang Big Model 2.0のリリースに先立ち、Zhixiang FutureはChina Mobile Migu Groupと提携して国家レベルのAIGCアプリケーション「AI One Word into a Movie」を開始しました。これは、一般ユーザーにゼロのサービスを提供するだけでなく、ベースの AI ビデオ着信音作成機能は、企業顧客が豊富なブランドおよびマーケティングビデオコンテンツを生成するのにも役立ち、企業が独自の着信音ブランドを持てるようになり、ビデオ生成と業界シナリオとの統合の大きな可能性を確認できるようになります。

さらに、AIエコシステムも大手模型メーカーにとって開発すべき重要なポジションです。この点に関して、Zhixiang は将来的にオープンな姿勢をとっており、Lenovo Group、iFlytek、Digital China などの主要顧客だけでなく、小規模な開発チームや独立系開発者とも協力して、ビデオ生成を含む広範な AI エコシステムを構築していきます。より多様化するユーザーニーズ。

2024 年は大規模モデルアプリケーションの元年とみなされ、すべてのメーカーにとって重要な開発ノードとなります。今後、Zhixiang は、より強力なプロトタイプ機能に関する詳細な記事を作成する予定です。

一方では、ビデオ生成分野における基礎となるアーキテクチャ、アルゴリズム、データの最適化を継続するなど、統合フレームワークにおける画像、ビデオ、3D マルチモダリティの理解と生成機能を強化します。期間と品質の向上を達成するための大きな進歩は、将来の一般的な人工知能を促進するために不可欠な部分となっています。その一方で、業界を拡大するために、ユーザーエクスペリエンス、革新的なアプリケーション、産業エコロジーなどの多方向に努力してきました。影響。

ビデオ生成トラックで高い地位を獲得し、Zhixiang は将来に向けて完全に準備を整えています。

以上がより美しい映像生成、分単位の映像出力、国産自社開発DiTアーキテクチャの飛躍の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。