世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

WBOY
リリース: 2024-03-18 20:25:20
転載
440 人が閲覧しました

世界初のオープンソースのSora風建築ビデオ生成モデルが登場!

データ処理、すべてのトレーニングの詳細、モデルの重みを含むトレーニング プロセス全体はすべてオープンです。

これは、リリースされたばかりの Open-Sora 1.0 です。

実際の効果は以下の通りで、繁華街の夜景に賑わいを生み出すことができます。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

航空写真の視点を使用して、崖の海岸と岩に打ち寄せる海水のシーンを表示することもできます。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

または、タイムラプス撮影による広大な星空。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

Sora のリリース以来、Sora の公開と再作成は、その驚くべき効果と技術的な詳細の不足により、開発コミュニティで最も話題になるトピックの 1 つとなっています。たとえば、Colossal-AI チームは、コストを 46% 削減できる Sora のトレーニングと推論の複製プロセスを開始しました。

わずか 2 週間後、チームは再び最新の進捗状況をリリースし、Sora のようなソリューションを再現し、技術ソリューションと詳細なチュートリアルを GitHub で無料でオープンソースにしました。

そこで問題は、ソラをどのように再現するかということです。

Open-Sora オープン ソース アドレス: https://github.com/hpcaitech/Open-Sora

Sora 再発計画の包括的な解釈

Sora 再発計画には以下が含まれます4 つの側面:

  • モデル アーキテクチャ設計
  • トレーニング再現計画
  • データ前処理
  • 効率的なトレーニング最適化戦略
#モデル アーキテクチャ設計

モデルは、Sora 相同アーキテクチャ拡散トランス (DiT) を採用しています。

DiT アーキテクチャを使用した高品質なオープンソースのヴィンセント グラフ モデルである PixArt-α をベースに、時間的アテンション レイヤーを導入し、ビデオ データに拡張しています。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキスト エンコーダー、および時空間注意メカニズムを利用する STDiT (空間時間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。

これは、シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ね合わせ、時間的な関係をモデル化します。時間的注意モジュールの後に、クロス注意モジュールを使用してテキストの意味を調整します。

完全な注意メカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte モデルと比較して、STDiT は、事前トレーニングされた画像 DiT の重みをより適切に利用して、ビデオ データのトレーニングを継続できます。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示#△STDiT 構造図

モデル全体の学習と推論のプロセスは次のとおりです。

トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオ データを圧縮し、次に STDiT が圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。モデル。

推論段階では、ガウス ノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプト エンベディングとともに STDiT に入力されてノイズ除去された特徴が取得され、最後に VAE デコード プロセッサに入力されてデコードされて、ビデオ。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

△モデルトレーニングプロセス

トレーニング再現計画

トレーニング再現部分では、Open-Sora は Stable Video Diffusion (SVD) を指します。

これは 3 つのステージに分かれています:

  • 大規模な画像の事前トレーニング。
  • 大規模なビデオによる事前トレーニング。
  • 高品質ビデオ データの微調整。

各ステージでは、前のステージの重みに基づいてトレーニングを継続します

ゼロからの単一ステージのトレーニングと比較して、マルチステージ トレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

#△トレーニング計画の 3 つのフェーズ

最初のフェーズは大規模な画像の事前トレーニングです。

チームは、インターネット上の豊富な画像データとビンセント グラフ テクノロジを使用して、最初に高品質のビンセント グラフ モデルをトレーニングし、このモデルをビデオ事前トレーニングの次の段階の初期化重みとして使用しました。

同時に、現在高品質の時空間 VAE がないため、Stable Diffusion の事前学習済み画像 VAE を使用しています。

これにより、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる​​全体的なコストも大幅に削減されます。

第 2 段階は、大規模なビデオによる事前トレーニングです。

この段階では主にモデルの汎化能力を高め、映像の時系列相関を効果的に把握します。

トレーニングには大量のビデオ データを使用し、ビデオ素材の多様性を確保する必要があります。

同時に、第 2 段階のモデルは、ビデオ内の時間的な関係を学習するために、第 1 段階のヴィンセント グラフ モデルに基づいた時間的注意モジュールを追加します。残りのモジュールは最初のステージとの一貫性を維持し、初期化として最初のステージの重みをロードします。同時に、時間的注意モジュールの出力はゼロに初期化され、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha のオープンソース ウェイトを使用し、テキスト エンコーダーとして T5 モデルを使用しました。彼らは事前トレーニングに 256x256 という小さな解像度を使用しました。これにより、収束速度がさらに向上し、トレーニング コストが削減されました。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示
△Open-Sora 生成効果 (即言: 水中世界のショット、サンゴ礁の間をのんびり泳ぐカメ)

第 3 段階は高画質なビデオデータを微調整します。

レポートによると、この段階によりモデル生成の品質が大幅に向上する可能性があります。使用されるデータ サイズは前の段階よりも 1 桁小さくなりますが、ビデオの長さ、解像度、品質は高くなります。

このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度までビデオ生成を効率的に拡張できます。

Colossal-AI は各ステージのリソース使用量も詳細に開示したことは注目に値します。

Open-Sora の再現プロセスでは、トレーニングに 64 台の H800 が使用されました。第 2 段階のトレーニング量の合計は 2,808 GPU 時間で約 7,000 米ドル、第 3 段階のトレーニング量は 1920 GPU 時間で約 4,500 米ドルです。予備的な見積もりの​​後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームはコード ウェアハウスに便利なビデオ データ前処理スクリプトも提供しています。ソラ再発事前トレーニングを開始します。

公開ビデオ データ セットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオ クリップに分割すること、オープンソースの大規模言語モデル LLaVA を使用して正確なプロンプト ワードを生成することが含まれます。

同社が提供するバッチビデオタイトル生成コードは、ビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近くなります。

最終的なビデオとテキストのペアは、トレーニングに直接使用できます。 GitHub で提供されるオープン ソース コードを使用すると、独自のデータ セットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora レプリケーション プロジェクトを開始するための技術的なしきい値と事前準備が大幅に軽減されます。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

効率的なトレーニング サポート

さらに、Colossal-AI チームはトレーニング高速化ソリューションも提供します。

オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。

同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオ トレーニング タスクを単一サーバー (8H800) で支障なく実行できます。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

#また、チームは、STDiT モデル アーキテクチャがトレーニング中に優れた効率を示すことも発見しました。

フル アテンション メカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオ シーケンスの処理などの実際のタスクでは特に重要です。

世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示

最後に、チームはさらに Open-Sora 生成エフェクトもリリースしました。

、期間 00:25

チームと Qubits は、Open-Sora 関連のソリューションと開発を長期的に更新および最適化することを明らかにしました。将来的には、より多くのビデオ トレーニング データを使用して、より高品質で長いビデオ コンテンツを生成し、マルチ解像度機能をサポートする予定です。

実用化に関しては、映画、ゲーム、広告などの分野での導入を推進していくことを明らかにした。

興味のある開発者は、GitHub プロジェクトにアクセスして詳細をご覧ください~

Open-Sora オープン ソース アドレス: https://github.com/hpcaitech/Open-Sora

Referenceリンク:

[1]https://arxiv.org/abs/2212.09748 変圧器を備えたスケーラブルな拡散モデル。

[2]https://arxiv.org/abs/2310.00426 PixArt-α: フォトリアリスティックなテキストから画像への合成のための拡散変換器の高速トレーニング.

[3]https://arxiv.org/abs/2311.15127 安定したビデオ拡散: 潜在ビデオ拡散モデルを大規模なデータセットに拡張します。

[4]https://arxiv.org/abs/2401.03048 Latte: ビデオ生成用の潜在拡散トランスフォーマー。

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original。

[6]https://github.com/google-research/text-to-text-transfer-transformer。

[7]https://github.com/haotian-liu/LLaVA。

[8]https://hpc-ai.com/blog/open-sora-v1.0。

以上が世界初のSora風のオープンソース複製ソリューションが登場!すべてのトレーニングの詳細とモデルの重みを完全に開示の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!