世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示-AI-php.cn

世界初のオープンソースのSora風建築ビデオ生成モデルが登場！

データ処理、すべてのトレーニングの詳細、モデルの重みを含むトレーニングプロセス全体はすべてオープンです。

これは、リリースされたばかりの Open-Sora 1.0 です。

実際の効果は以下の通りで、繁華街の夜景に賑わいを生み出すことができます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

航空写真の視点を使用して、崖の海岸と岩に打ち寄せる海水のシーンを表示することもできます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

または、タイムラプス撮影による広大な星空。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

Sora のリリース以来、Sora の公開と再作成は、その驚くべき効果と技術的な詳細の不足により、開発コミュニティで最も話題になるトピックの 1 つとなっています。たとえば、Colossal-AI チームは、コストを 46% 削減できる Sora のトレーニングと推論の複製プロセスを開始しました。

わずか 2 週間後、チームは再び最新の進捗状況をリリースし、Sora のようなソリューションを再現し、技術ソリューションと詳細なチュートリアルを GitHub で無料でオープンソースにしました。

そこで問題は、ソラをどのように再現するかということです。

Open-Sora オープンソースアドレス: https://github.com/hpcaitech/Open-Sora

Sora 再発計画の包括的な解釈

Sora 再発計画には以下が含まれます4 つの側面:

モデルアーキテクチャ設計
トレーニング再現計画
データ前処理
効率的なトレーニング最適化戦略

#モデルアーキテクチャ設計

モデルは、Sora 相同アーキテクチャ拡散トランス (DiT) を採用しています。

DiT アーキテクチャを使用した高品質なオープンソースのヴィンセントグラフモデルである PixArt-α をベースに、時間的アテンションレイヤーを導入し、ビデオデータに拡張しています。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキストエンコーダー、および時空間注意メカニズムを利用する STDiT (空間時間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。

これは、シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ね合わせ、時間的な関係をモデル化します。時間的注意モジュールの後に、クロス注意モジュールを使用してテキストの意味を調整します。

完全な注意メカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte モデルと比較して、STDiT は、事前トレーニングされた画像 DiT の重みをより適切に利用して、ビデオデータのトレーニングを継続できます。

#△STDiT 構造図

モデル全体の学習と推論のプロセスは次のとおりです。

トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオデータを圧縮し、次に STDiT が圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。モデル。

推論段階では、ガウスノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプトエンベディングとともに STDiT に入力されてノイズ除去された特徴が取得され、最後に VAE デコードプロセッサに入力されてデコードされて、ビデオ。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

△モデルトレーニングプロセス

トレーニング再現計画

トレーニング再現部分では、Open-Sora は Stable Video Diffusion (SVD) を指します。

これは 3 つのステージに分かれています:

大規模な画像の事前トレーニング。
大規模なビデオによる事前トレーニング。
高品質ビデオデータの微調整。

各ステージでは、前のステージの重みに基づいてトレーニングを継続します。

ゼロからの単一ステージのトレーニングと比較して、マルチステージトレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示

#△トレーニング計画の 3 つのフェーズ

最初のフェーズは大規模な画像の事前トレーニングです。

チームは、インターネット上の豊富な画像データとビンセントグラフテクノロジを使用して、最初に高品質のビンセントグラフモデルをトレーニングし、このモデルをビデオ事前トレーニングの次の段階の初期化重みとして使用しました。

同時に、現在高品質の時空間 VAE がないため、Stable Diffusion の事前学習済み画像 VAE を使用しています。

これにより、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる全体的なコストも大幅に削減されます。

第 2 段階は、大規模なビデオによる事前トレーニングです。

この段階では主にモデルの汎化能力を高め、映像の時系列相関を効果的に把握します。

トレーニングには大量のビデオデータを使用し、ビデオ素材の多様性を確保する必要があります。

同時に、第 2 段階のモデルは、ビデオ内の時間的な関係を学習するために、第 1 段階のヴィンセントグラフモデルに基づいた時間的注意モジュールを追加します。残りのモジュールは最初のステージとの一貫性を維持し、初期化として最初のステージの重みをロードします。同時に、時間的注意モジュールの出力はゼロに初期化され、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha のオープンソースウェイトを使用し、テキストエンコーダーとして T5 モデルを使用しました。彼らは事前トレーニングに 256x256 という小さな解像度を使用しました。これにより、収束速度がさらに向上し、トレーニングコストが削減されました。

△Open-Sora 生成効果 (即言: 水中世界のショット、サンゴ礁の間をのんびり泳ぐカメ)

第 3 段階は高画質なビデオデータを微調整します。

レポートによると、この段階によりモデル生成の品質が大幅に向上する可能性があります。使用されるデータサイズは前の段階よりも 1 桁小さくなりますが、ビデオの長さ、解像度、品質は高くなります。

このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度までビデオ生成を効率的に拡張できます。

Colossal-AI は各ステージのリソース使用量も詳細に開示したことは注目に値します。

Open-Sora の再現プロセスでは、トレーニングに 64 台の H800 が使用されました。第 2 段階のトレーニング量の合計は 2,808 GPU 時間で約 7,000 米ドル、第 3 段階のトレーニング量は 1920 GPU 時間で約 4,500 米ドルです。予備的な見積もりの後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームはコードウェアハウスに便利なビデオデータ前処理スクリプトも提供しています。ソラ再発事前トレーニングを開始します。

公開ビデオデータセットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオクリップに分割すること、オープンソースの大規模言語モデル LLaVA を使用して正確なプロンプトワードを生成することが含まれます。

同社が提供するバッチビデオタイトル生成コードは、ビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近くなります。

最終的なビデオとテキストのペアは、トレーニングに直接使用できます。 GitHub で提供されるオープンソースコードを使用すると、独自のデータセットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora レプリケーションプロジェクトを開始するための技術的なしきい値と事前準備が大幅に軽減されます。

世界初のSora風のオープンソース複製ソリューションが登場！すべてのトレーニングの詳細とモデルの重みを完全に開示