SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり-AI-php.cn

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

王林

リリース： 2024-01-15 19:48:14

転載

1377 人が閲覧しました

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的とした、コンピュータービジョンの分野における課題です。このタスクの難しさは、画像コンテンツの信頼性と視覚的な一貫性を維持しながら、単一の画像から時間次元で動的な情報を抽出して生成することです。既存の I2V 手法では、多くの場合、この目標を達成するために複雑なモデルアーキテクチャと大量のトレーニングデータが必要になります。

最近、Kuaishou が主導した新しい研究成果「I2V アダプター: ビデオ拡散モデルのための汎用画像対ビデオアダプター」が発表されました。この研究では、革新的な画像からビデオへの変換方法を導入し、軽量のアダプターモジュールである I2V アダプターを提案します。このアダプターモジュールは、既存のテキストからビデオへの生成 (T2V) モデルの元の構造と事前トレーニングされたパラメーターを変更することなく、静止画像を動的なビデオに変換できます。この方法は、画像からビデオへの変換の分野で幅広い応用の可能性があり、ビデオ作成、メディアコミュニケーション、その他の分野にさらなる可能性をもたらす可能性があります。研究成果の公開は、画像・映像技術の発展を促進する上で非常に意義があり、関連分野の研究者にとって有効なツールや手法を提供します。

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

#論文アドレス: https://arxiv.org/pdf/2312.16693 .pdf
プロジェクトのホームページ: https://i2v-adapter.github.io/index.html
コードアドレス: https://github.com/I2V-Adapter/I2V-Adapter-repo

既存のメソッドとの比較他つまり、I2V アダプターはトレーニング可能なパラメーターの点で大幅な改善を行い、パラメーターの最小数は 22M に達しましたが、これは主流のソリューションである Stable Video Diffusion のわずか 1% にすぎません。同時に、このアダプターは、Stable Diffusion コミュニティによって開発されたカスタマイズされた T2I モデル (DreamBooth、Lora など) および制御ツール (ControlNet など) とも互換性があります。研究者らは実験を通じて、高品質のビデオコンテンツの生成における I2V アダプターの有効性を証明し、I2V 分野でクリエイティブなアプリケーションの新たな可能性を切り開きました。

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

#メソッドの紹介

安定拡散による時間モデリング

画像生成と比較して、ビデオ生成は、ビデオフレーム間の時間的一貫性をモデル化するという独特の課題に直面しています。現在の手法のほとんどは、ビデオ内のタイミング情報をモデル化するタイミングモジュールを導入することにより、安定拡散や SDXL などの事前トレーニングされた T2I モデルに基づいています。もともとカスタマイズされた T2V タスク用に設計されたモデルである AnimateDiff からインスピレーションを受けており、T2I モデルから分離されたタイミングモジュールを導入することでタイミング情報をモデル化し、スムーズなビデオを生成する元の T2I モデルの機能を保持します。したがって、研究者らは、事前トレーニングされた時間モジュールは普遍的な時間表現と見なすことができ、微調整することなく、I2V 生成などの他のビデオ生成シナリオに適用できると考えています。したがって、研究者らは事前トレーニングされた AnimateDiff タイミングモジュールを直接使用し、そのパラメーターを固定したままにしました。

アテンションレイヤー用アダプター

I2V タスクのもう 1 つの課題は、入力画像の ID 情報を維持することです。。現在の主な解決策は 2 つあります。1 つは、事前トレーニングされた画像エンコーダーを使用して入力画像をエンコードし、クロスアテンションメカニズムを通じてエンコードされた特徴をモデルに注入してノイズ除去プロセスをガイドするもので、もう 1 つは画像をチャネル次元のノイズを含む入力と連結され、後続のネットワークに一緒に供給されます。ただし、前者の方法では、画像エンコーダーが基礎となる情報をキャプチャすることが難しいため、生成されたビデオ ID が変更される可能性がありますが、後者の方法では、多くの場合、T2I モデルの構造とパラメーターの変更が必要となるため、トレーニングコストが高くなり、パフォーマンスが低下します。互換性。

上記の問題を解決するために、研究者たちは I2V アダプターを提案しました。具体的には、研究者は入力画像とノイズを含む入力を並行してネットワークに入力します。モデルの空間ブロックでは、すべてのフレームが最初のフレーム情報をさらにクエリします。つまり、キーと値の特徴はノイズのない最初のフレームから取得されます。、そして出力結果は元のモデルのセルフアテンションに追加されます。このモジュールの出力マッピング行列はゼロで初期化され、出力マッピング行列とクエリマッピング行列のみがトレーニングされます。入力画像の意味論的情報に対するモデルの理解をさらに強化するために、研究者らは、画像の意味論的特徴を注入するための事前トレーニング済みコンテンツアダプター (この記事では IP アダプター [8] を使用します) を導入しました。

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

フレーム類似度優先順位

生成された結果の安定性をさらに高めるために、研究者は、は、フレーム間の事前類似性を使用して、生成されたビデオの安定性と動きの強さのバランスを取ることを提案しました。重要な前提は、次の図に示すように、比較的低いガウスノイズレベルでは、ノイズのある最初のフレームとノイズのある後続のフレームが十分に近いということです。したがって、研究者は、すべてのフレームが同様の構造を持ち、一定量のガウスノイズを追加すると区別できなくなると想定し、したがって、ノイズを加えた入力画像を後続のフレームのアプリオリ入力として使用できると考えています。高周波情報による誤解を避けるために、研究者らはガウスぼかし演算子とランダムマスク混合も使用しました。具体的には、操作は次のようになります。

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

#実験結果

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

定量的結果

この記事では、DoverVQA (美的スコア)、CLIPTemp (最初のフレームの一貫性)、FlowScore (動作範囲)、および WarppingError (動作エラー) の 4 つの定量的指標を計算しました。生成されたビデオ。表 1 は、I2V アダプターが最高の美的スコアを獲得し、最初のフレームの一貫性の点ですべての比較スキームを上回っていることを示しています。さらに、I2V アダプターによって生成されたビデオは、最大の動き振幅と比較的低い動き誤差を持ち、このモデルが時間的な動きの精度を維持しながら、よりダイナミックなビデオを生成できることを示しています。

#定性的結果

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

画像アニメーション (左が入力、右が出力):

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり # #パーソナライズされた T2I あり (左が入力、右が出力):

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

##ControlNet あり (左が入力、右が出力): SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性あり

概要

この文書では、画像からビデオへの生成タスク用のプラグアンドプレイの軽量モジュールである I2V アダプターを提案します。この方法では、元の T2V モデルの空間ブロックとモーションブロックの構造とパラメーターを固定し、ノイズのない最初のフレームとノイズのある後続のフレームを並列に入力し、アテンションメカニズムを通じてすべてのフレームがノイズのない最初のフレームと相互作用できるようにします。したがって、時間的に一貫性があり、最初のフレームと一貫性のあるビデオが生成されます。研究者は、定量的および定性的な実験を通じて、I2V タスクにおけるこの方法の有効性を実証しました。さらに、その分離設計により、ソリューションを DreamBooth、Lora、ControlNet などのモジュールと直接組み合わせることができ、ソリューションの互換性を証明し、カスタマイズされた制御可能な画像からビデオの生成に関する研究を促進します。

以上がSD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオプラグインと完全に互換性ありの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。