GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。-AI-php.cn

拡散モデルの導入により、テキスト生成ビデオ技術の開発が促進されました。しかし、これらの方法は多くの場合、計算コストが高く、滑らかなオブジェクトの動きのビデオを実現するのが困難です。

これらの問題に対処するために、深セン先進技術研究所、中国科学院、中国科学院大学、VIVO人工知能研究所の研究者は共同で、テキストビデオを生成することができるGPT4Motionと呼ばれる新しいフレームワークを提案しました。トレーニング。 GPT4Motion は、GPT などの大規模な言語モデルの計画機能、Blender ソフトウェアが提供する物理シミュレーション機能、拡散モデルのテキスト生成機能を組み合わせ、ビデオ合成の品質を大幅に向上させることを目的としています。

GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

##プロジェクトリンク: https://gpt4motion.github.io/

紙のリンク: https:// /arxiv.org/pdf/2311.12631.pdf
コードリンク: https://github.com/jiaxilv/GPT4Motion
GPT4Motion は GPT-4 を使用して、ユーザー入力テキストプロンプトに基づいて Blender スクリプトを生成します。 Blender の物理エンジンを活用して基本的なシーンコンポーネントを作成し、それらを連続的なクロスフレームモーションとしてカプセル化します。これらのコンポーネントは拡散モデルに入力され、テキストプロンプトに一致するビデオを生成します。

実験結果は、GPT4Motion がモーションの一貫性とエンティティの一貫性を維持しながら、高品質のビデオを効率的に生成できることを示しています。 GPT4Motion は生成されたビデオをよりリアルにするために物理エンジンを使用していることに注意してください。これにより、テキスト生成ビデオに新しい視点が提供されます

まず、テキストプロンプトの入力など、GPT4Motion の生成効果を見てみましょう。「そよ風」、「白いTシャツが風になびいている」、「白いTシャツが強い風にはためいている」。風の強さが異なるため、GPT4Motion によって生成されたビデオ内の白い T シャツのはためきの振幅も異なります。

液体の場合流れの形、ビデオでもよくわかります: GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

空中で回転して落ちるバスケットボール: GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

方法の紹介

この研究の目標は、いくつかの基本的な身体動作シーンに対するユーザーのプロンプトに基づいて、身体特性に適合するビデオを生成することです。物理的特性は、多くの場合、オブジェクトの材質に関連します。研究者らは、日常生活でよく使われる3つの物体素材、1)力が加わっても形状を変化させずに維持できる硬い物体、2)柔らかくてはためきやすいという特徴を持つ布地、3)液体などの液体のシミュレーションに焦点を当てています。連続的かつ変形可能な動きを示します。

さらに、研究者らは、衝突 (物体間の直接衝突)、風の影響 (気流によって引き起こされる動き)、流れ (連続的に一方向に移動します)。これらの物理シナリオをシミュレートするには、多くの場合、古典力学、流体力学、その他の物理学の知識が必要です。テキスト生成ビデオに焦点を当てた現在の普及モデルでは、トレーニングを通じてこれらの複雑な物理知識を取得することが困難であるため、物理特性に準拠したビデオを作成できません

GPT4Motion の利点は、生成されたビデオがユーザー入力プロンプトと一致しているだけでなく、物理的にも正しいこと。 GPT-4 のセマンティック理解とコード生成機能により、ユーザープロンプトを Blender の Python スクリプトに変換できます。これにより、Blender の内蔵物理エンジンを駆動して、対応する物理シーンをシミュレートできます。さらに、この調査では ControlNet も使用され、Blender シミュレーションの動的な結果を入力として受け取り、拡散モデルがビデオをフレームごとに生成するようにガイドしました。 GPT-4 の活用シミュレーション操作のために Blender を起動します

研究者らは、GPT-4 は Blender の Python API をある程度理解していますが、ユーザープロンプトに基づいて Blender の Python スクリプトを生成する機能がまだ不足していることに気づきました。一方で、単純な 3D モデル (バスケットボールなど) さえも Blender で直接作成するように GPT-4 に要求するのは、気が遠くなる作業のように思えます。一方、Blender の Python API はリソースが少なく、API バージョンの更新が早いため、GPT-4 では特定の機能を誤用したり、バージョンの違いによるエラーが発生しやすくなります。これらの問題を解決するために、この研究では次の解決策を提案しています:

外部 3D モデルを使用する
Blender 関数をカプセル化する
#ユーザープロンプトを物理的プロパティに変換する

図 3 は、この研究によって GPT-4 用に設計された一般的なプロンプトテンプレートを示しています。これには、カプセル化された Blender 関数、外部ツール、ユーザーコマンドが含まれます。研究者らはテンプレートで仮想世界のサイズ基準を定義し、カメラの位置と視点に関する情報を提供しました。この情報は、GPT-4 が 3 次元空間のレイアウトをよりよく理解するのに役立ちます。次に、ユーザーによるプロンプト入力に基づいて対応する命令が生成され、GPT-4 が対応する Blender Python スクリプトを生成するように指示されます。最後に、このスクリプトを通じて、Blender はオブジェクトのエッジと奥行きをレンダリングし、画像シーケンスとして出力します。

GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

#内容を書き直しました: 物理法則に従ったビデオの作成

この研究は、テキストコンテンツと一致し、ユーザーが提供したキューと、Blender によって提供される対応する物理的な動きの条件に基づいて、視覚的に現実的なビデオを生成することを目的としています。この目的を達成するために、この研究では拡散モデル XL (SDXL) を採用して生成タスクを完了し、それを改善しました。

物理的運動の制約
時間一貫性の制約

##実験結果

物理特性の制御

## 図 4 は、バスケットボールの行方と衝突を含む、3 つのプロンプトの下で GPT4Motion によって生成されたバスケットボールスポーツビデオを示しています。図 4 の左側では、バスケットボールが回転する際に非常に現実的なテクスチャを維持し、地面との衝突後の跳ね返り動作を正確に再現しています。図 4 の中央部分は、この方法がバスケットボールの数を正確に制御し、複数のバスケットボールが着地したときに発生する衝突と跳ね返りを効果的に生成できることを示しています。驚くべきことに、図 4 の右側に示すように、ユーザーがカメラに向かってバスケットボールを投げるように要求すると、GPT-4 は生成されたスクリプト内のバスケットボールの落下時間に基づいて必要な初速度を計算し、それによってリアルなビジュアルを実現します。効果。これは、GPT4Motion を GPT-4 で習得した物理学の知識と組み合わせて、風になびく布の生成されたビデオコンテンツを制御できることを示しています。図 5 と 6 は、風の影響下で移動する布を生成する GPT4Motion の機能を示しています。 GPT4Motion はシミュレーションに既存の物理エンジンを活用し、さまざまな風力の下で波を生成できます。図 5 は、旗を振って生成された結果を示しています。この旗には、さまざまな風の状況で波紋や波の複雑なパターンが表示されます。図 6 は、さまざまな風力下における不規則な布地オブジェクト (T シャツ) の動きを示しています。伸縮性や重量などの生地の物理的特性の影響により、T シャツは揺れたりねじれたり、しわが顕著に変化します。

GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

図 7 は、さまざまな粘度の水をマグカップに注ぐ様子を示す 3 つのビデオを示しています。水の粘度が低いと、流れる水がカップ内の水と衝突して合流し、複雑な乱流現象が形成されます。粘度が増加すると、流れが遅くなり、液体が互いに付着し始めます

GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。ベースライン法との比較

図 1 では、GPT4Motion が他のベースライン手法と視覚的に比較されています。ベースライン方法の結果がユーザーのプロンプトと一致しないことは明らかです。 DirecT2V と Text2Video-Zero にはテクスチャの忠実度とモーションの一貫性に欠陥がありますが、AnimateDiff と ModelScope はビデオの滑らかさを改善しますが、テクスチャの一貫性とモーションの忠実度にはまだ改善の余地があります。これらの方法と比較して、GPT4Motion はバスケットボールが床に衝突した後に落下したり跳ね返ったりする際に滑らかなテクスチャの変化を生成でき、より現実的に見えます。図 8 (最初の行) では、AnimateDiff と Text2Video-Zero で生成されたビデオには旗にアーティファクトや歪みがあり、ModelScope と DirecT2V では風になびく旗のグラデーションをスムーズに生成できません。ただし、図 5 の中央に示すように、GPT4Motion によって生成されたビデオでは、重力や風の影響を受けて旗のしわや波紋が連続的に変化する様子がわかります。

GPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。

図 8 の 2 行目に示すように、すべてのベースラインの結果はユーザープロンプトと一致しません。 AnimateDiff と ModelScope のビデオは水の流れの変化を反映していますが、カップに注がれる水の物理的効果を捉えることはできません。一方、Text2VideoZero と DirecT2V によって生成されたビデオは、絶えず揺れるカップを作成しました。対照的に、図 7 (左) に示すように、GPT4Motion によって生成されたビデオは、水流がマグカップに衝突するときの撹拌を正確に表しており、その効果はより現実的です。読者研究の詳細については、元の論文を読むことができます

以上がGPT-4+ 拡散モデルは物理エンジンと組み合わせることで、現実的で一貫性のある合理的なビデオを生成します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。