アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします-AI-php.cn

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

WBOY

リリース： 2024-08-05 15:10:01

オリジナル

805 人が閲覧しました

ルートを指定すると、Tora が対応する軌跡のビデオを生成します。

現在、拡散モデルは多様で高品質の画像やビデオを生成できます。これまでのビデオ拡散モデルは、主に解像度とアスペクト比に固定された制限付きで、限られた期間 (通常は約 2 秒) のビデオを合成することに重点を置いた U-Net アーキテクチャを使用していました。

Sora の登場は、この制限を打破します。これは、10 ～ 60 秒の高品質ビデオの生成に優れているだけでなく、さまざまな解像度、さまざまな側面を生成するため、拡散トランスフォーマー (DiT) アーキテクチャを使用しています。実際の物理法則に従う能力によって際立っています。

Sora は DiT アーキテクチャの最も好ましいデモンストレーションであると言えますが、Transformer ベースの拡散モデルは、制御可能なアクションビデオを効果的に生成する点で十分に検討されていません。

この問題に対応して、アリババの研究者は、テキスト、視覚、および軌跡の条件を同時に統合してビデオを生成する、初の軌跡指向の DiT アーキテクチャである Tora を提案しました。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

Tora は、DiT のスケーラビリティとシームレスに連携するように設計されており、異なる長さ、アスペクト比、解像度のビデオコンテンツを正確に制御できます。広範な実験により、Tora は物理世界の動きを詳細にシミュレートしながら、高い動きの忠実度を達成することに優れていることが証明されました。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

論文アドレス: https://arxiv.org/pdf/2407.21705
論文ホームページ: https://ali-videoai.github.io/tora_video/
論文タイトル: Tora: ビデオ生成のための軌跡指向拡散トランス

緑豊かな森に囲まれた、霧に包まれた川の上を、昔ながらの木造帆船が所定のルートでスイスイと進みます。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

火星の赤い岩肌を優雅に泳ぐフナ。魚の軌跡は左側、火星の軌跡は右側です。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

熱気球は、所定の斜線に沿った軌道と曲線軌道に沿った異なる軌道に沿って夜空に上昇します。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

静かな金色のビーチを並んで歩く2匹のかわいい子猫。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

咲き誇る野の花の間で、線路に沿って泡が優しく浮かんでいます。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

澄んだ湖の上で楓の葉が揺れ、秋の森を映します。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

山の滝が降り注ぎ、テーマや背景をさまざまなルートに沿って移動できます。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

Tora と他の方法を比較すると、Tora によって生成されたビデオがより滑らかで、より軌道に従い、オブジェクトの変形の問題がなく、忠実度が高いことがわかります。

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

Pengenalan Kaedah

Tora menggunakan OpenSora sebagai model asas seni bina DiTnya, termasuk Trajectory Extractor (TE, Trajectory Extractor), Spatial-Temporal DiT (Spatial-Temporal Motion GuTidance) dan Fusion Motion GuTidance MGF), Fuser panduan-gerakan). TE menggunakan rangkaian pemampatan video 3D untuk mengekod trajektori sewenang-wenang ke dalam tampung gerakan spatiotemporal hierarki. MGF menyepadukan tampalan gerakan ke dalam blok DiT untuk menjana video konsisten yang mengikut trajektori. Rajah 3 menggariskan aliran kerja Tora.

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

Space-Time DiT (ST-DiT)

ST-DiT seni bina mengandungi dua jenis blok berbeza: blok DiT spatial (S-DiT-B) dan blok DiT temporal (T-DiT-Blok B), mereka disusun secara bergilir-gilir. S-DiT-B terdiri daripada dua lapisan perhatian, setiap satu secara berurutan melakukan perhatian kendiri spatial (SSA) dan perhatian silang, diikuti dengan lapisan suapan ke hadapan untuk menyambung bahagian T-DiT-B bersebelahan. T-DiT-B hanya mengubah suai seni bina ini dengan menggantikan SSA dengan Temporal Self-Attention (TSA), sekali gus mengekalkan ketekalan seni bina. Dalam setiap blok, input, selepas normalisasi, disambungkan kembali ke output blok melalui sambungan langkau. Dengan memanfaatkan keupayaan untuk mengendalikan urutan panjang berubah-ubah, menolak ST-DiT boleh mengendalikan video dengan tempoh berubah-ubah.

Trajektori Extractor

Trajektori telah terbukti sebagai cara yang lebih mesra pengguna untuk mengawal gerakan dalam video yang dijana. Walau bagaimanapun, model DiT menggunakan pengekod auto video dan proses tampalan untuk menukar video kepada tampalan video. Di sini, setiap tampung dieksport merentasi berbilang bingkai, jadi mengambil secara langsung ofset antara bingkai adalah tidak sesuai. Untuk menyelesaikan masalah ini, TE yang dicadangkan dalam kertas ini menukar trajektori menjadi tampalan gerakan, yang terletak di ruang terpendam yang sama dengan tampalan video.

Motion Guided Fusion

Untuk menggabungkan penjanaan video berasaskan DiT dengan trajektori, kertas kerja ini meneroka tiga varian seni bina gabungan yang menyuntik tompok gerakan ke dalam setiap blok ST-DiT. Reka bentuk ini ditunjukkan dalam Rajah 4.

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

Hasil eksperimen

Dari segi perincian pelaksanaan, para penyelidik melatih Tora berdasarkan pemberat OpenSora v1.2. Video latihan berjulat dalam resolusi dari 144p hingga 720p. Untuk mengimbangi memori yang diperlukan untuk melatih FLOP dengan resolusi dan bilangan bingkai yang berbeza setiap lelaran, kami melaraskan saiz kelompok dengan sewajarnya daripada 1 hingga 25.

Bagi infrastruktur latihan, penyelidik menggunakan 4 NVIDIA A100 dan pengoptimum Adam dengan kadar pembelajaran 2 × 10^−5.

Penyelidik membandingkan Tora dengan kaedah penjanaan video arahan senaman yang popular. Tiga tetapan digunakan dalam penilaian, 16, 64, dan 128 bingkai, semuanya pada resolusi 512 × 512.

Hasilnya ditunjukkan dalam Jadual 1 di bawah Di bawah tetapan 16 bingkai yang biasa digunakan oleh kaedah U-Net, MotionCtrl dan DragNUWA lebih berupaya untuk menyelaraskan dengan trajektori yang disediakan, tetapi masih lebih lemah daripada Tora. Apabila bilangan bingkai bertambah, kaedah U-Net menjadi berat sebelah dengan ketara dalam sesetengah bingkai, dan perambatan ralat salah jajaran boleh menyebabkan ubah bentuk, kabur gerakan atau kehilangan objek dalam urutan berikutnya.

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします

Sebaliknya, Tora menunjukkan keteguhan yang tinggi kepada perubahan kadar bingkai berkat keupayaan penskalaan bersepadu Transformer. Pergerakan yang dihasilkan oleh Tora lebih lancar dan konsisten dengan dunia fizikal. Untuk penilaian di bawah tetapan ujian 128 bingkai, ketepatan trajektori Tora adalah 3 hingga 5 kali ganda daripada kaedah lain, menunjukkan keupayaan kawalan gerakan yang unggul.

Dalam Rajah 5 di bawah, penyelidik menganalisis ralat trajektori pada resolusi dan tempoh yang berbeza. Keputusan menunjukkan bahawa tidak seperti U-Net, yang mempunyai ralat trajektori yang jelas dari semasa ke semasa, ralat trajektori Tora secara beransur-ansur meningkat dari semasa ke semasa. Ini konsisten dengan penurunan dalam kualiti video apabila masa meningkat dalam model DiT. Tora mengekalkan kawalan trajektori yang berkesan untuk jangka masa yang lebih lama.

Rajah 6 di bawah menunjukkan analisis perbandingan antara Tora dan kaedah kawalan gerakan arus perdana Dalam adegan yang melibatkan dua orang bergerak bersama, semua kaedah boleh menghasilkan trajektori gerakan yang agak tepat. Kualiti visual Tora adalah lebih baik, walaupun, terima kasih kepada penggunaan bingkai jujukan yang lebih panjang, yang membantu mencapai trajektori gerakan yang lebih lancar dan pemaparan latar belakang yang lebih realistik.

Dapat dilihat dalam adegan basikal yang dihasilkan oleh Tora, kaki manusia menunjukkan pergerakan mengayuh yang realistik, manakala kaki DragNUWA terapung hampir mendatar, melanggar realiti fizikal. Selain itu, kedua-dua DragNUWA dan MotionCtrl mengalami kekaburan gerakan yang teruk pada penghujung video.

Dalam adegan lain di mana tanglung dijana, DragNUWA menunjukkan ubah bentuk yang teruk apabila trajektori yang disediakan terus naik dan turun. Walaupun trajektori MotionCtrl agak tepat, video yang dihasilkan tidak sepadan dengan perihalan dua tanglung. Tora bukan sahaja mengikut trajektori dengan ketat, tetapi juga meminimumkan ubah bentuk objek, memastikan perwakilan tindakan kesetiaan yang lebih tinggi.

アリババの「Sora の軌道制御可能なバージョン」は「カードを引く」ことに別れを告げ、ビデオ生成を物理法則とより整合性のあるものにします