ControlNet と同じ制御可能な生成を実現するには、トレーニング パラメーターの 10% 未満を使用します。
SDXL や SD1.5 などの Stable Diffusion ファミリの一般的なモデルも適応でき、プラグアンドプレイです。
同時に、SVDを使用してビデオ生成を制御することもでき、動きの詳細を指まで正確に制御できます。
これらの画像とビデオの背後にあるのは、香港の中国人 Jiajiaya チームが立ち上げたオープンソースの画像/ビデオ生成ガイダンス ツールである ControlNeXt です。
名前から、研究開発チームがこれを次世代 ControlNet として位置付けていることがわかります。
偉大なる神、He Kaiming と Xie Saining による古典的な作品 ResNeXt (ResNet の拡張) と同様に、名前もこのメソッドに基づいています。
一部のネチズンは、この名前は当然であり、まさに ControlNet をより高いレベルに引き上げる次世代の製品であると信じています。
また、ControlNeXt は制御可能な生成の効率を大幅に向上させるゲームチェンジャーであると率直に言う人もいて、それを使用して人々が作成する作品を見るのを楽しみにしています。
スパイダーマンが美しく踊ります
ControlNeXt はさまざまな SD シリーズ モデルをサポートしており、プラグアンドプレイです。
画像生成モデル SD1.5、SDXL、SD3 (超解像度をサポート)、およびビデオ生成モデル SVD が含まれます。
特に言うことはありません。結果を見てみましょう。
SDXLでエッジ(キャニー)ガイダンスを加えることで、描かれた二次元の女の子と制御線がほぼぴったりと合っているのがわかります。
制御輪郭が多数で詳細であっても、モデルは要件を満たす絵を描くことができます。
さらに、追加のトレーニングなしで他の LoRA ウェイトとシームレスに統合します。
たとえば、SD1.5 では、さまざまな LoRA で姿勢 (Pose) 制御条件を使用して、異なるスタイル、または次元を超えた同じアクションを持つキャラクターを形成できます。
さらに、ControlNeXt はマスクおよび深度制御モードもサポートしています。
SD3 は、超高解像度画像を生成できる超解像度にも対応しています。
ビデオ生成中、ControlNeXt はキャラクターの動きを制御できます。
例えば、スパイダーマンにTikTokで美しいダンスを踊らせてみると、指の動きまでかなり正確に模倣されています。
椅子に手を生やして同じダンスを踊らせたりもしましたが、ちょっと抽象的ですがアクションの再現がかなり上手です。
そして、元の ControlNet と比較して、ControlNeXt は必要なトレーニング パラメーターが少なく、より速く収束します。
たとえば、SD1.5 と SDXL では、ControlNet はそれぞれ 3 億 6,100 万個と 12 億 5,100 万個の学習可能なパラメータを必要としますが、ControlNeXt はそれぞれ 3,000 万個と 1 億 800 万個しか必要とせず、ControlNet の 10% 未満です。
Semasa proses latihan, ControlNeXt hampir kepada penumpuan pada sekitar 400 langkah, tetapi ControlNet memerlukan sepuluh kali atau bahkan berpuluh-puluh kali bilangan langkah.
Kelajuan penjanaan juga lebih pantas daripada ControlNet Secara purata, ControlNet adalah bersamaan dengan model asas, yang membawa kelewatan 41.9%, tetapi ControlNeXt hanya mempunyai 10.4%.
Jadi, bagaimanakah ControlNeXt dilaksanakan, dan apakah penambahbaikan yang telah dibuat pada ControlNet?
Modul kawalan bersyarat yang lebih ringan
Pertama, gunakan gambar untuk memahami keseluruhan aliran kerja ControlNeXt.
Kunci kepada pemberatan ringan ialah ControlNeXt mengalih keluar cawangan kawalan besar dalam ControlNet dan sebaliknya memperkenalkan modul lilitan ringan yang terdiri daripada sebilangan kecil blok ResNet.
Modul ini bertanggungjawab untuk mengekstrak representasi ciri keadaan kawalan (seperti topeng segmentasi semantik, titik awal utama, dll.).
Jumlah parameter latihan biasanya kurang daripada 10% daripada model pra-latihan dalam ControlNet, tetapi ia masih boleh mempelajari maklumat kawalan bersyarat input dengan baik Reka bentuk ini mengurangkan overhed pengiraan dan penggunaan memori.
Secara khusus, ia membuat sampel pada selang masa yang sama daripada lapisan rangkaian berbeza model pra-latihan untuk membentuk subset parameter yang digunakan untuk latihan, manakala parameter yang selebihnya dibekukan.
Selain itu, semasa mereka bentuk seni bina ControlNeXt, pasukan penyelidik juga mengekalkan ketekalan struktur model dengan seni bina asal, sekali gus mencapai plug-and-play.
Sama ada ControlNet atau ControlNeXt, suntikan maklumat kawalan bersyarat adalah pautan penting.
Semasa proses ini, pasukan penyelidik ControlNeXt menjalankan penyelidikan mendalam tentang dua isu utama - pemilihan lokasi suntikan dan reka bentuk kaedah suntikan.
Pasukan penyelidik memerhatikan bahawa dalam kebanyakan tugas penjanaan terkawal, bentuk maklumat bersyarat untuk membimbing penjanaan adalah agak mudah dan sangat berkorelasi dengan ciri dalam proses denoising.
Jadi pasukan percaya bahawa tidak perlu menyuntik maklumat kawalan ke dalam setiap lapisan rangkaian denoising, jadi mereka memilih untuk mengagregatkan ciri bersyarat dan ciri denoising hanya di lapisan tengah rangkaian.
Kaedah pengagregatan juga semudah mungkin - selepas menjajarkan pengedaran dua set ciri menggunakan penormalan silang, tambahkannya secara terus.
Ini bukan sahaja memastikan isyarat kawalan mempengaruhi proses denoising, tetapi juga mengelakkan pengenalan parameter pembelajaran tambahan dan ketidakstabilan oleh operasi yang kompleks seperti mekanisme perhatian.
Penormalan silang juga merupakan satu lagi teknologi teras ControlNeXt, menggantikan strategi permulaan progresif yang biasa digunakan sebelum ini seperti sifar-konvolusi.
Kaedah tradisional mengurangkan masalah keruntuhan dengan secara beransur-ansur melepaskan pengaruh modul baru dari awal, tetapi hasilnya selalunya adalah penumpuan yang perlahan.
Penormalan silang secara langsung menggunakan min μ dan varians σ bagi rangkaian tulang belakang yang menafikan ciri untuk menormalkan output ciri oleh modul kawalan, supaya pengedaran data kedua-duanya adalah sejajar yang mungkin.
(Nota: ialah pemalar kecil yang ditambah untuk kestabilan berangka, γ ialah parameter penskalaan.)
Ciri kawalan yang dinormalkan kemudiannya dilaraskan dalam amplitud dan garis dasar melalui skala dan parameter mengimbangi, dan kemudian digabungkan dengan Penambahan Ciri denoising bukan sahaja mengelakkan sensitiviti pemulaan parameter, tetapi juga membenarkan keadaan kawalan berkuat kuasa pada peringkat awal latihan untuk mempercepatkan proses penumpuan.
Selain itu, ControlNeXt juga menggunakan modul kawalan untuk mempelajari pemetaan maklumat keadaan kepada ciri ruang terpendam, menjadikannya lebih abstrak dan semantik, dan lebih kondusif untuk generalisasi kepada keadaan kawalan yang tidak kelihatan.
Laman utama projek:
https://pbihao.github.io/projects/controlnext/index.html
Alamat kertas:
https://arxiv.org/abs/2408.06070
Hub:
//github.com/dvlab-research/ControlNeXt以上がスパイダーマンが魅惑的に踊り、次世代の ControlNet が登場! Jiajiaya チームによって開発されたプラグアンドプレイで、ビデオ生成の制御も可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。