Karya baharu oleh pengarang ControlNet: Lukisan AI boleh dibahagikan kepada beberapa lapisan! Projek itu memperoleh 660 bintang tanpa menjadi sumber terbuka-AI-php.cn

Karya baharu oleh pengarang ControlNet: Lukisan AI boleh dibahagikan kepada beberapa lapisan! Projek itu memperoleh 660 bintang tanpa menjadi sumber terbuka

WBOY

Lepaskan： 2024-03-01 15:01:26

ke hadapan

480 orang telah melayarinya

"Ia bukanlah satu keratan yang mudah." Lapisan lutsinar (PNG)

Contohnya:

Seorang wanita berambut kusut masai di dalam bilik tidur. Wanita dengan rambut acak-acakan, di dalam bilik tidur.

Anda dapat melihat bahawa AI bukan sahaja menghasilkan imej lengkap yang mematuhi gesaan, malah
latar belakang dan watak boleh dipisahkan
.

Dan jika anda mengezum masuk pada imej PNG watak dan melihat dengan lebih dekat, helaian rambut ditakrifkan dengan jelas. ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Lihat contoh lain:

Membakar kayu api, di atas meja, di luar bandar.

Membakar kayu api, di atas meja, di luar bandar. ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Begitu juga, dengan membesarkan PNG "mancis yang terbakar", malah asap hitam di sekeliling api boleh dipisahkan:

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

pengarang ControlNet Kaedah baharu yang dicadangkan,

LayerDiffusion

, membenarkan model resapan pendam pra-latihan berskala besar untuk menjana imej lutsinar.

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Perlu ditekankan sekali lagi bahawa LayerDiffusion tidak semudah memotong imej, tumpuannya adalah pada generasi

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star Bak kata netizen:

Ini adalah salah satu proses teras dalam penghasilan animasi dan video sekarang. Jika langkah ini boleh dilalui, boleh dikatakan konsistensi SD tidak lagi menjadi masalah. .

Jadi bagaimanakah LayerDiffusion dilaksanakan?

PNG, kini mula mengambil laluan penjanaan

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star Inti LayerDiffusion ialah kaedah yang dipanggil

latent transparency

(latent transparency)

.
Ringkasnya, ia membolehkan menambah ketelusan pada model tanpa memusnahkan pengedaran terpendam model resapan pendam pra-latihan

(seperti Resapan Stabil)

. ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Dari segi pelaksanaan khusus, ia boleh difahami sebagai menambah gangguan kecil yang direka dengan teliti (mengimbangi) pada imej terpendam ini dikodkan sebagai saluran tambahan, yang bersama-sama dengan saluran RGB membentuk imej terpendam yang lengkap.

Untuk mencapai pengekodan dan penyahkodan ketelusan, penulis melatih dua model rangkaian saraf bebas: satu ialah pengekod ketelusan terpendam(pengekod ketelusan terpendam), dan satu lagi ialah penyahkod ketelusan terpendam(penyahkod penyahkod ketelusan).

Pengekod menerima saluran RGB dan saluran alfa imej asal sebagai input, menukar maklumat ketelusan menjadi offset dalam ruang terpendam.

Penyahkod menerima imej terpendam yang dilaraskan dan imej RGB yang dibina semula, dan mengekstrak maklumat ketelusan daripada ruang terpendam untuk membina semula imej lutsinar asal.

Untuk memastikan potensi ketelusan tambahan tidak memusnahkan pengedaran asas model pra-latihan, penulis mencadangkan metrik "tidak berbahaya" (tidak berbahaya).

Metrik ini menilai kesan ketelusan pendam dengan membandingkan hasil penyahkodan imej pendam yang dilaraskan oleh penyahkod model asal yang telah dilatih dengan imej asal.

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Semasa proses latihan, penulis turut menggunakan fungsi joint loss (joint loss function) , yang menggabungkan reconstruction loss (reconstruction loss) , identity loss (identity loss) dan discriminator loss ).

Fungsinya ialah:

Kehilangan pembinaan semula: digunakan untuk memastikan imej yang dinyahkod adalah sama seperti yang mungkin dengan imej asal
Kehilangan identiti: digunakan untuk memastikan imej terpendam yang dilaraskan boleh dinyahkod dengan betul oleh pra- penyahkod terlatih ;
Kehilangan diskriminasi: Ia digunakan untuk meningkatkan realisme imej yang dijana.

Dengan pendekatan ini, mana-mana model resapan terpendam boleh ditukar menjadi penjana imej lutsinar dengan hanya memperhalusinya agar sesuai dengan ruang terpendam yang dilaraskan.

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Konsep ketelusan terpendam juga boleh diperluaskan untuk menjana berbilang lapisan telus, dan digabungkan dengan sistem kawalan bersyarat lain untuk mencapai tugas penjanaan imej yang lebih kompleks, seperti penjanaan keadaan latar depan/latar belakang, penjanaan lapisan bersama, kawalan Struktur lapisan kandungan, dsb. . diringkaskan kepada perkara-perkara berikut.

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star Generasi asli lwn. pasca pemprosesan

LayerDiffusion ialah kaedah penjanaan imej telus asli yang mempertimbangkan dan mengekod maklumat ketelusan secara langsung semasa proses penjanaan. Ini bermakna model itu mencipta saluran alfa ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star sambil menjana imej, sekali gus menghasilkan imej dengan ketelusan.

Kaedah potongan tradisional biasanya melibatkan penjanaan atau mendapatkan imej dahulu, dan kemudian memisahkan latar depan dan latar belakang melalui teknik penyuntingan imej

(seperti kunci kroma, pengesanan tepi, topeng khusus pengguna, dll.)

. Pendekatan ini selalunya memerlukan langkah tambahan untuk mengendalikan ketelusan dan boleh menghasilkan peralihan luar biasa pada latar belakang atau tepi yang kompleks. ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Operasi ruang terpendam lwn. operasi ruang piksel

LayerDiffusion beroperasi dalam ruang terpendam (ruang terpendam), yang merupakan perwakilan perantaraan yang membolehkan model belajar dan menjana ciri imej yang lebih kompleks. Dengan pengekodan ketelusan dalam ruang terpendam, model boleh mengendalikan ketelusan secara semula jadi semasa penjanaan tanpa memerlukan pengiraan kompleks pada tahap piksel.

Teknik guntingan tradisional biasanya dilakukan dalam ruang piksel, yang mungkin melibatkan pengeditan terus imej asal, seperti penggantian warna, pelicinan tepi, dsb. Kaedah ini mungkin mengalami kesukaran mengendalikan kesan lut sinar (seperti api, asap) atau tepi kompleks.

Set Data dan Latihan

LayerDiffusion menggunakan set data berskala besar untuk latihan, yang mengandungi pasangan imej telus, membolehkan model mempelajari pengedaran kompleks yang diperlukan untuk menghasilkan imej lutsinar berkualiti tinggi.

Kaedah tikar tradisional mungkin bergantung pada set data yang lebih kecil atau set latihan khusus, yang mungkin mengehadkan keupayaannya untuk mengendalikan pelbagai senario.

Fleksibiliti dan Kawalan

LayerDiffusion memberikan fleksibiliti dan kawalan yang lebih besar kerana ia membolehkan pengguna membimbing penjanaan imej melalui gesaan teks dan boleh menjana berbilang lapisan, yang Lapisan boleh diadun dan digabungkan untuk mencipta pemandangan yang kompleks.

Kaedah potongan tradisional mungkin lebih terhad dalam kawalan, terutamanya apabila berurusan dengan kandungan imej yang kompleks dan ketelusan. Perbandingan Kualiti mungkin lebih baik.

Kaedah potongan tradisional mungkin tidak mencapai kualiti yang sama dalam sesetengah kes, terutamanya apabila menangani ketelusan dan tepi yang mencabar.

Secara keseluruhannya, LayerDiffusion menyediakan kaedah yang lebih maju dan fleksibel untuk menjana dan memproses imej lutsinar.

Ia mengodkan ketelusan secara langsung semasa proses penjanaan dan mampu menghasilkan hasil berkualiti tinggi yang sukar dicapai dengan kaedah potongan tradisional.

Mengenai pengarang

Seperti yang baru kami sebutkan, salah seorang pengarang kajian ini ialah pencipta ControlNet yang terkenal -

Zhang Lumin

Beliau lulus dari Universiti Suzhou dengan ijazah sarjana muda Beliau menerbitkan kertas kerja yang berkaitan dengan seni lukis AI semasa beliau masih baru, beliau menerbitkan 10 karya peringkat tinggi.

Zhang Lumin sedang belajar untuk PhD di Universiti Stanford, tetapi dia boleh dikatakan sangat rendah diri dan belum mendaftar untuk Google Scholar.

Setakat ini, LayerDiffusion bukan sumber terbuka dalam GitHub, tetapi walaupun begitu ia tidak dapat menghalang perhatian semua orang dan telah pun mendapat 660 bintang.

Lagipun, Zhang Lumin turut dicemuh netizen sebagai "master pengurusan masa".

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

Atas ialah kandungan terperinci Karya baharu oleh pengarang ControlNet: Lukisan AI boleh dibahagikan kepada beberapa lapisan! Projek itu memperoleh 660 bintang tanpa menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!