Model resapan memainkan peranan dalam perwakilan warna dalam penjanaan imej, memacu era baharu model generatif. Model besar seperti Stable Diffusion, DALLE, Imagen, dan SORA telah muncul, memperkayakan lagi latar belakang aplikasi AI generatif. Walau bagaimanapun, model resapan semasa tidak sempurna dalam teori, dan beberapa kajian telah memberi perhatian kepada masalah singulariti tidak ditentukan pada titik akhir tempoh persampelan. Di samping itu, purata tahap kelabu yang disebabkan oleh masalah singulariti dalam aplikasi dan masalah lain yang menjejaskan kualiti imej yang dijana belum dapat diselesaikan.
Untuk menyelesaikan masalah ini, pasukan WeChat Vision bekerjasama dengan Universiti Sun Yat-sen untuk bersama-sama meneroka masalah singulariti dalam model penyebaran dan mencadangkan kaedah pasang dan main yang berkesan menyelesaikan masalah pensampelan pada awalnya. seketika. Kaedah ini berjaya menyelesaikan masalah skala kelabu purata dan meningkatkan keupayaan penjanaan model resapan sedia ada dengan ketara. Hasil penyelidikan ini telah diterbitkan pada persidangan CVPR 2024.
Model penyebaran telah mencapai kejayaan ketara dalam tugas penjanaan kandungan berbilang modal, termasuk penjanaan imej, audio, teks dan video. Kejayaan pemodelan model ini kebanyakannya bergantung pada andaian bahawa proses songsang proses resapan juga mematuhi sifat Gaussian. Namun, hipotesis ini belum dapat dibuktikan sepenuhnya. Terutamanya pada titik akhir, iaitu, t=0 atau t=1, masalah singulariti akan berlaku, yang mengehadkan kaedah sedia ada untuk mengkaji persampelan pada singulariti.
Selain itu, masalah singulariti juga akan menjejaskan keupayaan penjanaan model resapan, menyebabkan model tersebut mengalami masalah skala kelabu purata, iaitu sukar untuk menghasilkan imej dengan kecerahan yang kuat atau lemah, seperti yang ditunjukkan dalam rajah di bawah. Ini juga mengehadkan skop aplikasi model penyebaran semasa pada tahap tertentu.
Untuk menyelesaikan masalah singulariti model penyebaran pada titik akhir masa, pasukan visi WeChat bekerjasama dengan Universiti Sun Yat-sen untuk menjalankan penyelidikan mendalam dari kedua-dua aspek teori dan praktikal. Pertama, pasukan mencadangkan sempadan atas ralat yang mengandungi anggaran taburan Gaussian bagi proses songsang pada momen singulariti, yang menyediakan asas teori untuk penyelidikan seterusnya. Berdasarkan jaminan teori ini, pasukan mengkaji pensampelan pada titik tunggal dan mencapai dua kesimpulan penting: 1) Titik tunggal pada t=1 boleh diubah menjadi titik tunggal boleh tanggal dengan mencari had, 2) Ketunggalan pada t=0 adalah sifat yang wujud dalam model resapan dan tidak perlu dielakkan. Berdasarkan kesimpulan ini, pasukan mencadangkan kaedah plug-and-play: SingDiffusion, untuk menyelesaikan masalah pensampelan model resapan pada saat awal.
Telah dibuktikan melalui sejumlah besar eksperimen bahawa modul SingDiffusion boleh digunakan dengan lancar pada model resapan sedia ada dengan hanya satu latihan, dengan ketara menyelesaikan masalah nilai kelabu purata. Tanpa menggunakan teknologi bimbingan tanpa pengelas, SingDiffusion boleh meningkatkan kualiti penjanaan kaedah semasa dengan ketara Terutamanya selepas digunakan pada Stable Diffusion 1.5 (SD-1.5), kualiti imej yang dihasilkannya dipertingkatkan sebanyak 33%.
Alamat kertas: https://arxiv.org/pdf/2403.08381.pdf
Alamat projek: https://pangzecheung.github.io/SingDiffusion:TajukDiffusion/
Kesingularan pada Titik Akhir Selang Masa dalam Model ResapanSifat Gaussian bagi proses songsang
sebagai sampel latihan model resapan Taburan sampel latihan boleh dinyatakan sebagai:
di mana δ mewakili fungsi Dirac. Mengikut takrifan model resapan masa berterusan dalam [1], untuk sebarang dua saat 0≤s,t≤1, proses ke hadapan boleh dinyatakan sebagai:
di mana , , , berubah secara monoton daripada 1 kepada 0 dari semasa ke semasa. Memandangkan taburan sampel latihan yang baru ditakrifkan, ketumpatan kebarangkalian marginal momen tunggal bagi boleh dinyatakan sebagai:
Daripada ini, taburan bersyarat bagi proses songsang boleh dikira melalui formula Bayesian:
Namun, pengedaran yang diperolehi adalah pengedaran Gaussian campuran, yang sukar untuk dimuatkan dengan rangkaian. Oleh itu, model resapan arus perdana biasanya mengandaikan bahawa taburan ini boleh dimuatkan oleh satu taburan Gaussian:
di mana, Untuk mengesahkan andaian ini, kajian ini menganggarkan ini dipasang dalam ralat Proposisi 1.
Walau bagaimanapun, kajian mendapati apabila t=1, apabila s menghampiri 1, juga akan menghampiri 1, dan ralat itu tidak boleh diabaikan. Oleh itu, Proposisi 1 tidak membuktikan sifat Gaussian songsang pada t=1. Untuk menyelesaikan masalah ini, penyelidikan ini memberikan cadangan baharu:
Mengikut Proposisi 2, apabila t=1, apabila s menghampiri 1, akan menghampiri 0. Oleh itu, kajian ini membuktikan bahawa keseluruhan proses songsang termasuk momen singulariti menepati ciri Gaussian.
Dengan jaminan ciri-ciri Gaussian bagi proses songsang, kajian ini menjalankan penyelidikan terhadap persampelan pada saat singulariti berdasarkan formula persampelan songsang.
Pertimbangkan dahulu masalah singulariti pada masa t=1. Apabila t=1, =0, formula pensampelan berikut akan mempunyai penyebut dibahagikan dengan 0:
Pasukan penyelidik mendapati bahawa dengan mengira had, titik tunggal ini boleh diubah menjadi titik tunggal boleh tanggal:
Walau bagaimanapun, had ini tidak boleh dikira semasa ujian. Untuk tujuan ini, kajian ini mencadangkan bahawa kita boleh muatkan pada masa t=1 dan menggunakan "ramalan-x" untuk menyelesaikan masalah pensampelan pada titik tunggal awal.
Kemudian pertimbangkan masa t=0, proses songsang pemasangan taburan Gaussian akan menjadi taburan Gaussian dengan varians 0, iaitu fungsi Dirac:
di mana . Singulariti sedemikian akan menyebabkan proses pensampelan menumpu kepada data yang betul. Oleh itu, ketunggalan pada t=0 adalah sifat yang baik bagi model resapan dan tidak perlu dielakkan.
Selain itu, kajian juga meneroka masalah singulariti dalam DDIM, SDE, ODE dalam lampiran.
Pensampelan pada titik tunggal akan menjejaskan kualiti imej yang dijana oleh model resapan. Contohnya, apabila memasukkan isyarat kecerahan tinggi atau rendah, kaedah sedia ada selalunya hanya boleh menjana imej dengan skala kelabu purata, yang dipanggil masalah skala kelabu purata. Masalah ini berpunca daripada fakta bahawa kaedah sedia ada mengabaikan pensampelan pada titik tunggal pada t=0, dan sebaliknya menggunakan taburan Gaussian standard sebagai taburan awal untuk pensampelan pada masa 1-ϵ. Walau bagaimanapun, seperti yang ditunjukkan dalam rajah di atas, terdapat jurang yang besar antara taburan Gaussian standard dan taburan data sebenar pada masa 1-ϵ.
Di bawah jurang sedemikian, menurut Proposisi 3, kaedah sedia ada adalah bersamaan dengan menjana imej dengan nilai min 0 pada t=1, iaitu imej skala kelabu purata. Oleh itu, kaedah sedia ada sukar untuk menghasilkan imej dengan kecerahan yang sangat kuat atau lemah. Untuk menyelesaikan masalah ini, kajian ini mencadangkan kaedah SingDiffusion plug-and-play untuk merapatkan jurang ini dengan menyesuaikan penukaran antara taburan Gaussian standard dan taburan data sebenar. Algoritma
SingDiffuion ditunjukkan dalam rajah di bawah:
Mengikut kesimpulan bahagian sebelumnya, kajian ini menggunakan kaedah "x - ramalan" pada masa t=1 untuk menyelesaikan pensampelan masalah pada titik tunggal. Untuk pasangan data teks imej , kaedah ini melatih Unet agar muat . Fungsi kehilangan dinyatakan sebagai:
Selepas model telah menumpu, anda boleh mengikuti formula pensampelan DDIM di bawah dan menggunakan modul yang baru diperolehi sampling.
Formula pensampelan DDIM memastikan bahawa yang dihasilkan mematuhi pengedaran data pada 1-ε saat , sekali gus menyelesaikan masalah skala kelabu purata. Selepas langkah ini, model pralatihan boleh digunakan untuk melaksanakan langkah persampelan seterusnya sehingga dijana. Perlu diingat bahawa memandangkan kaedah ini hanya mengambil bahagian dalam langkah pertama persampelan dan tiada kaitan dengan proses persampelan seterusnya, SingDiffusion boleh digunakan untuk kebanyakan model resapan sedia ada. Di samping itu, untuk mengelakkan masalah limpahan data yang disebabkan oleh tiada operasi panduan pengelas, kaedah ini juga menggunakan operasi normalisasi berikut:
di mana panduan mewakili keputusan selepas tiada operasi panduan pengelas, dan neg mewakili gesaan negatif. output di bawah , pos mewakili output di bawah gesaan positif, dan ω mewakili keamatan panduan.
Pertama, kajian ini mengesahkan keupayaan SingDiffusion untuk menyelesaikan masalah skala kelabu purata pada tiga model: SD-1.5, SD-2.0-asa dan SD-2.0. Kajian ini memilih empat gesaan melampau, termasuk "latar belakang putih/hitam tulen" dan "logo seni garis monokrom pada latar belakang putih/hitam", sebagai syarat untuk penjanaan dan mengira purata nilai skala kelabu bagi imej yang dijana, seperti yang ditunjukkan dalam jadual di bawah Ditunjukkan:
Seperti yang dapat dilihat daripada jadual, penyelidikan ini dapat menyelesaikan masalah nilai kelabu purata dengan ketara dan menjana imej yang sepadan dengan kecerahan penerangan teks input. Di samping itu, kajian itu juga menggambarkan hasil penjanaan di bawah empat pernyataan segera ini, seperti yang ditunjukkan dalam rajah di bawah:
Seperti yang dapat dilihat daripada rajah, selepas menambah kaedah ini, model penyebaran sedia ada boleh menjana separa Imej hitam atau putih.
Untuk mengkaji lebih lanjut peningkatan kualiti imej yang dicapai melalui kaedah ini, kajian itu memilih 30,000 penerangan untuk ujian pada dataset COCO. Pertama sekali, kajian ini menunjukkan keupayaan generatif model itu sendiri tanpa menggunakan panduan pengelas, seperti yang ditunjukkan dalam jadual berikut:
Seperti yang dapat dilihat dari jadual, kaedah yang dicadangkan dapat mengurangkan kos dengan ketara. menjana imej FID, dan menambah baik penunjuk CLIP. Perlu diingat bahawa dalam model SD-1.5, kaedah dalam kertas ini mengurangkan indeks FID sebanyak 33% berbanding model asal.
Selanjutnya, untuk mengesahkan keupayaan penjanaan kaedah yang dicadangkan tanpa bimbingan pengelas, kajian juga menunjukkan dalam rajah di bawah bahawa di bawah saiz bimbingan yang berbeza ω∈[1.5,2,3,4,5,6,7 ,8] Keluk Pareto CLIP vs. FID:
Seperti yang dapat dilihat dari rajah, pada tahap CLIP yang sama, kaedah yang dicadangkan boleh memperoleh nilai FID yang lebih rendah dan menghasilkan imej yang lebih realistik.
Selain itu, kajian ini juga menunjukkan keupayaan generalisasi kaedah yang dicadangkan di bawah model pra-latihan CIVITAI yang berbeza, seperti yang ditunjukkan dalam rajah di bawah:
Dapat dilihat bahawa kaedah yang dicadangkan dalam kajian ini hanya memerlukan satu latihan dan boleh digunakan dengan mudah pada model resapan sedia ada untuk menyelesaikan masalah skala kelabu purata.
Akhir sekali, kaedah yang dicadangkan oleh penyelidikan ini juga boleh digunakan dengan lancar pada model ControlNet yang telah terlatih, seperti yang ditunjukkan dalam rajah di bawah:
Seperti yang dapat dilihat daripada keputusan, kaedah ini boleh menyelesaikan masalah skala kelabu purata ControlNet dengan berkesan.
Atas ialah kandungan terperinci Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!