Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu-AI-php.cn

Teknologi penjanaan imej daripada satu imej semula jadi digunakan secara meluas dan oleh itu telah mendapat lebih banyak perhatian. Penyelidikan ini bertujuan untuk mempelajari model generatif tanpa syarat daripada imej semula jadi tunggal untuk menjana sampel berbeza dengan kandungan visual yang serupa dengan menangkap statistik dalaman tampalan. Setelah dilatih, model ini bukan sahaja boleh menjana imej bebas resolusi yang berkualiti tinggi, tetapi juga boleh disesuaikan dengan mudah kepada pelbagai aplikasi, seperti penyuntingan imej, penyelarasan imej dan penukaran antara imej.

SingGAN boleh memenuhi keperluan di atas Kaedah ini boleh membina berbilang skala imej semula jadi dan melatih satu siri GAN untuk mempelajari maklumat statistik dalaman tampalan dalam satu imej. Idea teras SingGAN adalah untuk melatih pelbagai model pada skala yang semakin meningkat. Walau bagaimanapun, imej yang dijana oleh kaedah ini boleh menjadi tidak memuaskan kerana ia mengalami ralat terperinci berskala kecil, mengakibatkan artifak yang jelas dalam imej yang dijana (lihat Rajah 2).

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Dalam artikel ini, penyelidik dari Universiti Sains dan Teknologi China, Microsoft Research Asia dan institusi lain mencadangkan satu Rangka Kerja baharu - Resapan Imej Tunggal (SinDiffusion, Resapan Imej Tunggal), untuk belajar daripada satu imej semula jadi, yang berdasarkan Model Kebarangkalian Resapan Denoising (DDPM). Walaupun model resapan adalah proses penjanaan berbilang langkah, ia tidak mempunyai masalah ralat kumulatif. Sebabnya ialah model resapan mempunyai formula matematik yang sistematik, dan ralat dalam langkah perantaraan boleh dianggap sebagai gangguan dan boleh diperbaiki semasa proses resapan.

Satu lagi reka bentuk teras SinDiffusion adalah untuk mengehadkan medan penerimaan model resapan. Kajian ini mengkaji struktur rangkaian yang biasa digunakan dalam model resapan sebelumnya [7] dan mendapati ia mempunyai prestasi yang lebih kukuh dan struktur yang lebih mendalam. Walau bagaimanapun, medan penerimaan struktur rangkaian ini cukup besar untuk meliputi keseluruhan imej, yang menyebabkan model cenderung bergantung pada imej latihan memori untuk menghasilkan imej yang sama persis dengan imej latihan. Untuk menggalakkan model mempelajari statistik tampalan dan bukannya menghafal keseluruhan imej, penyelidikan mereka bentuk struktur rangkaian dengan teliti dan memperkenalkan rangkaian denoising yang bijak. Berbanding dengan struktur resapan sebelumnya, SinDiffusion mengurangkan bilangan pensampelan turun dan bilangan ResBlocks dalam struktur rangkaian penyahnosan asal. Dengan cara ini, SinDiffusion boleh belajar daripada satu imej semula jadi dan menghasilkan imej yang berkualiti tinggi dan pelbagai (lihat Rajah 2).

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Alamat kertas: https://arxiv.org/pdf/2211.12445.pdf
Alamat projek: https://github.com/WeilunWang/SinDiffusion

Kelebihan SinDiffusion ialah ia boleh digunakan secara fleksibel dalam pelbagai senario (lihat Rajah 1). Ia boleh digunakan dalam pelbagai aplikasi tanpa sebarang latihan semula model. Di SingGAN, aplikasi hiliran dilaksanakan terutamanya dengan memasukkan syarat ke dalam GAN pra-latihan pada skala yang berbeza. Oleh itu, penggunaan SingGAN adalah terhad kepada syarat-syarat sejajar ruang yang diberikan. Sebaliknya, SinDiffusion direka untuk digunakan dalam julat aplikasi yang lebih luas melalui prosedur pensampelan. SinDiffusion belajar untuk meramalkan kecerunan pengedaran data melalui latihan tanpa syarat. Dengan mengandaikan terdapat fungsi pemarkahan yang menerangkan korelasi antara imej dan keadaan yang dijana (iaitu, jarak L−p atau rangkaian pralatih seperti CLIP), kajian ini menggunakan kecerunan skor korelasi untuk membimbing proses pensampelan SinDiffusion. Dengan cara ini, SinDiffusion dapat menjana imej yang sesuai dengan kedua-dua pengedaran data dan syarat yang diberikan.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Kajian ini menjalankan eksperimen ke atas pelbagai imej semula jadi untuk menunjukkan kelebihan rangka kerja yang dicadangkan termasuk Landskap dan seni terkenal. Kedua-dua keputusan kuantitatif dan kualitatif mengesahkan bahawa SinDiffusion boleh menghasilkan keputusan yang tinggi dan pelbagai, manakala aplikasi hiliran terus menunjukkan utiliti dan fleksibiliti SinDiffusion.

Kaedah

Berbeza daripada reka bentuk pertumbuhan progresif dalam kajian terdahulu, SinDiffusion menggunakan model denoising tunggal pada skala tunggal untuk latihan, menghalang pengumpulan ralat. Di samping itu, kajian ini mendapati bahawa medan penerimaan peringkat tampalan bagi rangkaian resapan memainkan peranan penting dalam menangkap taburan tampalan dalaman, dan mereka bentuk struktur rangkaian denoising baharu. Berdasarkan dua reka bentuk teras ini, SinDiffusion menjana imej berkualiti tinggi dan pelbagai daripada satu imej semula jadi.

Selebihnya bahagian ini disusun seperti berikut: mula-mula menyemak SinGAN dan menunjukkan motivasi SinDiffusion, dan kemudian memperkenalkan reka bentuk struktur SinDiffusion.

Pertama, ulasan ringkas tentang SiGAN. Rajah 3(a) menunjukkan proses penjanaan SiGAN. Untuk menjana imej yang berbeza daripada satu imej, reka bentuk utama SiNGAN ialah membina piramid imej dan secara beransur-ansur meningkatkan resolusi imej yang dijana.

Rajah 3(b) menunjukkan rangka kerja baharu SinDiffusion. Tidak seperti SingGAN, SinDiffusion melakukan proses penjanaan berbilang langkah menggunakan rangkaian penyahnosan tunggal pada skala tunggal. Walaupun SinDiffusion juga menggunakan proses penjanaan berbilang langkah yang sama seperti SingGAN, hasil yang dihasilkan adalah berkualiti tinggi. Ini kerana model resapan adalah berdasarkan terbitan sistematik persamaan matematik, dan ralat yang dihasilkan oleh langkah perantaraan berulang kali ditapis menjadi hingar semasa proses resapan.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

SinDiffusion

Artikel ini mengkaji Hubungan antara kepelbagaian penjanaan dan medan penerimaan rangkaian denoising - Mengubah suai struktur rangkaian rangkaian denoising boleh menukar medan penerimaan, dan empat struktur rangkaian dengan medan penerimaan berbeza tetapi prestasi setara telah direka untuk melatih model ini pada imej semula jadi tunggal . Rajah 4 menunjukkan keputusan yang dihasilkan oleh model di bawah medan penerimaan yang berbeza. Dapat diperhatikan bahawa semakin kecil medan penerimaan, semakin pelbagai hasil yang dihasilkan yang dihasilkan oleh SinDiffusion dan sebaliknya. Walau bagaimanapun, penyelidikan mendapati bahawa model medan penerimaan yang sangat kecil tidak dapat mengekalkan struktur imej yang munasabah. Oleh itu, medan penerimaan yang sesuai adalah penting dan perlu untuk mendapatkan statistik tampalan yang munasabah.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Penyelidikan ini mereka bentuk semula model resapan yang biasa digunakan dan memperkenalkan tampalan untuk rangkaian Denoising generasi imej tunggal. Rajah 5 ialah gambaran keseluruhan rangkaian denoising secara tampalan dalam SinDiffusion dan menunjukkan perbezaan utama daripada rangkaian denoising sebelumnya. Pertama, kedalaman rangkaian denoising dikurangkan dengan mengurangkan operasi pensampelan bawah dan pensampelan naik, sekali gus meluaskan medan penerimaan. Pada masa yang sama, lapisan perhatian mendalam yang asalnya digunakan dalam rangkaian denoising dikeluarkan secara semula jadi, menjadikan SinDiffusion rangkaian konvolusi sepenuhnya sesuai untuk penjanaan pada sebarang resolusi. Kedua, medan penerimaan SinDiffusion dihadkan lagi dengan mengurangkan sekatan semula masa terbenam dalam setiap resolusi. Kaedah ini digunakan untuk mendapatkan rangkaian denoising yang bijak dengan medan penerimaan yang sesuai, mencapai hasil yang realistik dan pelbagai.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Eksperimen

SinDiffusion Keputusan kualitatif bagi imej yang dijana secara rawak ditunjukkan dalam Rajah 6.

Boleh didapati bahawa pada resolusi berbeza, SinDiffusion boleh menjana imej sebenar dengan corak yang serupa dengan imej latihan.

Selain itu, artikel ini juga mengkaji SinDiffusion untuk menjana imej resolusi tinggi daripada satu imej. Rajah 13 menunjukkan imej latihan dan hasil yang dihasilkan. Imej latihan ialah imej landskap beresolusi 486 × 741 yang mengandungi komponen kaya seperti awan, gunung, rumput, bunga dan tasik. Untuk menampung penjanaan imej resolusi tinggi, SinDiffusion telah dinaik taraf kepada versi yang dipertingkatkan dengan medan penerimaan yang lebih besar dan keupayaan rangkaian. Versi SinDiffusion yang dipertingkatkan menghasilkan imej tatal panjang resolusi tinggi dengan resolusi 486×2048 Kesan yang dijana mengekalkan reka letak dalaman imej latihan tidak berubah dan meringkaskan kandungan baharu, seperti yang ditunjukkan dalam Rajah 13.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Perbandingan dengan kaedah sebelumnya

Jadual 1 menunjukkan perbezaan antara SinDiffusion dan Keputusan kuantitatif yang dihasilkan dibandingkan dengan beberapa kaedah yang mencabar (iaitu, SingGAN, ExSinGAN, ConSinGAN dan GPNN). Berbanding dengan kaedah berasaskan GAN sebelumnya, SinDiffusion mencapai prestasi SOTA selepas penambahbaikan beransur-ansur. Perlu dinyatakan bahawa kaedah penyelidikan dalam artikel ini banyak meningkatkan kepelbagaian imej yang dijana Pada purata 50 model yang dilatih pada set data Places50, kaedah ini melebihi model yang paling mencabar dengan skor kaedah LPIPS +0.082.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Selain keputusan kuantitatif, Rajah 8 juga menunjukkan hasil kualitatif pada dataset Places50.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Rajah 15 menunjukkan hasil penjanaan imej berpandukan teks SinDiffusion dan kaedah sebelumnya.

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Sila lihat kertas asal untuk mendapatkan maklumat lanjut.

Atas ialah kandungan terperinci Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Mempelajari model resapan daripada imej semula jadi tunggal adalah lebih baik daripada GAN, SinDiffusion mencapai SOTA baharu

Kaedah​

Eksperimen

Kaedah