ICLR 2024 Spotlight |-AI-php.cn

Pengarang |. Pengfei Zheng

Unit |USTC, HKBU TMLR Group

Dalam beberapa tahun kebelakangan ini, perkembangan pesat AI generatif telah menyuntik kuasa yang menarik perhatian ke dalam bidang yang menarik perhatian. dan penjanaan video. Teras teknik ini terletak pada aplikasi model resapan. Model resapan mula-mula menukar secara beransur-ansur gambar kepada hingar Gaussian dengan mentakrifkan proses ke hadapan yang menambah hingar secara berterusan, dan kemudian secara beransur-ansur menyahbunyi hingar Gaussian melalui proses terbalik dan mengubahnya menjadi gambar yang jelas untuk mendapatkan sampel sebenar. Model pembezaan biasa resapan digunakan untuk menginterpolasi nilai imej yang dijana, yang mempunyai potensi aplikasi yang hebat dalam menjana video dan beberapa kreatif pengiklanan. Walau bagaimanapun, kami mendapati bahawa apabila kaedah ini digunakan pada imej semula jadi, kesan imej interpolasi selalunya tidak memuaskan.

Secara amnya, model resapan mengambil sampel hingar Gaussian dan kemudiannya secara beransur-ansur menolaknya untuk menjana imej berkualiti tinggi. Kualiti imej interpolasi yang rendah bermakna pembolehubah asasnya tidak lagi mengikut taburan Gaussian yang kami jangkakan. Untuk meningkatkan kualiti imej yang diinterpolasi, kita perlu memastikan bahawa pembolehubah asas diambil dengan lebih dekat daripada taburan Gaussian. Menskala dan mengimbangi pembolehubah pendam secara langsung akan merosakkan imej yang terhasil dengan teruk, dan untuk mengekalkan maklumat imej asal, kami tidak boleh mengubah suai pembolehubah pendam terlalu banyak. Oleh itu, ia menjadi masalah yang sukar untuk meningkatkan kualiti imej interpolasi tanpa memusnahkan pembolehubah asas sebanyak mungkin.

Kami mula-mula menukar tahap hingar pembolehubah pendam untuk menganalisis jenis pembolehubah pendam yang boleh dipulihkan kepada gambar berkualiti tinggi oleh model resapan, dan menggabungkan kaedah SDEdit untuk memperkenalkan hingar Gaussian untuk meningkatkan kualiti gambar yang diinterpolasi. Pengenalan bunyi Gaussian akan membawa maklumat tambahan. Tambahan pula, kami menganalisis potensi ortogonal dalam ruang dimensi tinggi, yang menyediakan asas untuk pendekatan kami. Kami menggabungkan kaedah interpolasi linear sfera dan kaedah memperkenalkan bunyi secara langsung untuk mencadangkan kaedah interpolasi baharu: mengekang nilai ekstrem yang berpotensi, menggabungkannya dengan hingar Gaussian yang kecil untuk menjadikannya lebih dekat dengan pengedaran yang dijangkakan, dan memperkenalkan gambar asal untuk mengurangkan Maklumat masalah kerugian. Menggunakan kaedah interpolasi ini, kami boleh meningkatkan hasil interpolasi imej semula jadi dengan ketara sambil mengekalkan maklumat imej asal.

Seterusnya, saya akan berkongsi secara ringkas hasil penyelidikan kami dengan anda. .

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量 Pautan kod:

//m.sbmmt.com/link/fc9e5c39356354a60d33ca59499913ca

Pengenalan

Rajah 1: Aplikasi imej garisan sfera yang paling biasa digunakan kaedah interpolasi ialah sfera Linear kaedah interpolasi [1,2]:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Kami menggunakan kaedah ini pada gambar semula jadi. Ia boleh diperhatikan daripada Rajah 2 bahawa apabila menggunakan kaedah interpolasi linear sfera pada gambar semula jadi, kesan interpolasi menurun dengan ketara.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量 Rajah 2: Perbandingan kesan interpolasi antara gambar semula jadi dan gambar yang dijanakan gambar yang dihasilkan. Adalah diperhatikan bahawa hanya apabila tahap hingar Gaussian sepadan dengan tahap denoising (imej tengah), imej berkualiti tinggi diperolehi. Jika tahap hingar lebih rendah daripada tahap denosing (imej kanan), atau lebih tinggi daripada tahap denosing (imej kiri), kualiti imej yang dihasilkan akan berkurangan. Kami menggunakan Teorem 1 untuk menerangkan fenomena ini:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Teorem 1 menerangkan ciri taburan bunyi Gaussian standard dalam ruang dimensi tinggi: ia tertumpu terutamanya pada hipersfera. Di bahagian dalam hipersfera ini, walaupun ketumpatan kebarangkalian mata adalah agak tinggi, sumbangan keseluruhannya tidak ketara disebabkan oleh isipadu kecil yang didudukinya manakala di luar hipersfera, walaupun isipadu mata adalah lebih besar, disebabkan oleh kebarangkalian Ketumpatan mereput dengan cepat mengikut jarak, jadi sumbangan dari titik luar juga boleh diabaikan. Oleh itu, apabila melatih model resapan, pembolehubah terpendam yang kita perhatikan terutamanya tertumpu pada hipersfera, dan pembolehubah terpendam di dalam dan di luar hipersfera sukar untuk didenoise dengan berkesan atas sebab-sebab ini. . Khususnya, pembolehubah terpendam imej ini mungkin mengandungi hingar Gaussian di atas atau di bawah julat keupayaan denoising model. Walau bagaimanapun, keupayaan model resapan adalah terhad terutamanya untuk memulihkan bunyi Gaussian pada hipersfera yang diterangkan dalam Teorem 1. Untuk hingar di luar julat ini, model selalunya tidak dapat mengendalikannya dengan berkesan. Oleh itu, apabila melakukan interpolasi imej, imej interpolasi berkualiti rendah sering dihasilkan.

Memperkenalkan hingar ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 5: Secara langsung memperkenalkan interpolasi hingar

Untuk meningkatkan kualiti gambar dan menjadikan pembolehubah terpendam lebih dekat dengan hipersfera, kami menggunakan kaedah yang digabungkan dengan SDEdit[3]. Khususnya, kami terus menambah hingar Gaussian standard pada imej, kemudian melakukan interpolasi, dan akhirnya melakukan denoising. Ia boleh dilihat dengan jelas daripada Rajah 5 bahawa kaedah ini meningkatkan kualiti imej interpolasi dengan ketara. Walau bagaimanapun, perlu diingat bahawa pendekatan ini juga memperkenalkan beberapa maklumat tambahan seperti yang ditunjukkan dalam rajah.

Kaedah ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 6: Reka bentuk keseluruhan NoiseDiffusion

Untuk meningkatkan kualiti gambar dan mengurangkan kehilangan maklumat sebanyak mungkin, kami secara inovatif menggabungkan kaedah interpolasi linear sfera dengan kaedah interpolasi, yang secara langsung cadangkan kaedah NoiseDiffusion baharu. Seperti yang ditunjukkan dalam Rajah 6, reka bentuk keseluruhan NoiseDiffusion bukan sahaja mempertimbangkan pengekalan maklumat semasa proses interpolasi, tetapi juga meningkatkan kualiti gambar dengan memperkenalkan hingar, mencapai keseimbangan yang berkesan antara kedua-duanya. Seterusnya, kami akan menghuraikan idea reka bentuk NoiseDiffusion.

Reka Bentuk 1: ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 7: Mengekang nilai ekstrem pembolehubah pendam

Menurut statistik, komponen hingar di luar julat tertentu boleh dianggap sebagai outlier. Digabungkan dengan Rajah 3, kami mendapati bahawa hingar Gaussian yang lebih tinggi daripada tahap denoising akan menghasilkan hingar yang jelas, yang hampir sama dengan tompok warna yang tidak normal pada hasil interpolasi gambar semula jadi Oleh itu, kami mempunyai sebab untuk mempercayai bahawa ia disebabkan oleh nilai melampau pembolehubah terpendam Penghasilan tompok warna yang tidak normal ini. Berdasarkan analisis ini, kami mengenakan kekangan pada nilai ekstrem pembolehubah terpendam untuk mengawal kesan bunyi yang tidak normal ini. Seperti yang dapat dilihat dari Rajah 7, dengan mengekang nilai ekstrem pembolehubah terpendam, kami telah meningkatkan kualiti imej dengan banyak.

Reka Bentuk 2: ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 8: Memperkenalkan maklumat imej asal

Apabila mengenakan kekangan pada pembolehubah pendam, kami mungkin secara tidak sengaja menjejaskan beberapa komponen biasa, mengakibatkan kehilangan maklumat. Untuk mengimbangi potensi kehilangan maklumat ini, kami memperkenalkan maklumat imej asal sebagai tambahan. Seperti yang ditunjukkan dalam Rajah 8, selepas memperkenalkan maklumat imej asal, kualiti imej interpolasi telah dipertingkatkan dengan ketara. Ini menunjukkan bahawa maklumat imej asal memainkan peranan penting dalam mengimbangi kehilangan maklumat. Dengan menggabungkan kekangan pembolehubah terpendam dan tambahan maklumat imej asal, kami boleh mengurangkan kehilangan maklumat sambil memastikan kualiti imej, dan mencapai kesan interpolasi yang lebih tepat dan semula jadi.

Reka bentuk 3: ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Interpolasi linear sfera ialah kaedah interpolasi yang bergantung pada pengiraan sudut antara dua pembolehubah pendam. Walau bagaimanapun, dalam aplikasi praktikal, kami melihat bahawa pembolehubah terpendam ini sering menunjukkan keadaan hampir ortogon. Untuk menjelaskan fenomena ini, kami memperkenalkan Teorem 2 sebagai sokongan teori.

Rajah 9: Memperkenalkan hingar Gaussian dengan saiz yang berbeza

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 10: Digabungkan dengan Reka Bentuk 1 untuk mengurangkan jumlah hingar Gaussian yang diperkenalkan

Seperti yang dapat dilihat dari Rajah 9, apabila kami meningkatkan jumlah Gaussian secara beransur-ansur , gambar interpolasi Kualiti telah dipertingkatkan dengan ketara. Walau bagaimanapun, peningkatan ini tidak datang tanpa kos, kerana jumlah bunyi meningkat, begitu juga pengenalan maklumat tambahan. Dalam proses interpolasi sebenar, untuk meminimumkan pengenalan maklumat tambahan sambil memenuhi keperluan kualiti, kami menggabungkan strategi yang dinyatakan sebelum ini untuk mengurangkan secara berkesan jumlah hingar Gaussian yang perlu diperkenalkan (Rajah 10), dengan itu mengekalkan Maklumat tentang imej asal.

Eksperimen

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 11: Perbandingan dengan kaedah interpolasi linear sfera

Kami membandingkan keputusan kaedah yang dicadangkan dengan kaedah interpolasi linear sfera (seperti yang ditunjukkan dalam Rajah 11). Berdasarkan keputusan interpolasi, kaedah kami meningkatkan kualiti imej interpolasi dengan ketara sambil hampir tidak kehilangan maklumat. Ini menunjukkan sepenuhnya prestasi unggul kaedah kami dalam mengekalkan integriti maklumat dan meningkatkan kualiti imej.

Kami juga menjalankan eksperimen pada Resapan Stabil [4]. Oleh kerana ruang terpendam Resapan Stabil yang sangat tidak berstruktur, sukar untuk mendapatkan interpolasi yang lancar (Rajah 12). Oleh itu, kami mempertimbangkan interpolasi () pada langkah masa yang lebih kecil, yang boleh mengekalkan lebih banyak ciri imej asal dan menjadikan hasil interpolasi lebih lancar, tetapi ia mengakibatkan pengurangan kualiti imej (Rajah 13). Untuk menyelesaikan masalah ini, kami menggunakan kaedah NoiseDiffusion kami untuk membetulkan pembolehubah terpendam (Rajah 14). Ia boleh dilihat daripada keputusan eksperimen bahawa kaedah kami meningkatkan kualiti imej dengan ketara sambil menukar kurang maklumat.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 12: Menggunakan interpolasi linear sfera apabila

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

Rajah 13: Menggunakan interpolasi linear sfera apabila

menggunakan gabungan Nombor

Rujukan

[1 ] Lagu Yang, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, dan Ben Poole berdasarkan pemodelan generatif melalui persamaan pembezaan stokastik dalam ICLR, 2021.

[2] Jiaming Song, Chenlin Meng dan Stefano Ermon model tersirat penyebaran. Dalam ICLR, 2021.

[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu dan Stefano Ermon.

Sdedit: Sintesis imej terpandu dan penyuntingan dengan pembezaan stokastik persamaan. Dalam ICLR, 2022.

[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser dan Bjorn Ommer sintesis imej beresolusi tinggi dengan penyebaran model terpendam, 2022.

[5 ] Weihao. Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, dan Ming-Hsuan Yang Gan

inversi: Tinjauan IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.

Pengenalan kepada kumpulan penyelidikan

. Kumpulan Penyelidikan Pembelajaran Mesin dan Penaakulan yang Boleh Dipercayai (Kumpulan TMLR) Hong Kong Baptist University terdiri daripada beberapa profesor muda, penyelidik pasca doktoral, pelajar kedoktoran, pelajar kedoktoran pelawat dan pembantu penyelidik Kumpulan penyelidikan itu bergabung dengan Jabatan Sains Komputer , Fakulti Sains. Kumpulan penyelidikan pakar dalam pembelajaran perwakilan boleh dipercayai, pembelajaran boleh dipercayai berdasarkan penaakulan sebab, model asas yang boleh dipercayai dan algoritma lain yang berkaitan, teori dan reka bentuk sistem, serta aplikasi dalam sains semula jadi Arah penyelidikan khusus dan hasil yang berkaitan boleh didapati pada kumpulan Github (https://github.com/tmlr-group). Pasukan penyelidikan dibiayai oleh dana penyelidikan kerajaan dan dana penyelidikan industri, seperti Hong Kong Research Grants Council Outstanding Young Scholars Program, National Natural Science Foundation of China projek am dan projek belia, serta dana penyelidikan saintifik daripada Microsoft, NVIDIA, Baidu, Alibaba, Tencent dan syarikat lain. Profesor muda dan penyelidik kanan bekerjasama, dan sumber pengkomputeran GPU adalah mencukupi. Ia mempunyai pengambilan jangka panjang ramai penyelidik pasca doktoral, pelajar kedoktoran, pembantu penyelidik dan pelatih penyelidikan. Di samping itu, kumpulan itu juga mengalu-alukan permohonan daripada felo pasca doktoral lawatan yang dibiayai sendiri, pelajar kedoktoran dan pembantu penyelidik untuk sekurang-kurangnya 3-6 bulan, dan akses jauh disokong. Pelajar yang berminat sila hantar resume dan pelan penyelidikan awal anda ke alamat e-mel (bhanml@comp.hkbu.edu.hk). 🎜

Atas ialah kandungan terperinci ICLR 2024 Spotlight |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!