Pengarang |. Pengfei Zheng
Unit |USTC, HKBU TMLR Group
Dalam beberapa tahun kebelakangan ini, perkembangan pesat AI generatif telah menyuntik kuasa yang menarik perhatian ke dalam bidang yang menarik perhatian. dan penjanaan video. Teras teknik ini terletak pada aplikasi model resapan. Model resapan mula-mula menukar secara beransur-ansur gambar kepada hingar Gaussian dengan mentakrifkan proses ke hadapan yang menambah hingar secara berterusan, dan kemudian secara beransur-ansur menyahbunyi hingar Gaussian melalui proses terbalik dan mengubahnya menjadi gambar yang jelas untuk mendapatkan sampel sebenar. Model pembezaan biasa resapan digunakan untuk menginterpolasi nilai imej yang dijana, yang mempunyai potensi aplikasi yang hebat dalam menjana video dan beberapa kreatif pengiklanan. Walau bagaimanapun, kami mendapati bahawa apabila kaedah ini digunakan pada imej semula jadi, kesan imej interpolasi selalunya tidak memuaskan.
Secara amnya, model resapan mengambil sampel hingar Gaussian dan kemudiannya secara beransur-ansur menolaknya untuk menjana imej berkualiti tinggi. Kualiti imej interpolasi yang rendah bermakna pembolehubah asasnya tidak lagi mengikut taburan Gaussian yang kami jangkakan. Untuk meningkatkan kualiti imej yang diinterpolasi, kita perlu memastikan bahawa pembolehubah asas diambil dengan lebih dekat daripada taburan Gaussian. Menskala dan mengimbangi pembolehubah pendam secara langsung akan merosakkan imej yang terhasil dengan teruk, dan untuk mengekalkan maklumat imej asal, kami tidak boleh mengubah suai pembolehubah pendam terlalu banyak. Oleh itu, ia menjadi masalah yang sukar untuk meningkatkan kualiti imej interpolasi tanpa memusnahkan pembolehubah asas sebanyak mungkin.
Kami mula-mula menukar tahap hingar pembolehubah pendam untuk menganalisis jenis pembolehubah pendam yang boleh dipulihkan kepada gambar berkualiti tinggi oleh model resapan, dan menggabungkan kaedah SDEdit untuk memperkenalkan hingar Gaussian untuk meningkatkan kualiti gambar yang diinterpolasi. Pengenalan bunyi Gaussian akan membawa maklumat tambahan. Tambahan pula, kami menganalisis potensi ortogonal dalam ruang dimensi tinggi, yang menyediakan asas untuk pendekatan kami. Kami menggabungkan kaedah interpolasi linear sfera dan kaedah memperkenalkan bunyi secara langsung untuk mencadangkan kaedah interpolasi baharu: mengekang nilai ekstrem yang berpotensi, menggabungkannya dengan hingar Gaussian yang kecil untuk menjadikannya lebih dekat dengan pengedaran yang dijangkakan, dan memperkenalkan gambar asal untuk mengurangkan Maklumat masalah kerugian. Menggunakan kaedah interpolasi ini, kami boleh meningkatkan hasil interpolasi imej semula jadi dengan ketara sambil mengekalkan maklumat imej asal.
Seterusnya, saya akan berkongsi secara ringkas hasil penyelidikan kami dengan anda. .
Pautan kod:
//m.sbmmt.com/link/fc9e5c39356354a60d33ca59499913ca
Kami menggunakan kaedah ini pada gambar semula jadi. Ia boleh diperhatikan daripada Rajah 2 bahawa apabila menggunakan kaedah interpolasi linear sfera pada gambar semula jadi, kesan interpolasi menurun dengan ketara.
Rajah 2: Perbandingan kesan interpolasi antara gambar semula jadi dan gambar yang dijanakan gambar yang dihasilkan. Adalah diperhatikan bahawa hanya apabila tahap hingar Gaussian sepadan dengan tahap denoising (imej tengah), imej berkualiti tinggi diperolehi. Jika tahap hingar lebih rendah daripada tahap denosing (imej kanan), atau lebih tinggi daripada tahap denosing (imej kiri), kualiti imej yang dihasilkan akan berkurangan. Kami menggunakan Teorem 1 untuk menerangkan fenomena ini:
Teorem 1 menerangkan ciri taburan bunyi Gaussian standard dalam ruang dimensi tinggi: ia tertumpu terutamanya pada hipersfera. Di bahagian dalam hipersfera ini, walaupun ketumpatan kebarangkalian mata adalah agak tinggi, sumbangan keseluruhannya tidak ketara disebabkan oleh isipadu kecil yang didudukinya manakala di luar hipersfera, walaupun isipadu mata adalah lebih besar, disebabkan oleh kebarangkalian Ketumpatan mereput dengan cepat mengikut jarak, jadi sumbangan dari titik luar juga boleh diabaikan. Oleh itu, apabila melatih model resapan, pembolehubah terpendam yang kita perhatikan terutamanya tertumpu pada hipersfera, dan pembolehubah terpendam di dalam dan di luar hipersfera sukar untuk didenoise dengan berkesan atas sebab-sebab ini. . Khususnya, pembolehubah terpendam imej ini mungkin mengandungi hingar Gaussian di atas atau di bawah julat keupayaan denoising model. Walau bagaimanapun, keupayaan model resapan adalah terhad terutamanya untuk memulihkan bunyi Gaussian pada hipersfera yang diterangkan dalam Teorem 1. Untuk hingar di luar julat ini, model selalunya tidak dapat mengendalikannya dengan berkesan. Oleh itu, apabila melakukan interpolasi imej, imej interpolasi berkualiti rendah sering dihasilkan.
Memperkenalkan hingar
Rajah 5: Secara langsung memperkenalkan interpolasi hingar
Kaedah
Rajah 6: Reka bentuk keseluruhan NoiseDiffusion
Reka Bentuk 1:
Rajah 7: Mengekang nilai ekstrem pembolehubah pendam
Reka Bentuk 2:
Rajah 8: Memperkenalkan maklumat imej asal
Reka bentuk 3:
Interpolasi linear sfera ialah kaedah interpolasi yang bergantung pada pengiraan sudut antara dua pembolehubah pendam. Walau bagaimanapun, dalam aplikasi praktikal, kami melihat bahawa pembolehubah terpendam ini sering menunjukkan keadaan hampir ortogon. Untuk menjelaskan fenomena ini, kami memperkenalkan Teorem 2 sebagai sokongan teori.Rajah 9: Memperkenalkan hingar Gaussian dengan saiz yang berbeza
Rajah 10: Digabungkan dengan Reka Bentuk 1 untuk mengurangkan jumlah hingar Gaussian yang diperkenalkan
Seperti yang dapat dilihat dari Rajah 9, apabila kami meningkatkan jumlah Gaussian secara beransur-ansur , gambar interpolasi Kualiti telah dipertingkatkan dengan ketara. Walau bagaimanapun, peningkatan ini tidak datang tanpa kos, kerana jumlah bunyi meningkat, begitu juga pengenalan maklumat tambahan. Dalam proses interpolasi sebenar, untuk meminimumkan pengenalan maklumat tambahan sambil memenuhi keperluan kualiti, kami menggabungkan strategi yang dinyatakan sebelum ini untuk mengurangkan secara berkesan jumlah hingar Gaussian yang perlu diperkenalkan (Rajah 10), dengan itu mengekalkan Maklumat tentang imej asal.
Rujukan
[1 ] Lagu Yang, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, dan Ben Poole berdasarkan pemodelan generatif melalui persamaan pembezaan stokastik dalam ICLR, 2021.
[2] Jiaming Song, Chenlin Meng dan Stefano Ermon model tersirat penyebaran. Dalam ICLR, 2021.
[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu dan Stefano Ermon.
Sdedit: Sintesis imej terpandu dan penyuntingan dengan pembezaan stokastik persamaan. Dalam ICLR, 2022.
[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser dan Bjorn Ommer sintesis imej beresolusi tinggi dengan penyebaran model terpendam, 2022.
[5 ] Weihao. Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, dan Ming-Hsuan Yang Gan
inversi: Tinjauan IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.
Pengenalan kepada kumpulan penyelidikan. Kumpulan Penyelidikan Pembelajaran Mesin dan Penaakulan yang Boleh Dipercayai (Kumpulan TMLR) Hong Kong Baptist University terdiri daripada beberapa profesor muda, penyelidik pasca doktoral, pelajar kedoktoran, pelajar kedoktoran pelawat dan pembantu penyelidik Kumpulan penyelidikan itu bergabung dengan Jabatan Sains Komputer , Fakulti Sains. Kumpulan penyelidikan pakar dalam pembelajaran perwakilan boleh dipercayai, pembelajaran boleh dipercayai berdasarkan penaakulan sebab, model asas yang boleh dipercayai dan algoritma lain yang berkaitan, teori dan reka bentuk sistem, serta aplikasi dalam sains semula jadi Arah penyelidikan khusus dan hasil yang berkaitan boleh didapati pada kumpulan Github (https://github.com/tmlr-group). Pasukan penyelidikan dibiayai oleh dana penyelidikan kerajaan dan dana penyelidikan industri, seperti Hong Kong Research Grants Council Outstanding Young Scholars Program, National Natural Science Foundation of China projek am dan projek belia, serta dana penyelidikan saintifik daripada Microsoft, NVIDIA, Baidu, Alibaba, Tencent dan syarikat lain. Profesor muda dan penyelidik kanan bekerjasama, dan sumber pengkomputeran GPU adalah mencukupi. Ia mempunyai pengambilan jangka panjang ramai penyelidik pasca doktoral, pelajar kedoktoran, pembantu penyelidik dan pelatih penyelidikan. Di samping itu, kumpulan itu juga mengalu-alukan permohonan daripada felo pasca doktoral lawatan yang dibiayai sendiri, pelajar kedoktoran dan pembantu penyelidik untuk sekurang-kurangnya 3-6 bulan, dan akses jauh disokong. Pelajar yang berminat sila hantar resume dan pelan penyelidikan awal anda ke alamat e-mel (bhanml@comp.hkbu.edu.hk). 🎜Atas ialah kandungan terperinci ICLR 2024 Spotlight |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!