Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024-AI-php.cn

Saya sudah biasa dengan Stable Diffusion, dan kini saya akhirnya mempunyai model Russian Matryoshka Diffusion, yang dibuat oleh Apple.

Dalam era AI generatif, model penyebaran telah menjadi model penjanaan untuk imej, video, 3D, penjanaan audio dan teks Alat popular untuk aplikasi AI. Walau bagaimanapun, memanjangkan model resapan kepada domain resolusi tinggi masih menghadapi cabaran yang ketara kerana model mesti mengekod semula semua input resolusi tinggi pada setiap langkah. Menyelesaikan cabaran ini memerlukan penggunaan seni bina yang mendalam dengan blok perhatian, yang menjadikan pengoptimuman lebih sukar dan menggunakan lebih banyak kuasa dan memori pengkomputeran.

Apa yang perlu saya lakukan? Beberapa kerja baru-baru ini telah menumpukan pada menyiasat seni bina rangkaian yang cekap untuk imej resolusi tinggi. Walau bagaimanapun, tiada kaedah sedia ada telah menunjukkan hasil melebihi resolusi 512×512, dan kualiti penjanaan ketinggalan di belakang lata arus perdana atau kaedah terpendam.

Kami mengambil OpenAI DALL-E 2, Google IMAGEN dan NVIDIA eDiffI sebagai contoh model untuk menjimatkan kuasa pengkomputeran, di mana setiap komponen dilatih secara berasingan. Sebaliknya, model resapan terpendam (LDM) hanya mempelajari model resapan resolusi rendah dan bergantung pada pengekod auto resolusi tinggi terlatih secara berasingan. Untuk kedua-dua penyelesaian, saluran paip berbilang peringkat merumitkan latihan dan inferens, selalunya memerlukan penalaan atau hiperparameter yang teliti.

Dalam artikel ini, penyelidik mencadangkan Model Penyebaran Matryoshka Rusia (MDM), yang digunakan untuk resolusi tinggi hujung ke hujung A baharu model penyebaran untuk penjanaan imej. Kod akan dikeluarkan tidak lama lagi.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Alamat kertas: https://arxiv.org/pdf/2310.15111.pdf

# #

Idea utama yang dicadangkan dalam kajian ini adalah menggunakan proses resapan resolusi rendah sebagai sebahagian daripada penjanaan resolusi tinggi dengan melakukan proses resapan bersama pada resolusi berbilang menggunakan seni bina UNet bersarang.

Kajian mendapati bahawa: MDM bersama-sama dengan seni bina UNet bersarang mencapai 1) kehilangan berbilang resolusi: meningkatkan prestasi input resolusi tinggi denoising Kelajuan penumpuan; 2) Pelan latihan progresif yang cekap, bermula daripada melatih model penyebaran resolusi rendah, dan secara beransur-ansur menambah input dan output resolusi tinggi mengikut pelan. Keputusan eksperimen menunjukkan bahawa menggabungkan kehilangan berbilang resolusi dengan latihan progresif boleh mencapai keseimbangan yang lebih baik antara kos latihan dan kualiti model.

Kajian menilai MDM dari segi penjanaan imej bersyarat kelas serta penjanaan imej bersyarat teks dan video. MDM membenarkan melatih model resolusi tinggi tanpa menggunakan lata atau resapan terpendam. Kajian ablasi menunjukkan bahawa kedua-dua kehilangan berbilang resolusi dan latihan progresif sangat meningkatkan kecekapan dan kualiti latihan.

Jom nikmati gambar dan video berikut yang dihasilkan oleh MDM.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Tinjauan Keseluruhan Kaedah#

Menurut penyelidik, model penyebaran MDM dilatih hujung ke hujung pada resolusi tinggi sambil menggunakan data berstruktur hierarki. MDM mula-mula membuat generalisasi model resapan standard dalam ruang resapan dan kemudian mencadangkan seni bina bersarang dan proses latihan khusus.

Mula-mula mari kita lihat cara

menyamaratakan model resapan standard
dalam ruang lanjutan.

Perbezaan daripada kaedah lata atau laten ialah MDM belajar untuk mempunyai hierarki dengan memperkenalkan proses resapan berbilang resolusi dalam ruang pengembangan Satu resapan proses struktur. Butirannya ditunjukkan dalam Rajah 2 di bawah.

Secara khusus, diberi titik data x ∈ R^N, penyelidik mentakrifkan pembolehubah pendam berkaitan masa z_t = z_t^1 . , z_t^R ∈ R^N_1+...NR.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Penyelidik mengatakan bahawa menjalankan pemodelan resapan di ruang lanjutan mempunyai dua kelebihan berikut. Untuk satu, kami biasanya mengambil berat tentang output resolusi penuh z_t^R semasa inferens, maka semua resolusi perantaraan lain dianggap sebagai pembolehubah terpendam tambahan z_t^r, meningkatkan kerumitan pemodelan taburan. Kedua, kebergantungan berbilang resolusi memberi peluang untuk berkongsi pemberat dan pengiraan merentas z_t^r, dengan itu mengagihkan semula pengiraan dengan cara yang lebih cekap dan membolehkan latihan dan inferens yang cekap.

Jom lihat cara seni bina bersarang (NestedUNet) berfungsi.

Sama seperti model resapan biasa, penyelidik menggunakan struktur rangkaian UNet untuk melaksanakan MDM, di mana sambungan baki dan blok pengiraan digunakan secara selari untuk mengekalkan maklumat input yang terperinci. Blok pengiraan di sini mengandungi berbilang lapisan lilitan dan lapisan perhatian diri. Kod untuk NestedUNet dan UNet standard adalah seperti berikut.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Selain kesederhanaan berbanding kaedah hierarki lain, NestedUNet membenarkan pengiraan diagihkan dengan cara yang paling cekap. Seperti yang ditunjukkan dalam Rajah 3 di bawah, penerokaan awal oleh penyelidik mendapati bahawa MDM mencapai kebolehskalaan yang jauh lebih baik apabila memperuntukkan kebanyakan parameter dan pengiraan pada resolusi terendah.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Perkara terakhir ialah Belajar.

Para penyelidik menggunakan sasaran denoising konvensional untuk melatih MDM pada pelbagai resolusi, seperti ditunjukkan dalam persamaan (3) di bawah.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Latihan progresif digunakan di sini. Para penyelidik secara langsung melatih MDM dari hujung ke hujung mengikut formula di atas (3) dan menunjukkan penumpuan yang lebih baik daripada kaedah asas asal. Mereka mendapati bahawa menggunakan kaedah latihan progresif mudah yang serupa dengan yang dicadangkan dalam kertas GAN sangat mempercepatkan latihan model resolusi tinggi.

Kaedah latihan ini mengelakkan latihan resolusi tinggi kos tinggi dari awal dan mempercepatkan penumpuan keseluruhan. Bukan itu sahaja, mereka juga menggabungkan latihan resolusi bercampur, yang melatih sampel dengan resolusi akhir yang berbeza secara serentak dalam satu kelompok.

Eksperimen dan keputusan

MDM ialah teknik umum yang boleh digunakan untuk sebarang masalah di mana dimensi input boleh dimampatkan secara progresif. Perbandingan MDM dengan pendekatan garis dasar ditunjukkan dalam Rajah 4 di bawah.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Jadual 1 menunjukkan hasil perbandingan pada ImageNet (FID-50K) dan COCO (FID-30K).

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Rajah 5, 6, dan 7 di bawah menunjukkan keputusan MDM dalam penjanaan imej (Rajah 5), teks ke imej (Rajah 6), dan teks ke video (Rajah 7). Walaupun dilatih pada set data yang agak kecil, MDM menunjukkan keupayaan tangkapan sifar yang kuat untuk menjana imej dan video resolusi tinggi.

Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024

Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Atas ialah kandungan terperinci Model gambar Vincent besar Apple diumumkan: penyebaran seperti matryoshka Rusia, menyokong resolusi 1024x1024. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!