Baru-baru ini, banyak penemuan yang tidak dijangka telah dibuat dalam bidang imej yang dijana teks, dan banyak model boleh mencapai fungsi mencipta imej yang berkualiti tinggi dan pelbagai berdasarkan arahan teks. Walaupun imej yang dijana sudah sangat realistik, model semasa selalunya pandai menjana imej objek fizikal seperti landskap dan objek, tetapi berjuang untuk menjana imej dengan perincian koheren yang tinggi, seperti imej dengan teks glif kompleks seperti aksara Cina. .
Untuk menyelesaikan masalah ini, penyelidik dari OPPO dan institusi lain telah mencadangkan rangka kerja pembelajaran umum GlyphDraw, yang direka untuk membolehkan model menjana imej yang dibenamkan dengan teks yang koheren bidang sintesis imej Kerja pertama untuk menyelesaikan masalah penjanaan watak Cina.
Mari kita mulakan dengan Mari kita lihat kesan yang dihasilkan, contohnya, menghasilkan slogan amaran untuk dewan pameran:
Menjana papan iklan:
Tambahkan penerangan teks ringkas pada gambar Gaya teks juga boleh pelbagai:
Selain itu, contoh yang paling menarik dan praktikal ialah menjana emotikon:
Walaupun hasilnya mempunyai beberapa kelemahan, tetapi kesan penjanaan keseluruhan sudah sangat baik. Secara keseluruhannya, sumbangan utama penyelidikan ini termasuk:
Kajian ini mula-mula mereka bentuk set data teks imej yang kompleks Bina strategi, dan kemudian mencadangkan rangka kerja pembelajaran umum GlyphDraw berdasarkan algoritma sintesis imej sumber terbuka Resapan Stabil, seperti ditunjukkan dalam Rajah 2 di bawah.
Matlamat keseluruhan latihan Stable Diffusion boleh dinyatakan sebagai formula berikut:
GlyphDraw adalah berdasarkan mekanisme perhatian silang dalam Stable Diffusion, di mana vektor pendam input asal z_t digantikan dengan gabungan vektor pendam imej z_t, topeng teks l_m dan imej glyph l_g.
Tambahan pula, keadaan C dilengkapi dengan ciri glif dan teks hibrid dengan menggunakan modul gabungan khusus domain. Pengenalan topeng teks dan maklumat glif membolehkan keseluruhan proses latihan mencapai kawalan resapan halus, yang merupakan komponen utama untuk meningkatkan prestasi model, dan akhirnya menghasilkan imej dengan teks aksara Cina.
Secara khusus, perwakilan piksel bagi maklumat teks, terutamanya bentuk teks yang kompleks seperti aksara Cina piktograf, adalah berbeza dengan ketara daripada objek semula jadi. Sebagai contoh, perkataan Cina "langit" terdiri daripada berbilang strok dalam struktur dua dimensi, dan imej semula jadi yang sepadan ialah "langit biru bertitik awan putih." Sebaliknya, aksara Cina mempunyai sifat yang sangat halus, malah pergerakan atau ubah bentuk kecil boleh menyebabkan pemaparan teks yang salah, menjadikan penjanaan imej mustahil.
Terdapat juga isu utama yang perlu dipertimbangkan semasa membenamkan aksara dalam latar belakang imej semula jadi, iaitu mengawal penjanaan piksel teks dengan tepat sambil mengelak daripada menjejaskan piksel imej semula jadi bersebelahan. Untuk menghasilkan aksara Cina yang sempurna pada imej semula jadi, pengarang mereka dengan teliti dua komponen utama yang disepadukan ke dalam model sintesis resapan, iaitu kawalan kedudukan dan kawalan glif.
Tidak seperti input bersyarat global model lain, penjanaan aksara perlu memberi lebih perhatian kepada kawasan setempat tertentu bagi imej kerana taburan ciri terpendam bagi piksel aksara adalah berbeza daripada imej semula jadi piksel. Untuk mengelakkan pembelajaran model daripada runtuh, kajian ini secara inovatif mencadangkan kawalan kawasan lokasi yang terperinci untuk memisahkan taburan antara kawasan yang berbeza.
Selain kawalan kedudukan, satu lagi isu penting ialah kawalan halus sintesis strok aksara Cina. Memandangkan kerumitan dan kepelbagaian aksara Cina, adalah amat sukar untuk hanya belajar daripada set data teks imej yang besar tanpa pengetahuan terdahulu yang jelas. Untuk menjana aksara Cina dengan tepat, kajian ini menggabungkan imej glif eksplisit sebagai maklumat bersyarat tambahan ke dalam proses penyebaran model.
Memandangkan tiada set data sebelum ini khusus untuk penjanaan imej aksara Cina, kajian ini mula-mula membina The set data penanda aras ChineseDrawText digunakan untuk penilaian kualitatif dan kuantitatif, dan kemudian ketepatan penjanaan beberapa kaedah (dinilai oleh model pengecaman OCR) telah diuji dan dibandingkan pada ChineseDrawText.
Model GlyphDraw yang dicadangkan dalam kajian ini menunjukkan bahawa model tersebut mencapai ketepatan purata 75% dengan menggunakan maklumat glif tambahan dan kedudukan Cemerlang keupayaan penjanaan imej. Hasil perbandingan visual beberapa kaedah ditunjukkan dalam rajah di bawah:
Selain itu, GlyphDraw juga boleh mengekalkan prestasi sintesis imej domain terbuka dengan mengehadkan latihan parameter, FID sintesis imej umum hanya menurun sebanyak 2.3 pada MS-COCO FID-10k.
Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut tentang butiran penyelidikan.
Atas ialah kandungan terperinci Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!