Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Shuai Xincheng, pengarang pertama artikel ini, sedang belajar untuk PhD di Makmal FVL Universiti Fudan dan lulus dari Universiti Shanghai Jiao Tong dengan ijazah sarjana muda. Minat penyelidikan utamanya termasuk penyuntingan imej dan video serta pembelajaran multimodal.
Artikel ini mencadangkan rangka kerja bersatu untuk menyelesaikan tugas penyuntingan umum! Baru-baru ini, penyelidik dari Makmal FVL Universiti Fudan dan Universiti Teknologi Nanyang meringkaskan dan menyemak algoritma penyuntingan imej berpandu pelbagai mod berdasarkan model besar graf Vincentian. Semakan itu meliputi lebih daripada 300 kajian yang berkaitan, dan model terbaharu yang disiasat adalah pada Jun tahun ini! Semakan ini memanjangkan perbincangan tentang keadaan kawalan (bahasa semula jadi, imej, antara muka pengguna) dan tugas penyuntingan (manipulasi objek/atribut, transformasi ruang, pengecatan, pemindahan gaya, terjemahan imej, penyesuaian subjek/atribut) kepada perbincangan yang lebih baru dan komprehensif tentang kaedah penyuntingan daripada perspektif yang lebih umum. Tambahan pula, semakan ini mencadangkan rangka kerja bersatu yang mewakili proses penyuntingan sebagai gabungan keluarga algoritma yang berbeza, dan menggambarkan ciri-ciri pelbagai kombinasi serta senario penyesuaian melalui eksperimen kualitatif dan kuantitatif yang komprehensif. Rangka kerja ini menyediakan ruang reka bentuk yang mesra untuk memenuhi keperluan pengguna yang berbeza dan menyediakan rujukan tertentu untuk penyelidik membangunkan algoritma baharu. Suntingan imej direka untuk mengedit imej sintetik atau sebenar yang diberikan mengikut keperluan khusus pengguna. Sebagai bidang yang menjanjikan dan mencabar dalam bidang kandungan terjana kecerdasan buatan (AIGC), penyuntingan imej telah dikaji secara meluas. Baru-baru ini, model penyebaran imej-ke-inframerah (T2I) berskala besar telah memacu pembangunan teknologi penyuntingan imej. Model ini menjana imej berdasarkan gesaan teks, menunjukkan keupayaan generatif yang menakjubkan dan menjadi alat biasa untuk penyuntingan imej. Kaedah penyuntingan imej berasaskan T2I meningkatkan prestasi penyuntingan dengan ketara dan menyediakan pengguna dengan antara muka untuk pengubahsuaian kandungan menggunakan panduan keadaan berbilang mod. Kami menyediakan ulasan menyeluruh tentang teknik penyuntingan imej berpandukan pelbagai mod berdasarkan model penyebaran T2I. Pertama, kami mentakrifkan skop tugas penyuntingan imej daripada perspektif yang lebih umum dan menerangkan pelbagai isyarat kawalan dan senario penyuntingan secara terperinci. Kami kemudiannya mencadangkan rangka kerja bersatu untuk memformalkan proses penyuntingan, mewakilinya sebagai gabungan dua keluarga algoritma. Rangka kerja ini memberikan pengguna ruang reka bentuk untuk mencapai matlamat tertentu. Seterusnya, kami menjalankan analisis mendalam bagi setiap komponen dalam rangka kerja, mengkaji ciri dan senario terpakai bagi gabungan yang berbeza. Memandangkan kaedah berasaskan latihan secara langsung belajar untuk memetakan imej sumber kepada imej sasaran, kami membincangkan kaedah ini secara berasingan dan memperkenalkan skema suntikan imej sumber di bawah senario yang berbeza. Selain itu, kami menyemak penggunaan teknik 2D dalam penyuntingan video, memfokuskan pada menyelesaikan ketidakkonsistenan antara bingkai. Akhir sekali, kami juga membincangkan cabaran terbuka dalam bidang dan mencadangkan hala tuju penyelidikan masa depan yang berpotensi.
- Tajuk kertas: Tinjauan Pengeditan Imej Berpandukan Pelbagai Modal dengan Model Penyebaran Teks-ke-Imej
- Unit penerbitan: Makmal FVL Universiti Fudan, Universiti Teknologi Nanyang
- alamat: https://arxiperv
- org/abs/2406.14555
Alamat projek: https://github.com/xinchengshuai/Awesome-Image-Editing
1.1 Dalam kehidupan sebenar, orang ramai mempunyai permintaan yang semakin meningkat untuk alat pengeditan imej pintar yang boleh dikawal dan berkualiti tinggi Oleh itu, adalah perlu untuk merumuskan dan membandingkan kaedah dan ciri teknikal ke arah ini.
1.2, algoritma pengeditan semasa dan ulasan yang berkaitan mengehadkan senario pengeditan untuk mengekalkan kebanyakan maklumat semantik peringkat rendah dalam imej yang tidak berkaitan dengan pengeditan Atas sebab ini, adalah perlu untuk mengembangkan skop tugasan pengeditan dan membincangkan penyuntingan daripada perspektif yang lebih umum.
1.3, Disebabkan oleh kepelbagaian keperluan dan senario, proses penyuntingan perlu diformalkan ke dalam rangka kerja bersatu dan menyediakan pengguna ruang reka bentuk untuk menyesuaikan diri dengan matlamat penyuntingan yang berbeza. 2. Bagaimanakah sorotan ulasan berbeza daripada ulasan editorial semasa?
2.1 Definisi dan skop perbincangan tentang tugasan penyuntingan. Berbanding dengan algoritma sedia ada dan ulasan penyuntingan sebelumnya, kertas kerja ini mentakrifkan tugas penyuntingan imej dengan lebih meluas. Khususnya, artikel ini membahagikan tugas penyuntingan kepada kumpulan pemandangan yang sedar kandungan dan tanpa kandungan. Adegan dalam kumpulan sedar kandungan adalah tugas utama yang dibincangkan dalam kesusasteraan sebelumnya. Kesamaannya adalah untuk mengekalkan beberapa ciri semantik peringkat rendah dalam imej, seperti mengedit kandungan piksel kawasan yang tidak berkaitan, atau struktur imej. Di samping itu, kami mempelopori kemasukan tugas penyesuaian ke dalam kumpulan senario bebas kandungan, menggunakan jenis tugasan ini yang mengekalkan semantik peringkat tinggi (seperti maklumat identiti subjek atau atribut terperinci lain) sebagai tambahan kepada senario pengeditan biasa .
. Disebabkan oleh kepelbagaian senario penyuntingan, algoritma sedia ada tidak dapat memenuhi semua keperluan dengan baik. Oleh itu, kami memformalkan proses penyuntingan sedia ada ke dalam rangka kerja bersatu, dinyatakan sebagai gabungan dua keluarga algoritma. Selain itu, kami juga menganalisis ciri dan senario penyesuaian kombinasi berbeza melalui eksperimen kualitatif dan kuantitatif, memberikan pengguna ruang reka bentuk yang baik untuk menyesuaikan diri dengan matlamat penyuntingan yang berbeza. Pada masa yang sama, rangka kerja ini juga menyediakan penyelidik rujukan yang lebih baik kepada algoritma reka bentuk dengan prestasi yang lebih baik.
2.3 Keseluruhan perbincangan. Kami menyelidik lebih daripada 300 kertas kerja berkaitan dan menerangkan secara sistematik dan menyeluruh penggunaan pelbagai mod isyarat kawalan dalam senario yang berbeza. Untuk kaedah penyuntingan berasaskan latihan, artikel ini juga menyediakan strategi untuk menyuntik imej sumber ke dalam model T2I dalam pelbagai senario. Di samping itu, kami juga membincangkan aplikasi teknologi penyuntingan imej dalam bidang video, membolehkan pembaca memahami dengan cepat kaitan antara algoritma penyuntingan dalam bidang yang berbeza.
3. Rangka kerja bersatu untuk algoritma penyuntingan umum
… Rangka kerja merangkumi dua keluarga algoritma, algoritma Penyongsangan dan algoritma Penyuntingan 3.1 Algoritma penyongsangan. Algoritma Penyongsangan mengekod set imej sumber ke dalam ciri atau ruang parameter tertentu, mendapatkan perwakilan yang sepadan
(klu penyongsangan) dan menggunakan keterangan teks sumber yang sepadan sebagai pengecam imej sumber. Termasuk dua jenis algoritma penyongsangan: berasaskan penalaan dan berasaskan hadapan. Ia boleh diformalkan sebagai: Penyongsangan berasaskan penalaanSet imej sumber diimplan ke dalam pengedaran penjanaan model resapan melalui proses latihan resapan asal. Proses pemformalan ialah: di mana
ialah parameter boleh dipelajari yang diperkenalkan, dan .
Penyongsangan berasaskan ke hadapan digunakan untuk memulihkan bunyi dalam laluan hadapan tertentu () dalam proses songsang (
) model resapan. Proses pemformalan ialah: di mana ialah parameter yang diperkenalkan dalam kaedah, digunakan untuk meminimumkan , di mana . 3.2.Algoritma penyuntingan. Algoritma Penyuntingan menjana hasil pengeditan akhir berdasarkan dan set panduan berbilang modal . Algoritma penyuntingan termasuk berasaskan perhatian, berasaskan pengadunan, berasaskan skor dan berasaskan pengoptimuman. Ia boleh diformalkan sebagai:
Khususnya, untuk setiap langkah proses terbalik, melaksanakan operasi berikut:
di mana operasi dalam mewakili campur tangan algoritma penyuntingan model pensampelan dalam diffusi proses , digunakan untuk memastikan ketekalan imej yang diedit dengan set imej sumber , dan untuk mencerminkan transformasi visual yang ditentukan oleh syarat panduan dalam . Secara khusus, kami menganggap proses penyuntingan tanpa campur tangan sebagai versi biasa algoritma penyuntingan. Ia diformalkan sebagai:Proses formal Suntingan berasaskan perhatian: Proses formal
Suntingan berasaskan pengadunan: Proses formal
Suntingan berasaskan skor: penyuntingan berasaskan
Proses pemformalan : 3.3 Kaedah penyuntingan Berasaskan Latihan. Tidak seperti kaedah tanpa latihan, algoritma berasaskan latihan secara langsung mempelajari pemetaan set imej sumber kepada imej yang diedit dalam set data khusus tugas. Algoritma jenis ini boleh dilihat sebagai lanjutan daripada penyongsangan berasaskan penalaan, yang mengekod imej sumber ke dalam pengedaran generatif melalui parameter tambahan yang diperkenalkan. Dalam jenis algoritma ini, perkara yang paling penting ialah cara menyuntik imej sumber ke dalam model T2I Berikut adalah skema suntikan untuk senario penyuntingan yang berbeza. . Rajah 3. Skim suntikan tugas tanpa Kandungan 4. Aplikasi rangka kerja bersatu dalam tugas penyuntingan berbilang modal
Artikel ini menggambarkan aplikasi setiap gabungan dalam tugas penyuntingan berbilang modal melalui eksperimen kualitatif: Rajah 4. Mengenai Aplikasi penyuntingan berasaskan perhatian gabungan algoritma
Aplikasi gabungan algoritmaRajah 6. Penggunaan kombinasi algoritma untuk pengeditan berasaskan skor Segas Rujuk kertas asal untuk analisis terperinci. 5. Perbandingan gabungan berbeza dalam senario pengeditan berpandukan teks
Untuk tugasan pengeditan berpandukan teks biasa, artikel ini mereka bentuk berbilang eksperimen kualitatif yang mencabar untuk menggambarkan senario pengeditan yang sesuai untuk gabungan berbeza. Di samping itu, kertas kerja ini juga mengumpul set data yang berkualiti tinggi dan sukar dengan sewajarnya untuk menggambarkan secara kuantitatif prestasi algoritma lanjutan dalam pelbagai kombinasi dalam senario yang berbeza. Untuk tugasan mengetahui kandungan, kami terutamanya mempertimbangkan operasi objek (tambah/padam/ganti), perubahan atribut dan penghijrahan gaya. Khususnya, kami menganggap tetapan percubaan yang mencabar: 1. Pengeditan berbilang objektif. 2. Gunakan kes yang mempunyai kesan yang lebih besar pada susun atur semantik imej. Kami juga mengumpul imej berkualiti tinggi bagi adegan kompleks ini dan melakukan perbandingan kuantitatif komprehensif bagi algoritma terkini dalam kombinasi yang berbeza. Rajah 8. Perbandingan kualitatif setiap kombinasi dalam misi SEDAR Kandungan Dari kiri ke kanan, keputusan keputusan dianalisis dan lebih banyak hasil eksperimen, sila rujuk kertas asal.
Untuk tugasan tanpa kandungan, kami terutamanya mempertimbangkan tugas tersuai dipacu subjek. Dan mempertimbangkan pelbagai senario, seperti menukar latar belakang, berinteraksi dengan objek, perubahan tingkah laku dan perubahan gaya. Kami juga menentukan sejumlah besar templat panduan teks dan menjalankan analisis kuantitatif prestasi keseluruhan setiap kaedah. Pada c Rajah 9. Perbandingan kualitatif setiap kombinasi dalam misi tanpa kandungan Dari kiri ke kanan, keputusan keputusan dianalisis dan lebih banyak keputusan eksperimen, sila rujuk kertas asal. 6. Hala tuju yang boleh dikaji pada masa hadapanSelain itu, artikel ini juga menyediakan beberapa analisis tentang hala tuju penyelidikan masa hadapan. Di sini kami mengambil cabaran yang dihadapi oleh tugas sedar kandungan dan tugas tanpa kandungan sebagai contoh. 6.1 Cabaran tugasan sedar kandungan. Untuk cabaran tugas penyuntingan sedar kandungan, kaedah sedia ada tidak boleh mengendalikan berbilang senario pengeditan dan isyarat kawalan secara serentak. Had ini memaksa aplikasi menukar algoritma bahagian belakang yang sesuai antara tugas yang berbeza. Selain itu, beberapa kaedah lanjutan tidak mesra pengguna. Sesetengah kaedah memerlukan pengguna melaraskan parameter utama untuk mendapatkan hasil yang optimum, manakala yang lain memerlukan input yang membosankan seperti petunjuk sumber dan sasaran, atau topeng tambahan.
6.2.Cabaran tugas tanpa kandungan. Untuk tugasan pengeditan tanpa kandungan, kaedah sedia ada mempunyai proses penalaan yang panjang semasa ujian dan mengalami masalah overfitting. Sesetengah kajian bertujuan untuk mengurangkan masalah ini dengan mengoptimumkan sebilangan kecil parameter atau model latihan dari awal. Walau bagaimanapun, mereka sering kehilangan butiran yang mengindividukan subjek atau menunjukkan keupayaan generalisasi yang lemah. Tambahan pula, kaedah semasa juga gagal dalam mengekstrak konsep abstrak daripada sebilangan kecil imej, dan mereka tidak dapat memisahkan sepenuhnya konsep yang diingini daripada elemen visual yang lain.
Untuk mengetahui lebih lanjut tentang hala tuju penyelidikan, anda boleh menyemak kertas asal. Atas ialah kandungan terperinci Lebih daripada 300 kajian berkaitan, kertas semakan penyuntingan imej pelbagai mod terkini daripada Universiti Fudan dan Universiti Teknologi Nanyang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!