Apakah AI? Dalam fikiran anda, anda mungkin memikirkan rangkaian saraf yang terdiri daripada neuron yang disusun satu di atas yang lain. Jadi apakah seni lukisan? Adakah "Mona Lisa Smile" Da Vinci, "Starry Night" dan "Sunflowers" karya Van Gogh atau "Girl with a Pearl Earring" karya Johannes Vermeer? Apabila AI bertemu dengan seni lukisan, apakah jenis percikan yang boleh dicipta di antara mereka?
Pada awal 2021, pasukan OpenAI mengeluarkan model DALL-E yang boleh menjana imej berdasarkan penerangan teks. Disebabkan keupayaan penjanaan imej silang mod yang kuat, ia telah membangkitkan pengejaran yang kuat dalam kalangan peminat bahasa semula jadi dan teknologi bulatan visual. Dalam tempoh lebih setahun, teknologi penjanaan imej berbilang modal telah mula muncul seperti cendawan selepas hujan Dalam tempoh ini, banyak aplikasi yang menggunakan teknologi ini untuk penciptaan seni AI telah dilahirkan, seperti Disco Diffusion yang popular baru-baru ini. Pada masa kini, aplikasi ini secara beransur-ansur memasuki bidang visi pencipta seni dan masyarakat umum, dan telah menjadi "pena ajaib Ma Liang" di mulut ramai orang.
Artikel ini bermula daripada minat teknikal, memperkenalkan teknologi penjanaan imej berbilang modal dan karya klasik, dan akhirnya meneroka cara menggunakan penjanaan imej berbilang mod untuk mencipta seni lukisan AI ajaib. Karya seni lukisan AI yang dicipta oleh pengarang menggunakan Disco Diffusion
Penjanaan imej berbilang modal (Multi- Penjanaan Imej Modal) bertujuan untuk menggunakan maklumat modal seperti teks dan audio sebagai syarat panduan untuk menjana imej realistik dengan tekstur semula jadi. Tidak seperti teknologi penjanaan mod tunggal tradisional yang menghasilkan imej berdasarkan hingar, penjanaan imej berbilang modal sentiasa menjadi tugas yang sangat mencabar. jurang" untuk memecahkan halangan yang wujud antara modaliti?
(2) Bagaimana untuk menjana imej logik, pelbagai dan resolusi tinggi? Dalam dua tahun yang lalu, dengan kejayaan penerapan Transformer dalam bidang seperti pemprosesan bahasa semula jadi (seperti GPT), penglihatan komputer (seperti ViT), latihan pra-latihan pelbagai modal (seperti CLIP), dan teknologi penjanaan imej yang diwakili oleh VAE dan GAN, terdapat secara beransur-ansur diatasi oleh bintang yang semakin meningkat - Model Penyebaran, pembangunan penjanaan imej berbilang mod adalah di luar kawalan.
Teknologi penjanaan imej berbilang mod dan kerja klasik
Klasifikasi
Transformer Autoregressive
Imej dan teks ditukar menjadi jujukan melalui pengekod masing-masing, dan kemudian disambungkan bersama-sama dan dihantar ke Transformer (di sini GPT3 digunakan) untuk penjanaan jujukan autoregresif. Dalam peringkat inferens, CLIP pra-latihan digunakan untuk mengira persamaan antara teks dan imej yang dijana, dan output imej yang dijana akhir diperoleh selepas pengisihan. Sama seperti DALL-E, siri CogView Tsinghua [2, 3] dan ERNIE-ViLG [4] Baidu juga menggunakan reka bentuk seni bina VQ-VAE + Transformer, manakala Parti Google [5] menggantikan codec imej dengan ViT-VQGAN. NUWA-Infinity [6] Microsoft menggunakan kaedah autoregresif untuk mencapai penjanaan visual yang tidak terhingga.
Model Penyebaran
Kaedah penjanaan imej berbilang mod menggunakan model resapan terutamanya mempelajari pemetaan ciri teks kepada ciri imej melalui model resapan dengan panduan bersyarat, dan menyahkod ciri imej untuk mendapatkan imej hasil akhir. Ambil DALL-E-2 (OpenAI) [7] sebagai contoh Walaupun ia adalah sekuel DALL-E, ia memerlukan laluan teknikal yang berbeza daripada DALL-E Prinsipnya lebih seperti GLIDE [8] (sesetengah orang panggil GLIDE DALL-E-1.5). Keseluruhan seni bina DALL-E-2 ditunjukkan dalam rajah:
DALL-E-2 menggunakan CLIP untuk mengekod teks dan menggunakan model resapan untuk mempelajari proses sebelum (sebelumnya) untuk mendapatkan pemetaan daripada ciri teks kepada ciri imej akhirnya, pelajari proses CLIP songsang untuk menyahkod ciri imej ke dalam imej akhir. Berbanding dengan DALL-E-2, Imagen Google [9] menggunakan T5-XXL terlatih untuk menggantikan CLIP untuk pengekodan teks, dan kemudian menggunakan model resapan resolusi super (seni bina U-Net) untuk meningkatkan saiz imej, memperoleh 1024 ✖️1024 imej yang dijana HD.
Pengenalan Transformer autoregresif dan kaedah pembelajaran perbandingan CLIP telah mewujudkan jambatan antara teks dan imej pada masa yang sama, berdasarkan model penyebaran dengan bimbingan bersyarat, ia boleh menjana imej Resolusi yang pelbagai dan berkualiti tinggi meletakkan asas. Walau bagaimanapun, menilai kualiti penjanaan imej selalunya subjektif, jadi sukar untuk membandingkan sama ada teknologi model autoregresif Transformer atau model penyebaran lebih baik di sini. Dan model seperti siri DALL-E, Imagen dan Parti dilatih pada set data berskala besar, dan penggunaannya boleh menyebabkan isu etika dan berat sebelah sosial, jadi model ini belum lagi menjadi sumber terbuka. Walau bagaimanapun, masih terdapat ramai peminat yang cuba menggunakan teknologi tersebut, dan banyak aplikasi yang boleh dimainkan telah dihasilkan dalam tempoh ini.
Pembangunan teknologi penjanaan imej berbilang modal menyediakan lebih banyak kemungkinan untuk penciptaan seni AI. Pada masa ini, aplikasi dan alatan penciptaan AI yang digunakan secara meluas termasuk CLIPDraw, VQGAN-CLIP, Disco Diffusion, DALL-E Mini, Midjourney (memerlukan kelayakan jemputan), DALL-E-2 (memerlukan kelayakan beta dalaman), Dream By Wombo ( App), Fungsi Meta "Make-A-Scene", Tiktok "AI Green Screen", Resapan Stabil [10], Baidu "Yige", dsb. Artikel ini terutamanya menggunakan Disco Diffusion, yang popular dalam kalangan penciptaan seni, untuk penciptaan seni AI.
Disco Diffusion [11] ialah aplikasi penciptaan seni AI yang diselenggara secara bersama oleh ramai peminat teknologi di Github Ia telah mengulangi beberapa versi. Tidak sukar untuk melihat dari nama Disco Diffusion bahawa teknologi yang digunakannya adalah model penyebaran yang dipandu oleh CLIP. Disco Diffusion boleh menjana imej atau video artistik berdasarkan penerangan teks yang ditentukan (dan peta asas pilihan). Contohnya, jika anda memasukkan "Laut Bunga", model akan menjana imej hingar secara rawak, dan mengulangi langkah demi langkah melalui proses resapan denoising Diffusion Selepas mencapai beberapa langkah, imej yang cantik boleh dipaparkan. Terima kasih kepada kaedah penjanaan model penyebaran yang pelbagai, anda akan mendapat imej yang berbeza setiap kali anda menjalankan program Pengalaman "pembukaan kotak buta" ini sungguh menarik.
Penciptaan AI berdasarkan model penjanaan imej pelbagai mod Disco Diffusion (DD) pada masa ini mempunyai masalah berikut:
(1) Kualiti imej yang dihasilkan Tidak Sekata: Bergantung pada kesukaran tugasan penjanaan, dianggarkan secara kasar kadar hasil penjanaan tugasan dengan kandungan perihalan yang lebih sukar ialah 20% hingga 30%, dan kadar hasil penjanaan tugasan dengan kandungan penerangan yang lebih mudah ialah 60% hingga 70 %. Kadar hasil kebanyakan tugas adalah antara Antara 30~40%.
(2) Kelajuan penjanaan perlahan + penggunaan memori yang besar: Mengambil lelaran 250 langkah untuk menjana imej 1280*768 sebagai contoh, ia mengambil masa kira-kira 6 minit dan menggunakan memori video V100 16G.
(3) Sangat bergantung pada pengalaman pakar: Memilih set deskriptor yang sesuai memerlukan banyak percubaan dan kesilapan kandungan teks dan tetapan berat, pemahaman tentang gaya pelukis dan komuniti seni, dan pemilihan pengubah suai teks ; melaraskan parameter Anda perlu mempunyai pemahaman yang mendalam tentang konsep seperti bilangan panduan CLIP/tepu/kontras/bunyi/bilangan pemotongan/potongan dalaman dan luaran/saiz kecerunan/simetri/... termasuk dalam DD, dan anda mesti mempunyai kemahiran seni tertentu. Bilangan parameter yang besar juga bermakna bahawa pengalaman pakar yang kuat diperlukan untuk mendapatkan imej yang dihasilkan dengan baik.
Sebagai tindak balas kepada isu di atas, kami telah membuat beberapa rizab data dan teknologi, dan YY beberapa kemungkinan aplikasi akan datang. Seperti yang ditunjukkan dalam gambar di bawah:
Dengan menggunakan data dan rizab teknikal ini, kami telah mengumpulkan kaedah aplikasi penjanaan imej berbilang mod seperti kertas dinding telefon mudah alih/komputer, nama/nama artistik, penggayaan bandar mercu tanda, koleksi digital, dsb. Di bawah ini kami akan menunjukkan karya seni yang dijana AI khusus.
Pengayaan bangunan mercu tanda bandar
Janakan gaya lukisan yang berbeza (gaya anime) dengan memasukkan penerangan teks dan peta asas bandar mercu tanda / Cyberpunk gaya/ gaya seni piksel):
(1) Bangunan dengan gaya anime, oleh makoto shinkai dan beeple, Sohor kini di stesen seni.
(2) Bangunan dengan gaya cyberpunk , oleh Gregory Grewdson , Sohor kini di stesen seni.
(3) Bangunan dengan gaya piksel, oleh Stefan Bogdanovi, Sohor kini di stesen seni.
Koleksi Digital
Buat pada peta asas dengan memasukkan perihalan teks dan peta asas.
(1) Landskap dengan tumbuh-tumbuhan dan tasik, oleh RAHDS dan beeple, Trend di stesen seni .(2) Kotej terpesona di pinggir tebing landskap fantasi yang tidak menyenangkan, oleh RAHDS dan beeple, Trend di stesen seni.
(3) Sebuah kapal angkasa oleh RAHDS dan beeple, Trend di stesen seni.
(1) Transformers dengan perisai mesin, oleh Alex Milne, Trending di artstation .
(2) Spongebob oleh RAHDS dan beeple, Sohor kini di stesen seni.
Kertas dinding mudah alih/komputer
(1) Pemandangan mimpi esoterik oleh Dan Luvisi, menjadi sohor kini di Artstation, lukisan matte landskap luas.
(2) Tersebar teres, musim sejuk, salji, oleh Makoto Shinka, menjadi sohor kini di Artstation, kertas dinding 4k.
(3) Lukisan cloudpunk Atlantis yang indah terbit dari jurang yang digembar-gemburkan oleh ikan paus steampunk oleh gaya rococo Pixar, Artstation, pencahayaan volumetrik.
(4~8) Pemandangan indah planet berputar melalui krim chantilly oleh Ernst Haeckel dan Pixar yang menjadi sohor kini di Artstation, kertas dinding 4k .
(1) Padang desa yang indah, sudut super lebar, menghadap, pagi oleh Makoto Shinkai .
(2) Lukisan indah malam berbintang, memancarkan cahayanya merentasi lautan bunga matahari oleh James Gurney, Trending di stesen seni.
(3) Negara wap dongeng oleh greg rutkowski dan thomas kinkade Arah Aliran di stesen seni.
(4) Hiasan bangunan ajaib dalam landskap indah oleh daniel merriam, pencahayaan lembut, kertas dinding 4k hd, Sohor kini di stesen seni dan behance.
AI 艺术姓
本文主要介绍了近两年来多模态图像生成技术及相关的进展模态图像生成进行多种 AI 艺术创作。接下来,我们还将探索多模态图像生成技术在消费级 CPU 上运行的可能性,以及结合业务为 AI ,走行为 AI更多如电影、动漫主题封面,游戏,元宇宙内容创作等更多相关应用。
使用多模态图像生成技术进行艺术创作只是 AI 自主生产内容生产内容(AI yang dihasilkan 。得益于当前海量数据与预训练大模型的发展, AIGC 能够加速落地,为人类提供更多优质内容。或许,通用人工智能又迈进了一小正了一小正涉及到的技术或者应用感兴趣,欢迎共创交流。参考文献
[1] Ramesh A, Pavlov M, Goh G, et al. Penjanaan teks-ke-imej tangkapan sifar[C]//Persidangan Antarabangsa mengenai Pembelajaran Mesin. PMLR, 2021: 8821-8831.
[2] Ding M, Yang Z, Hong W, et al. Cogview: Menguasai penjanaan teks-ke-imej melalui transformer[J]. Kemajuan dalam Sistem Pemprosesan Maklumat Neural, 2021, 34: 19822-19835.
[3] Ding M, Zheng W, Hong W, et al. CogView2: Penjanaan Teks-ke-Imej yang Lebih Pantas dan Lebih Baik melalui Transformers Hierarki[J]. pracetak arXiv arXiv:2204.14217, 2022.[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Pra-latihan generatif bersatu untuk penjanaan bahasa penglihatan dua arah[J]. pracetak arXiv arXiv:2112.15283, 2021.[5] Yu J, Xu Y, Koh J Y, et al. Menskalakan Model Autoregresif untuk Penjanaan Teks-ke-Imej yang Kaya Kandungan[J]. pracetak arXiv arXiv:2206.10789, 2022.[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation untuk Sintesis Visual Infinite[J]. pracetak arXiv arXiv:2207.09814, 2022.[7] Ramesh A, Dhariwal P, Nichol A, et al. Penjanaan imej bersyarat teks hierarki dengan pendam klip[J]. pracetak arXiv arXiv:2204.06125, 2022.[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Ke arah penjanaan imej fotorealistik dan penyuntingan dengan model resapan berpandukan teks[J]. pracetak arXiv arXiv:2112.10741, 2021.[9] Saharia C, Chan W, Saxena S, et al. Model Resapan Teks-ke-Imej Fotorealistik dengan Pemahaman Bahasa Mendalam[J]. pracetak arXiv arXiv:2205.11487, 2022.[10] Rombach R, Blattmann A, Lorenz D, et al. Sintesis imej resolusi tinggi dengan model resapan terpendam[C]//Prosiding Persidangan IEEE/CVF tentang Penglihatan Komputer dan Pengecaman Corak. 2022: 10684-10695.[11] Github: https://github.com/alembics/disco-diffusion
[12] Github: https://github.com/CompVis/stable-diffusion
Atas ialah kandungan terperinci Apabila AI bertemu dengan seni lukisan, apakah jenis percikan api yang akan muncul?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!