Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran-AI-php.cn

Untuk memperkasakan mesin dengan imaginasi manusia, model generatif yang mendalamtelah mencapai kemajuan yang ketara. Model ini boleh mencipta sampel yang realistik, terutamanya model resapan, yang berprestasi baik dalam berbilang kawasan. Model resapan menyelesaikan batasan model lain, seperti masalah penjajaran pengedaran posterior VAE, ketidakstabilan GAN, kerumitan pengiraan EBM dan masalah kekangan rangkaian NF. Oleh itu, model resapan telah menarik banyak perhatian dalam aspek seperti penglihatan komputer dan pemprosesan bahasa semula jadi.

Model resapan terdiri daripada dua proses: proses hadapan dan proses songsang. Proses ke hadapan mengubah data menjadi pengedaran terdahulu yang mudah, manakala proses ke belakang membalikkan perubahan ini dan menjana data menggunakan rangkaian saraf terlatih untuk mensimulasikan persamaan pembezaan. Berbanding dengan model lain, model resapan menyediakan sasaran latihan yang lebih stabil dan hasil penjanaan yang lebih baik.

Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Walau bagaimanapun, proses persampelan model resapan disertai dengan penaakulan dan penilaian berulang. Proses ini menghadapi cabaran seperti ketidakstabilan, keperluan pengiraan dimensi tinggi dan pengoptimuman kemungkinan yang kompleks. Penyelidik telah mencadangkan pelbagai penyelesaian untuk tujuan ini, seperti menambah baik penyelesai ODE/SDE dan mengguna pakai strategi penyulingan model untuk mempercepatkan pensampelan, serta proses hadapan baharu untuk meningkatkan kestabilan dan mengurangkan dimensi.

Baru-baru ini, Bahasa dan Kesusasteraan Cina Hong Kong, Westlake University, MIT, dan Zhijiang Laboratory menerbitkan kertas ulasan bertajuk "A Survey on Generative Diffusion Models" pada IEEE TKDE, yang membincangkan kemajuan terkini dalam model resapan daripada empat aspek : Pecutan pensampelan, reka bentuk proses, pengoptimuman kemungkinan dan penyambungan pengedaran. Semakan itu juga memberikan pandangan yang mendalam tentang kejayaan model resapan dalam bidang aplikasi yang berbeza seperti sintesis imej, penjanaan video, pemodelan 3D, analisis perubatan dan penjanaan teks. Melalui kes aplikasi ini, kepraktisan dan potensi model resapan dalam dunia sebenar ditunjukkan.

Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Alamat kertas: https://arxiv.org/pdf/2209.02646.pdf
Alamat projek: https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model?tab= readme-ov-file

Peningkatan Algoritma

Pecutan Pensampelan

Kaedah latihan

Persampelan tanpa latihan

Digabungkan dengan model generatif lain

Selain itu, beberapa penyelidik telah mencadangkan kaedah analisis untuk mempercepatkan pensampelan. Kaedah ini cuba mencari cara untuk memulihkan data secara langsung Penyelesaian analitikal. Kaedah ini termasuk Analytic-DPM dan versi Analytic-DPM++ yang dipertingkatkan, yang menyediakan strategi pensampelan yang pantas dan tepat.

Reka bentuk proses resapan

Ruang terpendam

Proses hadapan yang inovatif

Pengoptimuman Kemungkinan

Walaupun model resapan mengoptimumkan ELBO, pengoptimuman kemungkinan kekal sebagai cabaran, terutamanya untuk model resapan masa berterusan. Kaedah seperti ScoreFlow dan model resapan variasi (VDM) mewujudkan hubungan antara latihan MLE dan objektif DSM, di mana teorem Girsanov memainkan peranan penting. Model probabilistik resapan denoising (DDPM) yang dipertingkatkan mencadangkan objektif pembelajaran hibrid yang menggabungkan sempadan bawah variasi dan DSM, serta teknik penyusunan semula yang mudah.

Pengedaran menyertai

Model penyebaran berprestasi baik dalam menukar pengedaran Gaussian kepada pengedaran yang kompleks, tetapi menghadapi cabaran apabila menyertai pengedaran sewenang-wenangnya. Kaedah alfa-hibrid mencipta jambatan deterministik dengan mencampur dan mencampurkan secara berulang. Aliran pembetulan menambah langkah tambahan untuk membetulkan laluan jambatan. Kaedah lain adalah untuk merealisasikan hubungan antara dua pengagihan melalui ODE, dan kaedah jambatan Schrödinger atau pengagihan Gaussian sebagai titik sambungan perantaraan juga sedang disiasat.

Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Medan aplikasi

Penjanaan imej

Model penyebaran sangat berjaya dalam penjanaan imej. Ia bukan sahaja boleh menjana imej biasa, tetapi juga menyelesaikan tugasan yang kompleks. Model seperti Imagen, Stable Diffusion dan DALL-E 2 menunjukkan kemahiran yang hebat dalam hal ini. Mereka menggunakan struktur model resapan, digabungkan dengan teknik lapisan perhatian silang, untuk menyepadukan maklumat teks ke dalam imej yang dijana. Selain menjana imej baharu, model ini boleh mengedit imej tanpa memerlukan latihan semula. Pengeditan dicapai dengan melaraskan seluruh lapisan perhatian (kunci, nilai, matriks perhatian). Contohnya, menambah konsep baharu dengan melaraskan peta ciri untuk menukar elemen imej atau memperkenalkan pembenaman teks baharu. Terdapat penyelidikan untuk memastikan bahawa model memberi perhatian kepada semua kata kunci teks semasa menjananya untuk memastikan imej itu menggambarkan penerangan dengan tepat. Model resapan juga boleh mengendalikan input bersyarat berasaskan imej, seperti imej sumber, peta kedalaman atau rangka manusia, dengan mengekod dan menyepadukan ciri ini untuk membimbing penjanaan imej. Sesetengah kajian menambahkan ciri pengekodan imej sumber pada lapisan permulaan model untuk mencapai pengeditan imej-ke-imej, yang juga sesuai untuk adegan di mana peta kedalaman, pengesanan tepi atau rangka digunakan sebagai syarat.

Generasi 3D

Dari segi penjanaan 3D, terdapat dua kaedah utama melalui model resapan. Yang pertama adalah untuk melatih model secara langsung pada data 3D, yang telah digunakan secara berkesan pada pelbagai perwakilan 3D seperti NeRF, awan titik atau voxel. Sebagai contoh, penyelidik telah menunjukkan cara untuk menjana awan titik objek 3D secara langsung. Untuk meningkatkan kecekapan pensampelan, beberapa kajian telah memperkenalkan perwakilan titik-voxel hibrid, atau sintesis imej sebagai syarat tambahan untuk penjanaan awan titik. Sebaliknya, terdapat kajian yang menggunakan model resapan untuk memproses perwakilan NeRF bagi objek 3D, dan mensintesis paparan novel dan mengoptimumkan perwakilan NeRF dengan melatih model resapan bersyarat perspektif. Pendekatan kedua menekankan penggunaan pengetahuan terdahulu tentang model penyebaran 2D untuk menjana kandungan 3D. Sebagai contoh, projek Dreamfusion menggunakan objektif pensampelan penyulingan skor untuk mengekstrak NeRF daripada model teks-ke-imej terlatih dan mencapai imej yang dihasilkan dengan kehilangan rendah melalui proses pengoptimuman keturunan kecerunan. Proses ini juga telah diperluaskan lagi untuk mempercepatkan penjanaan.

Penjanaan Video

Model resapan video ialah lanjutan daripada model resapan imej 2D, ia menjana jujukan video dengan menambahkan dimensi temporal. Idea asas pendekatan ini adalah untuk menambah lapisan temporal pada struktur 2D sedia ada sebagai cara untuk memodelkan kesinambungan dan kebergantungan antara bingkai video. Kerja berkaitan menunjukkan cara menggunakan model resapan video untuk menjana kandungan dinamik, seperti Make-A-Video, AnimatedDiff dan model lain. Lebih khusus lagi, model RaMViD menggunakan rangkaian saraf konvolusional 3D untuk memanjangkan model resapan imej kepada video dan membangunkan satu siri teknik bersyarat khusus video.

Analisis Perubatan

Model penyebaran membantu menyelesaikan cabaran mendapatkan set data berkualiti tinggi dalam analisis perubatan, terutamanya dalam pengimejan perubatan. Model ini telah berjaya meningkatkan resolusi imej, klasifikasi dan pemprosesan hingar kerana keupayaan menangkap imej yang berkuasa. Contohnya, Score-MRI dan Diff-MIC menggunakan teknik lanjutan untuk mempercepatkan pembinaan semula imej MRI dan membolehkan pengelasan yang lebih tepat. MCG menggunakan pembetulan manifold dalam resolusi super imej CT, meningkatkan kelajuan dan ketepatan pembinaan semula. Dari segi penjanaan imej yang jarang berlaku, model boleh menukar antara jenis imej yang berbeza melalui teknik tertentu. Sebagai contoh, FNDM dan DiffuseMorph digunakan untuk pengesanan anomali otak dan pendaftaran imej MR masing-masing. Sesetengah kaedah baharu mensintesis set data latihan daripada sebilangan kecil sampel berkualiti tinggi, seperti model menggunakan 31,740 sampel yang mensintesis set data sebanyak 100,000 kejadian dan mencapai skor FID yang sangat rendah.

Penjanaan teks

Teknologi penjanaan teks ialah jambatan penting antara manusia dan AI, dan boleh mencipta bahasa yang lancar dan semula jadi. Model bahasa autoregresif menjana teks dengan koheren yang kuat tetapi perlahan, manakala model resapan boleh menjana teks dengan cepat tetapi dengan koheren yang agak lemah. Dua kaedah arus perdana ialah penjanaan diskret dan penjanaan terpendam. Penjanaan diskret bergantung pada teknik lanjutan dan model pra-latihan, contohnya, D3PM dan Argmax menganggap perkataan sebagai vektor kategori, manakala DiffusionBERT menggabungkan model resapan dengan model bahasa untuk meningkatkan penjanaan teks. Penjanaan terpendam menjana teks dalam ruang terpendam token Contohnya, model seperti LM-Diffusion dan GENIE berprestasi baik dalam pelbagai tugas, menunjukkan potensi model resapan dalam penjanaan teks. Model resapan dijangka meningkatkan prestasi dalam pemprosesan bahasa semula jadi, disepadukan dengan model bahasa yang besar, dan membolehkan penjanaan silang mod.

Penjanaan Siri Masa

Pemodelan data siri masa ialah teknologi utama untuk ramalan dan analisis dalam bidang kewangan, sains iklim, perubatan dan bidang lain. Model resapan telah digunakan dalam penjanaan data siri masa kerana keupayaannya untuk menjana sampel data berkualiti tinggi.Dalam bidang ini, model resapan sering direka bentuk untuk mengambil kira pergantungan temporal dan berkala data siri masa. Sebagai contoh, CSDI (Conditional Sequence Diffusion Interpolation) ialah model yang menggunakan struktur rangkaian neural convolutional dwiarah untuk menjana atau menginterpolasi titik data siri masa. Ia cemerlang dalam penjanaan data perubatan dan penjanaan data alam sekitar. Model lain seperti DiffSTG dan TimeGrad boleh menangkap ciri dinamik siri masa dengan lebih baik dan menjana sampel siri masa yang lebih realistik dengan menggabungkan rangkaian konvolusi spatiotemporal. Model-model ini secara beransur-ansur memulihkan data siri masa yang bermakna daripada hingar Gaussian melalui panduan penyaman diri.

Penjanaan audio

Penjanaan audio melibatkan berbilang senario aplikasi daripada sintesis pertuturan kepada penjanaan muzik. Memandangkan data audio biasanya mengandungi struktur temporal yang kompleks dan maklumat spektrum yang kaya, model resapan juga menunjukkan potensi dalam bidang ini. Contohnya, WaveGrad dan DiffSinger ialah dua model resapan yang menggunakan proses penjanaan bersyarat untuk menghasilkan bentuk gelombang audio berkualiti tinggi. WaveGrad menggunakan spektrum Mel sebagai input bersyarat, manakala DiffSinger menambah maklumat muzik tambahan seperti pic dan tempo di atas ini untuk menyediakan kawalan gaya yang lebih halus. Dalam aplikasi teks ke pertuturan (TTS), TTS Berpandu dan Diff-TTS menggabungkan konsep pengekod teks dan pengelas akustik untuk menghasilkan pertuturan yang kedua-duanya mematuhi kandungan teks dan mengikut gaya bunyi tertentu. Panduan-TTS2 selanjutnya menunjukkan cara menjana pertuturan tanpa pengelas eksplisit, membimbing penjanaan bunyi melalui ciri yang dipelajari oleh model itu sendiri.

Reka Bentuk Molekul

Dalam bidang seperti reka bentuk ubat, sains bahan dan biologi kimia, reka bentuk molekul merupakan langkah penting dalam penemuan dan sintesis sebatian baharu. Model resapan berfungsi di sini sebagai alat berkuasa untuk meneroka ruang kimia dengan cekap dan menjana molekul dengan sifat tertentu. Dalam penjanaan molekul tanpa syarat, model resapan menjana struktur molekul secara spontan tanpa bergantung pada sebarang pengetahuan terdahulu. Dalam penjanaan rentas modal, model mungkin menggabungkan keadaan fungsi tertentu, seperti keberkesanan ubat atau kecenderungan mengikat protein sasaran, untuk menjana molekul dengan sifat yang dikehendaki. Kaedah berasaskan jujukan boleh mempertimbangkan jujukan protein untuk membimbing penjanaan molekul, manakala kaedah berasaskan struktur boleh menggunakan maklumat struktur tiga dimensi protein. Maklumat struktur sedemikian boleh digunakan sebagai pengetahuan terdahulu dalam dok molekul atau reka bentuk antibodi, dengan itu meningkatkan kualiti molekul yang dihasilkan.

Penjanaan graf

Menggunakan model resapan untuk menjana graf, bertujuan untuk lebih memahami dan mensimulasikan struktur rangkaian dan proses penyebaran dunia sebenar. Pendekatan ini membantu penyelidik melombong corak dan interaksi dalam sistem yang kompleks dan meramalkan kemungkinan hasil. Aplikasi termasuk rangkaian sosial, analisis rangkaian biologi, dan penciptaan set data graf. Kaedah tradisional bergantung pada penjanaan matriks bersebelahan atau ciri nod, tetapi kaedah ini mempunyai kebolehskalaan yang lemah dan praktikal yang terhad. Oleh itu, teknik penjanaan graf moden lebih suka menjana graf berdasarkan keadaan tertentu. Sebagai contoh, model PCFI menggunakan sebahagian daripada ciri graf dan ramalan laluan terpendek untuk membimbing proses penjanaan EDGE dan DiffFormer menggunakan tahap nod dan kekangan tenaga untuk mengoptimumkan penjanaan masing-masing; Kaedah ini meningkatkan ketepatan dan kepraktisan penjanaan graf.

Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Kesimpulan dan Tinjauan

Cabaran di bawah kekangan data

Selain kelajuan inferens yang rendah, model resapan sering menghadapi kesukaran dalam mengenal pasti corak yang rendah kepada ketidakupayaan dan keteraturan dalam mengenal pasti corak yang rendah. generalisasi kepada senario atau set data baharu. Selain itu, cabaran pengiraan timbul apabila berurusan dengan set data berskala besar, seperti masa latihan yang dilanjutkan, penggunaan memori yang berlebihan, atau ketidakupayaan untuk menumpu kepada keadaan yang dikehendaki, dengan itu mengehadkan saiz dan kerumitan model. Apatah lagi, pensampelan data yang berat sebelah atau tidak sekata boleh mengehadkan keupayaan model untuk menjana output yang boleh disesuaikan dengan domain atau populasi yang berbeza.

Penjanaan berasaskan pengedaran boleh dikawal

Meningkatkan keupayaan model untuk memahami dan menjana sampel dalam pengedaran tertentu adalah penting untuk mencapai generalisasi yang lebih baik dengan data terhad. Dengan memfokuskan pada mengenal pasti corak dan korelasi dalam data, model boleh menjana sampel yang hampir sepadan dengan data latihan dan memenuhi keperluan khusus. Ini memerlukan pensampelan data yang cekap, teknik penggunaan dan pengoptimuman parameter dan struktur model. Akhirnya, pemahaman yang dipertingkatkan ini membolehkan penjanaan yang lebih terkawal dan tepat, seterusnya meningkatkan prestasi generalisasi.

Penjanaan multimodal lanjutan menggunakan model bahasa besar

Arahan masa depan untuk model resapan melibatkan memajukan generasi multimodal dengan menyepadukan model bahasa besar (LLMs). Penyepaduan ini membolehkan model menjana output yang mengandungi gabungan teks, imej dan modaliti lain. Dengan menggabungkan LLM, pemahaman model tentang interaksi antara modaliti yang berbeza dipertingkatkan, dan output yang dijana lebih pelbagai dan realistik. Tambahan pula, LLM meningkatkan kecekapan penjanaan berasaskan segera dengan ketara dengan memanfaatkan hubungan antara teks dan modaliti lain dengan berkesan. Di samping itu, LLM, sebagai pemangkin, meningkatkan keupayaan penjanaan model resapan dan mengembangkan julat medan di mana ia boleh menjana mod.

Integrasi dengan bidang pembelajaran mesin

Menggabungkan model resapan dengan teori pembelajaran mesin tradisional menyediakan peluang baharu untuk meningkatkan prestasi pelbagai tugas. Pembelajaran separa penyeliaan amat berharga dalam menyelesaikan cabaran yang wujud dalam model resapan, seperti masalah generalisasi, dan dalam membolehkan penjanaan keadaan yang cekap apabila data terhad. Dengan memanfaatkan data tidak berlabel, ia meningkatkan keupayaan generalisasi model resapan dan mencapai prestasi ideal apabila menjana sampel dalam keadaan tertentu.

Selain itu, pembelajaran pengukuhan memainkan peranan yang penting dengan menggunakan algoritma penalaan halus untuk menyediakan panduan yang disasarkan semasa proses pensampelan model. Panduan ini memastikan penerokaan tertumpu dan menggalakkan penjanaan terkawal. Di samping itu, pembelajaran pengukuhan diperkaya dengan menyepadukan maklum balas tambahan, dengan itu meningkatkan keupayaan model untuk menjana keadaan yang boleh dikawal.

Kaedah penambahbaikan algoritma (Lampiran)

Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Kaedah aplikasi medan (Lampiran)

Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran

Atas ialah kandungan terperinci Teknologi di sebalik letupan Sora, sebuah artikel yang meringkaskan arah pembangunan terkini model penyebaran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!