Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik-AI-php.cn

Dalam sekelip mata, 2024 sudah pun masuk separuh. Tidak sukar untuk mendapati bahawa terdapat trend yang semakin jelas dalam bidang AI, terutamanya AIGC: trek Wenshengtu telah memasuki tahap kemajuan yang mantap dan mempercepatkan pelaksanaan komersial, tetapi pada masa yang sama, hanya menjana imej statik tidak lagi boleh memenuhi permintaan orang ramai untuk keupayaan AI generatif yang menantikannya, permintaan untuk penciptaan video dinamik tidak pernah lebih tinggi.

Oleh itu, trek video Wensheng terus hangat, terutamanya sejak OpenAI mengeluarkan Sora pada awal tahun ini, model penjanaan video dengan Diffusion Transformer (DiT) sebagai seni bina asas telah memulakan tempoh ledakan. Di landasan ini, pengeluar model penjanaan video dalam dan luar negara secara senyap-senyap melancarkan pertandingan teknologi.

Di China, sebuah syarikat permulaan AI generatif yang diasaskan pada Mac tahun lalu yang memfokuskan pada membina model dan aplikasi asas pelbagai mod visual terus muncul dalam bidang penglihatan orang ramai. Ia adalah HiDream.ai Model asas berbilang modal visual yang dibangunkan sendiri merealisasikan penjanaan dan penukaran antara modaliti yang berbeza, menyokong gambar Wensheng, video Wensheng, video Wensheng dan Wensheng 3D, dan telah melancarkan penjanaan imej dan video AI sehenti. platform "Pixeling" adalah untuk orang ramai bermula.

Alamat pengalaman: www.hidreamai.com

Sejak model besar Zhixiang dilancarkan pada Ogos 2023, ia telah melalui beberapa lelaran dan penggilapan, dan telah mengoptimumkan model asas untuk menerokai secara mendalam Gambar rajah Wensheng dan Video Vincent dan keupayaan AIGC yang lain. Terutamanya dalam bidang penjanaan video, masa penjanaan yang disokong telah ditingkatkan daripada 4 saat awal kepada 15 saat, dan kesan pengimejan juga kelihatan lebih baik.

Kini, model besar Zhixiang telah dinaik taraf semula Seni bina DiT yang unik berdasarkan keluaran asli Cina yang lebih berkuasa, lebih stabil dan lebih mesra pengguna keupayaan penjanaan video, termasuk

penjanaan imej yang lebih estetik dan artistik. , pembenaman teks dalam imej, penjanaan video peringkat minit, dsb..

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Pertunjukan semua kemahiran penjanaan imej dan video baharu ini tidak dapat dipisahkan daripada pengumpulan teknologi dan inovasi berterusan Zhixiang Future dalam bidang penjanaan visual pelbagai mod.

Kesan penjanaan terus bertambah baik

Keupayaan model asas yang lebih berkuasa ialah enjin

Zhixiang Large Model telah menyasarkan 3, model besar, video dan model D. teknologi penjanaan interaktif membolehkan penjanaan kandungan berbilang modal yang tepat dan boleh dikawal serta membina keupayaan prototaip yang berkuasa, membolehkan pengguna mempunyai pengalaman kreatif yang lebih baik dalam platform Vincent Picture dan Vincent Video AIGC.

Naik taraf keseluruhan

Intelligent Elephant Large Model 2.0 ini mempunyai perubahan kualitatif dalam seni bina asas, data latihan dan strategi latihan berbanding versi 1.0, yang membawa teks, imej, video dan 3D Satu lagi lonjakan dalam keupayaan berbilang mod dan peningkatan ketara dalam pengalaman interaktif.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Boleh dikatakan bahawa model gajah pintar yang dinaik taraf telah membawa peningkatan menyeluruh dalam bidang penjanaan imej dan video, dan telah menyuntik daya penggerak yang lebih kuat ke dalam platform penjanaan AIGC sehenti untuk berbilang modal besar. penciptaan model.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Kemahiran Gambar Vincent telah berkembang semula

Dengan tahap "mengejar" yang lebih tinggi

Sebagai platform generasi sehenti AIGC, Vincent Tu adalah premis dan halangan teknikal penting Video Vincent Oleh itu, Zhixiang telah meletakkan jangkaan yang tinggi ke arah Wenshengtu pada masa hadapan, dan akan mempromosikan fungsi yang lebih pelbagai, kesan visual yang lebih realistik, dan pengalaman yang lebih mesra pengguna mengikut kadarnya sendiri.

Selepas beberapa siri pelarasan dan pengoptimuman yang disasarkan, keupayaan gambar rajah Vincentian bagi Zhixiang Large Model 2.0 telah dipertingkatkan dengan ketara berbanding versi sebelumnya, dan ia mudah dilihat daripada pelbagai kesan pembentangan luaran.

Pertama sekali, imej yang dihasilkan oleh Zhixiang Large Model 2.0 adalah lebih cantik dan artistik. Model besar Vincentian semasa boleh berfungsi dengan baik dalam aspek yang lebih intuitif seperti pemahaman semantik, penjanaan struktur imej dan butiran gambar, tetapi ia mungkin tidak memuaskan dalam aspek deria separa seperti tekstur, kecantikan dan kesenian. Oleh itu, mengejar kecantikan menjadi tumpuan penaiktarafan Vincent Picture ini. Apakah kesannya? Kita boleh lihat dua contoh berikut.

Input segera untuk contoh pertama ialah "seorang gadis kecil memakai topi besar dengan banyak istana, bunga, pokok, burung, berwarna-warni, dekat, butiran, gaya ilustrasi" pada topi.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Input segera dalam contoh kedua ialah "foto dekat daun tumbuhan hijau, tema gelap, butiran titisan air, kertas dinding mudah alih".

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Dua imej yang dijana kelihatan menarik dari segi komposisi, ton dan kekayaan butiran, yang sangat meningkatkan keindahan keseluruhan gambar.

Selain menjadikan imej yang dihasilkan kelihatan lebih cantik, kaitan imej yang dihasilkan juga lebih kukuh. Ini juga merupakan aspek yang semua orang beri perhatian besar selepas penjanaan imej berkembang ke peringkat tertentu.

Untuk meningkatkan perkaitan imej yang dijana, model besar Imej Pintar memfokuskan pada pengukuhan pemahaman beberapa logik yang kompleks, seperti susun atur spatial yang berbeza, hubungan kedudukan, jenis objek yang berbeza, bilangan objek yang dijana , dsb., ini adalah Faktor penting dalam mencapai perkaitan yang lebih tinggi. Selepas beberapa latihan, model besar Gajah Pintar boleh mengendalikan tugas penjanaan imej dengan mudah yang melibatkan berbilang objek, pengedaran berbilang lokasi dan logik spatial yang kompleks, dan lebih memenuhi keperluan sebenar pengguna dalam kehidupan sebenar.

Mari lihat tiga contoh generasi berikut yang memerlukan pemahaman mendalam tentang objek yang berbeza dan hubungan kedudukan ruang. Keputusan menunjukkan bahawa Rajah Vincent kini boleh mengendalikan gesaan teks panjang dan pendek yang mengandungi logik kompleks dengan mudah.

Input segera untuk contoh pertama ialah "Terdapat tiga bakul berisi buah-buahan di atas meja dapur. Bakul tengah diisi dengan epal hijau. Bakul kiri diisi dengan strawberi. Bakul kanan diisi dengan Blueberry. . Di belakang bakul adalah seekor anjing putih.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Gesaan input bagi contoh kedua ialah "kucing di sebelah kanan, anjing di sebelah kiri, dan kiub hijau diletakkan pada bola biru di tengah".

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Input segera untuk contoh ketiga ialah "Di bulan, seorang angkasawan menunggang lembu, memakai skirt tutu merah jambu dan memegang payung biru. Di sebelah kanan lembu itu adalah seekor lembu memakai topi penguin. . Teks "HiDream.Al" ditulis di bahagian bawah.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Pada masa yang sama, penjanaan teks terbenam dalam imej adalah lebih tepat dan cekap, iaitu fungsi yang lebih kerap digunakan dalam poster atau copywriting pemasaran.

Dari segi pelaksanaan teknikal, menjana teks terbenam dalam imej memerlukan model yang besar untuk memahami secara mendalam penerangan penampilan visual dan kandungan teks yang tepat dalam Prompt input, supaya mencapai gambaran kandungan teks yang tepat sambil memastikan keindahan keseluruhan dan kesenian imej.

Dalam temu bual eksklusif dengan laman web ini, Dr. Yao Ting, CTO Zhixiang Future, menyebut bahawa untuk tugasan sedemikian, versi terdahulu selalunya tidak dapat menjananya Walaupun ia boleh dijana, masih terdapat masalah, dari segi aksara yang dihasilkan atau ketepatan Semuanya kurang. Kini masalah ini telah diselesaikan dengan baik Model besar Zhixiang telah merealisasikan generasi pembenaman teks panjang dalam imej, yang boleh sehingga berpuluh-puluh perkataan.

Tiga contoh yang dijana dari kiri ke kanan di bawah menunjukkan kesan pembenaman teks yang baik, terutamanya sebelah kanan gambar di mana lebih daripada dua puluh perkataan dan tanda baca dibenamkan dengan tepat.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Boleh dikatakan bahawa fungsi gambar rajah Vincentian bagi model Gajah Pintar telah mencapai hasil peneraju industri dalam industri, meletakkan asas utama untuk penjanaan video.

Penjanaan video telah mencapai tahap minit

Jika Model Imej Pintar 2.0 yang dinaik taraf telah mencapai kemajuan yang mantap ke arah grafik Vincentian, maka ia telah membuat lonjakan video ke hadapan ke arah Vincentian .

Pada bulan Disember tahun lalu, video Vincent model besar Zhixiang telah memecahkan had 4 saat dan menyokong masa penjanaan lebih daripada 15 saat. Setengah tahun kemudian, Video Wensheng telah meningkat dengan ketara dari segi tempoh, keaslian gambar, kandungan dan konsistensi watak, dan ini adalah terima kasih kepada seni bina DiT matang yang dibangunkan sendiri.

Berbanding dengan U-Net, seni bina DiT adalah lebih fleksibel dan boleh meningkatkan kualiti penjanaan imej dan video. Kemunculan Sora secara lebih intuitif mengesahkan ini model Difusi menggunakan jenis seni bina ini menunjukkan kecenderungan semula jadi untuk menghasilkan imej dan video berkualiti tinggi, dan mempunyai kelebihan relatif dalam kebolehubahsuaian dan kebolehkawalan kandungan yang dijana. Untuk Model Besar Gajah Pintar 2.0, seni bina DiT yang diguna pakai mempunyai beberapa ciri unik.

Kami tahu bahawa pelaksanaan asas seni bina DiT adalah berdasarkan Transformer Intelligence Model 2.0 mengguna pakai modul yang dibangunkan sendiri sepenuhnya dalam keseluruhan struktur rangkaian Transformer, melatih komposisi data dan strategi latihan, terutamanya dalam latihan rangkaian. strategi telah difikirkan dengan baik.

Pertama sekali, struktur rangkaian Transformer menggunakan mekanisme perhatian bersama spatiotemporal yang cekap, yang bukan sahaja sesuai dengan ciri-ciri video dalam kedua-dua domain spatial dan temporal, tetapi juga menyelesaikan masalah yang mekanisme perhatian tradisional tidak dapat bersaing dengannya. kelajuan semasa proses latihan sebenar masalah sukar.

Kedua, penjanaan tangkapan panjang dalam tugasan video AI meletakkan keperluan yang lebih tinggi pada sumber dan penyaringan data latihan. Oleh itu, model besar Zhixiang menyokong latihan klip video sehingga beberapa minit atau bahkan sepuluh minit, yang memungkinkan untuk terus mengeluarkan video berdurasi minit. Pada masa yang sama, sukar juga untuk menerangkan kandungan video peringkat minit Zhixiang Future telah membangunkan Model Kapsyen secara bebas untuk menjana penerangan video, mencapai output penerangan yang terperinci dan tepat.

Akhir sekali, dari segi strategi latihan, disebabkan data video kanta panjang yang terhad, Model Gajah Pintar 2.0 menggunakan klip video dengan panjang yang berbeza untuk latihan bersama data video dan gambar, dan menukar pensampelan video secara dinamik. kadar panjang yang berbeza, dan kemudian melengkapkan latihan jarak jauh Pada masa yang sama, pembelajaran pengukuhan akan dilakukan berdasarkan data maklum balas pengguna semasa latihan untuk mengoptimumkan lagi prestasi model.

Oleh itu, seni bina DiT yang dibangunkan sendiri yang lebih berkuasa menyediakan sokongan teknikal untuk penambahbaikan lagi kesan video Wensheng.

Kini, tempoh video yang disokong oleh Intelligent Elephant Large Model 2.0 telah ditingkatkan daripada kira-kira 15 saat kepada minit, mencapai tahap tinggi dalam industri.

Selain daripada tempoh video yang mencapai tahap minit, tempoh dan saiz pembolehubah juga merupakan sorotan utama peningkatan ciri video Wensheng ini.

Model penjanaan video semasa biasanya mempunyai tempoh penjanaan tetap, yang tidak boleh dipilih oleh pengguna. Pada masa hadapan, Zhixiang akan membuka pilihan tempoh penjanaan kepada pengguna, membolehkan mereka menentukan tempoh atau membuat pertimbangan dinamik berdasarkan kandungan Prompt input. Jika ia lebih kompleks, video yang lebih panjang akan dihasilkan, dan jika ia agak mudah, video yang lebih pendek akan dihasilkan Melalui proses yang dinamik sedemikian, keperluan kreatif pengguna dapat dipenuhi secara adaptif. Saiz video yang dihasilkan juga boleh disesuaikan mengikut keperluan, menjadikannya sangat mesra pengguna.

Selain itu, Kelihatan dan rasa keseluruhan gambar telah menjadi lebih baik, tindakan atau pergerakan objek dalam video yang dijana adalah lebih semula jadi dan lancar, butiran diberikan lebih pada tempatnya, dan ia menyokong ultra-jelas 4K kualiti imej.

Hanya dalam masa setengah tahun, berbanding dengan versi sebelumnya, fungsi Vincent Video yang dinaik taraf boleh digambarkan sebagai "lahir semula". Walau bagaimanapun, pada pandangan Dr. Yao Ting, kebanyakan penjanaan video, sama ada Masa Depan Pintar atau rakan sebaya yang lain, masih dalam peringkat kanta tunggal. Jika dibandingkan dengan peringkat L1 hingga L5 dalam medan pemanduan autonomi, Vincent Video secara kasarnya berada di peringkat L2. Dengan bantuan peningkatan keupayaan model asas ini, Zhixiang mahu meneruskan penjanaan video berbilang kanta berkualiti tinggi pada masa hadapan, dan juga telah mengambil langkah penting ke arah menerokai peringkat L3.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Zhixiang Future menyatakan bahawa fungsi video Vincent yang diulang akan dilancarkan pada pertengahan bulan Julai. Semua orang boleh menantikannya!

Ditulis pada penghujungnya

Ia telah ditubuhkan kurang daripada satu setengah tahun sama ada lelaran berterusan keupayaan model asas atau penambahbaikan gambar dan pengalaman sebenar Vincentian. Video Vincentian, Imej Pintar akan menjadi lebih visual pada masa hadapan.

Kami mengetahui bahawa lawatan bulanan pengguna akhir C Zhixiang Future melebihi juta, dan jumlah imej dan video AI yang dijana juga melebihi 10 juta. Ambang rendah dan aplikasi yang baik membentuk ciri-ciri model Gajah Pintar, dan berdasarkannya, platform aplikasi AIGC pertama yang paling sesuai untuk orang ramai dicipta.

Di pihak B, Zhixiang Future secara aktif bekerjasama dengan China Mobile, Lenovo Group, iFlytek, Shanghai Film Group, Ciwen Group, Digital China, CCTV, Evernote, Tiangong Yicai, Hangzhou Lingban dan perusahaan lain Mencapai kerjasama strategik persetujuan untuk memperdalam senario aplikasi model, memperluaskan keupayaan model kepada lebih banyak industri termasuk operator, terminal pintar, pengeluaran filem dan televisyen, e-dagang, promosi pelancongan budaya dan pemasaran jenama, dan akhirnya menggunakan model dalam potensi proses pengkomersialan dan mencipta nilai .

Pada masa ini, Zhixiang Large Model mempunyai kira-kira 100 pelanggan perusahaan terkemuka dan telah menyediakan perkhidmatan AIGC kepada 30000 + pelanggan perusahaan kecil dan mikro.

Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik

Sebelum keluaran Zhixiang Large Model 2.0, Zhixiang Future telah bekerjasama dengan China Mobile Migu Group untuk melancarkan aplikasi AIGC peringkat kebangsaan "AI One Word to Make a Movie", yang bukan sahaja menyediakan pengguna biasa dengan sifar fungsi penciptaan nada dering video AI berasaskan , juga membantu pelanggan korporat menjana kandungan video jenama dan pemasaran yang kaya, membolehkan syarikat mempunyai jenama nada dering mereka sendiri, membolehkan kami melihat potensi besar penjanaan video dan integrasi dengan senario industri.

Selain itu, ekosistem AI juga merupakan kedudukan penting bagi pengeluar model besar untuk dibangunkan. Dalam hal ini, Zhixiang mempunyai sikap terbuka pada masa hadapan, dan akan bekerjasama dengan pelanggan utama seperti Kumpulan Lenovo, iFlytek, dan Digital China, serta pasukan pembangunan kecil dan pembangun bebas untuk membina ekosistem AI yang luas termasuk penjanaan video, meliputi lebih banyak keperluan pengguna.

2024 dianggap sebagai tahun pertama aplikasi model berskala besar dan merupakan nod pembangunan utama untuk semua pengeluar. Pada masa hadapan, Zhixiang sedang membuat artikel mendalam tentang keupayaan prototaip yang lebih berkuasa.

Di satu pihak, kukuhkan pemahaman dan keupayaan penjanaan imej, video dan pelbagai mod 3D dalam rangka kerja bersatu, seperti terus mengoptimumkan seni bina, algoritma dan data asas dalam bidang penjanaan video untuk mencapai penambahbaikan dalam tempoh dan kualiti Satu kejayaan besar telah menjadi bahagian penting dalam mempromosikan kecerdasan buatan am masa depan sebaliknya, ia telah melakukan usaha dalam pelbagai arah seperti pengalaman pengguna, aplikasi inovatif, dan ekologi industri untuk mengembangkan industrinya; pengaruh.

Raih kawasan tinggi di trek penjanaan video, Zhixiang bersedia sepenuhnya untuk masa depan.

Atas ialah kandungan terperinci Penjanaan imej yang lebih cantik, output video peringkat minit, perjalanan lompat seni bina DiT yang dibangunkan sendiri domestik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!