Model besar Hunyuan Tencent telah dinaik taraf semula, dengan keluaran mengejutkan keupayaan graf Vincentian dan pengukuran dan analisis sebenar yang komprehensif-AI-php.cn

Pada tahun 2023, butang pemecut akan ditekan untuk pelaksanaan model besar, dan grafik Vincentian akan menjadi salah satu arah aplikasi yang paling hangat.

Sejak kelahiran Stable Diffusion, model berskala besar Wenshengtu telah muncul di dalam dan luar negara, dan rasanya seperti "berperang antara tuhan" untuk seketika. Setiap lelaran teknologi membawa peningkatan pesat dalam kesan dan kelajuan penjanaan model.

Baru hari ini, Model Tencent Hunyuan turut mengumumkan kemajuan terkini: keupayaan graf Vincentian dilancarkan secara rasmi.

Sebaik sahaja kami mencubanya, kami melihat pemahaman Model Hunyuan tentang budaya makanan Cina yang luas dan mendalam. Di sini saya memilih "semut panjat pokok" yang menyukarkan banyak model besar, tetapi Hunyuan mudah dihasilkan:

Model besar Hunyuan Tencent telah dinaik taraf semula, dengan keluaran mengejutkan keupayaan graf Vincentian dan pengukuran dan analisis sebenar yang komprehensif

Persoalannya, model besar Vincentian sekarang sangat besar, adakah model besar Hunyuan mempunyai kelebihan istimewa lain?

Menurut pengenalan rasmi, dari segi algoritma dan model, model besar Vincentian semasa masih mempunyai beberapa cabaran, seperti pemahaman semantik yang tidak mencukupi, struktur gambar yang dihasilkan tidak munasabah, butiran gambar yang tidak mencukupi dan tekstur yang rendah.

Tencent telah lama mula meneroka imej yang dijana AI dalam senario pengiklanan, dan pengumpulan yang berkaitan agak mendalam. Keupayaan Wenshengtu peningkatan model besar Hunyuan ini dengan tepat berharap dapat menyelesaikan tiga masalah "semantik, kandungan dan tekstur".

Menurut laporan, berbanding model besar yang lain, Wenshengtu Tencent Hunyuan mempunyai kelebihan yang jelas dalam realisme potret dan adegan Pada masa yang sama, ia mempunyai kelebihan yang lebih besar dalam penjanaan landskap Cina, permainan animasi dan adegan lain Prestasi yang baik.

Ujian tangan: Hunyuan Wensheng Tu, apa bezanya?

Untuk melakukan kerja yang baik dalam "Wen Sheng Tu", pemahaman penuh tentang "Wen" adalah penting.

Dari segi pemahaman semantik, model graf Hunyuan Wensheng mengguna pakai model dwibahasa Cina dan Inggeris Pada masa yang sama, pemahaman dwibahasa dicapai berdasarkan pemodelan dwibahasa Cina dan Inggeris, serta kebolehan model. untuk melihat butiran dipertingkatkan melalui algoritma pengoptimuman dan menjana kesan.

Sebelum ini, walaupun model popular seperti Stable Diffusion menyokong tahap bahasa Cina tertentu, set data teras mereka LAION-5B masih kebanyakannya kandungan Barat, dan tidak memahami bahasa, makanan, budaya dan adat resam Cina pemahaman yang cukup.

Model Hunyuan Wenshengtu ialah model Wenshengtu asli Cina Tanpa mengira pantun atau simpulan bahasa Cina oleh pengguna, pengguna boleh terus meminta mereka mencipta lukisan.

Dari segi rasionaliti kandungan, Hunyuanwenshengtu meningkatkan keupayaan persepsi kedudukan ruang dua dimensi imej model algoritma dan memperkenalkan maklumat terdahulu seperti rangka manusia dan struktur tangan manusia ke dalam proses penjanaan, supaya imej yang dihasilkan struktur adalah lebih munasabah, yang meningkatkan masalah struktur badan manusia yang dijana AI dan tangan yang tidak munasabah.

Dari segi

tekstur gambar, Hunyuan Wenshengtu adalah berdasarkan kaedah gabungan pelbagai model untuk menambah baik tekstur yang dihasilkan. Selepas pengoptimuman, kesan model potret (rambut, kedutan, dll.) Hunyuan Wenshengtu telah dipertingkatkan sebanyak 30%, dan kesan model pemandangan (tumbuh-tumbuhan, riak, dll.) telah dipertingkatkan sebanyak 25%.

Kelebihan teknikal dalam ketiga-tiga aspek ini jelas telah meningkatkan pengalaman produk Wenshengtu model besar Hunyuan.

Untuk mengesahkan keupayaan di atas, laman web ini menetapkan beberapa soalan dan menjalankan ujian menyeluruh ke atas model besar Hunyuan pada kali pertama.

Memandangkan Hunyuan adalah model Cina asli, ia secara semula jadi memahami "bahasa Cina kuno" lebih baik daripada produk lain yang serupa Kami mula-mula membiarkannya melukis berdasarkan puisi kuno.

Kami memilih puisi kuno yang sangat artistik "Apabila anda mabuk, anda tidak tahu langit berada di atas air, dan perahu itu penuh dengan mimpi yang jelas dan bintang-bintang yang mengagumkan" untuk menguji sama ada Model besar Hunyuan boleh menjana gambar dengan rasa imejan yang kuat.

Model besar Hunyuan Tencent telah dinaik taraf semula, dengan keluaran mengejutkan keupayaan graf Vincentian dan pengukuran dan analisis sebenar yang komprehensif

Dalam puisi "Tertambat di Guazhou", baris "Angin musim bunga kembali menghijau di tebing selatan sungai, bilakah bulan yang terang akan menyinari saya?" Hasil daripada penjanaan Hunyuan, imej seperti "cahaya mata air", "tebing air" dan "bulan terang" diekstrak dan digabungkan secara organik, membuatkan orang ramai berasa seperti berada dalam adegan puitis selepas melihatnya:

Maka menariknya Di bahagian "Chinese Food Painting", mari kita ambil ujian klasik tentang "Shredded Pork with Fish Flavor":

Daripada lukisan makanan Cina yang menggila. tahap makan selepas melihat gambar, kita juga boleh merasainya Ke evolusi berterusan teknologi gambar rajah Vincent.

Mari kita lihat bagaimana Hunyuan lakukan terhadap masalah "potret realistik" yang diiktiraf industri:

Kita tahu bahawa Midjourney mula popular kerana foto pasangan di bawah, yang mana membuat orang tidak dapat Ternyata ini tidak dihasilkan oleh AI.U Peta pasangan yang dijana oleh Midjourney V5

Sekarang, mari kita periksa keupayaan golongan campuran untuk menjana "penipuan". Gesaan yang digunakan ialah:

Apakah perasaan anda tentang realisme? Pada pendapat kami, butiran yang dinyatakan dalam Prompt adalah mencukupi.

Inilah yang Tencent tekankan: model besar Hunyuan meningkatkan persepsi butiran dan kesan penjanaan melalui algoritma pengoptimuman. Keupayaan ini hanya boleh dicerminkan dalam banyak adegan tertentu.

Sebagai contoh, dalam adegan animasi, ia menjana "rusa berlari di dalam hutan, menyebabkan daun-daun yang gugur berterbangan, bulan terang dan besar, burung terbang di langit, suasana, gaya CG, perspektif sisi. ".

Adakah ia kelihatan seperti adegan dalam animasi yang anda tonton semasa anda masih kecil?

Selain itu, dalam penciptaan animasi, potensi aplikasi Wenshengtu sangat besar.

Gesaan yang kami berikan kepada model besar Hunyuan ialah "Jana 3D, gaya anime, 1 perempuan, rambut perang, senyuman, rambut pendek, latar belakang bandar":

Apakah pendapat anda tentang kesan penjanaan ? Bolehkah ia digunakan terus sebagai kertas dinding?

Apakah teknologi yang dibangunkan sendiri di sebalik Wenshengtu?

Jika seorang pekerja ingin menjalankan tugasnya dengan baik, dia mesti mengasah alatnya terlebih dahulu Begitu juga dengan model besar.

Kami mengetahui bahawa sebagai tambahan kepada algoritma model yang inovatif, model besar Hunyuan Tencent mencapai kesan imej bertekstur yang selaras dengan budaya Cina Ia juga tidak dapat dipisahkan daripada data padanan teks imej berkualiti tinggi dan pemadanan diri. rangka kerja pembelajaran mesin yang dibangunkan dan infrastruktur pengkomputeran yang berkuasa.

Model Besar Tencent Hunyuan telah membentuk laluan teknologi yang dibangunkan sendiri pautan penuh daripada algoritma model kepada rangka kerja pembelajaran mesin kepada infrastruktur AI. Pengumpulan teknologi pelbagai peringkat bermakna bahawa evolusi model besar memerlukan satu langkah pada satu masa, bermula dari amalan dan menambah baik dalam amalan.

Pertama, mari kita lihat kejuruteraan data yang menyokong latihan model.

Untuk mana-mana AI, terutamanya model besar, data ialah salah satu daripada tiga elemen yang sangat diperlukan. Perkara yang sama berlaku untuk fungsi penjanaan teks model besar Data imej dan teks, terutamanya data padanan antara imej dan teks, mempunyai kesan yang menentukan pada kesan penjanaan.

Walau bagaimanapun, tidak semua data sedia ada di Internet tersedia dengan mudah. Masalah besar ialah perihalan teks gambar mungkin tidak tepat, yang mengakibatkan kualiti data padanan teks imej yang rendah. Jika digunakan, walaupun masa latihan adalah sangat lama, kesan penjanaan model masih tidak memenuhi jangkaan, yang juga akan menjejaskan kestabilan kualiti penjanaan dan kecekapan lelaran seterusnya.

Oleh itu, meningkatkan kualiti data imej dan teks telah menjadi "halangan pertama" untuk memastikan kesan imej Vincentian. Pada masa ini, selalunya perlu untuk meningkatkan kualiti data melalui kaedah kejuruteraan, menyokong latihan model, pengoptimuman dan naik taraf, dan membina parit untuk model algoritma.

Menghadapi masalah padanan imej dan data teks, strategi tindak balas pasukan Tencent Hunyuanwenshengtu adalah seperti berikut: pertama, tingkatkan gesaan bahasa Cina dengan cara yang terperinci, perbaiki korelasi antara imej dan teks, dan memaksimumkan kualiti data; kemudian mengamalkan analisis data latihan Lapisan dan strategi hierarki digunakan untuk mengoptimumkan model secara beransur-ansur dan memaksimumkan kesan data akhirnya, roda tenaga data dibina, yang merupakan kunci kepada lelaran pantas model besar; Berdasarkan maklum balas daripada pengguna dalam talian yang menggunakan model besar, pasukan secara automatik membina data latihan untuk mempercepatkan lelaran model dan memaksimumkan kecekapan data.

Kualiti, kesan dan kecekapan data telah dipertingkatkan, yang meletakkan asas untuk kesan carta Vincent yang baik. Rangka kerja pembelajaran mesin yang akan dibincangkan seterusnya adalah sama penting.

Rangka kerja atau platform pembelajaran mesin yang berkuasa akan meningkatkan kelajuan dan kecekapan pembangun dalam membina, melatih dan menggunakan model. Tencent telah membangunkan platform pembelajaran mesin Angel sendiri untuk latihan model besar dan senario inferens, yang terutamanya termasuk AngelPTM untuk latihan dan AngelHCF untuk inferens.

Antaranya, AngelPTM menggunakan strategi pengoptimuman ZeRO-Cache dan menjadi alat yang berkuasa untuk melatih model-model besar pengurusan storan dan menambah baik sumber melalui Penggunaan tak segerak berbilang aliran, meningkatkan kecekapan memori melalui pengurusan memori. Selain itu, keselarian 4D digunakan untuk meningkatkan had atas memori video yang tersedia, mengurangkan tekanan komunikasi pada kilokad dan melepaskan potensi pengkomputeran. Mekanisme pembaharuan latihan automatik menyokong toleransi kesalahan automatik bagi kegagalan kilokad dan mengurangkan masa gangguan. Situasi latihan model juga dipantau dalam masa nyata, dan algoritma kolaboratif mengoptimumkan arah latihan model.

Pada masa ini, AngelPTM adalah berdasarkan mekanisme ZeRO-Cache pertama industri + pelaksanaan selari 4D latihan berkelajuan tinggi ratusan bilion asas elemen campuran model, dan kelajuan latihan adalah 1 kali lebih pantas daripada rangka kerja sumber terbuka arus perdana (DeepSpeed-Chat). Gambaran keseluruhan ZeRO-Cache.

^{AngelHCF terutamanya menyesuaikan strategi perkhidmatan terpelbagai, strategi selari dan pecutan rangka kerja (merangkumi kaedah pecutan biasa) tahap mampatan model (menyokong kaedah mampatan yang biasa digunakan dalam industri) dan keupayaan penyahpepijatan model yang cekap meningkatkan prestasi inferens model besar. Kelajuan inferens adalah 1.3 kali lebih pantas daripada rangka kerja arus perdana industri (FasterTransformer).}

Tencent berkata bahawa platform pembelajaran mesin Angelnya mempunyai prestasi terkemuka dan boleh membantu menyediakan sistem infrastruktur yang lebih baik dan membantu model besar berjalan pada kelajuan tinggi. Ini membolehkan model besar Hunyuan menjana imej berkualiti tinggi di samping meningkatkan kelajuan penjanaan.

Dengan data berkualiti tinggi dan rangka kerja pembelajaran mesin yang cekap, operasi berterusan model besar masih menghadapi ujian kuasa pengkomputeran. Lagipun, dalam era model besar, kuasa pengkomputeran adalah raja.

Fungsi Tencent Hunyuan Wenshengtu tidak dapat dipisahkan daripada infrastruktur pengkomputeran berkuasa yang disediakan oleh Tencent Cloud. Pada April 2023, Tencent Cloud mengeluarkan generasi baharu kluster pengkomputeran berprestasi tinggi HCC, menggunakan pelayan generasi terbaharu Xinghai yang dibangunkan sendiri, dan berdasarkan rangkaian yang dibangunkan sendiri dan seni bina storan, mencapai lebar jalur intersambung ultra tinggi 3.2T, TB -kapasiti daya tampung dan 10 juta tahap IOPS. Prestasi kuasa pengkomputeran kluster generasi baharu dipertingkatkan sebanyak 3 kali ganda berbanding dengan generasi sebelumnya dan lebih daripada 12 kali ganda berbanding dengan penyelesaian kluster pengkomputeran tradisional.

Semasa mengukuhkan perkakasan asas, keupayaan perisian lapisan atas juga mesti seiring. Kluster HCC generasi baharu menyepadukan enjin pecutan latihan TACO yang dibangunkan sendiri oleh Tencent Cloud, yang telah membuat banyak pengoptimuman peringkat sistem daripada protokol rangkaian, strategi komunikasi, rangka kerja AI dan tahap kompilasi model. Set komprehensif penyelesaian pecutan latihan ekologi ini bukan sahaja dapat membantu pelanggan menurunkan ambang pengoptimuman AI dan meningkatkan prestasi latihan AI, tetapi juga mengurangkan kos penalaan latihan dan kuasa pengkomputeran.

Nampaknya tiga faktor utama yang menyekat model besar, algoritma, data dan kuasa pengkomputeran, tidak lagi menjadi masalah dalam model besar Tencent Hunyuan. Sememangnya, kualiti dan kesan lukisan Vincentian juga terjamin.

Kesannya adalah "palsu dan nyata",

🎜 Keupayaan Shengtu telah dibenamkan Tencent Advertising Scene

Keupayaan penjanaan teks model skala besar Hunyuan yang kita lihat hari ini tidak dicapai dalam sekelip mata, tetapi proses evolusi sebenar.

Pada Persidangan Ekologi Digital Tencent Global 2023 yang diadakan bulan lepas, model besar Tencent Hunyuan telah diperkenalkan secara rasmi. Jiang Jie, naib presiden Tencent Group, berkata pada masa itu bahawa Hunyuan sentiasa berada di jalan raya. Tencent akan terus mengembangkan keupayaan Hunyuan dan berharap dapat membawa kejutan kepada semua orang setiap bulan.

Pada masa ini, Tencent mempunyai 180 perniagaan dalaman yang disambungkan kepada model besar Hunyuan, termasuk Tencent Conference, Tencent Documents, Enterprise WeChat, Tencent Advertising dan Carian di WeChat dan seterusnya. Pada masa yang sama, pelanggan dari pelbagai industri seperti peruncitan, pendidikan, kewangan, penjagaan perubatan, media, pengangkutan, hal ehwal kerajaan, dsb. juga menghubungi Tencent Hunyuan API melalui Tencent Cloud Bidang aplikasi termasuk soal jawab pintar, penciptaan kandungan, analisis data, pembantu kod dan senario lain.

Keupayaan graf Vincentian yang baru dibuka merupakan kejutan terbesar yang dibawa oleh model Hunyuan Tencent kepada kami, menunjukkan kepimpinannya dalam bidang keupayaan penjanaan imej automatik. Sudah tentu, Tencent Hunyuan Wenshengtu juga berkembang secara beransur-ansur, dan lebih banyak fungsi berkaitan Wenshengtu dan Wenshengtu akan dibangunkan pada masa hadapan. Kita boleh menantikan gelombangnya.

Pada masa ini, keupayaan penjanaan imej Hunyuanwen telah dibenamkan dalam senario pengiklanan Tencent, seperti menjana iklan produk atau imej pengiklanan. Dalam pelbagai pusingan penilaian di bawah perniagaan pengiklanan, kadar kecemerlangan kes dan kadar penerimaan pengiklan Tencent Hunyuan Wenshengtu masing-masing mencapai 86% dan 26%, yang kedua-duanya lebih tinggi daripada model serupa.

Mari kita lihat dahulu contoh berikut, yang memerlukan model besar Hunyuan untuk menjana bilik hotel. Berdasarkan kesannya, kesan gambar Hunyuan Wensheng jelas lebih baik selepas naik taraf, reka bentuk dan kualiti bertambah baik, dan butirannya lebih kaya. Malah membandingkannya dengan Midjourney, hasilnya adalah setanding.

Adegan penjanaan watak juga mempunyai kesan yang sama. Selepas naik taraf, potret yang dihasilkan oleh Hunyuan lebih realistik, seperti warna kulit muka, kedutan dan butiran lain.

Selain senario pengiklanan, Tencent juga sentiasa menerokai senario permintaan lain untuk Wenshengtu, seperti menjana elemen permainan dan watak permainan dalam senario permainan, menjana ilustrasi dan ilustrasi novel dalam senario kandungan dan mencampurkannya dalam senario perniagaan awan . Keupayaan meta terbuka kepada pelanggan dalam industri yang berbeza.

Sehebat mana pun model itu, ia mesti digunakan oleh lebih ramai orang dan terus menerima maklum balas, supaya ia boleh membuat kemajuan lebih lanjut.

Dapat diramalkan bahawa produk Tencent akan membawa ledakan keupayaan Hunyuanwentutu pada masa hadapan, dan pengguna juga akan mengalami lebih banyak daya tarikan yang dibawa oleh AIGC.

Atas ialah kandungan terperinci Model besar Hunyuan Tencent telah dinaik taraf semula, dengan keluaran mengejutkan keupayaan graf Vincentian dan pengukuran dan analisis sebenar yang komprehensif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!