Berita terkini! Baidu Wenxin Big Model 4.0: Model parameter terbesar dalam sejarah latihan Wanka, jumpa lagi minggu depan-AI-php.cn

Berita terkini! Baidu Wenxin Big Model 4.0: Model parameter terbesar dalam sejarah latihan Wanka, jumpa lagi minggu depan

PHPz

Lepaskan： 2024-07-19 12:04:49

asal

1015 orang telah melayarinya

Berita terkini! Baidu Wenxin Big Model 4.0: Model parameter terbesar dalam sejarah latihan Wanka, jumpa lagi minggu depan

Semalam, Cailian News secara eksklusif mendedahkan bahawa model Wenxin Baidu 4.0 sedang meningkatkan latihannya dan hampir bersedia untuk dikeluarkan. Semua orang sentiasa ingin tahu tentang maklumat Wen Xinyiyan. Hari ini kami juga mendapat lebih banyak berita tentang Wenxin 4.0, yang melibatkan maklumat penting seperti seni bina asas, infrastruktur, set data latihan, kos, dll. Ia mempunyai tahap kredibiliti yang sangat tinggi!
Mari kita bercakap tentang kesimpulan teras terlebih dahulu:
1 Pendedahan semalam pada asasnya adalah benar. Pada masa ini difahamkan bahawa Wenxin Large Model 4.0 sebenarnya telah diuji dengan trafik yang kecil.
2. Bilangan parameter Wenxin 4.0 adalah lebih besar daripada semua LLM dengan parameter yang dikeluarkan secara umum. Ia juga merupakan model besar pertama di China yang dilatih menggunakan kluster Wanka.
3 Kos penaakulan jauh lebih tinggi daripada Wenxin 3.5, dikatakan lebih kurang 8-10 kali ganda! (Model besar benar-benar mahal!)
Jika pendedahan ini benar, ini akan menjadi nod utama untuk Baidu dan juga model besar domestik untuk mengejar GPT-4.
Seterusnya, mari kita lihat butiran wahyu.
Model parameter terbesar dalam sejarah latihan kelompok Wanka?
Menurut maklumat yang kami terima, skala parameter Model Besar Wenxin 4.0 adalah lebih besar daripada semua parameter yang dikeluarkan secara terbuka pada masa ini, yang bermaksud skala parameter Model Besar Wenxin 4.0 dijangka melebihi paras trilion.
Melihat pada jumlah parameter ini sahaja, ramai orang akan menganggap ia tidak mengapa Lagipun, menurut maklumat yang didedahkan ketika ini, jumlah parameter GPT-4 sudah sekitar 1.8 trilion. Bagaimanapun, orang yang menyebarkan berita itu seterusnya menyatakan Wenxin Large Model 4.0 masih merupakan model tunggal dan tidak menggunakan model pakar campuran (MoE) yang digunakan oleh GPT dan banyak model bahasa besar lain.
Sebelum ini, "penggodam genius" George Hotz membuat berita bahawa sebab mengapa GPT-4 menggunakan model hibrid adalah kerana saiz parameter model tidak boleh melebihi 220 bilion. OpenAI mahu model menjadi lebih baik, tetapi jika ia mengambil masa yang lebih lama untuk dilatih, kesannya sudah semakin berkurangan.
Jadi, jika Baidu boleh mencapai kejayaan dalam satu model, sama ada keupayaan model juga akan dipertingkatkan dengan ketara, kita hanya boleh tunggu dan lihat selepas keluaran sebenar.
Model dengan bilangan parameter yang begitu besar pasti mempunyai keperluan kuasa pengkomputeran yang tinggi. Berita semasa ialah Wenxin 4.0 telah dilatih pada kluster Wanka AI Ia harus dianggap sebagai model bahasa besar pertama di China yang dilatih menggunakan kluster skala Wanka.
Apakah konsep kluster Wanka? Di China, hanya Huawei dan Alibaba telah mendedahkan bahawa mereka telah membina kluster Wanka AI, tetapi kami tidak melihat model tertentu berdasarkannya.
Ini menunjukkan bahawa gugusan Wanka tidak mudah dibina, malah lebih sukar untuk menggunakannya untuk memaksimumkan kesannya. Menurut analisis, adalah tepat kerana integrasi Fei Paddle yang mendalam bahawa model berskala besar itu boleh dilatih dengan cekap berdasarkan kelompok Wanka.
Kos telah meningkat, dan ujian trafik rendah telah dijalankan untuk orang ramai dengan cara yang rendah
Bukan sahaja kos latihan meningkat, tetapi kos inferens Wenxin 4.0 juga telah didedahkan jauh lebih tinggi daripada kos latihan 3.5. Kami masih belum memperoleh kos inferens khusus setiap seribu token, tetapi dikhabarkan bahawa ia mungkin sebelum 8-10 kali, ini masih dalam kes penggunaan tinggi (MFU). Sekiranya penggunaan lebih rendah, dianggarkan kos akan terus meningkat.
Saya perlu mengatakan bahawa model besar adalah mahal. Mencipta model asas asas yang terkemuka ialah permainan untuk gergasi!
Akhirnya, menurut pekerja dalaman, Baidu sebenarnya telah mula menguji Wenxin Big Model 4.0 secara rahsia dengan trafik rendah, dan sebilangan kecil pengguna Wenxin Yiyan sudah menggunakan versi model terkini.
Ramai orang berpendapat kenyataan ini lebih dipercayai, dan kami juga boleh mendapatkan beberapa petunjuk daripada beberapa pendedahan terbaru dalam komuniti teknologi.
Mungkin, apabila anda bertanya soalan mengenai Wenxin Yiyan sekarang, anda menggunakan Wenxin Big Model 4.0. Saya tidak tahu sama ada hasil yang dijana boleh bersaing dengan GPT-4.
Saya tegaskan sekali lagi bahawa maklumat di atas bukanlah maklumat yang disahkan secara rasmi, dan semua orang boleh menilai sendiri ketepatannya.

Atas ialah kandungan terperinci Berita terkini! Baidu Wenxin Big Model 4.0: Model parameter terbesar dalam sejarah latihan Wanka, jumpa lagi minggu depan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!