Deepep Dikeluarkan pada Hari 2 Minggu Sumber Terbuka di DeepSeek-AI-php.cn

DeepSeek berada di sini dengan hari ke -2 #OpensourceWeek dan hari ini mereka memperkenalkan Deepep - perpustakaan komunikasi EP sumber terbuka untuk latihan dan kesimpulan model MOE. Sehingga kini, saya telah kagum dengan DeepSeek dan jawapan mereka kepada model Openai, Meta dan banyak lagi. Sekarang, mereka membuka sumber blok bangunan dalam meneroka AGI. Dengan 5 repos (2 sudah dibebaskan) mereka mempamerkan komitmen terhadap ketelusan, kerjasama masyarakat dan kemajuan dalam AI.

pada hari 1 pasukan di DeepSeek mengeluarkan FlashMla dan anda boleh membaca tentangnya di sini - DeepSeek #OpensourceWeek Day 1: Release of FlashMla.

hari ini, kita akan bercakap tentang mendalam secara terperinci.

sorotan utama pelepasan

komunikasi yang cekap dan dioptimumkan semua
kedua -dua sokongan intranode dan internode dengan NVLINK dan RDMA
biji tinggi untuk latihan dan kesimpulan prefilling
biji latency rendah untuk penyahkodan kesimpulan
Sokongan penghantaran FP8 asli
Kawalan Sumber GPU yang fleksibel untuk pengiraan-komunikasi bertindih

Jadual Kandungan

Deepep: Perpustakaan komunikasi yang dioptimumkan untuk moe dan pakar paralelisme
mengapa deepseek membuka? Model
Bagaimana pendaratan terbuka adalah penukar permainan dan apa yang ditawarkannya? Penyahkodan Inference
- Sokongan penghantaran FP8 asli
Kawalan sumber GPU yang fleksibel untuk pengiraan-komunikasi tumpang tindih
- Untuk senario kesimpulan yang menuntut latensi ultra-rendah, terutamanya semasa penyahkodan, Deepep mengintegrasikan satu set kernel RDMA sahaja untuk mengurangkan kelewatan komunikasi dengan ketara. Di samping itu, ia menggunakan pendekatan berasaskan cangkuk yang inovatif untuk bertindih komunikasi dengan pengiraan-tanpa memakan sebarang sumber SM-memastikan kecekapan yang optimum.
  
  mengapa deepseek membuka?
  
  Keputusan DeepSeek untuk membuka sumber teknologinya adalah mengenai membuat AI canggih boleh diakses oleh semua orang. Dengan berkongsi inovasinya, ia memberi kuasa kepada pemaju, penyelidik, dan perniagaan di seluruh industri -sama ada dalam penjagaan kesihatan, sains iklim, atau pertahanan -untuk menolak sempadan dan membina penyelesaian yang lebih maju. Terbuka Akses memupuk kerjasama mempercepatkan kejayaan, dan memastikan pembangunan AI tidak terhad kepada beberapa pilihan.
  
  Deepep adalah "Perpustakaan Komunikasi EP Sumber Terbuka Pertama untuk Latihan dan Kesimpulan Model MOE."
  
  dan bahagian terbaik? Alat DeepSeek boleh didapati di GitHub, menjadikannya mudah bagi sesiapa sahaja untuk meneroka, menyumbang, dan memperbaiki teknologi lagi.
  
  Sekarang, mari kita faham apa campuran pakar (MOE)
  
  Apakah campuran pakar (MOE)?
  
  Saiz model memainkan peranan penting dalam menentukan kualitinya. Dengan belanjawan pengiraan tetap, umumnya lebih berkesan untuk melatih model yang lebih besar untuk langkah -langkah yang lebih sedikit daripada model yang lebih kecil untuk lebih banyak langkah. Di sinilah
  campuran pakar (MOE) dimainkan - ia membolehkan model untuk skala dengan ketara sambil mengoptimumkan kecekapan pengiraan.
  MOE adalah seni bina rangkaian saraf yang direka untuk mengoptimumkan latihan model dan kesimpulan dengan mengaktifkan secara selektif hanya subset parameter semasa pengiraan. Ini membolehkan penggunaan model yang lebih besar tanpa kenaikan berkadar dalam kos pengiraan.
  
  MOE terutamanya terdiri daripada dua komponen utama
  1. Lapisan MOE jarang -ini menggantikan lapisan rangkaian suapan ke hadapan (FFN) tradisional. Daripada satu FFN, lapisan MOE terdiri daripada pelbagai pakar (mis., 8 rangkaian berasingan). Setiap pakar berfungsi sebagai rangkaian saraf yang berdiri sendiri, biasanya FFN, tetapi dalam beberapa kes, pakar -pakar ini boleh menjadi struktur yang lebih kompleks atau bahkan MOE hierarki.
  2. Router atau Gate Network - Mekanisme ini menentukan token mana yang diberikan kepada pakar mana. Sebagai contoh, dalam urutan yang diberikan, satu token mungkin diarahkan kepada Pakar 2, manakala yang lain diproses oleh Pakar 1. Pilihan reka bentuk utama dalam MOE adalah bagaimana token diedarkan di kalangan pakar. Mekanisme penghalaan ditadbir oleh parameter yang boleh dipelajari yang dilatih bersama seluruh model.
  bagaimana MOE berfungsi dalam model pengubah?
  
  Dalam model pengubah standard, setiap token diproses melalui lapisan FFN yang padat. Walau bagaimanapun, dalam model MOE, lapisan FFN yang padat ini digantikan dengan lapisan MOE, yang terdiri daripada pelbagai pakar dan mekanisme gating. Semasa kesimpulan dan latihan, hanya subset pakar -pakar ini diaktifkan setiap token, mengurangkan pengiraan keseluruhan sambil mengekalkan kapasiti model.
  
  faedah model MOE
  - Pretraining yang cekap - MOE membolehkan pretraining model besar dengan keperluan pengiraan yang jauh lebih rendah berbanding dengan model padat, yang membolehkan penyelidik melatih model lebih cepat tanpa kos perkakasan yang berlebihan.
  - Kesimpulan yang lebih cepat - Oleh kerana hanya sebahagian daripada parameter model yang digunakan pada bila -bila masa, kesimpulannya jauh lebih efisien berbanding dengan model yang padat dengan jumlah yang setara.
  - Skalabiliti - MOE membolehkan penyelidik meningkatkan saiz model dan saiz dataset sambil tinggal dalam anggaran pengiraan yang sama sebagai model padat.
  Campuran pakar (MOE) adalah pendekatan yang kuat untuk skala model pengubah dengan cekap, menjadikannya mungkin untuk melatih model besar -besaran dengan kos pengiraan yang dikurangkan. Dengan menggantikan lapisan FFN padat tradisional dengan lapisan MOE yang jarang dan menggunakan mekanisme penghalaan, model -model ini mencapai skala yang tinggi dan kelajuan kesimpulan yang lebih baik. Walau bagaimanapun, perdagangan termasuk peningkatan permintaan memori, kerumitan latihan, dan cabaran merancang strategi penghalaan yang berkesan. Sebagai penyelidikan berterusan, seni bina berasaskan MOE mungkin memainkan peranan penting dalam model AI generasi akan datang.
  
  bagaimana pembukaan mendalam adalah penukar permainan dan apa yang ditawarkannya?
  
  1. Komunikasi yang cekap dan dioptimumkan semua komunikasi
  
  Untuk melatih dan menggunakan model MOE dengan cekap, komunikasi lancar antara nod adalah penting -baik dalam mesin tunggal (intranode) dan merentasi pelbagai mesin (internode). Deepep menangani cabaran ini dengan komunikasi yang sangat dioptimumkan, memastikan pemindahan data yang cepat dan cekap, meminimumkan kesesakan, dan memaksimumkan prestasi.
  
  2. Sokongan intranode dan internode dengan NVLink dan RDMA
  
  Deepep melampaui komunikasi asas, membolehkan intranode lancar dan sambungan internode melalui teknologi canggih seperti NVLINK dan RDMA (akses memori langsung jauh). NVLINK, interkoneksi berkelajuan tinggi NVIDIA, mempercepatkan pertukaran data dalam nod, sementara RDMA meminimumkan latensi dalam pemindahan silang nod, memastikan prestasi optimum untuk sistem AI berskala besar. Inovasi ini secara kolektif mentakrifkan kecekapan, menjadikan pendahuluan sebuah rumah besar untuk beban kerja AI generasi akan datang.
  
  3. Biji tinggi untuk latihan dan kesimpulan prefilling
  
  Deepep direka untuk mengendalikan data berskala besar dengan cekap. Kernel berkelajuan tinggi membolehkan latihan pesat dengan mengoptimumkan bagaimana data bergerak melalui sistem. Semasa prefilling kesimpulan, kernel ini memproses kelompok besar dengan cepat, memastikan prestasi yang lancar dan cekap tanpa kesesakan.
  
  4. Kernel latency rendah untuk penyahkodan kesimpulan
  
  Ketika datang ke ramalan masa nyata, kelajuan adalah segalanya. Kernel latency Deepep meminimumkan kelewatan semasa penyahkodan kesimpulan, memberikan respons segera dengan lag minimum. Ini menjadikannya sesuai untuk aplikasi yang menuntut keputusan pengguna yang cepat dan pengalaman pengguna yang lancar.
  
  5. Sokongan penghantaran FP8 asli
  
  Deepep menonjol dengan sokongan FP8 terbina dalam (terapung 8), format canggih yang meningkatkan kelajuan dan mengurangkan penggunaan memori-sempurna untuk skala model AI. Dengan mengintegrasikan FP8, DeepSeek memastikan perpustakaan kekal di hadapan perkakasan dan algoritma AI yang berkembang. Ini bermakna latihan yang lebih cepat, kos tenaga yang lebih rendah, dan jalan yang lebih cekap ke arah pembangunan AI yang mampan.
  
  6. Kawalan sumber GPU yang fleksibel untuk pengiraan-komunikasi bertindih
  
  Deepep mengoptimumkan penggunaan GPU dengan membolehkan pengiraan serentak dan pemindahan data, meminimumkan downtime dan memaksimumkan prestasi. Sesuai untuk projek AI berskala besar, ia membantu penyelidik dan perniagaan menjimatkan masa dan kos sambil berskala dengan cekap.
  
  Cuba mendalamkan diri anda
  
  Lawati Repositori GitHub - Cari kod sumber, dokumen, dan contoh Deepep pada GitHub untuk bermula dengan cepat.
  
  Terokai Dokumentasi -Ketahui cara menggunakan ciri-ciri utama Deepep seperti NVLINK, RDMA, dan FP8 dengan panduan yang jelas, langkah demi langkah.
  Akhirnya, anda boleh memanfaatkan sebarang alat untuk menguji dan mengintegrasikan Deepep.
  
  Kesimpulan
  
  DeepSeek mengeluarkan Deepep pada Hari 2 Minggu Sumber Terbuka. Ia adalah penukar permainan untuk latihan model dan kesimpulan model pakar (MOE). DeepSeek menawarkan perpustakaan komunikasi EP yang berprestasi tinggi, sumber terbuka. Ia meningkatkan kecekapan, memotong latensi, dan meningkatkan pengurusan sumber untuk beban kerja AI berskala besar. Deepep menyokong NVLINK, RDMA, FP8, dan pertindihan komunikasi pengiraan lancar. Ini memberi kuasa kepada pemaju dan penyelidik untuk memajukan inovasi AI. Komitmen sumber terbuka DeepSeek mempercepat kemajuan AGI. Ia menjadikan alat AI canggih lebih mudah diakses di seluruh dunia.
  
  Tinggal Toanalytics Vidhya Blog untuk analisis terperinci kami mengenai DeepSeek's Day 3 Release!

Atas ialah kandungan terperinci Deepep Dikeluarkan pada Hari 2 Minggu Sumber Terbuka di DeepSeek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!