Di Persidangan Kuasa Pengkomputeran AI Teknologi Qingyun, Miao Hui, pengurus produk, memperkenalkan secara terperinci platform penjadualan kuasa pengkomputeran AI Qingyun dan perkhidmatan awan kuasa pengkomputeran AI Qingyun. Berikut adalah teks penuh ucapan:
Pengguna kecerdasan buatan menghadapi cabaran kuasa pengkomputeran
Dengan ledakan industri kecerdasan buatan, AIGC, model besar, pengkomputeran penyelidikan saintifik, data besar peringkat perusahaan dan kecerdasan buatan telah mengemukakan permintaan yang lebih tinggi ke atas pusat kuasa pengkomputeran. Terutamanya dalam menghadapi pusat data dengan kuasa pengkomputeran tunggal, ia tidak lagi dapat memenuhi permintaan yang semakin meningkat untuk kuasa pengkomputeran dalam semua bidang kehidupan Oleh itu, lebih banyak pusat pengkomputeran pintar, pusat pengkomputeran super dan perkhidmatan pengkomputeran awan am diperlukan untuk menyediakan. perkhidmatan kuasa pengkomputeran kepada seluruh masyarakat.
Walau bagaimanapun, pengguna industri AI, infrastruktur AI dan kuasa pengkomputeran AI juga menghadapi beberapa siri cabaran:
Bottleneck pengurusan bersatu pelbagai sumber. Berdepan dengan keperluan pengguna untuk berbilang kuasa pengkomputeran, storan berbilang, keseluruhan rangkaian pengkomputeran dan perkhidmatan berdekatan, Qingyun menyediakan platform penjadualan perkhidmatan bersepadu pengurusan pelbagai sumber untuk menyelesaikan situasi huru-hara pengurusan berbilang sumber.
Sesak rangkaian berkelajuan tinggi. Dari segi pembinaan rangkaian berkelajuan tinggi AI, Qingyun menggunakan rangkaian berkelajuan tinggi untuk menyambungkan peranti pengkomputeran dan storan, dan menggunakan rangkaian tujuan umum untuk menerbitkan perkhidmatan aplikasi, iaitu, Qingyun menyelesaikan masalah rangkaian berkelajuan tinggi berbilang wilayah melalui platform Qingyun .
Kesempitan pembinaan persekitaran yang menyusahkan. Jurutera algoritma dan jurutera R&D mungkin membuang banyak masa untuk menyediakan persekitaran asas seperti pelayan perkakasan dan pelayan storan Melalui perkhidmatan pengkomputeran pintar Qingyun AI, platform latihan dan platform model inferens, pembinaan persekitaran dipermudahkan dan penggunaan satu klik boleh dilakukan. dicapai.
Berbilang kesesakan integrasi perniagaan. Qingyun menyepadukan berbilang perniagaan dan menggabungkan pengkomputeran awan tradisional, pengkomputeran super dan pengkomputeran pintar untuk menyediakan perkhidmatan pengkomputeran panoramik untuk lebih banyak perniagaan dan lebih ramai pelanggan.
Kurang perkhidmatan operasi. Qingyun juga menyediakan operasi komprehensif dan perkhidmatan pengurusan operasi dan penyelenggaraan kepada pusat operasi kuasa pengkomputeran dan jabatan pengurusan kuasa pengkomputeran.
Platform penjadualan kuasa pengkomputeran Qingyun AI
Seni bina produk tindanan penuh bagi produk penjadualan AI Qingyun ialah berbilang AZ dan berbilang zon, iaitu produk di berbilang wilayah boleh disatukan dan disepadukan untuk menyediakan perkhidmatan kuasa pengkomputeran kepada seluruh masyarakat dengan perkhidmatan global. Secara khusus, ia akan mengurus infrastruktur asas, menjadikan infrastruktur itu logik dan berorientasikan perniagaan melalui lapisan logik data, dan membentuk kelompok kuasa pengkomputeran AI melalui produk atau perkhidmatan tertentu, termasuk hos GPU, logam kosong, virtualisasi, borang perkongsian, dsb. , perkhidmatan inferens kontena, pasaran model dan perniagaan lain yang berkaitan, menyediakan penjadualan kuasa pengkomputeran dan keupayaan pelaksanaan senario aplikasi untuk pelanggan di seluruh industri.
Model baharu pusat pembinaan kuasa pengkomputeran merangkumi semua aspek
Secara amnya, keupayaan platform penjadualan kuasa pengkomputeran AI yang disediakan oleh Teknologi Qingyun adalah berdasarkan empat aspek berikut:
Pertama, keseluruhan platform serasi dengan semua cip pengkomputeran di pasaran (termasuk cip Xinchuang yang baru dihasilkan), serta kad grafik dan kad rangkaian berkaitan GPU.
Kedua, laksanakan pengurusan bersatu, pengedaran, pemantauan dan penjadualan sumber penyesuaian di atas, dan menyediakan fungsi pengurusan dalam talian kitaran hayat penuh daripada aplikasi pengguna hingga dikeluarkan selepas digunakan.
Ketiga, bagi pihak pengurusan dan pihak pengguna, platform pengurusan bersatu Qingyun membolehkan pengguna dan pentadbir mengendalikan sepenuhnya infrastruktur AI dan perkhidmatan awan kuasa pengkomputeran AI.
Menghadapi bidang pengkomputeran pintar, Qingyun akan mengkomersialkan dan berasaskan senario lebih banyak perkhidmatan, seperti latihan dan penaakulan model bahasa yang besar, dan perkhidmatan pengimbangan beban berdasarkan penjanaan berasaskan teks juga boleh menyediakan pelanggan dengan platform penjadualan kuasa pengkomputeran AI . Operasi yang mudah seperti penggunaan satu klik, pengembangan satu klik dan pengimbangan beban satu klik. Dari segi pengimbangan beban, terutamanya dalam rangkaian, rangkaian awam dan infrastruktur pengkomputeran, ia boleh mencapai penghantaran peringkat kedua dan pengembangan kapasiti peringkat kedua.
Akhir sekali, berdasarkan tiga keupayaan di atas, Qingyun boleh menyokong pengkomputeran dalam pelbagai industri termasuk pengkomputeran berprestasi tinggi, pengkomputeran kecerdasan buatan dan model pengkomputeran am, mewujudkan platform pengurusan, pengedaran dan operasi pengguna yang bersatu dengan inovasi bebas dan fungsi lengkap untuk pelanggan. .
Sembilan kebolehan untuk membuka kunci kebebasan kuasa pengkomputeran AI
Selama bertahun-tahun pengumpulan industri, platform penjadualan kuasa pengkomputeran Qingyun AI telah membentuk sembilan keupayaan utama:
1. Keupayaan penyepaduan sumber berbilang wilayah dan pelbagai perniagaan
Terutama untuk kepelbagaian perkhidmatan kuasa pengkomputeran di barat Sichuan atau wilayah barat laut Apabila menyediakan perkhidmatan kuasa pengkomputeran ke wilayah timur, institusi penyelidikan saintifik dan universiti, Qingyun boleh mengurus sumber secara berpusat di pelbagai wilayah dan membina rangkaian berkelajuan tinggi yang berkesan melalui kerjasama. dengan operator telekomunikasi.
2. Keupayaan penjadualan dan pengurusan yang diedarkan
Mengikut prinsip penggunaan berdekatan, Qingyun mengurus dan memperuntukkan semua infrastruktur (termasuk sumber pengkomputeran dan sumber storan) di wilayah yang berbeza, pusat pengkomputeran dan pusat data, serta mengkonfigurasi keutamaan penjadualan, termasuk perkaitan dan bukan perkaitan. Pada VM, hos dan pelayan logam kosong (termasuk bekas berdasarkan Bekas dan Pod), konfigurasi data perkaitan dan bukan perkaitan boleh dilakukan pada bahagian pengurusan platform penjadualan kuasa pengkomputeran Qingyun untuk memastikan keutamaan penjadualan data tujuannya adalah untuk memastikan pengguna mendapat pengalaman yang konsisten dalam penggunaan akhir data, aplikasi untuk sumber pengkomputeran, latihan perniagaan dan penaakulan perniagaan.
3. Keupayaan penjadualan sumber
Dari segi keupayaan penjadualan sumber, Qingyun mempunyai enam kelebihan utama berikut:
1) Segera jadualkan dan kembangkan sumber berpuluh ribu kad
Terutamanya berorientasikan senario pengkomputeran AI, terutamanya inferens model besar Sesetengah senario model memerlukan inferens beberapa kali setahun, yang memerlukan pembinaan platform latihan dengan berpuluh-puluh atau bahkan berpuluh-puluh ribu kad dalam sekelip mata. Mengikut keperluan ini, pengurusan terbina dalam, penyesuaian dan sumber boleh dijalankan pada platform penjadualan kuasa pengkomputeran Qingyun AI untuk memastikan kluster kuasa pengkomputeran dapat menyokong sumber berpuluh ribu kad dengan serta-merta dan boleh dikeluarkan serta-merta selepas guna. Dari segi persekitaran dan konfigurasi sumber, platform penjadualan kuasa pengkomputeran Qingyun AI telah melakukan banyak automasi untuk memastikan sumber Wanka boleh dijadualkan secara seragam.
2) Penjadualan keutamaan terpendek pautan komunikasi
Untuk mengelakkan data daripada dilencongkan, ini juga merupakan tujuan utama platform penjadualan kuasa pengkomputeran Qingyun AI. Dalam senario latihan AI dan inferens AI, akan terdapat sejumlah besar interaksi data antara nod dan antara nod dan storan Dalam kes ini, Qingyun melakukan beberapa konfigurasi pada suis pada masa yang sama untuk memastikan sumber pengkomputeran dan storan boleh. berada pada satu suis Utamakan penjadualan dalam bilik komputer atau kabinet untuk mengelakkan data daripada dilencongkan dan mengurangkan kekangan penghantaran rangkaian yang sukar semasa latihan AI.
3) Sokong platform heterogen
Pengguna boleh memilih perkhidmatan yang berbeza untuk dijalankan pada kad yang berbeza apabila membina kluster Teknologi Qingyun juga menjalankan penyesuaian domestik dan penggantian cip domestik. 4) Meningkatkan butiran sistem penjadualan
Yang pertama ialah sistem penjadualan berasaskan Slurm, dan yang kedua ialah sistem penjadualan berasaskan K8s. Dari segi butiran sistem penjadualan, pengguna boleh melihat ketepatan peringkat pekerjaan yang sebenar Apabila setiap tugas latihan dijalankan pada setiap proses pada setiap kad, ia boleh dilaksanakan melalui pemantauan data berskala besar, penjadualan perniagaan, dsb. anomali kerja memastikan bahawa pengguna boleh mengendalikan situasi tugas latihan yang tidak normal tepat pada masanya untuk memaksimumkan penjadualan sumber dan mengurangkan pembaziran pada tahap ini Jika ada sesuatu yang salah, ubah suai dengan segera dan jalankannya dengan segera.
5) Pihak pengurusan melaksanakan konfigurasi keutamaan penjadualan
Oleh kerana pusat kuasa pengkomputeran yang berbeza akan mengendalikan perkhidmatan kuasa pengkomputeran yang berbeza, terutamanya dalam kes berbilang pusat data, pengguna boleh mengutamakan penjadualan melalui platform penjadualan kuasa pengkomputeran AI Qingyun Semuanya terbina dalam pada peringkat awal, dan pengguna juga boleh pra-tetap dalam peringkat kemudian Tetapan seperti pengekalan, jeda, resume, tetapan keutamaan, beratur, dan lain-lain boleh meningkatkan keutamaan. Di peringkat pengurusan, Qingyun boleh mengutamakan peruntukan sumber untuk pengguna yang memohon aplikasi khas atau pengguna dengan keutamaan yang tinggi.
6) Penjadualan fleksibel dan peruntukan sumber untuk industri pengkomputeran pintar
Qingyun boleh menjadualkan dan mengkonfigurasi sumber secara dinamik dan fleksibel untuk menyelesaikan keutamaan yang mencabar dalam sistem AI. Inilah sebab mengapa Qingyun terus menemui masalah baharu dalam kuasa pengkomputeran penjadualan AI atau senario AI, sentiasa menggunakan platform untuk menyelesaikan masalah baharu dan menggunakan produk baharu untuk menyelesaikan beberapa masalah utama dalam industri.
4. Keupayaan storan selari berkelajuan tinggi
Produk pengkomputeran dan storan Qingyun adalah pelbagai dan pelbagai, menyediakan tiga jenis storan berikut:
1) Penyimpanan Objek Qingyun U10000
Model storan, kod dan panggilan data yang biasa digunakan, terutamanya untuk sandaran data berskala besar dan operasi membaca data.
2) Storan fail selari KWSP
Dari segi penulisan data selari berskala besar, Qingyun menyediakan storan fail selari KWSP, yang terutamanya menyediakan storan fail selari semua denyar untuk operasi penulisan data peringkat MPI.
3) Penyimpanan fail NAS
Anda boleh menyimpan beberapa dokumen biasa, teks, dsb. Semua produk storan Qingyun boleh disambungkan secara dalaman dengan produk pengkomputerannya sendiri untuk melaksanakan penghantaran data, pengedaran, sandaran, dsb. pada rangkaian berkelajuan tinggi dalaman.
5. Keupayaan rangkaian hibrid
Rangkaian berkelajuan tinggi yang berbeza boleh disediakan untuk senario pengkomputeran yang berbeza, seperti rangkaian IB pengkomputeran dan rangkaian IB storan Bagaimana untuk mengkonfigurasinya secara optimum?
Qingyun menghubungkan antara produk pengkomputeran konfigurasi tinggi dan produk storan konfigurasi tinggi, serta menghubungkan produk konfigurasi sederhana dan rendah untuk senario latihan, senario inferens dan senario perkhidmatan aplikasi umum.
6. Keupayaan sokongan pembangunan algoritma
Untuk pembangun algoritma, Qingyun menyediakan produk perkhidmatan awan yang lebih komprehensif Terutamanya dalam peringkat pembangunan algoritma, sejumlah besar pelarasan parameter dan penulisan kod berskala besar diperlukan semasa latihan dan penggunaan, disebabkan oleh operasi di dalam dan di luar awan. masalah besar mungkin berlaku. Muat naik data berskala besar, muat turun atau salinan kod tidak sesuai untuk pengeditan dalam talian dan operasi segera.
Oleh itu, Qingyun menyediakan platform pembangunan algoritma dari segi pembangunan algoritma Ia boleh melancarkan persekitaran pembangunan dalam talian berdasarkan perkhidmatan awan, membina sepenuhnya projek Python dan projek VC, dan menggunakan fail projek dan persekitaran kejuruteraan dalam talian untuk menjalankan penyelidikan dan pembangunan kod.
Semasa proses pembangunan, jika terdapat sebarang keperluan untuk penyahpepijatan, ia boleh diperluaskan dengan segera jika latihan diperlukan, tugasan kerja boleh segera diserahkan kepada kluster latihan, jika inferens diperlukan, ia boleh diletakkan pada kluster inferens .
Pada masa yang sama, semasa proses pembangunan algoritma, mungkin terdapat beberapa bentuk pembangunan bersama atau pembangunan bercampur Qingyun juga menyediakan gudang kod dan gudang cermin untuk pengurusan model Kakitangan yang berbeza menggunakan kebenaran yang berbeza untuk menjalankan pembangunan algoritma dan penggabungan perkhidmatan .
Ringkasnya, Qingyun terutamanya menyediakan produk pengkomputeran dan produk penjadualan untuk semua senario pembangunan untuk pembangun algoritma, memastikan keseluruhan perniagaan pembangunan algoritma boleh dikendalikan dengan berkesan pada awan dan mengurangkan operasi muat naik dan muat turun berskala besar.
7. Platform latihan AI
Jika pembangunan algoritma hampir siap atau memerlukan penyahpepijatan, sejumlah besar infrastruktur kuasa pengkomputeran perlu diaktifkan untuk pembangunan dan latihan Berdasarkan infrastruktur, Qingyun menyediakan platform latihan AI untuk memperkasakan pengguna.
Selepas sumber GPU, sumber storan dan sumber rangkaian dibina, pengguna boleh membina secara bebas melalui platform awan dan mencapai operasi satu klik. Platform latihan Qingyun AI terutamanya membina kelompok dalam talian berdasarkan sumber GPUnya sendiri Selepas pembinaan selesai, storan tertentu akan dipasang secara lalai, dan pengguna boleh memilih sendiri.
Platform latihan Qingyun AI juga akan mempunyai persekitaran pembangunan dalam talian terbina dalam Beberapa rangka kerja latihan yang biasa digunakan juga akan dibina dalam persekitaran pembangunan Ia akan menyediakan pengguna dengan senario penuh dan persekitaran aplikasi penuh melalui kluster, membolehkan pengguna menjalankan pengedaran latihan dalam talian pada pelbagai mesin.
8. Platform Perkhidmatan Inferens Kontena Selepas latihan model besar hampir selesai, platform perkhidmatan inferens kontena Qingyun boleh memainkan peranan apabila menyediakan perkhidmatan inferens kepada orang ramai.
Melalui platform perkhidmatan inferens kontena Qingyun, selepas pengguna menggunakan perkhidmatan inferens, mereka kemudiannya boleh menggunakan pengimbangan beban dan penskalaan automatik yang dikonfigurasikan untuk memastikan lawatan pengguna boleh dipanggil dengan segera. Pada masa yang sama, Qingyun menyediakan perkhidmatan pemantauan dalam talian kepada pelanggan Jika terdapat masalah dengan perkhidmatan inferens, pengguna boleh memantau dengan segera apa yang salah dengan inferens kontena, dan Qingyun boleh menyelesaikannya dalam talian. Untuk operasi serentak dan operasi panggilan berskala besar, Qingyun juga boleh melakukan pengimbangan beban dan penskalaan automatik, sekali gus mengurangkan operasi konfigurasi manual.
9 Gudang Model (MaaS)
Qingyun Model Warehouse (MaaS) ditujukan terutamanya kepada pelanggan perkhidmatan kuasa pengkomputeran AI dan pelanggan pengkomputeran am Penyedia perkhidmatan model boleh meletakkan produk di pasaran aplikasi dan pasaran model mengikut keperluan model mereka sendiri, menjadikannya mudah untuk pelanggan pelbagai perusahaan untuk. panggil dan gunakannya dengan satu klik.
Tiga: Rangsang nilai yang pelbagai dan percepatkan pelaksanaan senario
Secara amnya, tujuan platform penjadualan kuasa pengkomputeran Qingyun AI adalah untuk mengurus infrastruktur AI seperti sumber tempatan, yang terutamanya ditunjukkan dalam lima aspek utama:
1. Menyediakan penjadualan bersatu kuasa pengkomputeran berbilang
Menghadapi sumber GPU, sumber CPU, cip domestik, rangka kerja aplikasi, aplikasi dan senario perniagaan pengguna, Qingyun menggunakan platform bersatu untuk penjadualan dan pengurusan, termasuk kemudahan storan dan kemudahan rangkaian.
2. Realisasikan penjadualan kuasa pengkomputeran pintar berdasarkan infrastruktur
Dari segi keutamaan dan pertalian penjadualan kuasa pengkomputeran, berdasarkan VM, hos dan bekas, pengguna boleh merealisasikan penjadualan dan konfigurasi kuasa pengkomputeran pintar, serta perkhidmatan pengurusan melalui platform Qingyun.
3 Penyesuaian yang pantas dan berkesan kepada cip domestik dengan berkesan dan cepat dapat menyesuaikan diri dengan cip domestik, memastikan perkhidmatan algoritma setempat dan kod setempat dapat dijalankan dengan segera pada cip domestik.
4. Perkhidmatan visualisasi
Dari segi operasi dan penyelenggaraan pintar untuk pihak pengurusan, pemantauan dan perkhidmatan penggera Qingyun menyediakan pelanggan dan pentadbir dengan operasi visual melalui platform operasi dan penyelenggaraan yang besar.
5. Pasaran aplikasi yang kaya
Qingyun Technology sedang giat membina ekosistem dan mewujudkan pasaran aplikasi yang kaya, supaya aplikasi dan pelanggan dari semua lapisan masyarakat boleh mendapatkan sumber pengkomputeran dan sumber perniagaan yang mereka inginkan pada platform pengkomputeran AI Qingyun.
Pada masa ini, platform penjadualan kuasa pengkomputeran Qingyun AI telah dilaksanakan dalam aplikasi superkomputer Jinan, dan Sunward Cloud telah berada dalam talian untuk menyediakan perkhidmatan operasi. Berdasarkan puluhan ribu infrastruktur perkakasan superkomputer Jinan, pelbagai rangkaian pengkomputeran, pelayan, dll., Qingyun menyediakan perkhidmatan penyenaraian, pengurusan dan penjadualan, menjalankan pengurusan bersatu, integrasi dan pengedaran, dan menyediakan produk penjadualan kuasa pengkomputeran dan kuasa pengkomputeran. produk perkhidmatan awan kepada pelanggan dari semua lapisan masyarakat.
Perkhidmatan awan kuasa pengkomputeran AI Qingyun
Produk perkhidmatan awan kuasa pengkomputeran AI Qingyun juga dilancarkan pada awan awam Qingyun untuk menyediakan perkhidmatan, terutamanya untuk senario latihan model besar.
Untuk kad dengan keutamaan yang agak tinggi dan konfigurasi tinggi, Qingyun menyediakan produk perkhidmatan pengkomputeran awan awam Dalam senario AI, Qingyun membina kluster pengkomputeran GPU yang diedarkan dengan sumber asas, mengikatnya ke persekitaran rangkaian awam dan membolehkan pengguna melakukan akses. .
Pengguna boleh memuat naik data ke storan fail selari berdasarkan ini, atau mereka boleh menyepadukan storan fail selari dan kelompok pengkomputeran GPU ke dalam rangkaian yang sama untuk memastikan keselamatan data dan keselamatan perkhidmatan awan melalui rangkaian peribadi. Anda juga boleh menjalankan perniagaan anda melalui latihan dalam talian dan akses SSH jauh kepada kluster pengkomputeran teragih dan storan fail selari.
Dari segi perniagaan, pengguna boleh menggunakan kluster pengkomputeran AI dan perkhidmatan inferens kontena, dan infrastruktur mereka ialah sumber A800, pelayan logam kosong dan pelayan maya. Semua produk perkhidmatan awan kuasa pengkomputeran AI Qingyun menggunakan rangkaian saling berkaitan berkelajuan tinggi dan menerima pakai persekitaran dalam talian, persekitaran pembangunan, latihan dan persekitaran penaakulan yang diperlukan oleh industri kuasa pengkomputeran AI Semua orang dialu-alukan untuk memohon pendaftaran dan percubaan.
Atas ialah kandungan terperinci Penjelasan terperinci mengenai pelancaran Qingyun Technology bagi produk dan perkhidmatan kuasa pengkomputeran AI untuk menangani cabaran kuasa pengkomputeran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!