IBM membangunkan superkomputer AI asli awan Vela untuk menggunakan dan melatih berpuluh bilion model parameter secara fleksibel-AI-php.cn

IBM membangunkan superkomputer AI asli awan Vela untuk menggunakan dan melatih berpuluh bilion model parameter secara fleksibel

王林

Lepaskan： 2023-04-14 13:46:03

ke hadapan

1504 orang telah melayarinya

ChatGPT popular di Internet, dan latihan model AI di belakangnya juga telah menarik perhatian yang meluas. IBM Research baru-baru ini mengumumkan bahawa superkomputer asli awan Vela yang dibangunkannya boleh digunakan dengan cepat dan digunakan untuk melatih model AI asas. Sejak Mei 2022, berpuluh-puluh penyelidik syarikat telah menggunakan superkomputer ini untuk melatih model AI dengan berpuluh bilion parameter.

IBM membangunkan superkomputer AI asli awan Vela untuk menggunakan dan melatih berpuluh bilion model parameter secara fleksibel

Model asas ialah model AI yang dilatih pada sejumlah besar data tidak berlabel, dan kepelbagaiannya bermakna ia boleh digunakan untuk pelbagai tugas yang berbeza hanya dengan penalaan halus. Skala mereka sangat besar dan memerlukan kuasa pengkomputeran yang besar dan mahal. Oleh itu, seperti yang dikatakan pakar, kuasa pengkomputeran akan menjadi hambatan terbesar dalam membangunkan model asas berskala besar generasi akan datang, dan melatihnya memerlukan banyak kuasa dan masa pengkomputeran.

Melatih model yang boleh menjalankan berpuluh bilion atau ratusan bilion parameter memerlukan penggunaan perkakasan pengkomputeran berprestasi tinggi, termasuk rangkaian, sistem fail selari dan nod logam terdedah. Perkakasan ini sukar untuk digunakan dan mahal untuk dijalankan. Microsoft membina superkomputer AI untuk OpenAI pada Mei 2020 dan mengehoskannya dalam platform awan Azure. Tetapi IBM mengatakan ia dipacu perkakasan, yang meningkatkan kos dan mengehadkan fleksibiliti.

superkomputer Cloud AI

Oleh itu, IBM mencipta sistem yang dipanggil Vela yang "tertumpu secara khusus pada AI berskala besar."

Vela boleh digunakan ke mana-mana pusat data awan IBM mengikut keperluan, dan ia sendiri merupakan "awan maya". Walaupun pendekatan ini mengurangkan kuasa pengkomputeran berbanding membina superkomputer berasaskan fizik, ia mencipta penyelesaian yang lebih fleksibel. Penyelesaian pengkomputeran awan menyediakan jurutera dengan sumber melalui antara muka API, akses yang lebih mudah kepada ekosistem awan IBM yang luas untuk penyepaduan yang lebih mendalam dan keupayaan untuk menskalakan prestasi mengikut keperluan.

Jurutera IBM menjelaskan bahawa Vela dapat mengakses set data pada Storan Objek Awan IBM dan bukannya membina bahagian belakang storan tersuai. Sebelum ini infrastruktur ini perlu dibina secara berasingan ke dalam superkomputer.

Satu komponen utama mana-mana superkomputer AI ialah sejumlah besar GPU dan nod yang menyambungkannya. Vela sebenarnya mengkonfigurasi setiap nod sebagai mesin maya (bukan logam kosong Ini adalah kaedah yang paling biasa dan secara meluas dianggap sebagai kaedah yang paling ideal untuk latihan AI).

Bagaimana Vela dibina?

Salah satu kelemahan komputer maya awan ialah prestasi tidak boleh dijamin. Untuk menangani kemerosotan prestasi dan menyampaikan prestasi logam kosong di dalam mesin maya, jurutera IBM menemui cara untuk membuka kunci prestasi nod penuh (termasuk GPU, CPU, rangkaian dan storan) dan mengurangkan kehilangan beban kepada kurang daripada 5%.

Ini melibatkan konfigurasi hos logam kosong untuk virtualisasi, menyokong penskalaan VM, halaman besar dan virtualisasi IO akar tunggal, serta perwakilan realistik semua peranti dan sambungan dalam VM juga termasuk kad rangkaian dan CPU dan GPU perlawanan, dan bagaimana mereka merapatkan satu sama lain. Selepas menyelesaikan kerja ini, mereka mendapati bahawa prestasi nod mesin maya adalah "hampir dengan logam kosong."

Selain itu, mereka juga komited untuk mereka bentuk nod AI dengan memori GPU yang besar dan jumlah storan tempatan yang besar untuk menyimpan data latihan AI, model dan produk siap. Dalam ujian menggunakan PyTorch, mereka mendapati bahawa dengan mengoptimumkan corak komunikasi beban kerja, mereka juga dapat merapatkan kesesakan rangkaian Ethernet yang agak perlahan berbanding rangkaian yang lebih pantas seperti Infiniband yang digunakan dalam superkomputer.

Dari segi konfigurasi, setiap Vela menggunakan lapan GPU 80GB A100, dua pemproses boleh skala Intel Xeon generasi kedua, memori 1.5TB dan empat pemacu keras 3.2TB NVMe, dan boleh digunakan pada sebarang skala. Pusat data awan IBM di seluruh dunia.

Jurutera IBM berkata: "Memiliki alatan dan infrastruktur yang betul adalah faktor utama dalam meningkatkan kecekapan R&D. Banyak pasukan memilih untuk mengikuti laluan yang telah dicuba dan benar untuk membina superkomputer tradisional untuk AI... Kami telah mengusahakan penyelesaian yang lebih baik untuk menyampaikan dua faedah pengkomputeran berprestasi tinggi dan produktiviti pengguna mewah”

Atas ialah kandungan terperinci IBM membangunkan superkomputer AI asli awan Vela untuk menggunakan dan melatih berpuluh bilion model parameter secara fleksibel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!