22 bilion transistor, pemproses pembelajaran mesin IBM NorthPole, kecekapan tenaga meningkat sebanyak 25 kali ganda-AI-php.cn

22 bilion transistor, pemproses pembelajaran mesin IBM NorthPole, kecekapan tenaga meningkat sebanyak 25 kali ganda

PHPz

Lepaskan： 2023-10-23 15:13:01

ke hadapan

1034 orang telah melayarinya

IBM hadir lagi.

Dengan perkembangan pesat sistem AI, keperluan tenaga mereka juga semakin meningkat. Melatih sistem baharu memerlukan set data yang besar dan masa pemproses, menjadikannya sangat intensif tenaga. Dalam sesetengah kes, telefon pintar boleh melakukan tugas dengan mudah dengan melaksanakan beberapa sistem yang terlatih. Walau bagaimanapun, jika ia dilaksanakan terlalu banyak kali, penggunaan tenaga juga akan meningkat.

Nasib baik, terdapat banyak cara untuk mengurangkan penggunaan tenaga yang terakhir. IBM dan Intel telah bereksperimen dengan pemproses yang direka untuk meniru tingkah laku neuron sebenar. IBM juga menguji melaksanakan pengiraan rangkaian saraf dalam memori perubahan fasa untuk mengelakkan akses berulang kepada RAM.

Kini, IBM telah memperkenalkan kaedah lain. Pemproses NorthPole baharu syarikat itu mensintesis beberapa idea daripada pendekatan di atas dan menggabungkannya dengan cara yang sangat diperkemas untuk menjalankan pengiraan, mencipta cip cekap tenaga yang boleh melaksanakan rangkaian saraf berasaskan inferens dengan cekap. Cip adalah 35 kali lebih cekap daripada GPU dalam bidang seperti klasifikasi imej atau transkripsi audio.

22 bilion transistor, pemproses pembelajaran mesin IBM NorthPole, kecekapan tenaga meningkat sebanyak 25 kali ganda

Blog rasmi: https://research.ibm.com/blog/northpole-ibm-ai-chip

Perbezaan antara NorthPole dan pemprosesan AI tradisional Pemproses yang berbeza

semua, NorthPole tidak melakukan apa-apa untuk keperluan latihan rangkaian saraf, ia direka semata-mata untuk pelaksanaan.

Kedua, ia bukan pemproses AI tujuan umum, tetapi direka khusus untuk rangkaian saraf fokus inferens. Jadi, jika anda ingin menggunakannya untuk menaakul, ketahui kandungan imej atau klip audio, dsb., maka ia adalah betul. Tetapi jika anda perlu menjalankan model bahasa yang besar, cip ini nampaknya tidak begitu berguna.

Akhirnya, sementara NorthPole meminjam beberapa idea daripada cip pengkomputeran neuromorfik, ia bukanlah perkakasan neuromorfik kerana unit pemprosesannya melakukan pengiraan dan bukannya meniru komunikasi spiking yang digunakan oleh neuron sebenar.

NorthPole, seperti TrueNorth sebelum ini, terdiri daripada pelbagai besar sel pengiraan (16×16), setiap satu mengandungi memori tempatan dan keupayaan pelaksanaan kod. Oleh itu, semua berat pelbagai sambungan dalam rangkaian saraf boleh disimpan dengan tepat di mana ia diperlukan.

Ia juga menampilkan rangkaian pada cip yang luas, dengan sekurang-kurangnya empat rangkaian berbeza. Sesetengah rangkaian ini membawa maklumat tentang pengiraan yang telah siap ke unit pengkomputeran seterusnya yang memerlukannya. Rangkaian lain digunakan untuk mengkonfigurasi semula keseluruhan tatasusunan unit pengkomputeran, menyediakan berat neural dan kod yang diperlukan untuk melaksanakan satu lapisan rangkaian saraf sementara lapisan sebelumnya masih dikira. Akhir sekali, komunikasi antara unit pengkomputeran bersebelahan dioptimumkan. Ini berguna untuk perkara seperti mencari tepi objek dalam imej. Jika piksel bersebelahan diperuntukkan kepada unit pengkomputeran bersebelahan apabila imej dimasukkan, mereka boleh bekerjasama dengan lebih mudah untuk mengenal pasti ciri yang menjangkau piksel bersebelahan.

Selain itu, sumber pengkomputeran NorthPole juga luar biasa. Setiap unit dioptimumkan untuk melakukan pengiraan ketepatan yang lebih rendah, antara 2 bit hingga 8 bit. Untuk memastikan penggunaan unit pelaksanaan ini, mereka tidak boleh melaksanakan cawangan bersyarat berdasarkan nilai pembolehubah. Iaitu, kod pengguna tidak boleh mengandungi penyata if. Pelaksanaan mudah ini membolehkan pelaksanaan selari secara besar-besaran bagi setiap unit pengkomputeran. Pada ketepatan 2-bit, setiap unit boleh melakukan lebih daripada 8,000 pengiraan secara selari.

Perisian Pengiring

Disebabkan reka bentuk unik ini, pasukan NorthPole perlu membangunkan perisian latihan mereka sendiri untuk mengira tahap ketepatan minimum yang diperlukan untuk setiap lapisan untuk beroperasi dengan jayanya. Melaksanakan rangkaian saraf pada cip juga merupakan proses yang agak luar biasa.

Setelah pemberat dan sambungan rangkaian saraf diletakkan dalam penimbal pada cip, pelaksanaan hanya memerlukan pengawal luaran untuk memuat naik data yang ingin dijalankan dan menyuruhnya mula berjalan. Segala-galanya berjalan tanpa CPU, yang mengehadkan penggunaan kuasa peringkat sistem.

Cip ujian

NorthPole dihasilkan pada proses 12nm, yang jauh di belakang canggih. Namun, mereka berjaya memuatkan 256 unit pengkomputeran pada 22 bilion transistor, setiap satu dengan memori 768 KB. Apabila sistem dibandingkan dengan GPU Teras Tensor V100 Nvidia, yang dibina pada proses yang sama, NorthPole mempunyai 25 kali kuasa pengkomputeran pada penggunaan kuasa yang sama.

Di bawah keadaan yang sama, NorthPole mengungguli GPU terkini sebanyak lebih kurang lima kali ganda. Ujian sistem telah menunjukkan bahawa ia juga boleh melaksanakan pelbagai tugas rangkaian saraf yang digunakan secara meluas.

Atas ialah kandungan terperinci 22 bilion transistor, pemproses pembelajaran mesin IBM NorthPole, kecekapan tenaga meningkat sebanyak 25 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!