


Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 |
FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100!
Lao Huang mahu semua orang menggunakan INT8/INT4 Pasukan Microsoft DeepSpeed secara paksa mula menjalankan FP6 pada A100 tanpa sokongan rasmi daripada NVIDIA.
Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx's FP6 kuantisasi kelajuan pada A100 adalah hampir atau sekali-sekala melebihi INT4, dan ia mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Atas dasar ini, terdapat juga
sokongan model besar dari hujung ke hujung, yang telah sumber terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Hasil ini juga memberi kesan serta-merta pada pecutan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad.
Selepas membacanya, seorang penyelidik pembelajaran mesin berkata bahawa penyelidikan Microsoft boleh digambarkan sebagai gila.
pek emotikon juga dalam talian serta-merta, jadi seperti:
Microsoft: Baik, saya akan buat sendiri.
Jadi, apakah jenis kesan yang boleh dicapai oleh rangka kerja ini, dan apakah jenis teknologi yang digunakan di belakangnya?
Menggunakan FP6 untuk menjalankan Llama, satu kad lebih pantas daripada dua kad
Menggunakan ketepatan FP6 pada A100 membawa
peningkatan prestasi peringkat kernel. Para penyelidik memilih lapisan linear dalam model Llama dan model OPT dengan saiz yang berbeza, dan mengujinya menggunakan CUDA 11.8 pada platform GPU NVIDIA A100-40GB.
Hasilnya dibandingkan dengan cuBLAS rasmi NVIDIA
(W16A16)dan TensorRT-LLM(W8A16), peningkatan kelajuan maksimum TC-FPx(W6A16) masing-masing ialah 2.6 kali dan 1.9 kali Berbanding dengan kaedah 4bit BitsandBytes(W4A16), peningkatan kelajuan maksimum TC-FPx ialah 8.9 kali. . keperluan untuk akses memori DRAM, dan menambah baik penggunaan lebar jalur DRAM dan penggunaan Tensor Cores, serta penggunaan unit ALU dan FMA.
Rangka kerja inferens hujung ke hujung FP6-LLM
direka berdasarkan TC-FPx juga membawa peningkatan prestasi yang ketara kepada model besar.
Mengambil Llama-70B sebagai contoh, daya pemprosesan menjalankan FP6-LLM pada satu kad adalah 2.65 kali lebih tinggi daripada FP16 pada dwi kad, dan kependaman dalam saiz kelompok di bawah 16 juga lebih rendah daripada FP16.Jadi, bagaimanakah pasukan Microsoft mencapai kuantisasi FP16 yang dijalankan pada A100? Penyelesaian kernel yang direka bentuk semula
Untuk menyokong ketepatan termasuk 6bit, pasukan TC-FPx mereka bentuk penyelesaian kernel bersatu yang boleh menyokong berat pengkuantitian lebar bit yang berbeza. Berbanding dengan kaedah dwi-teras tradisional, TC-FPx mengurangkan bilangan akses memori dan meningkatkan prestasi dengan menyepadukan penyahkuansian dan pendaraban matriks dalam satu teras.Rahsia teras untuk mencapai pengkuantitian ketepatan rendah adalah untuk "menyamarkan" data ketepatan FP6 sebagai FP16 melalui penyahkuantitian, dan kemudian menyerahkannya kepada GPU untuk pengiraan dalam format FP16.
Pada masa yang sama, pasukan juga menggunakan teknologi prapembungkusan peringkat bit untuk menyelesaikan masalah sistem memori GPU tidak mesra kepada lebar bukan kuasa-2 bit (seperti 6 -sedikit).
Secara khusus, prapembungkusan tahap bit ialah penyusunan semula data berat sebelum inferens model, termasuk menyusun semula pemberat terkuantiti 6-bit supaya ia boleh diakses dalam cara yang mesra sistem memori GPU.
Selain itu, memandangkan sistem memori GPU biasanya mengakses data dalam blok 32-bit atau 64-bit, teknologi pra-pembungkusan peringkat bit juga akan membungkus pemberat 6-bit supaya ia boleh disimpan dan diakses dalam bentuk sejajar ini blok.
Selepas prapembungkusan selesai, pasukan penyelidik menggunakan keupayaan pemprosesan selari teras SIMT untuk melakukan dekuantisasi selari pada pemberat FP6 dalam daftar untuk menjana pemberat dalam format FP16.
Berat FP16 yang dinyahkuantisasi dibina semula dalam daftar dan kemudian dihantar ke Teras Tensor Pemberat FP16 yang dibina semula digunakan untuk melaksanakan operasi pendaraban matriks untuk melengkapkan pengiraan lapisan linear.
Dalam proses ini, pasukan mengambil kesempatan daripada paralelisme tahap bit teras SMIT untuk meningkatkan kecekapan keseluruhan proses dekuantisasi.
Untuk membolehkan tugas pembinaan semula berat berjalan selari, pasukan juga menggunakan teknologi penyambungan berat selari.
Secara khusus, setiap berat dibahagikan kepada beberapa bahagian, dan lebar bit setiap bahagian adalah kuasa 2 (seperti membahagikan 6 kepada 2+4 atau 4+2).
Sebelum penyahkuansian, pemberat dimuatkan terlebih dahulu ke dalam daftar daripada memori bersama. Memandangkan setiap pemberat dibahagikan kepada beberapa bahagian, berat lengkap perlu dibina semula pada peringkat daftar semasa masa jalan.
Untuk mengurangkan overhed masa jalan, TC-FPx mencadangkan kaedah pengekstrakan selari dan penyambungan pemberat. Pendekatan ini menggunakan dua set daftar untuk menyimpan segmen 32 pemberat FP6, membina semula pemberat ini secara selari.
Pada masa yang sama, untuk mengekstrak dan menyambung pemberat secara selari, adalah perlu untuk memastikan bahawa susun atur data awal memenuhi keperluan pesanan tertentu, jadi TC-FPx menyusun semula serpihan berat sebelum dijalankan.
Selain itu, TC-FPx turut mereka bentuk saluran paip perisian, yang menyepadukan langkah penyahkuansian dengan operasi pendaraban matriks Teras Tensor, meningkatkan kecekapan pelaksanaan keseluruhan melalui keselarian peringkat arahan.
Alamat kertas: https://arxiv.org/abs/2401.14112
Atas ialah kandungan terperinci Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT
Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Terdapat empat cara untuk menyesuaikan senarai artikel WordPress: Gunakan pilihan tema, gunakan plugin (seperti pesanan jenis pos, senarai pos WP, barangan boxy), gunakan kod (tambah tetapan dalam fail fungsi.php), atau ubah suai pangkalan data WordPress secara langsung.

MySQL dan Mariadb boleh wujud bersama, tetapi perlu dikonfigurasikan dengan berhati -hati. Kuncinya adalah untuk memperuntukkan nombor port dan direktori data yang berbeza untuk setiap pangkalan data, dan menyesuaikan parameter seperti peruntukan memori dan saiz cache. Konfigurasi sambungan, konfigurasi aplikasi, dan perbezaan versi juga perlu dipertimbangkan dan perlu diuji dengan teliti dan dirancang untuk mengelakkan perangkap. Menjalankan dua pangkalan data secara serentak boleh menyebabkan masalah prestasi dalam situasi di mana sumber terhad.

Keserasian ABI dalam C merujuk kepada sama ada kod binari yang dihasilkan oleh penyusun atau versi yang berbeza boleh serasi tanpa rekompilasi. 1. Konvensyen Calling Function, 2. Pengubahsuaian Nama, 3. Susun atur Jadual Fungsi Maya, 4. Struktur dan susun atur kelas adalah aspek utama yang terlibat.

Bagaimanakah penyelesaian caching Redis menyedari keperluan senarai kedudukan produk? Semasa proses pembangunan, kita sering perlu menangani keperluan kedudukan, seperti memaparkan ...

Membincangkan seni bina hierarki dalam pembangunan back-end. Dalam pembangunan back-end, seni bina hierarki adalah corak reka bentuk yang sama, biasanya termasuk pengawal, perkhidmatan dan tiga lapisan DAO ...

Kedudukan mata wang maya '"tertua" adalah seperti berikut: 1. Bitcoin (BTC), yang dikeluarkan pada 3 Januari 2009, adalah mata wang digital yang terdesentralisasi pertama. 2. Litecoin (LTC), yang dikeluarkan pada 7 Oktober 2011, dikenali sebagai "versi ringan Bitcoin". 3. Ripple (XRP), yang dikeluarkan pada tahun 2011, direka untuk pembayaran rentas sempadan. 4. Dogecoin (Doge), yang dikeluarkan pada 6 Disember 2013, adalah "koin meme" berdasarkan kod Litecoin. 5. Ethereum (ETH), yang dikeluarkan pada 30 Julai 2015, adalah platform pertama untuk menyokong kontrak pintar. 6. Tether (USDT), yang dikeluarkan pada tahun 2014, adalah stablecoin pertama yang akan berlabuh ke dolar AS 1: 1. 7. Ada,

Apabila menggunakan komputer setiap hari, penggunaan kekunci pintasan dapat meningkatkan produktiviti kami dengan ketara, terutama apabila permainan atau menggunakan perisian tertentu. Kekunci pintasan bukan sahaja mudah untuk beroperasi, tetapi juga memainkan peranan penting dalam sistem Windows 7, membantu kami menyelesaikan tugas dengan lebih cekap. CTRL SHIFT N: Buat folder baru. Tekan CTRL Shift N dalam File Explorer untuk membuat folder baru dengan cepat. Jika anda menggunakan kunci pintasan ini dalam pelayar IE9, halaman tab semasa akan dibuka dalam tetingkap baru. CTRL Shift Double-Click Butang tetikus kiri: Jalankan program sebagai pentadbir di Windows 7, beberapa program perlu dijalankan sebagai pentadbir untuk beroperasi secara normal. Kaedah tradisional adalah klik kanan ikon program dan pilih

Pernyataan SQLSelect Penjelasan Terperinci Penjelasan Pilih adalah arahan yang paling asas dan biasa digunakan dalam SQL, yang digunakan untuk mengekstrak data dari jadual pangkalan data. Data yang diekstrak dibentangkan sebagai set hasil. Pilih Penyataan Syntax SelectColumn1, Column2, ... FROMTABLE_NAMEWHERECONDITIONORDERByColumn_name [asc | desc]; Pilih Klausa Pemilihan Komponen Penyata (Pilih): Tentukan lajur yang akan diambil. Gunakan * untuk memilih semua lajur. Sebagai contoh: selectfirst_name, last_namefromemployees; Klausa sumber (fr
