Jadual Kandungan
Menggunakan ketepatan FP6 pada A100 membawa
Rumah Peranti teknologi AI Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 |

Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 |

Apr 29, 2024 pm 04:55 PM
data Model Sumber terbuka capaian data susunan

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100!

Lao Huang mahu semua orang menggunakan INT8/INT4 Pasukan Microsoft DeepSpeed ​​​​secara paksa mula menjalankan FP6 pada A100 tanpa sokongan rasmi daripada NVIDIA.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx's FP6 kuantisasi kelajuan pada A100 adalah hampir atau sekali-sekala melebihi INT4, dan ia mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Atas dasar ini, terdapat juga

sokongan model besar dari hujung ke hujung, yang telah sumber terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Hasil ini juga memberi kesan serta-merta pada pecutan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad.

Selepas membacanya, seorang penyelidik pembelajaran mesin berkata bahawa penyelidikan Microsoft boleh digambarkan sebagai gila.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源pek emotikon juga dalam talian serta-merta, jadi seperti:

NVIDIA: Hanya H100 yang menyokong FP8.

Microsoft: Baik, saya akan buat sendiri.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Jadi, apakah jenis kesan yang boleh dicapai oleh rangka kerja ini, dan apakah jenis teknologi yang digunakan di belakangnya?

Menggunakan FP6 untuk menjalankan Llama, satu kad lebih pantas daripada dua kad

Menggunakan ketepatan FP6 pada A100 membawa

peningkatan prestasi peringkat kernel. Para penyelidik memilih lapisan linear dalam model Llama dan model OPT dengan saiz yang berbeza, dan mengujinya menggunakan CUDA 11.8 pada platform GPU NVIDIA A100-40GB.

Hasilnya dibandingkan dengan cuBLAS rasmi NVIDIA

(W16A16)

dan TensorRT-LLM(W8A16), peningkatan kelajuan maksimum TC-FPx(W6A16) masing-masing ialah 2.6 kali dan 1.9 kali Berbanding dengan kaedah 4bit BitsandBytes(W4A16), peningkatan kelajuan maksimum TC-FPx ialah 8.9 kali. . keperluan untuk akses memori DRAM, dan menambah baik penggunaan lebar jalur DRAM dan penggunaan Tensor Cores, serta penggunaan unit ALU dan FMA.

Rangka kerja inferens hujung ke hujung FP6-LLM

direka berdasarkan TC-FPx juga membawa peningkatan prestasi yang ketara kepada model besar.

Mengambil Llama-70B sebagai contoh, daya pemprosesan menjalankan FP6-LLM pada satu kad adalah 2.65 kali lebih tinggi daripada FP16 pada dwi kad, dan kependaman dalam saiz kelompok di bawah 16 juga lebih rendah daripada FP16.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Bagi model OPT-30B dengan bilangan parameter yang lebih kecil (FP16 juga menggunakan satu kad), FP6-LLM juga membawa peningkatan daya pengeluaran yang ketara dan pengurangan kependaman.

Dan saiz kumpulan maksimum yang disokong oleh satu kad FP16 dalam keadaan ini hanya 4, tetapi FP6-LLM boleh beroperasi secara normal dengan saiz kumpulan 16.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Jadi, bagaimanakah pasukan Microsoft mencapai kuantisasi FP16 yang dijalankan pada A100? Penyelesaian kernel yang direka bentuk semula

Untuk menyokong ketepatan termasuk 6bit, pasukan TC-FPx mereka bentuk penyelesaian kernel bersatu yang boleh menyokong berat pengkuantitian lebar bit yang berbeza.

Berbanding dengan kaedah dwi-teras tradisional, TC-FPx mengurangkan bilangan akses memori dan meningkatkan prestasi dengan menyepadukan penyahkuansian dan pendaraban matriks dalam satu teras.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Rahsia teras untuk mencapai pengkuantitian ketepatan rendah adalah untuk "menyamarkan" data ketepatan FP6 sebagai FP16 melalui penyahkuantitian, dan kemudian menyerahkannya kepada GPU untuk pengiraan dalam format FP16.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Pada masa yang sama, pasukan juga menggunakan teknologi prapembungkusan peringkat bit untuk menyelesaikan masalah sistem memori GPU tidak mesra kepada lebar bukan kuasa-2 bit (seperti 6 -sedikit).

Secara khusus, prapembungkusan tahap bit ialah penyusunan semula data berat sebelum inferens model, termasuk menyusun semula pemberat terkuantiti 6-bit supaya ia boleh diakses dalam cara yang mesra sistem memori GPU.

Selain itu, memandangkan sistem memori GPU biasanya mengakses data dalam blok 32-bit atau 64-bit, teknologi pra-pembungkusan peringkat bit juga akan membungkus pemberat 6-bit supaya ia boleh disimpan dan diakses dalam bentuk sejajar ini blok.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Selepas prapembungkusan selesai, pasukan penyelidik menggunakan keupayaan pemprosesan selari teras SIMT untuk melakukan dekuantisasi selari pada pemberat FP6 dalam daftar untuk menjana pemberat dalam format FP16.

Berat FP16 yang dinyahkuantisasi dibina semula dalam daftar dan kemudian dihantar ke Teras Tensor Pemberat FP16 yang dibina semula digunakan untuk melaksanakan operasi pendaraban matriks untuk melengkapkan pengiraan lapisan linear.

Dalam proses ini, pasukan mengambil kesempatan daripada paralelisme tahap bit teras SMIT untuk meningkatkan kecekapan keseluruhan proses dekuantisasi.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Untuk membolehkan tugas pembinaan semula berat berjalan selari, pasukan juga menggunakan teknologi penyambungan berat selari.

Secara khusus, setiap berat dibahagikan kepada beberapa bahagian, dan lebar bit setiap bahagian adalah kuasa 2 (seperti membahagikan 6 kepada 2+4 atau 4+2).

Sebelum penyahkuansian, pemberat dimuatkan terlebih dahulu ke dalam daftar daripada memori bersama. Memandangkan setiap pemberat dibahagikan kepada beberapa bahagian, berat lengkap perlu dibina semula pada peringkat daftar semasa masa jalan.

Untuk mengurangkan overhed masa jalan, TC-FPx mencadangkan kaedah pengekstrakan selari dan penyambungan pemberat. Pendekatan ini menggunakan dua set daftar untuk menyimpan segmen 32 pemberat FP6, membina semula pemberat ini secara selari.

Pada masa yang sama, untuk mengekstrak dan menyambung pemberat secara selari, adalah perlu untuk memastikan bahawa susun atur data awal memenuhi keperluan pesanan tertentu, jadi TC-FPx menyusun semula serpihan berat sebelum dijalankan.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Selain itu, TC-FPx turut mereka bentuk saluran paip perisian, yang menyepadukan langkah penyahkuansian dengan operasi pendaraban matriks Teras Tensor, meningkatkan kecekapan pelaksanaan keseluruhan melalui keselarian peringkat arahan.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Alamat kertas: https://arxiv.org/abs/2401.14112

Atas ialah kandungan terperinci Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT

Stock Market GPT

Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Melaraskan Senarai Artikel WordPress Cara Melaraskan Senarai Artikel WordPress Apr 20, 2025 am 10:48 AM

Terdapat empat cara untuk menyesuaikan senarai artikel WordPress: Gunakan pilihan tema, gunakan plugin (seperti pesanan jenis pos, senarai pos WP, barangan boxy), gunakan kod (tambah tetapan dalam fail fungsi.php), atau ubah suai pangkalan data WordPress secara langsung.

Bolehkah Mysql dan Mariadb wujud bersama Bolehkah Mysql dan Mariadb wujud bersama Apr 08, 2025 pm 02:27 PM

MySQL dan Mariadb boleh wujud bersama, tetapi perlu dikonfigurasikan dengan berhati -hati. Kuncinya adalah untuk memperuntukkan nombor port dan direktori data yang berbeza untuk setiap pangkalan data, dan menyesuaikan parameter seperti peruntukan memori dan saiz cache. Konfigurasi sambungan, konfigurasi aplikasi, dan perbezaan versi juga perlu dipertimbangkan dan perlu diuji dengan teliti dan dirancang untuk mengelakkan perangkap. Menjalankan dua pangkalan data secara serentak boleh menyebabkan masalah prestasi dalam situasi di mana sumber terhad.

Bagaimana untuk memahami keserasian ABI dalam C? Bagaimana untuk memahami keserasian ABI dalam C? Apr 28, 2025 pm 10:12 PM

Keserasian ABI dalam C merujuk kepada sama ada kod binari yang dihasilkan oleh penyusun atau versi yang berbeza boleh serasi tanpa rekompilasi. 1. Konvensyen Calling Function, 2. Pengubahsuaian Nama, 3. Susun atur Jadual Fungsi Maya, 4. Struktur dan susun atur kelas adalah aspek utama yang terlibat.

Bagaimana menggunakan penyelesaian cache Redis untuk merealisasikan keperluan senarai kedudukan produk dengan cekap? Bagaimana menggunakan penyelesaian cache Redis untuk merealisasikan keperluan senarai kedudukan produk dengan cekap? Apr 19, 2025 pm 11:36 PM

Bagaimanakah penyelesaian caching Redis menyedari keperluan senarai kedudukan produk? Semasa proses pembangunan, kita sering perlu menangani keperluan kedudukan, seperti memaparkan ...

Dalam pembangunan back-end, bagaimana membezakan tanggungjawab lapisan perkhidmatan dan lapisan DAO? Dalam pembangunan back-end, bagaimana membezakan tanggungjawab lapisan perkhidmatan dan lapisan DAO? Apr 19, 2025 pm 01:51 PM

Membincangkan seni bina hierarki dalam pembangunan back-end. Dalam pembangunan back-end, seni bina hierarki adalah corak reka bentuk yang sama, biasanya termasuk pengawal, perkhidmatan dan tiga lapisan DAO ...

Kemas kini terkini mengenai kedudukan mata wang maya tertua Kemas kini terkini mengenai kedudukan mata wang maya tertua Apr 22, 2025 am 07:18 AM

Kedudukan mata wang maya '"tertua" adalah seperti berikut: 1. Bitcoin (BTC), yang dikeluarkan pada 3 Januari 2009, adalah mata wang digital yang terdesentralisasi pertama. 2. Litecoin (LTC), yang dikeluarkan pada 7 Oktober 2011, dikenali sebagai "versi ringan Bitcoin". 3. Ripple (XRP), yang dikeluarkan pada tahun 2011, direka untuk pembayaran rentas sempadan. 4. Dogecoin (Doge), yang dikeluarkan pada 6 Disember 2013, adalah "koin meme" berdasarkan kod Litecoin. 5. Ethereum (ETH), yang dikeluarkan pada 30 Julai 2015, adalah platform pertama untuk menyokong kontrak pintar. 6. Tether (USDT), yang dikeluarkan pada tahun 2014, adalah stablecoin pertama yang akan berlabuh ke dolar AS 1: 1. 7. Ada,

14 kekunci pintasan biasa yang mesti diingat dalam sistem Win7 14 kekunci pintasan biasa yang mesti diingat dalam sistem Win7 May 07, 2025 pm 04:39 PM

Apabila menggunakan komputer setiap hari, penggunaan kekunci pintasan dapat meningkatkan produktiviti kami dengan ketara, terutama apabila permainan atau menggunakan perisian tertentu. Kekunci pintasan bukan sahaja mudah untuk beroperasi, tetapi juga memainkan peranan penting dalam sistem Windows 7, membantu kami menyelesaikan tugas dengan lebih cekap. CTRL SHIFT N: Buat folder baru. Tekan CTRL Shift N dalam File Explorer untuk membuat folder baru dengan cepat. Jika anda menggunakan kunci pintasan ini dalam pelayar IE9, halaman tab semasa akan dibuka dalam tetingkap baru. CTRL Shift Double-Click Butang tetikus kiri: Jalankan program sebagai pentadbir di Windows 7, beberapa program perlu dijalankan sebagai pentadbir untuk beroperasi secara normal. Kaedah tradisional adalah klik kanan ikon program dan pilih

Penyataan Pilih SQL Master: Panduan Komprehensif Penyataan Pilih SQL Master: Panduan Komprehensif Apr 08, 2025 pm 06:39 PM

Pernyataan SQLSelect Penjelasan Terperinci Penjelasan Pilih adalah arahan yang paling asas dan biasa digunakan dalam SQL, yang digunakan untuk mengekstrak data dari jadual pangkalan data. Data yang diekstrak dibentangkan sebagai set hasil. Pilih Penyataan Syntax SelectColumn1, Column2, ... FROMTABLE_NAMEWHERECONDITIONORDERByColumn_name [asc | desc]; Pilih Klausa Pemilihan Komponen Penyata (Pilih): Tentukan lajur yang akan diambil. Gunakan * untuk memilih semua lajur. Sebagai contoh: selectfirst_name, last_namefromemployees; Klausa sumber (fr

See all articles