Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Apabila model bahasa besar pembelajaran mendalam menjadi semakin popular, model bahasa besar menjadi lebih besar dan lebih besar, menjadikan kos inferens mereka juga meningkat. Kuantifikasi model telah menjadi topik penyelidikan yang popular.

Baru-baru ini, ByteDance telah melancarkan idea kuantifikasi baharu, meninggalkan paradigma kuantifikasi tradisional dan memodelkan tugas kuantifikasi daripada perspektif pengoptimuman matematik. Artikel itu disiarkan di arXiv, dan kod itu adalah sumber terbuka Semua hasil dalam artikel boleh diterbitkan semula dengan satu klik. Idea kuantifikasi ini adalah berdasarkan pengoptimuman matematik, memodelkan tugasan kuantifikasi dari perspektif pengoptimuman matematik, dan mencari penyelesaian optimum dengan memaksimumkan fungsi objektif atau meminimumkan fungsi kehilangan. Idea ini telah mencapai keputusan yang baik dalam eksperimen dan mencapai keputusan yang memuaskan.

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Pautan kertas: https://arxiv.org/abs/2404.12759
Pautan projek: https://github.com/bytedance/decoupleQ
: https://github.com/bytedance/decoupleQ

: /github.com/NVIDIA/TensorRT-LLM/pull/1568

1. Latar Belakang

Perkembangan pesat teknologi berskala besar telah menjadikan kos inferens semakin tinggi. Kuantifikasi model, sebagai penyelesaian teknikal untuk mengurangkan kos inferens, telah menerima lebih banyak perhatian dan penyelidikan. Walau bagaimanapun, di bawah paradigma pengkuantitian tradisional, ketepatan model menurun dengan cepat pada bit yang sangat rendah. Berdasarkan ini, penulis mencadangkan idea kuantifikasi baharu, menyahganding parameter model menjadi bahagian integer dan bahagian titik terapung, dan memodelkan tugasan kuantifikasi dari perspektif pengoptimuman matematik, supaya model masih boleh mengekalkan ketepatan yang Lebih Tinggi. Kelebihan ini adalah jelas. Kita tidak perlu lagi menumpukan pada isu khusus kuantisasi, seperti cara menangani saluran sensitif, cara menangani outlier, dll. Sebaliknya, kita hanya perlu memodelkan masalah kuantifikasi secara matematik, mencari satu fungsi objektif pengoptimuman yang sesuai, dan kemudian untuk menyelesaikan fungsi ini.

2. Pengkuantitian tradisional

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Secara tradisinya, idea kuantifikasi kami untuk model ialah:

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

di mana,

ialah pemberat titik terapung model sebelum pengkuantitian dan skala penjelmaan; titik sifar; α dan β ialah sempadan atas dan bawah bagi julat perwakilan integer Contohnya, untuk kuantisasi int4, α = -8, β = 7 boleh diambil; integer.

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 Mengenai nilai s dan z, secara amnya, untuk pengkuantitian asimetri, kita boleh mengambil:

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Dengan cara ini, pemberat titik terapung yang diagihkan dalam

akan dipetakan secara linear ke julat selang

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 Dalam kuantisasi songsang, formula berikut biasanya digunakan:

Dalam skema kuantisasi tradisional ini, kita perlu memberi perhatian kepada banyak isu terperinci yang unik untuk kuantisasi Sebagai contoh, untuk saluran sensitif, kami mempunyai kaedah pemprosesan saluran sensitif ; Untuk outlier, kami mempunyai kaedah pemprosesan outlier. Paradigma pemprosesan untuk merawat sakit kepala dan merawat sakit kepala ini sukar untuk diatasi dengan senario perniagaan yang kompleks dan sentiasa berubah. Penyelidik Bytedance cuba mengabstrakkan isu ini dan melihat isu kuantifikasi dari perspektif makro. Kita hanya perlu mewujudkan fungsi objektif pengoptimuman abstrak dan kemudian menyelesaikan fungsi objektif ini.

🎜3.decoupleQ🎜🎜

Memerhati peranan persamaan (1)~(3) dalam kuantifikasi, jika kita mengubah pemikiran kita, kita akan mendapati bahawa kita sebenarnya tidak perlu mengetahui persamaan (1) dan (2). Selepas kami mengukur model besar dan menyampaikannya kepada pelajar enjin hiliran, kami hanya perlu mengetahui Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 dan (s,z) dalam persamaan (3). Dalam erti kata lain, (s,z) dalam persamaan (3) boleh dianggap sebagai pekali bagi transformasi afin biasa, dan tidak perlu mengekalkan maknanya dalam persamaan (2). Pekali transformasi affine boleh diperolehi melalui kaedah pengoptimuman matematik.

Menggali lebih lanjut ke dalam (3), kita boleh memisahkan parameter model besar ke dalam bahagian integer Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 dan bahagian titik terapung (s,z). Selepas penyahgandingan dengan cara ini, proses pengkuantitian model boleh dianggap sebagai proses menyelesaikan bahagian integer Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 dan bahagian titik terapung (s,z) model. Kami boleh mengoptimumkan penyelesaian secara bergilir-gilir. Untuk tujuan ini, fungsi objektif pengoptimuman dan kekangannya mesti ditentukan.

Untuk lapisan linear, kita boleh membina fungsi objektif pengoptimuman berikut:

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

di mana, Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 ialah input lapisan, ialah matriks simetri (jika lajur X bukan semua sifar, maka H ialah matriks simetri pasti positif).

Secara umumnya, untuk meningkatkan ketepatan pengkuantitian, kita boleh menggunakan pengkuantitian setiap saluran pada berat model. Dalam pengkuantitian setiap saluran, apabila mengoptimumkan persamaan (4), setiap lajur Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 dioptimumkan secara bebas. Jadi kita hanya perlu fokus pada salah satu lajur.

Pada ketika ini, matlamat pengoptimuman boleh ditulis seperti berikut: (Demi kesederhanaan notasi, simbol ditakrifkan semula dalam artikel):

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

di mana fungsi objektif pengoptimuman adalah

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 , w ialah lajur tertentu , dan b berada dalam

lajur yang sepadan. Takrifan simbol lain adalah sama seperti sebelumnya. 🎜

Malah, fungsi objektif pengoptimuman (6) adalah konsisten sepenuhnya dengan (4), Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 ialah proses pengkuantitian songsang.

Menukar masalah kuantitatif kepada masalah pengoptimuman matematik dalam bentuk (5) adalah kunci untuk membezakan decoupleQ daripada kertas kuantitatif tradisional. Transformasi ini membolehkan kami hanya menumpukan pada penyelesaian persamaan (5) dan tidak lagi perlu berurusan dengan minutiae pengkuantitian itu sendiri, seperti outlier, dsb.

Penyelesaian persamaan (5) bukanlah mudah kerana terdapat kekangan pada Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 , terutamanya kekangan bukan cembung . Dalam kertas kerja, penulis memberikan idea penyelesaian alternatif, iaitu, setelah mendapat pemulaan yang baik tentang (s,z) dan w, selesaikan secara berulang (s,z) dan w secara bergilir-gilir. Apabila menyelesaikan (s,z), perhatikan bahawa persamaan (5) ialah bentuk kuadratik tidak terhad berkenaan dengan (s,z Anda boleh memperoleh secara langsung fungsi objektif dan membuat terbitan sifar untuk mendapatkan penyelesaian analisis. Apabila menyelesaikan w, pengarang menggunakan dua tahap penghampiran Penghampiran tahap pertama mempunyai penumpuan yang lebih tinggi, tetapi penyelesaiannya adalah perlahan untuk menyampel idea GPTQ [1], yang mempunyai penumpuan sedikit lebih lemah, tetapi penyelesaiannya adalah perlahan; lebih cepat.

Untuk meningkatkan lagi ketepatan model terkuantisasi, penulis menegaskan bahawa selain melakukan pengecilan mse pada peringkat lapisan, pengecilan mse juga boleh dilakukan pada peringkat blok, iaitu:

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Dalam langkah ini, pengarang pada tahap blok pengubah, Selepas mengkuantisasi setiap lapisan linear, betulkan bahagian integernya Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 dan perhalusi bahagian titik terapung (s, z) dan parameter yang berkaitan dengan norma lapisan. Keputusan eksperimen menunjukkan bahawa langkah penalaan halus ini boleh meningkatkan lagi ketepatan model.

4. Pelaksanaan operator W2

Untuk menyimpulkan model terkuantisasi, sokongan operator terkuantisasi diperlukan Tidak ada operator w2a16 siap sedia yang tersedia dalam industri ini. LLM Membangunkan inti Gemm cuda w2 untuk mencapai inferens yang cekap bagi model w2a16.

Model kuantisasi itu sendiri dimuatkan dan disimpan dalam memori video dalam bentuk berat 2-bit, jadi ia akan menduduki jumlah memori video yang agak kecil. Kernel cuda kami memuatkan berat 2-bit ke dalam daftar pada masa jalan, dan kemudian menggunakan arahan perkakasan untuk menukarnya dengan cekap ke dalam bentuk bf16 dan melaksanakan operasi gemm dengan pengaktifan. Oleh kerana senario kami terhad oleh kependaman, saiz kelompok dalam peringkat penjanaan adalah agak kecil Pada masa ini, pendaraban matriks dihadkan oleh akses memori berat Pelaksanaan ini akan mengurangkan jumlah akses memori dan meningkatkan prestasi model. Semasa proses pelaksanaan, carian algoritma dan SpiltK Parallel Reduce digabungkan untuk meningkatkan lagi prestasi model Mengikut ukuran sebenar, apabila saiz kumpulan=1, prestasi w2a16 Gemm pada kad L boleh dipertingkatkan sebanyak 1.4x-1.7x. berbanding w4a16.

Operator Pautan: https://github.com/nvidia/tensorrt-llm/pull/1568

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

5. , dan keputusan perbandingan dengan eksperimen sumber terbuka diberikan:

Keputusan percubaan dalaman ialah:

Dalam jadual ini, penulis menggunakan perkataan err rate (WER) untuk mengukur ketepatan ASR. Penulis cuba mengukur model kepada W2A16g64 menggunakan kaedah yang berbeza. Nilai bagi model titik terapung sebelum kuantisasi ialah 6.68%. model titik terapung sebelum kuantisasi dekat. Ia juga melaporkan masa yang diperlukan untuk kuantifikasi. Harga ketepatan kuantisasi yang tinggi ialah kuantisasi mengambil masa yang lama. Dalam perniagaan sebenar, selepas menggunakan decoupleQ untuk mengukur model, bahagian integer ditetapkan, dan set data berlabel digunakan untuk memperhalusi skala dan sifar, dan ketepatan model dipertingkatkan lagi.

Hasil eksperimen perbandingan sumber terbuka ialah:

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Jadual ini ialah perbandingan hasil kuantitatif decoupleQ dan kaedah lain pada Llama-1/2. Perplexity (PPL) digunakan sebagai indeks penilaian. Ia boleh dilihat bahawa di bawah konfigurasi pengkuantitian yang sama, PPL deoucpleQ akan lebih rendah daripada kaedah lain pada kebanyakan masa.

6. Faedah Perniagaan

teknologi pengiraan decoupleQ kini digunakan secara meluas dalam jabatan suara ByteDance. Ia telah dilancarkan dalam model penjanaan pertuturan (Text-to-Speech), model pengecaman pertuturan (pengecaman pertuturan automatik), dsb., dan telah dilaksanakan dalam produk seperti Doubao, Feishu dan Douyin. Sebilangan besar perniagaan dalam talian menunjukkan bahawa berdasarkan kuantifikasi decoupleQ, ketepatan inferens W4A16 sepenuhnya setanding dengan inferens fp16/bf16, ketepatan W2A16 hanya lebih buruk sedikit daripada ketepatan fp16/bf16 (selepas bahagian titik terapung sft, ketepatan adalah pada tahap yang sama seperti fp16/bf16) ). Walaupun kertas itu hanya memperkenalkan kuantifikasi berat sahaja, dalam perniagaan sebenar, selepas berat dikira dengan baik, kuantifikasi pengaktifan boleh menjadi lebih mudah.

Berbanding dengan fp16, w8fp16, dan w4fp16, ia telah mencapai kesan pecutan yang baik dari segi pecutan perkakasan Dalam kelompok kecil, prestasi pendaraban matriks w2 adalah 5-6 kali lebih tinggi daripada fp16, dan 1.5-1.7 kali lebih tinggi daripada w. . Dari segi model perniagaan dalaman, w2fp16 mempunyai peningkatan prestasi sebanyak 3-5 kali berbanding dengan fp16, dan peningkatan prestasi sebanyak 1.25-1.4 kali berbanding w4fp16 Ia juga akan mengurangkan memori yang diduduki oleh berat model, memberikan memori yang lebih baik penggunaan untuk masa larian yang banyak.

Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

7. Ringkasan dan Perbincangan

Dalam bahagian ringkasan dan perbincangan, penulis juga menunjukkan dua risiko yang ada pada kaedah decoupleQ pada masa ini:

to optimization quantitization kerugian sebelum dan selepas diminimumkan. Walau bagaimanapun, meminimumkan kehilangan L2 pada tahap lapisan atau tahap blok mungkin tidak semestinya mewakili ketepatan optimum model akhir

2 Dalam proses pengoptimuman persamaan (5) dan (7), apabila menyelesaikan

dan (s,z. ), hanya sebahagian kecil daripada data penentukuran diselesaikan, yang menjadikan decoupleQ mudah untuk mengatasi data penentukuran. Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16

Namun begitu, penulis juga menegaskan bahawa idea untuk memisahkan parameter model kepada bahagian integer dan bahagian titik terapung adalah sangat bermakna. Jika set data berlabel wujud, kami boleh membetulkan bahagian integer selepas pengiraan dan menggunakan set data berlabel untuk melatih (s, z) secara khusus untuk meningkatkan lagi ketepatan model. Ini bukan sahaja memastikan prestasi generalisasi model (diperoleh daripada bahagian integer tetap Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16 ), tetapi juga boleh menggunakan keupayaannya pada subtugas tertentu (diperoleh daripada bahagian titik terapung yang ditala halus). Dalam perniagaan sebenar ByteDance, selepas versi model sebelumnya dikira dan diletakkan dalam talian, apabila versi seterusnya dikemas kini, hanya bahagian titik terapung model boleh dilatih.

^References:

^{【1】 Elias Frantar, Saleh Ashkboos, Torsten Hoefler, dan Dan Alistarh.}

【2】Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao dan Ping Luo Omniquant: Omnidirectional language model quantization arXiv:2308.13137, 2023

【3】Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang dan Song Han: Pengkuantitian berat arXiv. sedar pengaktifan. 2306.00978, 2023.

Atas ialah kandungan terperinci Idea baharu untuk pengkuantifikasian model besar sumber terbuka bait, ketepatan model pengkuantitian 2-bit adalah setanding dengan fp16. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!