Model Transformer berasal daripada kertas kerja "Perhatian adalah semua yang anda perlukan" yang diterbitkan oleh pasukan Google pada tahun 2017. Kertas kerja ini mula-mula mencadangkan konsep menggunakan Perhatian untuk menggantikan struktur kitaran model Seq2Seq, yang membawa impak yang besar kepada medan NLP. Dan dengan kemajuan berterusan penyelidikan dalam beberapa tahun kebelakangan ini, teknologi berkaitan Transformer telah beransur-ansur mengalir daripada pemprosesan bahasa semula jadi ke bidang lain. Sehingga kini, model siri Transformer telah menjadi model arus perdana dalam NLP, CV, ASR dan bidang lain.
Oleh itu, cara melatih dan membuat kesimpulan model Transformer dengan lebih pantas telah menjadi hala tuju penyelidikan yang penting dalam industri. Teknologi pengkuantitian berketepatan rendah boleh mempercepatkan proses pengiraan dan komunikasi dengan mengurangkan lebar data, dan merupakan cara penting untuk mempercepatkan latihan model dan inferens pada peringkat ini. Walau bagaimanapun, lalat dalam salap adalah bahawa kuantisasi akan menyebabkan kehilangan ketepatan dan kesan, dan kerugian itu perlu dikurangkan melalui cara seperti persepsi dan latihan yang diukur. Sebagai tindak balas kepada titik kesakitan di atas, ByteDance telah membangunkan dan menaik taraf latihan LightSeq dan enjin pecutan inferens versi 3.0, yang buat pertama kalinya secara serentak mencapai latihan kuantitatif model Transformer ketepatan dan tanpa kerugian dan inferens kuantitatif.
LightSeq menggunakan int8 GEMM untuk merealisasikan proses latihan pengkuantitian sebenar, dan bukannya menggunakan kaedah pengkuantitian pseudo yang digunakan secara meluas dalam industri, dan boleh mencapai peningkatan lebih daripada 4 kali ganda dalam kelajuan latihan model. Melalui strategi kuantitatif seperti PACT, kehilangan latihan kuantitatif dapat diminimumkan. Selepas mengeksport model kuantitatif kepada format yang disokong oleh LightSeq, anda boleh menggunakan enjin inferens kuantitatif LightSeq untuk mencapai inferens pantas, yang boleh dipercepatkan sehingga 70% pada kad grafik T4.
Dalam acara perkongsian teknologi [T·TALK] pada 21 Julai, kami menjemput khas Encik Xiong Ying, jurutera algoritma ByteDance dan pembangun teras LightSeq, ke bilik siaran langsung untuk mendedahkan rahsia ByteDance kepada penonton . Prinsip teknikal dan butiran praktikal enjin inferens latihan berprestasi tinggi LightSeq. Sama ada anda seorang pengamal dalam industri algoritma atau pembangun yang berminat untuk mempelajari teknologi AI, saya percaya anda boleh memperoleh beberapa pengalaman teknikal yang unik dan inspirasi inovatif daripada perkongsian ini.
Selamat datang untuk menyertai Acara Perkongsian Teknologi ke-12 [T·TALK] pada 21 Julai, 20:00 malam
Imbas bahagian bawah poster Kod QRTempahan untuk tontonan
Atas ialah kandungan terperinci Empat kali lebih pantas, enjin inferens latihan berprestasi tinggi sumber terbuka Bytedance teknologi LightSeq didedahkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!