Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B-AI-php.cn

Teknologi Pengecaman Pertuturan Automatik (ASR) telah dilaksanakan secara besar-besaran dalam senario perniagaan Bilibili yang berkaitan, seperti semakan keselamatan kandungan audio dan video, sari kata AI (sisi C, mesti dipotong, siaran langsung S12, dsb. ), pemahaman video ( Carian teks penuh), dsb.

Selain itu, enjin ASR Bilibili turut memenangi tempat pertama dalam penilaian skala penuh terkini bagi penanda aras industri SpeechIO (https://github.com/SpeechColab/Leaderboard) pada November 2022 (https: // github.com/SpeechColab/Leaderboard#5-ranking), dan kelebihannya lebih jelas dalam set ujian bukan awam.

🎜>

Sari kata AI (Cina dan Inggeris C-side, mesti dipotong, siaran langsung S12, dll.)

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Carian teks penuh

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Artikel ini akan diperkenalkan di sini Dalam prosesnya, kami telah mengumpul dan meneroka data dan algoritma.

Enjin ASR berkualiti tinggi

Kualiti tinggi (prestasi kos tinggi) yang sesuai untuk pengeluaran industri ) Enjin ASR, yang sepatutnya mempunyai ciri-ciri berikut:

Semua set ujian ranking
Kedudukan	Pengilang	Kadar Ralat Perkataan
1	Bilibili	2.82%
2	Awan Alibaba	2.85%
3	Yitu	3.16%
4	Microsoft	3.28%
5	Tencent	3.85%
6	iFlytek	4.05%
7	Spitz	5.19%
8	Baidu	8.14%


	说明
高精度	在相关的业务场景精度高，鲁棒性好
高性能	工业化部署延迟低，速度快，计算资源占用少
高扩展性	能高效支持业务迭代定制，满足业务快速更新需求

Penggunaan industri mempunyai kependaman yang rendah, kelajuan yang pantas dan menggunakan kurang sumber pengkomputeran Kebolehskalaan tinggi

Tugas pengecaman pertuturan adalah untuk mengenali sepenuhnya daripada sekeping ucapan Kandungan teks (ucapan ke teks).

Sistem ASR yang memenuhi keperluan pengeluaran perindustrian moden bergantung pada sejumlah besar dan pelbagai data latihan "Pelbagai" di sini merujuk kepada data tidak homogen seperti persekitaran sekeliling pembesar suara, konteks adegan (medan) dan loghat pembesar suara.

Untuk senario perniagaan stesen B, kami perlu menyelesaikan masalah permulaan dingin data latihan suara Kami akan menghadapi cabaran berikut:

Permulaan sejuk: Terdapat. hanya sejumlah kecil data pada permulaan data sumber terbuka, data yang dibeli dan senario perniagaan kurang dipadankan.
Pelbagai senario perniagaan: Senario perniagaan audio dan video Stesen B meliputi berpuluh-puluh medan, yang boleh dianggap sebagai medan umum dan mempunyai keperluan tinggi untuk "kepelbagaian" data.
Campuran Cina dan Inggeris: Stesen B mempunyai lebih ramai pengguna muda, dan terdapat lebih banyak video pengetahuan am yang dicampur dalam bahasa Cina dan Inggeris.

Untuk masalah di atas, kami telah menggunakan penyelesaian data berikut:

Penapisan data perniagaan

Bilibili mempunyai sebilangan kecil sari kata (sari kata cc) yang diserahkan oleh pemilik atau pengguna UP, tetapi terdapat juga beberapa masalah:

Cap masa tidak tepat dan cap masa mula dan tamat daripada ayat selalunya antara Antara perkataan pertama dan terakhir atau selepas beberapa perkataan
Tiada koresponden yang lengkap antara ucapan dan teks, lebih banyak perkataan, kurang perkataan, ulasan atau terjemahan, dan sari kata mungkin dihasilkan berdasarkan makna;
Penukaran digital, Sebagai contoh, sari kata adalah 2002 (sebutan sebenar ialah 2002, 2002, dll.); pada data sumber terbuka, data produk siap yang dibeli dan sejumlah kecil data beranotasi Model asas menggunakan teks sari kata yang diserahkan untuk melatih model sub-bahasa, yang digunakan untuk penjajaran masa ayat dan penapisan sari kata; . anotasi manual data, sejumlah besar tanpa pengawasan (wav2vec, HuBERT, data2vec, dll.) [1][2] dan separa diselia telah muncul dalam industri Kaedah latihan.

Terdapat sejumlah besar data perniagaan tidak berlabel di tapak B. Kami juga memperoleh sejumlah besar data video tidak berlabel daripada tapak web lain Kami menggunakan kaedah latihan separa penyeliaan yang dipanggil NST (Latihan Pelajar Noisy) [3 ] pada peringkat awal ,

Pada mulanya, hampir 500,000 manuskrip telah disaring mengikut medan dan pengedaran volum siaran, dan akhirnya menghasilkan kira-kira 40,000 jam data anotasi automatik Selepas 15,000 jam latihan data anotasi ketepatan pengecaman meningkat kira-kira 15%.

Rajah 1

Melalui data sumber terbuka, data penyerahan stesen B, data anotasi manual dan data anotasi automatik, kami pada mulanya telah menyelesaikan masalah permulaan sejuk data . Dengan model Dengan lelaran, kami boleh menapis data domain dengan pengecaman yang lemah,

, dengan itu membentuk kitaran ke hadapan. Selepas menyelesaikan masalah data pada mulanya, kami akan menumpukan pada pengoptimuman algoritma model di bawah.

Pengoptimuman Algoritma Model

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Sejarah Perkembangan Teknologi ASR

Mari kita semak secara ringkas sejarah perkembangan pengecaman pertuturan moden, yang boleh dibahagikan secara kasar kepada tiga peringkat:

Peringkat pertama adalah dari 1993 hingga 2009, apabila pengecaman pertuturan telah berada di Dalam era HMM-GMM, masa lalu berdasarkan padanan templat standard mula beralih kepada model statistik Tumpuan penyelidikan juga beralih daripada perbendaharaan kata kecil dan perkataan terpencil kepada perbendaharaan kata yang besar dan pengecaman pertuturan berterusan yang tidak spesifik Sejak tahun 1990-an , pertuturan telah terus bertambah baik untuk masa yang lama Perkembangan pengecaman agak perlahan, dan kadar ralat pengecaman tidak menurun dengan ketara.

Peringkat kedua ialah dari 2009 hingga sekitar 2015. Dengan peningkatan ketara kuasa pengkomputeran GPU, pembelajaran mendalam mula meningkat dalam pengecaman pertuturan pada tahun 2009, dan rangka kerja pengecaman pertuturan mula berubah menjadi HMM-DNN, dan mula Pada era DNN, ketepatan pengecaman pertuturan telah dipertingkatkan dengan ketara.

Peringkat ketiga ialah selepas 2015. Disebabkan peningkatan teknologi hujung ke hujung, pembangunan CV, NLP dan bidang AI lain mempromosikan satu sama lain Pengecaman pertuturan mula menggunakan rangkaian yang lebih mendalam dan kompleks. sambil mengguna pakai Teknologi hujung ke hujung telah meningkatkan lagi prestasi pengecaman pertuturan, malah melebihi tahap manusia dalam beberapa keadaan terhad.

Gambar 2

B battle ASR penyelesaian teknikal

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Pengenalan kepada konsep penting

Untuk memudahkan pemahaman, berikut adalah pengenalan ringkas kepada beberapa konsep asas yang penting

Unit pemodelan

Hibrid atau E2E

Rangka kerja hibrid peringkat kedua HMM-DNN berdasarkan rangkaian neural mempunyai peningkatan yang besar berbanding dengan ketepatan pengecaman pertuturan sistem HMM-GMM peringkat pertama Perkara ini juga telah dipersetujui sebulat suara oleh semua orang.

Walau bagaimanapun, fasa ketiga perbandingan sistem hujung ke hujung (E2E) dengan fasa kedua juga menjadi kontroversi dalam industri untuk satu tempoh masa [4]. berkaitan pengubah Dengan kemunculan model, keupayaan perwakilan model semakin kuat dan kukuh

Pada masa yang sama, dengan peningkatan ketara kuasa pengkomputeran GPU, kami boleh menambah lebih banyak latihan data, dan. penyelesaian hujung ke hujung secara beransur-ansur menunjukkan kelebihannya Semakin banyak syarikat memilih penyelesaian hujung ke hujung.

Di sini kami membandingkan kedua-dua penyelesaian ini berdasarkan senario perniagaan stesen B:

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Rajah 3

Rajah 2 ialah DNN biasa - Rangka kerja HMM, anda dapat melihat bahawa saluran paipnya sangat panjang, bahasa yang berbeza memerlukan kamus sebutan profesional,

dan sistem hujung ke hujung dalam Rajah 3 meletakkan semua ini dalam model rangkaian saraf, input rangkaian saraf ialah Audio (atau ciri), output ialah hasil pengecaman yang kita inginkan.

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Rajah 4

Dengan perkembangan teknologi, kelebihan sistem hujung ke hujung dalam alatan pembangunan, komuniti dan prestasi semakin menjadi-jadi jelas:

Perbandingan alat dan komuniti yang mewakili

	混合框架（hybrid）	端到端框架（E2E）
代表性开源工具及社区	HTK, Kaldi	Espnet, Wenet, DeepSpeech, K2等
编程语言	C/C++, Shell	Python, Shell
可扩展性	从头开发	TensorFlow/Pytorch

rangka kerja hujung ke hujung (E2E)

perwakilan Alat dan komuniti sumber terbuka

Espnet, Wenet, DeepSpeech, K2, dll.

Bahasa pengaturcaraan

Dibangunkan dari awal

Perbandingan prestasi

Jadual berikut menunjukkan hasil optimum (kadar ralat perkataan CER) set data biasa berdasarkan alat perwakilan:

10.80Aishell-17.434.7212.83 >

Rangka kerja hibrid (hibrid)

Rangka Kerja Hujung-ke-Hujung (E2E)

Mewakili Alat

Kaldi

Espnet

mewakili teknologi

tdnn+chain+ rnnlm rescoring

conformer-las/ctc/rnnt

Librispeech

3.06

1.90

GigaSpeech

14.8 >

WenetSpeech

Ringkasnya, dengan memilih sistem hujung ke hujung, berbanding rangka kerja hibrid tradisional, berdasarkan sumber tertentu, kami boleh membangunkan sistem ASR berkualiti tinggi dengan lebih pantas dan lebih baik.

Sudah tentu, berdasarkan rangka kerja hibrid, jika kita turut menggunakan model yang sama maju dan penyahkod yang sangat dioptimumkan, kita boleh mencapai hasil hampir hujung ke hujung, tetapi kita mungkin perlu melabur beberapa kali ganda tenaga kerja dan sumber dalam pembangunan Optimumkan sistem ini.

Pemilihan penyelesaian hujung ke hujung

Bilibili mempunyai ratusan ribu jam audio yang perlu ditranskripsi setiap hari Keperluan pemprosesan dan kelajuan sistem ASR adalah sangat tinggi, dan ketepatan penjanaan sari kata AI juga tinggi Pada masa yang sama, liputan pemandangan stesen B juga sangat luas pilih sistem ASR yang munasabah dan cekap.

Sistem ASR yang ideal

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Rajah 5

Kami berharap dapat membina sistem ASR yang cekap berdasarkan rangka kerja hujung ke hujung untuk menyelesaikan masalah di stesen B Masalah senario.

Perbandingan sistem hujung ke hujung

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Rajah 6

Rajah 4 ialah tiga wakil sistem hujung ke hujung [5 ], masing-masing E2E-CTC, E2E-RNNT, dan E2E-AED Berikut membandingkan kelebihan dan kekurangan setiap sistem dari pelbagai aspek (skor lebih tinggi, lebih baik)

Perbandingan sistem<.>

Ketepatan pengecaman	6	5	6
Siaran Langsung (Strim)	3	5	5
Kos dan Kelajuan	4	3	5
Pembaikan Pantas	3	3	6
Lelaran yang pantas dan cekap	6	4	5

Perbandingan ketepatan bukan penstriman (kadar ralat perkataan CER)

	2000小时	15000小时
Kaldi Chain model+LM	13.7	--
E2E-AED	11.8	6.6
E2E-RNNT	12.4	--
E2E-CTC(greedy)	13.1	7.1
优化的E2E-CTC+LM	10.2	5.8

Di atas adalah hasil adegan kehidupan dan makanan di stesen B berdasarkan 2,000 jam dan 15,000 jam data latihan video masing-masing dan E2E-CTC menggunakan model bahasa lanjutan yang dilatih dengan korpus yang sama >E2E-AED dan E2E-RNNT tidak menggunakan model bahasa lanjutan, dan sistem hujung ke hujung adalah berdasarkan model Conformer.

Ia boleh dilihat daripada jadual kedua bahawa ketepatan sistem E2E-CTC tunggal tidak begitu lemah berbanding sistem hujung ke hujung yang lain, tetapi pada masa yang sama sistem E2E-CTC mempunyai perkara berikut kelebihan:

Rangka kerja ASR boleh skala ketepatan tinggi

Rajah 7 Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Latihan diskriminasi CTC hujung ke hujung

Sistem kami menggunakan aksara Cina ditambah pemodelan BPE Inggeris Selepas latihan pelbagai tugas berdasarkan AED dan CTC, kami hanya mengekalkan Untuk bahagian CTC, kami akan melakukan latihan diskriminatif kemudian Kami menggunakan latihan diskriminatif hujung-ke-hujung [6][7]:

Kriteria latihan diskriminasi

Kriteria Diskriminasi-MMI Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

a. Mula-mula jana penjajaran dan penyahkodan yang sepadan dengan semua korpus latihan pada CPU; Semasa latihan, setiap kumpulan mini menggunakan penjajaran dan kekisi yang telah dijana masing-masing untuk mengira kecerunan pengangka dan penyebut dan mengemas kini model

2. Pendekatan kami

a terus dalam Kira kecerunan pengangka dan penyebut pada GPU dan kemas kini model; > 1. Pemodelan terus Hujung ke hujung aksara dan BPE Bahasa Inggeris, meninggalkan struktur pemindahan keadaan hmm telefon 2. Butiran pemodelan adalah besar, input latihan tidak lebih kurang dipotong, dan konteksnya adalah; keseluruhan ayat;

Jadual berikut adalah berdasarkan 15,000 jam data Selepas latihan CTC selesai, 3,000 jam dipilih untuk latihan diskriminasi menggunakan keyakinan penyahkodan keputusan latihan diskriminatif bagi mmi bebas kekisi hujung ke hujung adalah lebih baik daripada Latihan DT tradisional, selain meningkatkan ketepatan, keseluruhan proses latihan boleh diselesaikan dalam GPU aliran tensor/pytorch.

6.96	DT tradisional	6.63
E2E LFMMI DT	6.13

Berbanding dengan sistem hibrid, cap waktu hasil penyahkodan sistem hujung ke hujung tidak begitu tepat latihan AED tidak sejajar dengan masa Model terlatih CTC jauh lebih tepat daripada cap waktu AED, tetapi terdapat juga lonjakan masalah. Setiap kali Tempoh perkataan adalah tidak tepat;

Dekoder End-to-end End CTC

Dalam proses pembangunan teknologi pengecaman pertuturan, sama ada peringkat pertama berasaskan GMM-HMM atau peringkat kedua berdasarkan DNN -Rangka kerja hibrid HMM, penyahkod adalah komponen yang sangat penting.

menggunakan lebih sedikit sumber, biasanya 1/5 daripada sumber penyahkodan WFST

Kelajuan penyahkodan adalah pantas, menggunakan penyahkodan segerak perkataan [8], yang biasanya 5 kali lebih cepat daripada kelajuan penyahkodan WFST
Model Menggunakan inferens separuh ketepatan F16

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

[1] A Baevski, H Zhou, et al wav2vec 2.0: Rangka Kerja Penyeliaan Sendiri bagi Perwakilan Pertuturan

[4] C Lüscher, E Beck, et al RWTH ASR Systems untuk LibriSpeech: Hibrid vs Perhatian -- tanpa Pembesaran Data
[5] R Prabhavalkar, K Rao, et al , Perbandingan Model Jujukan-ke-Jujukan untuk Pengecaman Pertuturan
[6] D Povey, V Peddinti1, et al, Rangkaian neural terlatih jujukan tulen untuk ASR berdasarkan MMI tanpa kekisi

//m.sbmmt.com/link/2ea6241cf767c279cf1e80a790df1885

Pengarang terbitan ini: Deng Wei

Jurutera Algoritma Kanan

Ketua Arahan Pengecaman Pertuturan Bilibili

Atas ialah kandungan terperinci Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!