Rumah > Peranti teknologi > AI > Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

王林
Lepaskan: 2023-04-15 10:40:02
ke hadapan
1674 orang telah melayarinya

Teknologi Pengecaman Pertuturan Automatik (ASR) telah dilaksanakan secara besar-besaran dalam senario perniagaan Bilibili yang berkaitan, seperti semakan keselamatan kandungan audio dan video, sari kata AI (sisi C, mesti dipotong, siaran langsung S12, dsb. ), pemahaman video ( Carian teks penuh), dsb.

Selain itu, enjin ASR Bilibili turut memenangi tempat pertama dalam penilaian skala penuh terkini bagi penanda aras industri SpeechIO (https://github.com/SpeechColab/Leaderboard​) pada November 2022 (https: // github.com/SpeechColab/Leaderboard#5-ranking), dan kelebihannya lebih jelas dalam set ujian bukan awam.

🎜>

  • Sari kata AI (Cina dan Inggeris C-side, mesti dipotong, siaran langsung S12, dll.)

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

  • Carian teks penuh

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Artikel ini akan diperkenalkan di sini Dalam prosesnya, kami telah mengumpul dan meneroka data dan algoritma.

Enjin ASR berkualiti tinggi

Kualiti tinggi (prestasi kos tinggi) yang sesuai untuk pengeluaran industri ) Enjin ASR, yang sepatutnya mempunyai ciri-ciri berikut:

Semua set ujian ranking

Kedudukan

Pengilang

Kadar Ralat Perkataan

1

Bilibili

2.82%

2

Awan Alibaba

2.85%

3

Yitu

3.16%

4

Microsoft

3.28%

5

Tencent

3.85%

6

iFlytek

4.05%

7

Spitz

5.19%

8

Baidu

8.14%


说明

高精度

在相关的业务场景精度高,鲁棒性好

高性能

工业化部署延迟低,速度快,计算资源占用少

高扩展性

能高效支持业务迭代定制,满足业务快速更新需求

Penggunaan industri mempunyai kependaman yang rendah, kelajuan yang pantas dan menggunakan kurang sumber pengkomputeran Kebolehskalaan tinggi

Tugas pengecaman pertuturan adalah untuk mengenali sepenuhnya daripada sekeping ucapan Kandungan teks (ucapan ke teks).

Sistem ASR yang memenuhi keperluan pengeluaran perindustrian moden bergantung pada sejumlah besar dan pelbagai data latihan "Pelbagai" di sini merujuk kepada data tidak homogen seperti persekitaran sekeliling pembesar suara, konteks adegan (medan) dan loghat pembesar suara.

Untuk senario perniagaan stesen B, kami perlu menyelesaikan masalah permulaan dingin data latihan suara Kami akan menghadapi cabaran berikut:

  • Permulaan sejuk: Terdapat. hanya sejumlah kecil data pada permulaan data sumber terbuka, data yang dibeli dan senario perniagaan kurang dipadankan.
  • Pelbagai senario perniagaan: Senario perniagaan audio dan video Stesen B meliputi berpuluh-puluh medan, yang boleh dianggap sebagai medan umum dan mempunyai keperluan tinggi untuk "kepelbagaian" data.
  • Campuran Cina dan Inggeris: Stesen B mempunyai lebih ramai pengguna muda, dan terdapat lebih banyak video pengetahuan am yang dicampur dalam bahasa Cina dan Inggeris.

Untuk masalah di atas, kami telah menggunakan penyelesaian data berikut:

Penapisan data perniagaan

Bilibili mempunyai sebilangan kecil sari kata (sari kata cc) yang diserahkan oleh pemilik atau pengguna UP, tetapi terdapat juga beberapa masalah:

  • Cap masa tidak tepat dan cap masa mula dan tamat daripada ayat selalunya antara Antara perkataan pertama dan terakhir atau selepas beberapa perkataan
  • Tiada koresponden yang lengkap antara ucapan dan teks, lebih banyak perkataan, kurang perkataan, ulasan atau terjemahan, dan sari kata mungkin dihasilkan berdasarkan makna;
  • Penukaran digital, Sebagai contoh, sari kata adalah 2002 (sebutan sebenar ialah 2002, 2002, dll.); pada data sumber terbuka, data produk siap yang dibeli dan sejumlah kecil data beranotasi Model asas menggunakan teks sari kata yang diserahkan untuk melatih model sub-bahasa, yang digunakan untuk penjajaran masa ayat dan penapisan sari kata; . anotasi manual data, sejumlah besar tanpa pengawasan (wav2vec, HuBERT, data2vec, dll.) [1][2] dan separa diselia telah muncul dalam industri Kaedah latihan.
Terdapat sejumlah besar data perniagaan tidak berlabel di tapak B. Kami juga memperoleh sejumlah besar data video tidak berlabel daripada tapak web lain Kami menggunakan kaedah latihan separa penyeliaan yang dipanggil NST (Latihan Pelajar Noisy) [3 ] pada peringkat awal ,

Pada mulanya, hampir 500,000 manuskrip telah disaring mengikut medan dan pengedaran volum siaran, dan akhirnya menghasilkan kira-kira 40,000 jam data anotasi automatik Selepas 15,000 jam latihan data anotasi ketepatan pengecaman meningkat kira-kira 15%.

Rajah 1

Melalui data sumber terbuka, data penyerahan stesen B, data anotasi manual dan data anotasi automatik, kami pada mulanya telah menyelesaikan masalah permulaan sejuk data . Dengan model Dengan lelaran, kami boleh menapis data domain dengan pengecaman yang lemah,

, dengan itu membentuk kitaran ke hadapan. Selepas menyelesaikan masalah data pada mulanya, kami akan menumpukan pada pengoptimuman algoritma model di bawah.

Pengoptimuman Algoritma Model

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Sejarah Perkembangan Teknologi ASR

Mari kita semak secara ringkas sejarah perkembangan pengecaman pertuturan moden, yang boleh dibahagikan secara kasar kepada tiga peringkat:

Peringkat pertama adalah dari 1993 hingga 2009, apabila pengecaman pertuturan telah berada di Dalam era HMM-GMM, masa lalu berdasarkan padanan templat standard mula beralih kepada model statistik Tumpuan penyelidikan juga beralih daripada perbendaharaan kata kecil dan perkataan terpencil kepada perbendaharaan kata yang besar dan pengecaman pertuturan berterusan yang tidak spesifik Sejak tahun 1990-an , pertuturan telah terus bertambah baik untuk masa yang lama Perkembangan pengecaman agak perlahan, dan kadar ralat pengecaman tidak menurun dengan ketara.

Peringkat kedua ialah dari 2009 hingga sekitar 2015. Dengan peningkatan ketara kuasa pengkomputeran GPU, pembelajaran mendalam mula meningkat dalam pengecaman pertuturan pada tahun 2009, dan rangka kerja pengecaman pertuturan mula berubah menjadi HMM-DNN, dan mula Pada era DNN, ketepatan pengecaman pertuturan telah dipertingkatkan dengan ketara.

Peringkat ketiga ialah selepas 2015. Disebabkan peningkatan teknologi hujung ke hujung, pembangunan CV, NLP dan bidang AI lain mempromosikan satu sama lain Pengecaman pertuturan mula menggunakan rangkaian yang lebih mendalam dan kompleks. sambil mengguna pakai Teknologi hujung ke hujung telah meningkatkan lagi prestasi pengecaman pertuturan, malah melebihi tahap manusia dalam beberapa keadaan terhad.

Gambar 2

B battle ASR penyelesaian teknikal

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Pengenalan kepada konsep penting

Untuk memudahkan pemahaman, berikut adalah pengenalan ringkas kepada beberapa konsep asas yang penting

Unit pemodelan

Hibrid atau E2E

Rangka kerja hibrid peringkat kedua HMM-DNN berdasarkan rangkaian neural mempunyai peningkatan yang besar berbanding dengan ketepatan pengecaman pertuturan sistem HMM-GMM peringkat pertama Perkara ini juga telah dipersetujui sebulat suara oleh semua orang.

Walau bagaimanapun, fasa ketiga perbandingan sistem hujung ke hujung (E2E) dengan fasa kedua juga menjadi kontroversi dalam industri untuk satu tempoh masa [4]. berkaitan pengubah Dengan kemunculan model, keupayaan perwakilan model semakin kuat dan kukuh

Pada masa yang sama, dengan peningkatan ketara kuasa pengkomputeran GPU, kami boleh menambah lebih banyak latihan data, dan. penyelesaian hujung ke hujung secara beransur-ansur menunjukkan kelebihannya Semakin banyak syarikat memilih penyelesaian hujung ke hujung.

Di sini kami membandingkan kedua-dua penyelesaian ini berdasarkan senario perniagaan stesen B:

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Rajah 3

Rajah 2 ialah DNN biasa - Rangka kerja HMM, anda dapat melihat bahawa saluran paipnya sangat panjang, bahasa yang berbeza memerlukan kamus sebutan profesional,

dan sistem hujung ke hujung dalam Rajah 3 meletakkan semua ini dalam model rangkaian saraf, input rangkaian saraf ialah Audio (atau ciri), output ialah hasil pengecaman yang kita inginkan.

Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

Rajah 4

Dengan perkembangan teknologi, kelebihan sistem hujung ke hujung dalam alatan pembangunan, komuniti dan prestasi semakin menjadi-jadi jelas:

  • Perbandingan alat dan komuniti yang mewakili


混合框架(hybrid)

端到端框架(E2E)

代表性开源工具及社区

HTK, Kaldi

Espnet, Wenet, DeepSpeech, K2等

编程语言

C/C++, Shell

Python, Shell

可扩展性

从头开发

TensorFlow/Pytorch

rangka kerja hujung ke hujung (E2E)
perwakilan Alat dan komuniti sumber terbuka Espnet, Wenet, DeepSpeech, K2, dll.
Bahasa pengaturcaraan Dibangunkan dari awal
  • Perbandingan prestasi
  • Jadual berikut menunjukkan hasil optimum (kadar ralat perkataan CER) set data biasa berdasarkan alat perwakilan:

    10.80Aishell-17.434.7212.83 >


    Rangka kerja hibrid (hibrid)

    Rangka Kerja Hujung-ke-Hujung (E2E)

    Mewakili Alat

    Kaldi

    Espnet

    mewakili teknologi

    tdnn+chain+ rnnlm rescoring

    conformer-las/ctc/rnnt

    Librispeech

    3.06

    1.90

    GigaSpeech

    14.8 >

    WenetSpeech

    Ringkasnya, dengan memilih sistem hujung ke hujung, berbanding rangka kerja hibrid tradisional, berdasarkan sumber tertentu, kami boleh membangunkan sistem ASR berkualiti tinggi dengan lebih pantas dan lebih baik.

    Sudah tentu, berdasarkan rangka kerja hibrid, jika kita turut menggunakan model yang sama maju dan penyahkod yang sangat dioptimumkan, kita boleh mencapai hasil hampir hujung ke hujung, tetapi kita mungkin perlu melabur beberapa kali ganda tenaga kerja dan sumber dalam pembangunan Optimumkan sistem ini.

    Pemilihan penyelesaian hujung ke hujung

    Bilibili mempunyai ratusan ribu jam audio yang perlu ditranskripsi setiap hari Keperluan pemprosesan dan kelajuan sistem ASR adalah sangat tinggi, dan ketepatan penjanaan sari kata AI juga tinggi Pada masa yang sama, liputan pemandangan stesen B juga sangat luas pilih sistem ASR yang munasabah dan cekap.

    Sistem ASR yang ideal

    Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

    Rajah 5

    Kami berharap dapat membina sistem ASR yang cekap berdasarkan rangka kerja hujung ke hujung untuk menyelesaikan masalah di stesen B Masalah senario.

    Perbandingan sistem hujung ke hujung

    Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

    Rajah 6

    Rajah 4 ialah tiga wakil sistem hujung ke hujung [5 ], masing-masing E2E-CTC, E2E-RNNT, dan E2E-AED Berikut membandingkan kelebihan dan kekurangan setiap sistem dari pelbagai aspek (skor lebih tinggi, lebih baik)

    • Perbandingan sistem<.>
    • E2E-RNNTE2E-CTC Dioptimumkan


      Ketepatan pengecaman

      6

      5

      6

      Siaran Langsung (Strim)

      3

      5

      5

      Kos dan Kelajuan

      4

      3

      5

      Pembaikan Pantas

      3

      3

      6

      Lelaran yang pantas dan cekap

      6

      4

      5

      • Perbandingan ketepatan bukan penstriman (kadar ralat perkataan CER)


      2000小时

      15000小时

      Kaldi Chain model+LM

      13.7

      --

      E2E-AED

      11.8

      6.6

      E2E-RNNT

      12.4

      --

      E2E-CTC(greedy)

      13.1

      7.1

      优化的E2E-CTC+LM

      10.2

      5.8

      Di atas adalah hasil adegan kehidupan dan makanan di stesen B berdasarkan 2,000 jam dan 15,000 jam data latihan video masing-masing dan E2E-CTC menggunakan model bahasa lanjutan yang dilatih dengan korpus yang sama >E2E-AED dan E2E-RNNT tidak menggunakan model bahasa lanjutan, dan sistem hujung ke hujung adalah berdasarkan model Conformer.

      Ia boleh dilihat daripada jadual kedua bahawa ketepatan sistem E2E-CTC tunggal tidak begitu lemah berbanding sistem hujung ke hujung yang lain, tetapi pada masa yang sama sistem E2E-CTC mempunyai perkara berikut kelebihan:

      Oleh kerana tiada struktur autoregresif (dekoder AED dan ramalan RNNT) rangkaian saraf, sistem E2E-CTC mempunyai kelebihan semula jadi dalam penstriman, kelajuan penyahkodan dan kos penggunaan;
        Dari segi penyesuaian perniagaan, sistem E2E-CTC Ia juga lebih mudah untuk menyambung secara luaran pelbagai model bahasa (nnlm dan ngram), yang menjadikan kestabilan generalisasinya jauh lebih baik daripada sistem hujung ke hujung lain dalam medan terbuka umum yang tidak mempunyai data yang mencukupi untuk dilindungi sepenuhnya.

      Penyelesaian ASR berkualiti tinggi

      Rangka kerja ASR boleh skala ketepatan tinggi

      Rajah 7Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

      Dalam persekitaran pengeluaran stesen B, terdapat keperluan yang tinggi untuk kelajuan, ketepatan dan penggunaan sumber, dan terdapat juga kemas kini pantas dalam senario yang berbeza . dan keperluan penyesuaian (seperti perkataan entiti yang berkaitan dengan manuskrip, penyesuaian permainan popular dan acara sukan, dsb.),

      Di sini kami secara amnya menggunakan sistem CTC hujung ke hujung dan menyelesaikan masalah penyesuaian berskala melalui penyahkod dinamik. Berikut akan menumpukan pada ketepatan model, kelajuan dan kerja pengoptimuman skalabiliti.

      Latihan diskriminasi CTC hujung ke hujung

      Sistem kami menggunakan aksara Cina ditambah pemodelan BPE Inggeris Selepas latihan pelbagai tugas berdasarkan AED dan CTC, kami hanya mengekalkan Untuk bahagian CTC, kami akan melakukan latihan diskriminatif kemudian Kami menggunakan latihan diskriminatif hujung-ke-hujung [6][7]:

      Kriteria latihan diskriminasi

        <.>

      Kriteria Diskriminasi-MMIAmalan pelaksanaan teknologi pengecaman pertuturan di stesen B

      Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

      Perbezaan daripada latihan diskriminatif tradisional

        1. Pendekatan tradisional
      • a. Mula-mula jana penjajaran dan penyahkodan yang sepadan dengan semua korpus latihan pada CPU; Semasa latihan, setiap kumpulan mini menggunakan penjajaran dan kekisi yang telah dijana masing-masing untuk mengira kecerunan pengangka dan penyebut dan mengemas kini model

      2. Pendekatan kami

      a terus dalam Kira kecerunan pengangka dan penyebut pada GPU dan kemas kini model; > 1. Pemodelan terus Hujung ke hujung aksara dan BPE Bahasa Inggeris, meninggalkan struktur pemindahan keadaan hmm telefon 2. Butiran pemodelan adalah besar, input latihan tidak lebih kurang dipotong, dan konteksnya adalah; keseluruhan ayat;

      Jadual berikut adalah berdasarkan 15,000 jam data Selepas latihan CTC selesai, 3,000 jam dipilih untuk latihan diskriminasi menggunakan keyakinan penyahkodan keputusan latihan diskriminatif bagi mmi bebas kekisi hujung ke hujung adalah lebih baik daripada Latihan DT tradisional, selain meningkatkan ketepatan, keseluruhan proses latihan boleh diselesaikan dalam GPU aliran tensor/pytorch.

      Set ujian video bilibili

      garis dasar CTC
      6.96


      DT tradisional

      6.63

      E2E LFMMI DT

      6.13

      Berbanding dengan sistem hibrid, cap waktu hasil penyahkodan sistem hujung ke hujung tidak begitu tepat latihan AED tidak sejajar dengan masa Model terlatih CTC jauh lebih tepat daripada cap waktu AED, tetapi terdapat juga lonjakan masalah. Setiap kali Tempoh perkataan adalah tidak tepat;

      Dekoder End-to-end End CTC

      Dalam proses pembangunan teknologi pengecaman pertuturan, sama ada peringkat pertama berasaskan GMM-HMM atau peringkat kedua berdasarkan DNN -Rangka kerja hibrid HMM, penyahkod adalah komponen yang sangat penting.

      Prestasi penyahkod secara langsung menentukan kelajuan dan ketepatan sistem ASR terakhir Pengembangan dan penyesuaian perniagaan juga kebanyakannya bergantung pada penyelesaian penyahkod yang fleksibel dan cekap. Penyahkod tradisional, sama ada penyahkod dinamik atau penyahkod statik berdasarkan WFST, mereka bukan sahaja bergantung pada banyak pengetahuan teori, tetapi juga memerlukan reka bentuk kejuruteraan perisian profesional Membangunkan enjin penyahkod tradisional dengan prestasi unggul bukan sahaja memerlukan a banyak pembangunan tenaga manusia pada peringkat awal, dan kos penyelenggaraan seterusnya juga sangat tinggi.

      Penyahkod WFST tradisional perlu menyusun hmm, konteks tripon, kamus dan model bahasa ke dalam rangkaian bersatu, iaitu HCLG, dalam ruang carian rangkaian FST bersatu, yang boleh meningkatkan kelajuan penyahkodan.

      Dengan kematangan teknologi sistem hujung ke hujung, unit pemodelan sistem hujung ke hujung mempunyai butiran yang lebih besar, seperti perkataan Cina atau potongan perkataan Inggeris, kerana struktur pemindahan HMM tradisional, konteks tripon dan sebutan dikeluarkan kamus, yang menjadikan ruang carian penyahkodan seterusnya lebih kecil, jadi kami memilih penyahkod dinamik yang ringkas dan cekap berdasarkan carian pancaran Rajah berikut menunjukkan dua rangka kerja penyahkodan tradisional, hujung ke hujung penyahkod dinamik Penyahkod mempunyai kelebihan berikut:

      menggunakan lebih sedikit sumber, biasanya 1/5 daripada sumber penyahkodan WFST

        mempunyai gandingan yang rendah, memudahkan penyesuaian perniagaan dan mudah untuk menyepadukan dengan pelbagai model bahasa Penyahkodan, tidak perlu menyusun semula sumber penyahkodan untuk setiap pengubahsuaian
      • Kelajuan penyahkodan adalah pantas, menggunakan penyahkodan segerak perkataan [8], yang biasanya 5 kali lebih cepat daripada kelajuan penyahkodan WFST
      • Model Menggunakan inferens separuh ketepatan F16
      Model ditukar kepada FasterTransformer[9], berdasarkan pengubah yang sangat dioptimumkan oleh nvidia; >Menggunakan triton untuk menggunakan model inferens, mengumpulkan kelompok secara automatik, meningkatkan kecekapan penggunaan GPU sepenuhnya

      Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B

      Di bawah satu GPU T4, kelajuan meningkat sebanyak 30%, daya pemprosesan meningkat sebanyak 2 kali ganda, dan 3000 jam audio boleh ditranskripsikan dalam masa 1 jam; artikel terutamanya memperkenalkan pelaksanaan teknologi pengecaman pertuturan dalam senario stesen B, cara menyelesaikan masalah data latihan dari awal, pemilihan penyelesaian teknikal keseluruhan, dan pelbagai Pengenalan dan pengoptimuman sub-modul, termasuk latihan model, pengoptimuman penyahkod dan penempatan inferens perkhidmatan. Pada masa hadapan, kami akan meningkatkan lagi pengalaman pengguna dalam senario pendaratan yang berkaitan, seperti menggunakan teknologi kata panas segera untuk mengoptimumkan ketepatan perkataan entiti yang berkaitan pada peringkat manuskrip digabungkan dengan penstriman teknologi berkaitan ASR, penyesuaian yang lebih cekap menyokong masa nyata; transkripsi sari kata untuk permainan dan acara sukan.

      Rujukan

      [1] A Baevski, H Zhou, et al wav2vec 2.0: Rangka Kerja Penyeliaan Sendiri bagi Perwakilan Pertuturan

      [2] A Baevski , W Hsu, et al. data2vec: Rangka Kerja Umum untuk Pembelajaran Seliaan Sendiri dalam Pertuturan, Penglihatan dan Bahasa

      [3] Daniel S, Y Zhang, et al Meningkatkan Latihan Pelajar Bising untuk Pengecaman Pertuturan Automatik
      • [4] C Lüscher, E Beck, et al RWTH ASR Systems untuk LibriSpeech: Hibrid vs Perhatian -- tanpa Pembesaran Data
      • [5] R Prabhavalkar, K Rao, et al , Perbandingan Model Jujukan-ke-Jujukan untuk Pengecaman Pertuturan
      • [6] D Povey, V Peddinti1, et al, Rangkaian neural terlatih jujukan tulen untuk ASR berdasarkan MMI tanpa kekisi
      [7] H Xiang, Z Ou, PEMODELAN AKUSTIK TENGAH PERINGKAT BERASASKAN CRF DENGAN TOPOLOGI CTC

      [8] Z Chen, W Deng, et al, Penyahkodan Segerak Telefon dengan Kekisi CTC

      [9] ​

      ​//m.sbmmt.com/link/2ea6241cf767c279cf1e80a790df1885​

      Pengarang terbitan ini: Deng Wei

      Jurutera Algoritma Kanan

      Ketua Arahan Pengecaman Pertuturan Bilibili

    Atas ialah kandungan terperinci Amalan pelaksanaan teknologi pengecaman pertuturan di stesen B. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

    Label berkaitan:
    sumber:51cto.com
    Kenyataan Laman Web ini
    Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
    Tutorial Popular
    Lagi>
    Muat turun terkini
    Lagi>
    kesan web
    Kod sumber laman web
    Bahan laman web
    Templat hujung hadapan