喜馬拉雅在國際會議挑戰賽中突破語音重疊難題斬獲第一 加速AI創新
近日,2023年國際頂尖語音會議ASRU(IEEE Automatic Speech Recognition and Understanding,自動語音辨識與理解)的多通道多方會議轉錄挑戰賽(M2MeT2.0)圓滿結束,喜馬拉雅珠峰實驗室取得了卓越成績,榮獲冠軍殊榮。
ASRU研討會是IEEE語音和語言處理技術委員會(SLTC)的旗艦技術活動,每兩年舉辦一次,匯集了來自學術界和工業界的頂級專家和研究人員,共同探討廣泛的語音識別與理解問題。 M2MeT2.0挑戰賽是ASRU 2023年的關鍵賽事,其目標是解決離線會議室語音重疊的轉錄問題。會議場景作為典型的多人自由交談的"雞尾酒會場景"一直是語音識別領域的難點和關注焦點,對於開發會議場景的語音人工智能和探索相關問題的工業級解決方案具有重要意義。
值得注意的是,喜馬拉雅不是第一次參加ASRU的M2MeT挑戰賽。在首屆M2MeT挑戰賽中,喜馬拉雅與中國科學技術大學合作,在說話人日誌賽道中榮獲第三名,並且取得了僅有4.05%的日誌錯誤率。在首屆挑戰賽中,評估使用字元錯誤率(CER)作為指標,僅將音頻轉錄為文本,而不考慮說話者標籤。基於首屆的成功,M2MeT2.0挑戰賽將著重於說話人相關的評估,推動多說話人語音識別系統的實用化,並設立了限定數據和不限定數據兩個子賽道。
為了應對這項挑戰,喜馬拉雅珠峰實驗室從語音辨識基礎架構出發,展開了混疊語音偵測技術和說話者日誌技術等方面的技術探索。喜馬拉雅在M2MeT2.0挑戰賽的限定資料集和開放資料集兩個子賽道上都獲得了優異的第一名成績。
今年的M2MeT2.0挑戰賽資料集包含了真實、多場景、多模態的大規模資料,涵蓋了不同規模和佈局的多種會議室,模擬了各種家具、不同主題的例會以及各種室內噪音。這些交錯重疊的聲音,如人聲、電視聲、風扇空調聲、鍵盤聲、開門/關門聲、氣泡聲等,為比賽增加了難度。透過同時使用麥克風陣列記錄遠距離聲音和耳機麥克風來錄製近距離聲音,確保了對應說話者的語音準確轉錄。這一數據集對於多說話人語音識別和語音重疊問題的研究具有重要的學術意義,並為尋找工業級解決方案提供了真實且多樣化的數據資源。
M2MeT2.0挑戰賽資料集中所有說話人的母語均為漢語,喜馬拉雅透過產學研相結合的方式積極參與其中,致力於為中國本土語音辨識技術的發展作出貢獻。在M2MeT2.0挑戰賽中,喜馬拉雅展示了出色的說話人和語音識別技術(ASR)展現出了卓越的性能,其珠峰實驗室團隊透過自研的說話人識別、語音增強和語音識別等模組的優化和經驗,在語音重疊和多說話人環境下取得了顯著突破。透過結合深度學習和神經網路模型,喜馬拉雅珠峰實驗室能夠即時轉錄並精準識別分離多個說話者的語音。
喜馬拉雅相關技術不僅在ASRU 2023年M2MeT2.0挑戰賽中得到驗證,還已應用賦能於喜馬拉雅AIGC內容生產中。目前,喜馬拉雅自動語音辨識(ASR)技術已廣泛應用到了喜馬拉雅App的AI文稿功能,對喜馬拉雅平台中無文稿的聲音內容進行語音轉寫,並輸出相應的文字,從而便於聽眾更好地理解聲音內容。同時,對於已有原始文稿的聲音內容,喜馬拉雅的AI文稿功能通過超長音頻與文本的對齊技術,將聲音與文稿進行時間戳對軌,實現聲音播放與相應文字的同步高亮,讓用戶能夠更方便享受邊聽邊看的內容消費體驗。
除了ASR技術,喜馬拉雅的TTS(語音合成)技術也處於行業前列,並已經廣泛被運用於評書、新聞、小說等多種內容的製作中,喜馬拉雅通過將自主設計單獨的韻律提取模組融入到HiTTS 技術框架,完美復現了單田芳的「聲音」。據報道,喜馬拉雅上線了逾100張由單田芳AI合成音合成的專輯,累計播放量已超過1億次。
多年來,喜馬拉雅一直在AI語音技術領域進行深入研究,其珠峰實驗室長期專注於語音合成、情感分析、語音識別等領域的研究和創新。透過參與ASRU 2023年M2MeT2.0挑戰賽並獲得冠軍,喜馬拉雅山進一步鞏固了在語音技術領域的領先地位,並展示了在解決複雜語音場景下的出色能力。
作為備受用戶喜愛的線上音訊平台,喜馬拉雅一直秉持著以科技賦能文化的理念,不斷將技術與創作者、用戶相結合,提升內容生產效率並提供卓越的內容體驗。喜馬拉雅也將持續透過科技賦能和產學研相結合的方式,將先進而智能的語音技術與聲音相結合,為用戶提供卓越的語音技術產品和服務。
以上是喜馬拉雅在國際會議挑戰賽中突破語音重疊難題斬獲第一 加速AI創新的詳細內容。更多資訊請關注PHP中文網其他相關文章!