Ximalaya surmonte le problème du chevauchement de la parole et remporte la première place au International Conference Challenge, accélérant ainsi l'innovation en matière d'IA
Récemment, le défi de transcription de conférence multicanal multipartite (M2MeT2.0) de la conférence internationale de premier plan ASRU 2023 (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) s'est terminé avec succès, et l'Everest de l'Himalaya Le laboratoire a obtenu des résultats exceptionnels. A remporté le titre de champion.
Le symposium ASRU est l'événement technique phare du comité technique sur le traitement de la parole et du langage (SLTC) de l'IEEE, qui se tient tous les deux ans et rassemble les meilleurs experts et chercheurs du monde universitaire et de l'industrie pour discuter d'un large éventail de problèmes de reconnaissance et de compréhension de la parole. Le Challenge M2MeT2.0 est un concours clé de l'ASRU en 2023. Son objectif est de résoudre le problème de la transcription vocale superposée dans les salles de conférence hors ligne. En tant que « scène de cocktail » typique où de nombreuses personnes parlent librement, la scène de réunion a toujours été une difficulté et un point central dans le domaine de la reconnaissance vocale. Elle revêt une grande importance pour développer l'intelligence artificielle vocale pour les scènes de réunion et explorer des solutions de niveau industriel. aux problèmes connexes.
Il est à noter que ce n’est pas la première fois qu’Himalaya participe au M2MeT Challenge de l’ASRU. Lors du premier défi M2MeT, Ximalaya a coopéré avec l'Université des sciences et technologies de Chine et a remporté la troisième place dans la catégorie des conférenciers, avec un taux d'erreur de seulement 4,05 %. Dans le défi inaugural, l'évaluation utilise le taux d'erreur sur les caractères (CER) comme mesure et seul l'audio est transcrit en texte sans tenir compte des étiquettes des locuteurs. Basé sur le succès de la première session, le défi M2MeT2.0 se concentrera sur l'évaluation liée au locuteur, promouvra la mise en pratique des systèmes de reconnaissance vocale multi-locuteurs et mettra en place deux sous-pistes, données limitées et données non qualifiées.
Afin de relever ce défi, l'Himalayan Everest Laboratory est parti du cadre de base de la reconnaissance vocale et a lancé une exploration technique de la technologie de détection d'alias de la parole et de la technologie d'enregistrement du locuteur. Ximalaya a obtenu d'excellents résultats de première place dans les sous-pistes d'ensemble de données limitées et d'ensemble de données ouvertes du défi M2MeT2.0.
L'ensemble de données du défi M2MeT2.0 de cette année contient des données réelles, multi-scénarios et multimodales à grande échelle, couvrant une variété de salles de conférence de différentes tailles et configurations, simulant divers meubles, des réunions régulières avec différents thèmes et divers bruits intérieurs. . Ces sons qui se chevauchent, tels que les voix humaines, les sons de la télévision, les sons des ventilateurs et des climatiseurs, les sons du clavier, les sons d'ouverture/fermeture des portes, les sons de bulles, etc., augmentent la difficulté du jeu. En utilisant simultanément un réseau de microphones pour enregistrer les sons distants et un microphone-casque pour enregistrer les sons proches, une transcription précise du discours de l'orateur correspondant est assurée. Cet ensemble de données revêt une grande importance académique pour l'étude des problèmes de reconnaissance vocale multi-locuteurs et de chevauchement de la parole, et fournit des ressources de données réelles et diverses pour trouver des solutions au niveau industriel.
Tous les locuteurs de l'ensemble de données du défi M2MeT2.0 sont des locuteurs natifs du chinois. Himalaya y participe activement à travers une combinaison d'industries, d'universités et de recherche, et s'engage à contribuer au développement de la technologie de reconnaissance vocale locale en Chine. Dans le cadre du défi M2MeT2.0, Himalaya a démontré une excellente technologie de reconnaissance du locuteur et de la parole (ASR) et a démontré d'excellentes performances. Son équipe du laboratoire Everest a utilisé des modules de reconnaissance du locuteur, d'amélioration de la parole et de reconnaissance vocale développés par elle-même. Grâce à l'optimisation et à l'expérience, des avancées significatives ont été réalisées. réalisés dans des environnements de chevauchement de parole et à plusieurs locuteurs. En combinant des modèles d'apprentissage profond et de réseaux neuronaux, l'Himalayan Everest Laboratory est capable de transcrire, d'identifier et de séparer avec précision le discours de plusieurs locuteurs en temps réel.
Les technologies liées à Ximalaya ont non seulement été vérifiées dans le cadre du défi ASRU 2023 M2MeT2.0, mais ont également été appliquées et renforcées dans la production de contenu Ximalaya AIGC. Actuellement, la technologie de reconnaissance automatique de la parole (ASR) de Ximalaya a été largement utilisée dans la fonction de script AI de l'application Ximalaya. Elle transcrit le contenu vocal sans scripts dans la plate-forme Himalaya et génère le texte correspondant, permettant ainsi aux auditeurs de mieux comprendre. comprendre le contenu de la voix. Dans le même temps, pour le contenu sonore du manuscrit original, la fonction de manuscrit AI de Ximalaya utilise une technologie d'alignement audio et texte ultra-longue pour horodater le son et le manuscrit afin d'obtenir une mise en évidence synchrone de la lecture sonore et du texte correspondant, permettant aux utilisateurs de Il est plus pratique de profiter de l’expérience de consommation de contenu en écoutant et en regardant en même temps.
En plus de la technologie ASR, la technologie TTS (synthèse vocale) d'Himalaya est également à la pointe de l'industrie et a été largement utilisée dans la production de récits, d'actualités, de romans et d'autres contenus. Himalaya a intégré son module d'extraction de rythme indépendant conçu de manière indépendante. into HiTTS Le cadre technique reproduit parfaitement la "voix" de Shan Tianfang. Selon les rapports, Ximalaya a lancé plus de 100 albums synthétisés par les sons synthétisés par l'IA de Shan Tianfang, et le volume de lecture cumulé a dépassé 100 millions de fois.
Depuis de nombreuses années, Himalaya mène des recherches approfondies dans le domaine de la technologie vocale de l'IA. Son laboratoire Everest se concentre depuis longtemps sur la recherche et l'innovation dans les domaines de la synthèse vocale, de l'analyse des émotions, de la reconnaissance vocale et d'autres domaines. En participant au Challenge ASRU 2023 M2MeT2.0 et en remportant le championnat, Himalaya a encore consolidé sa position de leader dans le domaine de la technologie vocale et démontré son excellente capacité à résoudre des scénarios vocaux complexes.
En tant que plate-forme audio en ligne appréciée des utilisateurs, Himalaya a toujours adhéré au concept de responsabilisation de la culture grâce à la technologie, intégrant constamment la technologie aux créateurs et aux utilisateurs pour améliorer l'efficacité de la production de contenu et offrir une excellente expérience de contenu. Ximalaya continuera également à combiner une technologie vocale avancée et intelligente avec le son grâce à l'autonomisation technologique et à l'intégration de l'industrie, du monde universitaire et de la recherche, afin de fournir aux utilisateurs d'excellents produits et services de technologie vocale.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!