Ximalaya résout le problème du chevauchement de la parole et remporte la première place lors d'une conférence internationale visant à accélérer l'innovation en matière d'IA-IA-php.cn

Maison

Ximalaya résout le problème du chevauchement de la parole et remporte la première place lors d'une conférence internationale visant à accélérer l'innovation en matière d'IA

王林

Jul 07, 2023 pm 03:42 PM

Ximalaya surmonte le problème du chevauchement de la parole et remporte la première place au International Conference Challenge, accélérant ainsi l'innovation en matière d'IA

Récemment, le défi de transcription de conférence multicanal multipartite (M2MeT2.0) de la conférence internationale de premier plan ASRU 2023 (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) s'est terminé avec succès, et l'Everest de l'Himalaya Le laboratoire a obtenu des résultats exceptionnels. A remporté le titre de champion.

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

Le symposium ASRU est l'événement technique phare du comité technique sur le traitement de la parole et du langage (SLTC) de l'IEEE, qui se tient tous les deux ans et rassemble les meilleurs experts et chercheurs du monde universitaire et de l'industrie pour discuter d'un large éventail de problèmes de reconnaissance et de compréhension de la parole. Le Challenge M2MeT2.0 est un concours clé de l'ASRU en 2023. Son objectif est de résoudre le problème de la transcription vocale superposée dans les salles de conférence hors ligne. En tant que « scène de cocktail » typique où de nombreuses personnes parlent librement, la scène de réunion a toujours été une difficulté et un point central dans le domaine de la reconnaissance vocale. Elle revêt une grande importance pour développer l'intelligence artificielle vocale pour les scènes de réunion et explorer des solutions de niveau industriel. aux problèmes connexes.

Il est à noter que ce n’est pas la première fois qu’Himalaya participe au M2MeT Challenge de l’ASRU. Lors du premier défi M2MeT, Ximalaya a coopéré avec l'Université des sciences et technologies de Chine et a remporté la troisième place dans la catégorie des conférenciers, avec un taux d'erreur de seulement 4,05 %. Dans le défi inaugural, l'évaluation utilise le taux d'erreur sur les caractères (CER) comme mesure et seul l'audio est transcrit en texte sans tenir compte des étiquettes des locuteurs. Basé sur le succès de la première session, le défi M2MeT2.0 se concentrera sur l'évaluation liée au locuteur, promouvra la mise en pratique des systèmes de reconnaissance vocale multi-locuteurs et mettra en place deux sous-pistes, données limitées et données non qualifiées.

Afin de relever ce défi, l'Himalayan Everest Laboratory est parti du cadre de base de la reconnaissance vocale et a lancé une exploration technique de la technologie de détection d'alias de la parole et de la technologie d'enregistrement du locuteur. Ximalaya a obtenu d'excellents résultats de première place dans les sous-pistes d'ensemble de données limitées et d'ensemble de données ouvertes du défi M2MeT2.0.

L'ensemble de données du défi M2MeT2.0 de cette année contient des données réelles, multi-scénarios et multimodales à grande échelle, couvrant une variété de salles de conférence de différentes tailles et configurations, simulant divers meubles, des réunions régulières avec différents thèmes et divers bruits intérieurs. . Ces sons qui se chevauchent, tels que les voix humaines, les sons de la télévision, les sons des ventilateurs et des climatiseurs, les sons du clavier, les sons d'ouverture/fermeture des portes, les sons de bulles, etc., augmentent la difficulté du jeu. En utilisant simultanément un réseau de microphones pour enregistrer les sons distants et un microphone-casque pour enregistrer les sons proches, une transcription précise du discours de l'orateur correspondant est assurée. Cet ensemble de données revêt une grande importance académique pour l'étude des problèmes de reconnaissance vocale multi-locuteurs et de chevauchement de la parole, et fournit des ressources de données réelles et diverses pour trouver des solutions au niveau industriel.

Tous les locuteurs de l'ensemble de données du défi M2MeT2.0 sont des locuteurs natifs du chinois. Himalaya y participe activement à travers une combinaison d'industries, d'universités et de recherche, et s'engage à contribuer au développement de la technologie de reconnaissance vocale locale en Chine. Dans le cadre du défi M2MeT2.0, Himalaya a démontré une excellente technologie de reconnaissance du locuteur et de la parole (ASR) et a démontré d'excellentes performances. Son équipe du laboratoire Everest a utilisé des modules de reconnaissance du locuteur, d'amélioration de la parole et de reconnaissance vocale développés par elle-même. Grâce à l'optimisation et à l'expérience, des avancées significatives ont été réalisées. réalisés dans des environnements de chevauchement de parole et à plusieurs locuteurs. En combinant des modèles d'apprentissage profond et de réseaux neuronaux, l'Himalayan Everest Laboratory est capable de transcrire, d'identifier et de séparer avec précision le discours de plusieurs locuteurs en temps réel.

Les technologies liées à Ximalaya ont non seulement été vérifiées dans le cadre du défi ASRU 2023 M2MeT2.0, mais ont également été appliquées et renforcées dans la production de contenu Ximalaya AIGC. Actuellement, la technologie de reconnaissance automatique de la parole (ASR) de Ximalaya a été largement utilisée dans la fonction de script AI de l'application Ximalaya. Elle transcrit le contenu vocal sans scripts dans la plate-forme Himalaya et génère le texte correspondant, permettant ainsi aux auditeurs de mieux comprendre. comprendre le contenu de la voix. Dans le même temps, pour le contenu sonore du manuscrit original, la fonction de manuscrit AI de Ximalaya utilise une technologie d'alignement audio et texte ultra-longue pour horodater le son et le manuscrit afin d'obtenir une mise en évidence synchrone de la lecture sonore et du texte correspondant, permettant aux utilisateurs de Il est plus pratique de profiter de l’expérience de consommation de contenu en écoutant et en regardant en même temps.

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

En plus de la technologie ASR, la technologie TTS (synthèse vocale) d'Himalaya est également à la pointe de l'industrie et a été largement utilisée dans la production de récits, d'actualités, de romans et d'autres contenus. Himalaya a intégré son module d'extraction de rythme indépendant conçu de manière indépendante. into HiTTS Le cadre technique reproduit parfaitement la "voix" de Shan Tianfang. Selon les rapports, Ximalaya a lancé plus de 100 albums synthétisés par les sons synthétisés par l'IA de Shan Tianfang, et le volume de lecture cumulé a dépassé 100 millions de fois.

Depuis de nombreuses années, Himalaya mène des recherches approfondies dans le domaine de la technologie vocale de l'IA. Son laboratoire Everest se concentre depuis longtemps sur la recherche et l'innovation dans les domaines de la synthèse vocale, de l'analyse des émotions, de la reconnaissance vocale et d'autres domaines. En participant au Challenge ASRU 2023 M2MeT2.0 et en remportant le championnat, Himalaya a encore consolidé sa position de leader dans le domaine de la technologie vocale et démontré son excellente capacité à résoudre des scénarios vocaux complexes.

En tant que plate-forme audio en ligne appréciée des utilisateurs, Himalaya a toujours adhéré au concept de responsabilisation de la culture grâce à la technologie, intégrant constamment la technologie aux créateurs et aux utilisateurs pour améliorer l'efficacité de la production de contenu et offrir une excellente expérience de contenu. Ximalaya continuera également à combiner une technologie vocale avancée et intelligente avec le son grâce à l'autonomisation technologique et à l'intégration de l'industrie, du monde universitaire et de la recherche, afin de fournir aux utilisateurs d'excellents produits et services de technologie vocale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment sauver les 4 <🎜> enfants en 99 nuits dans la forêt

1 Il y a quelques mois By DDD

Windows 11 KB5062660 24h2 avec fonctionnalités, liens de téléchargement direct pour installateur hors ligne (.mSU)

4 Il y a quelques semaines By Jack chen

<🎜> GigantAmax Journey Timed Research Sont-étapes et code

4 Il y a quelques semaines By Jack chen

PHP appelle AI Intelligent Voice Assistant Assistant PHP Interaction System Construction

3 Il y a quelques semaines By

Comment utiliser PHP pour créer des fonctions de partage social PHP Partage d'interface Pratique

3 Il y a quelques semaines By

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel PHP

1543

276

Afficher plus

Related knowledge

Des invites aux produits: l'entreprise de l'IA sans code est en plein essor Jul 26, 2025 am 11:13 AM

Ce qui a fait ressortir l'acquisition, ce n'est pas simplement le chiffre financier, mais le parcours non conventionnel que l'entreprise a entrepris. La base44 n'a jamais poursuivi le capital-risque ni adhéré à la formule traditionnelle de la Silicon Valley. Au lieu de cela, cela a démontré que l'esprit

L'IA aggrave la «journée de travail infinie» - à moins que nous agissons différemment Jul 22, 2025 am 11:12 AM

Cette journée de travail infinie est alimentée par les réalités des équipes mondiales et des travaux hybrides, ainsi que des attentes déraisonnables de disponibilité constante. Le résultat? Une main-d'œuvre a du mal à suivre: un employé sur trois dit le rythme du travail sur le passé

Assis-nous à la naissance de la psychologie de la machine? Jul 24, 2025 am 11:12 AM

Une récente enquête d'Artsmart.ai a révélé que «32% des participants envisageraient d'utiliser l'IA pour la thérapie plutôt que de voir un thérapeute humain». Vers la même époque, NPR a mis en évidence de nouvelles résultats indiquant que: «Avec une formation appropriée, les chatbots IA peuvent

Un fondateur peut-il lancer une marque de produits à un million de dollars avec l'IA? Jul 22, 2025 am 11:09 AM

Cette dernière mise à jour est conçue pour minimiser la dépendance à l'égard des équipes traditionnelles. L'IA de Pietra gère de nombreux aspects de la vente au détail en ligne - communication approfondie, surveillance des stocks, campagnes marketing, épanouissement des commandes et analyse des performances.

Croire que la superintelligence AGI et AI nous donnera le vrai sens de la vie Jul 26, 2025 am 11:14 AM

Eh bien, veuillez vous préparer car il y a de fortes chances que Pinnacle AI ne puisse définitivement pas répondre à cette question épique. Désolé de décevoir, mais les chances ne semblent tout simplement pas favoriser l'IA offrant le but ultime de l'existence de l'humanité

L'informatique quantique fait face à 3 obstacles principaux avant de passer le courant dominant Jul 24, 2025 am 11:13 AM

Du point de vue de l'entreprise, l'informatique quantique tient la promesse d'accélérer considérablement l'innovation dans les industries où la vitesse de calcul est essentielle, telle que la logistique, la simulation du monde réel et l'intelligence artificielle.

Les nouveaux désarètes de robot viennent à notre rencontre Jul 26, 2025 am 11:09 AM

En général, c'est un travail exténuant et physiquement exigeant - pas exactement quelque chose que les humains trouvent facile ou agréable. Lorsqu'il s'agit à l'échelle du marché, l'industrie mondiale des mauvaises herbes est estimée à environ 42 milliards de dollars, nichée dans l'agriculture plus large

Tesla Robotaxis ne passe que 20 miles / jour. En attendant, où est mobileye? Jul 26, 2025 am 11:11 AM

Dans d'autres développements, Lyft a dévoilé un nouveau ensemble de collaboration pour 2026 impliquant des navettes autonomes Holon propulsées par Mobileye Drive. Bien que de telles annonces soient courantes et ne sont généralement pas dignes en phase, ils offrent un objectif utile à travers lequel

See all articles