Maison > Périphériques technologiques > IA > Cultivez en profondeur la technologie multimodale vocale IA pour obtenir une expérience interactive intelligente localisée

Cultivez en profondeur la technologie multimodale vocale IA pour obtenir une expérience interactive intelligente localisée

王林
Libérer: 2023-09-17 13:21:10
avant
1459 Les gens l'ont consulté

Avec le développement de la technologie 5G et de l'intelligence artificielle, la voix intelligente a pénétré la vie quotidienne des gens avec divers terminaux intelligents, apportant plus de commodité et de possibilités. En tant que fournisseur de produits de terminaux intelligents et de services Internet mobiles sur les marchés émergents, Transsion se concentre sur l'innovation continue dans le domaine de l'intelligence artificielle, promeut en permanence la recherche et l'application de la technologie vocale IA, explore les exigences de scénarios d'utilisateurs plus localisés et propose des scénarios complets. intelligence aux utilisateurs des marchés émergents.

À l'heure actuelle, TRANSSION a développé ses propres capacités technologiques vocales d'IA sous-jacentes en matière de reconnaissance vocale, de compréhension sémantique, de synthèse vocale, de traitement du langage naturel, de graphique de connaissances, etc., a acquis des avantages dans les données vocales en petits langages et s'est développé dans les assistants vocaux multilingues. , Des avancées majeures ont été réalisées dans la technologie numérique de détection des falsifications humaines et vocales. Depuis le début de cette année, le département de technologie d'IA de Transsion a continué à obtenir des résultats, remportant d'excellents résultats au défi ICASSP 2023 SLU Spoken Language Understanding et au défi international IJCAI 2023 ADD Voice Deep Forgery Detection, et a publié le Digital Human Multi-Model sur la conférence académique internationale phare du multimédia ICME 2023. Articles académiques liés à l'interaction dynamique.

Créez un assistant vocal multilingue pour l'écosystème de contenu interactif vocal local

L'assistant vocal est l'une des applications standard des smartphones. Sa technologie de base est l'interaction vocale et la compréhension du langage naturel, conçue pour aider les utilisateurs à effectuer des tâches ciblées plus rapidement et plus efficacement. Face à la demande d'interaction vocale locale sur les marchés émergents, TRANSSION est depuis longtemps profondément impliquée dans la technologie des assistants vocaux multilingues, en se concentrant sur la compréhension des besoins des utilisateurs locaux et en formant des solutions techniques. Elle a accumulé de profondes capacités techniques et pratiques. expérience dans le processus d’exploration et de recherche et développement.

Lors de la plus grande conférence internationale ICASSP en 2023, le département technologique de Transsion AI a remporté un grand succès dans le cadre du défi SLU (Spoken Language Understanding). Grâce à leurs excellentes performances en matière de reconnaissance vocale et de compréhension sémantique, ils ont remporté la première place dans le sous-thème assistant vocal hors ligne avec une précision de 71,97 %. Leur document d'entrée "Un système en deux étapes pour la compréhension de la langue parlée" a également été inclus par l'Institut des ingénieurs électriciens et électroniques de l'IEEE

Cultivez en profondeur la technologie multimodale vocale IA pour obtenir une expérience interactive intelligente localisée

Des collègues du département de technologie d'IA de Transsion ont partagé les résultats de leurs recherches à l'ICASSP 2023

Actuellement, les assistants vocaux sont principalement orientés vers les langues traditionnelles, mais couvrent moins les langues de niche, les groupes spécifiques de personnes et d'autres subdivisions. Ciblant les accents locaux et les langues minoritaires des utilisateurs des marchés émergents tels que l'Afrique et l'Asie du Sud, TRANSSION a construit un système de production de données de corpus localisé à faible coût et de haute qualité, basé sur les ressources massives des utilisateurs de téléphones mobiles pour résoudre le problème du manque. de la rareté des corpus et des données dans les langues minoritaires. Sur cette base, Transsion développe des assistants vocaux multilingues capables de s'adapter aux caractéristiques linguistiques et culturelles des utilisateurs locaux dans les marchés émergents, aidant ainsi les utilisateurs locaux à utiliser plus facilement les langues locales pour l'interaction vocale avec les téléphones mobiles. Actuellement, la technologie d'assistant vocal multilingue de Transsion prend en charge les capacités d'interaction vocale et de compréhension du langage naturel en anglais, français, haoussa, arabe, swahili et d'autres langues, couvrant les appels de contact, le lancement rapide de l'application, la lecture de musique, plus de 100 scénarios d'utilisation tels que la messagerie WhatsApp et discuter

Afin de répondre aux besoins des utilisateurs locaux en matière de services de vie, la technologie d'assistant vocal IA multilingue de Transsion continuera à être appliquée à davantage de scénarios de vie, de voyage, d'étude et de travail pour créer un écosystème de services de contenu IA multilingue, permettant des services vocaux intelligents. pour pénétrer dans tous les aspects de la vie locale et bénéficier à davantage de personnes parlant de petites langues​​

Cultivez en profondeur la technologie multimodale vocale IA pour obtenir une expérience interactive intelligente localisée

L’IA et la technologie humaine numérique renforcent l’activité multi-scénarios de Transsion

Avec le développement accéléré de la technologie de l'intelligence interactive, les humains numériques passent de l'innovation technologique aux applications industrielles, jouant un rôle dans les domaines du divertissement, de l'éducation, de la médecine et autres. Transsion saisit activement les opportunités de développement de l’IA, déploie la technologie humaine numérique à l’avance et a mis en place des capacités complètes d’auto-recherche technologique et d’ingénierie à lien complet. Le système humain numérique de Transsion comprend des personnes réelles en 2D et des humains numériques réalistes en 3D. Il dispose de ressources de données basées sur la reconnaissance vocale multilingue, la synthèse vocale, le réveil vocal, la compréhension du langage naturel et les capacités humaines numériques. la conception et l'apparence, l'interaction intelligente des scènes et d'autres domaines ont formé leurs propres caractéristiques localisées et leur leadership dans l'industrie. En janvier de cette année, le système humain numérique de Transsion a reçu la certification standard faisant autorité dans le domaine humain numérique délivrée par l'Académie chinoise des technologies de l'information et des communications. Il s'agit également du seul système humain numérique d'un fabricant chinois de téléphones mobiles qui a passé avec succès l'évaluation de l'Académie chinoise des technologies de l'information et de la communication et qui est basé sur le « dialogue interactif ».

Afin d'améliorer l'effet de simulation des images virtuelles et de synthétiser des vidéos humaines numériques réalistes et expressives, le département technologique de Transsion AI a développé indépendamment une technologie de bout en bout. Dans le processus d'optimisation de la qualité de la génération de vidéos humaines numériques, une méthode a été proposée. basé sur le réseau Unet. Un nouveau cadre technique à structure Unet densément connectée, tout en introduisant la structure d'encodeur CLIP, utilisant des informations sémantiques de texte pour améliorer l'effet d'animation numérique de la bouche humaine. Dans le même temps, cette technologie propose une carte de densité de probabilité de la technologie des points clés du visage, qui augmente les informations modales du réseau modèle et améliore la qualité de la génération du modèle. Cette avancée technologique peut rendre l'image faciale des personnes numériques plus réaliste et délicate, tout en améliorant la cohérence de la forme de la voix et des lèvres. Son effet de génération a atteint un niveau académique de pointe. L'article universitaire connexe « CPNet : Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation » a été accepté avec succès par la conférence universitaire multimédia internationale phare ICME 2023 (Conférence internationale de l'IEEE sur le multimédia et l'exposition).

Cultivez en profondeur la technologie multimodale vocale IA pour obtenir une expérience interactive intelligente localisée

Actuellement, le système humain numérique de Transsion a été largement utilisé dans plusieurs scénarios commerciaux. Il n'est pas seulement utilisé comme guide d'achat intelligent dans les magasins de téléphonie mobile à l'étranger pour fournir aux utilisateurs une référence lors de l'achat de téléphones mobiles, il peut également fournir des fonctions d'assistant vocal intelligent pour divers produits de terminaux intelligents afin d'améliorer l'expérience utilisateur. À l'avenir, Transsion utilisera davantage la technologie « IA + humain numérique » pour responsabiliser les entreprises dans une variété de scénarios, explorera activement de nouvelles formes commerciales telles que les assistants vocaux humains numériques et les systèmes de service client, et apportera une nouvelle expérience interactive intelligente aux utilisateurs

Continuer à développer les capacités techniques sous-jacentes de la voix IA

Avec le développement rapide de la technologie de l'IA, l'audio généré par des algorithmes et la contrefaçon audio peuvent désormais être falsifiés, ce qui rend très difficile pour les utilisateurs ordinaires de distinguer l'authenticité audio de l'authenticité. Afin de maintenir la crédibilité de l'information et d'assurer la sécurité sociale, la technologie de détection de contrefaçon vocale est devenue cruciale et constitue une nouvelle direction de recherche dans le domaine de l'intelligence artificielle. En se concentrant sur les scénarios commerciaux des produits de terminaux intelligents et en étant guidé par les besoins des utilisateurs locaux, Transsion continue d'étendre ses capacités techniques sous-jacentes pour la voix IA, déploie de nouveaux domaines technologiques et a réalisé des percées majeures dans la technologie de détection de contrefaçon vocale.

Le deuxième défi de détection audio Deepfake ADD (The Second Audio Deepfake Detection Challenge) « Tampering Regional Positioning » organisé par le département de technologie d'IA de Transsion à l'IJCAI 2023 (la 32e conférence internationale conjointe sur l'intelligence artificielle) (localisation de la région de manipulation) a remporté la deuxième place du classement. piste. Au cours du concours, le département de technologie d'IA de Transsion a développé de manière indépendante des algorithmes et des technologies de modèle d'IA innovants capables d'identifier et de localiser avec précision la falsification de la voix dans l'audio, garantissant ainsi efficacement l'originalité et l'authenticité de l'audio numérique et établissant une base pour les applications d'IA et la sécurité des informations. des idées. Des articles universitaires pertinents ont été publiés avec succès lors de cet atelier IJCAI 2023 sur la détection et l'analyse des Deepfake Audio (DADA 2023).

Cultivez en profondeur la technologie multimodale vocale IA pour obtenir une expérience interactive intelligente localisée

Dans la prochaine étape, le département de technologie d'IA de Transsion continuera à explorer l'application de la technologie de détection de falsification vocale profonde sur les produits de terminaux intelligents de Transsion, tels que les contrôles de fraude téléphonique pour protéger la confidentialité et la sécurité des utilisateurs, etc., afin d'améliorer continuellement l'expérience utilisateur.

À l'avenir, Transsion continuera à travailler dur dans le domaine de la technologie multimodale vocale IA, en se concentrant sur les principaux besoins commerciaux des « téléphones mobiles + services Internet mobiles + appareils électroménagers et accessoires numériques », combinés à une connaissance approfondie des marchés émergents. les marchés et les consommateurs locaux, pour offrir aux utilisateurs des expériences de vie intelligente qui répondent à leurs besoins, forment un écosystème de services de contenu d'IA localisé qui continue de répondre aux besoins d'applications multilingues, multi-scénarios, personnalisées et intelligentes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:sohu.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal