深耕AI语音多模态技术，实现本地化智能交互体验

王林转载: 2023-09-17 13:21:10 1054浏览

伴随着5G、人工智能技术的发展，智能语音已经随着各种智能终端产品渗透到人们的日常生活中，带来了更多便捷和可能性。作为新兴市场智能终端产品和移动互联服务提供商，传音聚焦人工智能领域持续创新，不断推进AI语音技术的研究和应用，挖掘更多本地化用户场景要求，为新兴市场用户带来全场景智能交互体验。

目前，传音已经在语音识别、语义理解、语音合成、自然语言处理、知识图谱等方面形成了的自身的AI语音底层技术能力，构建起小语种语音数据优势，并在多语种语音助手、数字人、语音伪造检测技术方面取得了重大突破。今年以来，传音AI技术部成果不断，接连在ICASSP 2023 SLU口语理解挑战赛、IJCAI 2023 ADD 语音深度伪造检测国际挑战赛夺得佳绩，并在国际多媒体旗舰学术会议ICME 2023上发表数字人多模态交互的相关学术论文。

构建本地语音交互内容生态的多语种语音助手

语音助手是智能手机的标配应用之一，其核心技术为语音交互和自然语言理解，旨在帮助用户更快捷、高效地执行目标任务。面对新兴市场本地语音交互的需求，传音长期深耕多语种语音助手技术，着力洞察本地用户需求，形成技术解决方案，在探索和研发过程中沉淀了深厚的技术能力和实践经验。

在2023年的ICASSP国际顶级会议上，传音AI技术部在SLU（口语理解）挑战赛中取得了巨大的成功。凭借在语音识别和语义理解方面的出色表现，他们以71.97%的准确率荣获离线语音助手子赛道的第一名。他们的参赛论文“A Two-Stage System for Spoken Language Understanding”也被IEEE电气与电子工程师协会收录

深耕AI语音多模态技术，实现本地化智能交互体验

传音AI技术部同事在ICASSP 2023分享研究成果

目前，语音助手主要面向主流语言，而对小众语言、特定人群等细分领域覆盖较少。传音针对非洲、南亚等新兴市场用户的本地口音和小语种，依托海量手机用户资源，建设了一套本地化低成本、高质量的语料数据生产体系，解决小语种语料匮乏、数据稀缺的问题。在此基础上，传音开发能适应新兴市场本地用户语言文化特点的多语种语音助手，帮助当地用户更加便捷地使用本地语言与手机进行语音交互。目前，传音的多语种语音助手技术已支持英语、法语、豪萨语、阿拉伯语、斯瓦西里语等语言的语音交互和自然语言理解能力，覆盖联系人通话、APP快速启动、音乐播放、WhatsApp消息、闲聊等100多种使用场景

为了满足本地用户在生活服务方面的需求，传音公司的多语种AI语音助手技术将不断地应用于更多的生活、出行、学习和工作场景，以构建一个跨语言的AI内容服务生态系统，使智能语音服务能够渗透到本地生活的各个方面，让更多使用小语种的人受益

深耕AI语音多模态技术，实现本地化智能交互体验

AI+数字人技术赋能传音多场景业务

随着交互智能技术的加速发展，数字人正在从技术创新走向产业应用，在娱乐、教育、医疗等多个领域发挥作用。传音积极拥抱AI发展机遇，提前布局数字人技术，建立了完备的全链路技术和工程化的自研能力。传音数字人系统，包含2D真人和3D写实数字人，拥有基于多语种的语音识别、语音合成、语音唤醒、自然语言理解和数字人等能力的数据资源，在多语种语音对话、人设和外观、智能化场景交互等领域形成了自身的本地化特色和行业领先性。今年1月，传音数字人系统获得由中国信通院所颁发的数字人领域权威标准认证。这也是当前唯一通过中国信通院评测，以“交互对话”为核心的中国手机厂商数字人系统。

为了提高虚拟形象的仿真效果、合成出逼真且富有表现力的数字人视频，传音AI技术部自研端到端技术，在优化数字人视频生成质量的过程中，基于Unet网络提出了一种新的技术框架densely-connected Unet结构，同时引入了CLIP的encoder结构，利用文本语义信息提升数字人嘴部动画效果。同时该技术提出人脸关键点技术的概率密度图，增加了模型网络的模态信息，提升了模型生成的质量。这一技术突破能够让数字人的面部形象更加真实、细腻，同时提升语音和唇形的一致性，其生成效果达到了学术上的领先水平。相关学术论文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被国际多媒体旗舰学术会议ICME 2023（IEEE International Conference on Multimedia and Expo)成功录用。

深耕AI语音多模态技术，实现本地化智能交互体验

目前，传音数字人系统已经在多个业务场景中得到广泛应用。它不仅在海外手机门店中被用作智能导购员，为用户购买手机提供参考，还能够为各类智能终端产品提供智能语音助手功能，提升用户体验。未来，传音将进一步利用“AI+数字人”技术，为多种场景的业务赋能，积极探索数字人版语音助手和客服系统等新的业务形态，为用户带来全新的智能交互体验

持续构建AI语音底层技术能力

在AI技术快速发展的现今，算法生成音频和音频伪造已经可以做到以假乱真，对于普通用户来说辨别音频真假非常困难。为了维护信息的可信性、保障社会安全，语音伪造检测技术变得至关重要，已经成为人工智能领域的一个较新的研究方向。传音围绕智能终端产品业务场景，以本地用户需求为导向，不断延伸AI语音底层技术能力，布局新技术领域，在语音伪造检测技术上取得了重大突破。

传音AI技术部在国际人工智能联合会议IJCAI 2023（The 32nd International Joint Conference on Artificial Intelligence）组织的第二届语音深度伪造检测国际挑战赛ADD（The Second Audio Deepfake Detection Challenge)“篡改区域定位”（Manipulation Region Location）分赛道上夺得第二名。在比赛中，传音AI技术部自研创新的AI模型算法和技术，能够准确识别并定位音频中语音的篡改行为，从而有效保障数字音频的原始性和真实性，为AI应用及信息安全建设提供新思路。相关学术论文已成功发表在本届IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023）会议上。

深耕AI语音多模态技术，实现本地化智能交互体验