시말라야, 음성중복 문제 돌파, 국제 컨퍼런스 챌린지 1위 달성하며 AI 혁신 가속화
최근 2023 국제 최고 연설 컨퍼런스 ASRU(IEEE 자동 음성 인식 및 이해, 자동 음성 인식 및 이해)의 다채널 다자간 회의 전사 챌린지(M2MeT2.0)가 성공적으로 마무리되었으며, 히말라야 에베레스트 연구실은 뛰어난 성과를 거두었습니다. 챔피언 타이틀을 획득했습니다.
ASRU 심포지엄은 2년마다 개최되는 IEEE 음성 및 언어 처리 기술 위원회(SLTC)의 대표적인 기술 행사로 학계 및 업계 최고의 전문가와 연구자들이 모여 광범위한 음성 인식 및 이해 문제를 논의합니다. M2MeT2.0 챌린지는 2023년 ASRU의 주요 대회입니다. 이 대회의 목표는 오프라인 회의실에서 음성 전사가 중복되는 문제를 해결하는 것입니다. 많은 사람들이 자유롭게 이야기를 나누는 전형적인 '칵테일 파티 장면'으로서, 회의 장면은 음성 인식 분야에서 항상 난제이자 초점이 되어 왔습니다. 회의 장면을 위한 음성 인공 지능을 개발하고 산업 수준의 솔루션을 모색하는 데 있어서 큰 의미가 있습니다. 관련 문제에.
히말라야가 ASRU의 M2MeT 챌린지에 참여한 것은 이번이 처음이 아니라는 점에 주목할 필요가 있습니다. 첫 번째 M2MeT 챌린지에서 Ximalaya는 중국 과학 기술 대학과 협력하여 스피커 로그 트랙에서 3위를 차지했으며 로그 오류율은 4.05%에 불과했습니다. 첫 번째 챌린지에서는 평가 기준으로 CER(문자 오류율)을 사용하고 화자 라벨을 고려하지 않고 오디오만 텍스트로 변환합니다. M2MeT2.0 챌린지는 첫 번째 세션의 성공을 바탕으로 화자 관련 평가에 중점을 두고 다중 화자 음성 인식 시스템의 실용화를 촉진하며 제한된 데이터와 비적격 데이터라는 두 개의 하위 트랙을 설정합니다.
이 과제를 해결하기 위해 히말라야 에베레스트 연구소는 음성 인식의 기본 프레임워크에서 시작하여 앨리어싱 음성 감지 기술 및 화자 로그 기술에 대한 기술 탐색을 시작했습니다. Ximalaya는 M2MeT2.0 Challenge의 제한된 데이터 세트와 공개 데이터 세트 하위 트랙 모두에서 뛰어난 1위 결과를 달성했습니다.
올해 M2MeT2.0 챌린지 데이터 세트에는 다양한 크기와 레이아웃의 다양한 회의실, 다양한 가구 시뮬레이션, 다양한 테마의 정기 회의, 다양한 실내 소음 등을 포괄하는 실제 다중 시나리오, 다중 모드 대규모 데이터가 포함되어 있습니다. . 이렇게 사람 목소리, TV 소리, 선풍기와 에어컨 소리, 키보드 소리, 문 여닫는 소리, 거품 소리 등이 겹쳐지면서 게임의 난이도가 높아집니다. 마이크 어레이를 사용하여 먼 소리를 녹음하고 헤드셋 마이크를 사용하여 가까운 소리를 녹음함으로써 해당 화자의 음성을 정확하게 녹음할 수 있습니다. 이 데이터 세트는 다중 화자 음성 인식 및 음성 중첩 문제 연구에 학문적으로 매우 중요하며, 산업 수준의 솔루션을 찾기 위한 실제적이고 다양한 데이터 리소스를 제공합니다.
M2MeT2.0 챌린지 데이터 세트의 모든 발표자는 중국어 원어민입니다. 히말라야는 산업계, 학계, 연구의 결합을 통해 적극적으로 참여하고 있으며 중국 현지 음성 인식 기술 발전에 기여하기 위해 최선을 다하고 있습니다. M2MeT2.0 챌린지에서 히말라야는 우수한 화자 및 음성 인식 기술(ASR)을 시연했으며 에베레스트 연구소 팀은 자체 개발한 화자 인식, 음성 향상 및 음성 인식 모듈을 사용하여 최적화와 경험을 통해 상당한 혁신을 이루었습니다. 음성중첩 및 다중화자 환경에서 제작되었습니다. 히말라야 에베레스트 연구소는 딥 러닝과 신경망 모델을 결합하여 실시간으로 여러 화자의 음성을 기록하고 정확하게 식별하고 분리할 수 있습니다.
Ximalaya 관련 기술은 ASRU 2023 M2MeT2.0 Challenge에서 검증되었을 뿐만 아니라 Ximalaya AIGC 콘텐츠 제작에도 적용 및 강화되었습니다. 현재 Ximalaya ASR(자동 음성 인식) 기술은 Ximalaya 앱의 AI 스크립트 기능에 널리 사용되고 있습니다. 히말라야 플랫폼에서 스크립트 없이 음성 콘텐츠를 복사하여 해당 텍스트를 출력함으로써 청중이 보다 쉽게 음성 내용을 더 잘 이해합니다. 동시에 원본 원고의 사운드 콘텐츠에 대해 Ximalaya의 AI 원고 기능은 매우 긴 오디오 및 텍스트 정렬 기술을 사용하여 사운드와 원고에 타임 스탬프를 찍고 사운드 재생 및 해당 텍스트를 동시에 강조 표시하여 사용자가 다음을 수행할 수 있도록 합니다. 듣기와 시청을 동시에 즐길 수 있는 콘텐츠 소비 경험이 더욱 편리해졌습니다.
ASR 기술 외에도 히말라야의 TTS(음성 합성) 기술도 업계 선두를 달리고 있으며 스토리텔링, 뉴스, 소설 및 기타 콘텐츠 제작에 널리 사용되어 왔습니다. 히말라야는 자체 설계한 독립적인 리듬 추출 모듈을 통합했습니다. HiTTS 기술 프레임워크는 Shan Tianfang의 "목소리"를 완벽하게 재현합니다. 보도에 따르면 Ximalaya는 Shan Tianfang의 AI 합성 사운드로 합성된 100개 이상의 앨범을 출시했으며 누적 재생 횟수는 1억 회를 초과했습니다.
수년 동안 히말라야는 AI 음성 기술 분야에서 심층적인 연구를 수행해 왔습니다. 에베레스트 연구소는 오랫동안 음성 합성, 감정 분석, 음성 인식 및 기타 분야의 연구와 혁신에 주력해 왔습니다. ASRU 2023 M2MeT2.0 챌린지 참가 및 우승을 통해 히말라야는 음성 기술 분야에서 선도적 위치를 더욱 공고히 하고 복잡한 음성 시나리오를 해결하는 뛰어난 능력을 입증했습니다.
사용자에게 사랑받는 온라인 오디오 플랫폼인 히말라야는 항상 기술을 통해 문화에 힘을 실어준다는 개념을 고수해 왔으며, 콘텐츠 제작 효율성을 높이고 우수한 콘텐츠 경험을 제공하기 위해 제작자 및 사용자와 지속적으로 기술을 통합해 왔습니다. Ximalaya는 또한 기술적 역량 강화와 산업, 학계, 연구의 통합을 통해 첨단 지능형 음성 기술을 사운드와 지속적으로 결합하여 사용자에게 우수한 음성 기술 제품 및 서비스를 제공할 것입니다.
위 내용은 Ximalaya는 음성 중복 문제를 해결하고 AI 혁신을 가속화하기 위한 국제 컨퍼런스 챌린지에서 1위를 차지했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!