Ximalaya が音声の重複問題を突破し、国際会議チャレンジで 1 位を獲得、AI イノベーションを加速
最近、2023 年の国際トップスピーチ会議 ASRU (IEEE 自動音声認識と自動理解、自動音声認識と理解) のマルチチャネル多者会議の文字起こしチャレンジ (M2MeT2.0) が成功裡に終了し、ヒマラヤ エベレスト研究所は優れた成果を達成し、チャンピオンシップの栄誉を獲得しました。
ASRU シンポジウムは、IEEE 音声言語処理技術委員会 (SLTC) の主力技術イベントで、2 年ごとに開催され、学界と産業界のトップの専門家や研究者が集まり、幅広い音声認識について議論し、言語処理技術委員会の理解を深めます。問題。 M2MeT2.0 チャレンジは、2023 年の ASRU の主要なコンテストです。その目標は、オフラインの会議室で重複する音声文字起こしの問題を解決することです。会議シーンは、多くの人が自由に会話する典型的な「カクテルパーティーシーン」として、音声認識分野において常に難しさと焦点となっており、会議シーン向けの音声人工知能の開発や産業レベルのソリューションの探索において、非常に重要な意義がある。関連する問題に。
ヒマラヤが ASRU の M2MeT チャレンジに参加するのはこれが初めてではないことは注目に値します。最初の M2MeT チャレンジで、Ximalaya は中国科学技術大学と協力し、わずか 4.05% のログエラー率を達成し、スピーカーログトラックで 3 位を獲得しました。最初の課題では、評価は文字誤り率 (CER) を指標として使用し、話者ラベルを考慮せずに音声のみがテキストに書き起こされます。最初のセッションの成功に基づいて、M2MeT2.0 チャレンジは話者関連の評価に焦点を当て、マルチ話者音声認識システムの実用化を促進し、限定されたデータと不適格データの 2 つのサブトラックを設定します。
この課題に対処するために、ヒマラヤ エベレスト研究所は音声認識の基本フレームワークからスタートし、エイリアシング音声検出技術と話者ログ技術の技術的探求を開始しました。 Ximalaya は、M2MeT2.0 チャレンジの限定されたデータ セットとオープン データ セットのサブトラックの両方で優れた 1 位の結果を達成しました。
今年の M2MeT2.0 チャレンジ データセットには、実際のマルチシナリオ、マルチモーダルの大規模データが含まれており、さまざまなサイズとレイアウトのさまざまな会議室をカバーし、さまざまな家具、さまざまなテーマの定期会議、およびさまざまな会議室をシミュレートしています。室内の騒音。人の声、テレビの音、扇風機やエアコンの音、キーボードの音、ドアの開閉音、泡の音など、これらの音の重なりがゲームの難易度を高めます。マイク アレイを使用して遠くの音を録音し、ヘッドセット マイクを使用して近くの音を録音することにより、対応する話者の音声を正確に転写することが保証されます。このデータセットは、複数話者の音声認識と音声の重複問題の研究にとって学術的に非常に重要であり、産業レベルの解決策を見つけるための実際の多様なデータリソースを提供します。
M2MeT2.0 チャレンジ データセットの話者はすべて中国語のネイティブ スピーカーであり、Ximalaya は産学界、研究の組み合わせを通じて積極的に参加し、中国のローカル音声認識技術の発展に貢献することに尽力しています。 M2MeT2.0 チャレンジでは、ヒマラヤは優れた話者および音声認識技術 (ASR) を実証し、優れたパフォーマンスを実証しました。同社のエベレスト研究所チームは、自社開発した話者認識、音声強化、および音声認識モジュールを使用しました。最適化と経験により、重要なブレークスルーが実現しました。音声オーバーラップおよびマルチスピーカー環境で作成されました。ヒマラヤ エベレスト研究所は、深層学習とニューラル ネットワーク モデルを組み合わせることで、複数の話者の音声をリアルタイムで文字に起こし、正確に識別して分離することができます。
Ximalaya 関連テクノロジーは、ASRU 2023 M2MeT2.0 チャレンジで検証されただけでなく、Ximalaya AIGC コンテンツ制作にも適用され、強化されています。現在、Ximalaya 自動音声認識 (ASR) 技術は、Ximalaya アプリの AI スクリプト機能で広く使用されており、Himalaya プラットフォームでスクリプトなしで音声コンテンツを書き起こし、対応するテキストを出力することで、視聴者が理解しやすくしています。音声の内容をよりよく理解できます。同時に、元の原稿の音声コンテンツに対して、Ximalaya の AI 原稿機能は、超長音声とテキストの位置合わせ技術を使用して音声と原稿にタイムスタンプを付け、音声の再生と対応するテキストの同期ハイライトを実現します。聞くことと見ることを同時に楽しむコンテンツ消費体験がより便利になります。
ASR テクノロジーに加えて、ヒマラヤの TTS (音声合成) テクノロジーも業界の最前線にあり、ストーリーテリング、ニュース、小説、その他のコンテンツの制作に広く使用されています。 「声」を完璧に再現。報道によると、XimalayaはShan TianfangのAI合成音で合成したアルバムを100枚以上発売し、累計再生回数は1億回を超えたという。
ヒマラヤは長年にわたり、AI 音声技術の分野で徹底した研究を行っており、そのエベレスト研究所では、音声合成、感情分析、音声認識などの分野の研究と革新に長年注力してきました。 ASRU 2023 M2MeT2.0 チャレンジに参加し、優勝したことで、ヒマラヤは音声テクノロジー分野における主導的地位をさらに強化し、複雑な音声シナリオを解決する優れた能力を実証しました。
ユーザーに愛されるオンライン オーディオ プラットフォームとして、ヒマラヤはテクノロジーで文化に力を与えるというコンセプトを常に堅持し、常にテクノロジーをクリエイターとユーザーと統合して、コンテンツ制作効率を向上させ、優れたコンテンツ体験を提供してきました。また、Ximalaya は、技術力の強化と産学研究の統合を通じて、先進的でインテリジェントな音声テクノロジーとサウンドを組み合わせ、優れた音声テクノロジー製品とサービスをユーザーに提供し続けます。
以上がXimalaya が音声の重複問題を突破し、AI イノベーションを加速する国際会議の課題で 1 位を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。