2024 ICASSP｜ByteDance ストリーミングオーディオチームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決-AI-php.cn

2024 ICASSP｜ByteDance ストリーミングオーディオチームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決

WBOY

リリース： 2024-01-09 09:14:34

転載

696 人が閲覧しました

今年の ICASSP 2024 のさまざまなオーディオインターナショナルチャレンジでは、ByteDance ストリーミングオーディオチームがノースウェスタン工科大学のオーディオ音声および言語処理研究室と協力して、パケット損失隠蔽 (PLC) と音質復元を実行しました。、SSI) 2 つのチャレンジトラックでは、複数の指標で好成績を収め、それぞれ 1 位と 2 位を獲得し、国際トップレベルに達しました。

ICASSP サミットのオーディオチャレンジは、さまざまな研究機関によるオーディオ効果と音質向上に関する研究を促進することを目的として、トップの国際オーディオ会議 ICASSP とマイクロソフトが共同で立ち上げたものです。 Amazon、Tencent、Alibaba、Baidu、Kuaishou、中国科学院、北西工科大学、その他多くの世界的に有名な企業や科学研究機関が参加しました。ストリーミングメディアの分野におけるテクノロジーの継続的な発展に伴い、サウンドをクリアで本物にすることは、オーディオテクノロジー業界の発展において避けられない傾向となっています。ユーザーにより良いオーディオ体験を提供する方法に焦点を当て、複数の研究チームが、オーディオ収集の欠陥、アルゴリズム処理の欠陥、コーディングおよびデコーディングの欠陥への対処方法を含む、収集から転送までのオーディオのエンドツーエンドの最適化を実行しました。、ネットワーク伝送障害。統合修復を待ちます。このチャレンジでは、ByteDance ストリーミングオーディオチームが、実際のビジネス実装シナリオに基づいて、パケット損失補償と一般的な音質修復の 2 つのチャレンジトラックに参加しました。

ICASP PLC Challenge は、ネットワーク IP 通話における長時間のパケット損失とフルバンドオーディオ (48kHz のサンプリングレート) 処理の問題を解決することを目的としています。この課題には、厳しい遅延制約があり、同時に、ネットワークの悪条件を反映する要求の厳しいデータセットが提供されます。主観評価は P.804 多次元オーディオ品質評価手法を使用して行われ、参加システムによって生成された音声の明瞭度の評価にも WER が使用されます。ストリーミングオーディオテクノロジーチームは、モデル構造を最適化することで、パケット損失補償モデルの複雑さを効果的に軽減しました。同時に、マルチディスクリミネーター敵対的トレーニングとマルチタスク学習を通じて、パケット損失補償モデルは、高品質かつ高明瞭度でパケット損失フラグメントを復元でき、最終的に1位を達成しました。

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

ICASP SSI Challenge は、通信システムにおける音声信号が直面する 5 種類の問題、つまり周波数応答歪み、不連続歪み、ラウドネス歪み、ノイズ、残響を解決することを目的としています。このチャレンジでは、モデルの遅延と因果関係を厳密に設定することを前提に、ITU-TP.804規格に基づく主観的な意見スコアと音声認識率を用いて総合的にランキングを判定します。ストリーミングテクノロジーチームは、2 段階のモデル構造を使用して、複雑な修復問題を複数のサブタスクに単純化します。第 1 段階では、主に周波数応答歪み、不連続性歪み、ラウドネス歪みを修復し、予備的なノイズ低減と残響除去を実行します。第 2 段階この段階では、第 1 段階で生成されたアーティファクトと残留ノイズがさらに除去されます。最終的に、チームはリアルタイムトラックで 2 位を獲得しました。

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

パケットロス補償システム

48kHzフルバンドオーディオ処理の複雑さの問題を解決するために、パケット損失補償システム周波数領域モデルが開発され、オーディオは周波数に応じて 0 ～ 8kHz と 8 ～ 24kHz の 2 つのサブバンドに分割され、並列処理されます。主な計算量を聴覚への影響が大きい0～8kHzの周波数帯域に集中させることで、低複雑かつ高品質なパケットロス補償を実現します。長い間隔のパケット損失の問題に対処するために、時間周波数拡張畳み込みモジュール (TFDCM) がコーデックの各層の後に追加され、畳み込みカーネルのサイズを小さく保ちながら、因果関係を介して長期的なパケット損失をキャプチャします。時間と周波数の次元で層ごとに拡張された畳み込み、時刻歴情報と周波数相関。

高品質なオーディオを補うために、周波数ドメイン多重解像度ディスクリミネーター、時間ドメインマルチ期間ディスクリミネーター、MetricGAN を組み合わせて敵対的生成トレーニングを実行し、生成されるオーディオサウンドを優れたものにします。長い間隔のパケット損失と明瞭度の問題については、マルチタスク学習フレームワークが使用されます。通常の音声信号類似性学習に加えて、基本周波数予測とささやきベースの意味理解損失関数も導入されています。 100msを超えるパケットロスフラグメントを高品質に復元でき、復元された音声は非常に明瞭であり、単語正解率（WAcc）指標が全参加チームトップとなり、総合評価スコアは同率1位となっている。

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

パケットロス補償モデル構成図

音質修復システム

複数の歪みの影響を受けるオーディオを同時に修復するために、構築システムでは 2 段階のモデルアーキテクチャが使用され、異なる段階で異なる歪みを処理することに重点が置かれています。第 1 段階のモデルは、マッピングを使用して修復されたオーディオの複雑なスペクトルを直接予測するため、このモデルはオーディオ欠落成分を生成し、同時に干渉信号を除去する機能を備えています。長い間、エンコーダの時間周波数畳み込みモジュール (TFCM) がデコーダに導入されていましたが、マッピング方法の不安定性によりアーティファクトが発生する可能性があるため、マスキング (Mask) を使用する 2 段階のモデルが導入され、サブ- バンドからフルバンドへのモデリング手法は、周波数帯域のきめ細かいモデリングを実行して、第 1 段階のモデルによって生成されたアーチファクトや残留ノイズをさらに除去します。

生成されたオーディオコンポーネントの自然性を向上させるために、敵対的生成ネットワークフレームワークが導入され、モデルトレーニングを支援するために多重解像度弁別器と分子帯域多重解像度弁別器が使用されます。同時に、トレーニング中に多段階モデルをより簡単に収束させるために、最初に 2 段階モデルがノイズ低減と残響除去タスクで事前トレーニングされ、次にトレーニングされた 1 段階モデルのパラメーターが調整されます。段階モデルは共同トレーニング用にカスケードされるため、モデルの収束が加速されます。

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

音質修復モデル構造の概略図

チーム紹介

Bytedance ストリーミングオーディオチーム、専任グローバルインターネット上で高品質、低遅延のリアルタイムオーディオおよびビデオ通信機能を提供し、開発者が音声通話、ビデオ通話、インタラクティブライブブロードキャスト、リツイートライブブロードキャストなどの豊富なシーン機能を迅速に構築できるようにします。現在、インタラクティブな機能がカバーされています。エンターテイメント、教育、会議、ゲーム、自動車、金融、IoT などのリアルタイムオーディオおよびビデオインタラクティブシナリオは、何億ものユーザーにサービスを提供しています。

以上が2024 ICASSP｜ByteDance ストリーミングオーディオチームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。