異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?-AI-php.cn

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

王林

リリース： 2023-07-04 17:57:09

転載

1094 人が閲覧しました

AIが参加する音声の世界は本当に魔法のようで、人の声を別の人の声に変えるだけでなく、動物と声を交換することもできます。

音声変換の目標は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の Any-to-Any 音声変換方法では、自然さと話者の類似性が向上しますが、その代償として複雑さが大幅に増加します。これは、トレーニングと推論のコストが高くなり、改善の評価と確立が困難になることを意味します。

問題は、高品質の音声変換には複雑さが必要かということです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの問題を調査しました。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

論文アドレス: https://arxiv.org/pdf/2305.18975.pdf # #GitHub アドレス: https://bshall.github.io/knn-vc/

K 最近傍音声変換 ( kNN -VC)、シンプルで強力な任意の音声変換メソッド

。明示的な変換モデルをトレーニングする代わりに、K 最近傍回帰が単純に使用されます。具体的には、研究者らはまず自己教師あり音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを 1 つのフレームに置き換えました。参照では、最近傍を使用してターゲット話者に変換し、最後にニューラルボコーダーを使用して変換された特徴を合成し、変換された音声を取得します。

結果から、そのシンプルさにも関わらず、KNN-VC は、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、話者との類似性において同等またはさらに向上した明瞭度を達成します。

KNN-VC 音声変換の効果を評価してみましょう。まず人間の音声変換について見てみると、KNN-VC は LibriSpeech データセットには表示されないソース話者とターゲット話者に適用されます。

#ソース音声

00:11

##合成音声 100:11

合成音声 200:11

KNN-VC は、スペイン語からドイツ語、ドイツ語など、言語間の音声変換もサポートしています。日本語から中国語、スペイン語まで。

ソース中国語00:08

宛先スペイン語00:05

合成音声 300:08

さらに驚くべきことは、KNN-VC は人間の声と犬の吠え声を組み合わせることができることです。。

ソース犬の吠え声00:09

ソース人間の声00:05

#合成音声 400:08

##合成音声 500:05

次に、KNN-VC がどのように実行されるかを見て、他の jixian メソッドと比較します。方法の概要と実験結果

kNN-VC のアーキテクチャ図は、エンコーダー、コンバーター、ボコーダーの構造に従って以下に示されています。まずエンコーダがソース音声とリファレンス音声の自己教師あり表現を抽出し、次にコンバータが各ソースフレームをリファレンス内の最も近い隣接フレームにマッピングし、最後にボコーダが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーの場合、研究者は事前トレーニングされた WavLM-Large モデルのみを使用し、記事内ではトレーニングを行いませんでした。 kNN 変換モデルの場合、kNN はノンパラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、オリジナルの HiFiGAN 作者のリポジトリが WavLM 機能のボコード化に使用され、トレーニングが必要な唯一の部分となりました。

写真

実験では、研究者らはまず、利用可能な最大のターゲットデータを使用して、KNN-VC を他のベースライン手法と比較しました。 (スピーカーごとに約 8 分の音声) 音声変換システムをテストします。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

KNN-VC の場合、研究者はすべてのターゲットデータをマッチングセットとして使用します。ベースライン方法では、各ターゲット発話の話者エンベディングを平均します。

以下の表 1 は、各モデルの明瞭さ、自然さ、話者の類似性に関する結果を示しています。ご覧のとおり、kNN-VC は最高のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性は大幅に向上しています。これは、この記事の主張を裏付けるものでもあります。高品質の音声変換には複雑さを増す必要はありません。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?