あなたの声を盗むのにかかる時間はわずか 3 秒です。 Microsoft、音声合成モデルVALL-Eをリリース：ネットユーザーは「電話詐欺」の敷居がまた下がったと叫ぶ-AI-php.cn

ChatGPT を使用してスクリプトを作成し、Stable Diffusion でイラストを生成します。ビデオを作成するには声優が必要ですか?それが来るの！

最近、Microsoft の研究者は、新しいテキスト読み上げ (TTS) モデル VALL-E をリリースしました。これは、人間の声の入力をシミュレートするために 3 秒間の音声サンプルを提供するだけでよく、対応する音声が合成されます。入力テキストに基づいて、話者の感情的なトーンも維持できます。

あなたの声を盗むのにかかる時間はわずか 3 秒です。 Microsoft、音声合成モデルVALL-Eをリリース：ネットユーザーは「電話詐欺」の敷居がまた下がったと叫ぶ

論文リンク: //m.sbmmt.com/link/402cac3dacf2ef35050ca72743ae6ca7

プロジェクトリンク: https://valle-demo.github。 io/

コードリンク: https://github.com/microsoft/unilm

まず効果を見てみましょう: 3 秒間の録音があると仮定します。

diversity_speaker Audio: 00:0000:03

「必要ないから」と入力するだけで合成音声が得られます。

diversity_s1 Audio: 00:0000:01

異なるランダムシードを使用しても、パーソナライズされた音声合成を実行できます。

diversity_s2 Audio: 00:0000:02

VALL-E は、この音声を入力するなど、話者の周囲の音を維持することもできます。

env_speaker Audio: 00:0000:03

すると、「これも便利だと思いますよ。」というテキストに従って、周囲の音を維持したまま合成音声を出力することができます。。

env_vall_eAudio: 00:0000:02

VALL-E は、怒りの声を入力するなど、話者の感情を維持することもできます。

anger_ptAudio: 00:0000:03

「ビニール袋の数を減らさなければなりません。」というテキストをもとに、怒りの感情を表現することもできます。

anger_oursAudio: 00:0000:02

プロジェクトの Web サイトには、さらに多くの例があります。

具体的には、研究者らは、既製のニューラルオーディオコーデックモデルから抽出された離散エンコーディングから言語モデル VALL-E をトレーニングし、TTS を連続信号回帰ではなく条件付き言語モデリングタスクとして扱いました。

事前トレーニング段階で、VALL-E が受信した TTS トレーニングデータは、英語音声の 60,000 時間に達しました。これは、既存のシステムで使用されるデータの数百倍です。

VALL-E は、コンテキスト内学習機能も実証しており、目に見えない話者の 3 秒間の登録録音を音声プロンプトとして使用するだけで、高品質のパーソナライズされた音声を合成できます。

実験結果は、VALL-E が、音声の自然さと話者の類似性の点で最先端のゼロショット TTS システムよりも大幅に優れており、話者の感情や音声の音響も保存できることを示しています。合成環境におけるサウンドキュー。

ゼロショット音声合成

過去 10 年にわたり、音声合成はニューラルネットワークとエンドツーエンドモデリングの開発を通じて大きな進歩を遂げました。

しかし、現在のカスケード音声合成 (TTS) システムは、通常、音響モデルを備えたパイプラインと、中間表現としてメルスペクトログラムを使用するボコーダーを利用します。

一部の高性能 TTS システムは、単一または複数のスピーカーから高品質の音声を合成できますが、それでもレコーディングスタジオからの高品質でクリーンなデータが必要です。これは、録音スタジオから収集した大規模なデータでは実現できません。インターネット。データ要件を満たしているため、モデルのパフォーマンスの低下につながります。

トレーニングデータの量が比較的少ないため、現在の TTS システムには汎化能力が低いという問題がまだあります。

ゼロショットタスク設定では、トレーニングデータに現れていない話者の場合、音声の類似性と自然性が急激に低下します。

ゼロショット TTS 問題を解決するために、既存の作業では通常、スピーカーアダプテーションやスピーカーエンコーディングなどの方法が利用されており、追加の微調整や事前に設計された複雑な機能、または大掛かりな構造作業が必要です。

研究者らは、テキスト合成の成功を考慮すると、この問題に対して複雑で特殊なネットワークを設計するのではなく、可能な限り多様なデータを使用してモデルをトレーニングすることが究極の解決策であるべきだと考えています。

VALL-E モデル

テキスト合成の分野では、インターネットからの大規模なラベルなしデータがモデルに直接入力され、学習データの量が増加するにつれて、モデルのパフォーマンスが低下します。また常に改善しています。

研究者らはこのアイデアを音声合成の分野に移行し、VALL-E モデルは言語モデルに基づく初の TTS フレームワークであり、大量かつ多様な複数話者の音声データを利用します。

パーソナライズされた音声を合成するために、VALL-E モデルは、3 秒間の登録された録音の音響トークンと音素プロンプトに基づいて、対応する音響トークンを生成します。発言者やコンテンツ情報を制限します。

最後に、生成された音響トークンを使用して、対応するニューラルコーデックで最終波形を合成します。

オーディオコーデックモデルからの離散音響トークンにより、TTS を条件付きコーデック言語モデリングとみなすことができるため、一部の高度なヒントベースの大規模モデル技術 (GPT など) を TTS タスクで使用できます。

音響トークンは、推論プロセス中にさまざまなサンプリング戦略を使用して、TTS で多様な合成結果を生成することもできます。

研究者らは、LibriLight データセットを使用して VALL-E をトレーニングしました。このデータセットは、7,000 人以上のユニークな話者による 60,000 時間の英語音声で構成されています。生データは音声のみであるため、トランスクリプトの生成には音声認識モデルのみが使用されます。

LibriTTS などの以前の TTS トレーニングデータセットと比較すると、この論文で提供される新しいデータセットには、より多くのノイズのある音声と不正確な文字起こしが含まれていますが、異なる話者と音域 (韻律) が提供されます。

研究者らは、この記事で提案されている方法はノイズに強く、ビッグデータを利用して優れた一般性を実現できると考えています。

既存の TTS システムは、常に数十時間の単言語話者データ、または数百時間の多言語話者データを使用してトレーニングされていることは注目に値します。ヴァリー。

つまり、VALL-E は TTS 用のまったく新しい言語モデル手法であり、中間表現としてオーディオエンコードおよびデコードコードを使用し、大量のさまざまなデータを使用してモデルに強力なコンテキスト学習機能を与えます。

推論: プロンプトによるインコンテキスト学習

コンテキスト学習 (インコンテキスト学習) は、追加のパラメーター更新を必要とせずに、目に見えない入力ラベルを予測できる、テキストベースの言語モデルの驚くべき機能です。。

TTS の場合、モデルが微調整することなく、見えない話者向けに高品質の音声を合成できる場合、そのモデルには文脈学習機能があるとみなされます。

しかし、既存の TTS システムには強力なコンテキスト内学習機能がありません。これは、追加の微調整が必要であるか、見えない話者に対して大幅な性能低下が発生するためです。

言語モデルの場合、ゼロショット状況でコンテキスト学習を達成するにはプロンプトが必要です。

研究者によって設計されたプロンプトと推論は次のとおりです。

最初にテキストを音素シーケンスに変換し、登録された録音を音響マトリックスにエンコードして、音素プロンプトと音響を形成します。プロンプト。どちらも AR モデルと NAR モデルで使用されます。

AR モデルの場合は、ビームサーチによって LM が無限ループに入る可能性があるため、ヒントを条件としてサンプリングベースのデコードを使用します。また、サンプリングベースの方法により出力の多様性が大幅に向上します。

NAR モデルの場合、貪欲デコードを使用して、最も高い確率でトークンを選択します。

最後に、ニューラルコーデックを使用して、8 つのエンコードシーケンスに基づいて条件付けされた波形を生成します。

音響キューは、合成される音声と必ずしも意味的な関係を持たない可能性があるため、次の 2 つのケースに分類できます。

VALL-E: 主な目標は、目に見えない話者向けです。与えられたコンテンツ。

このモデルの入力は、テキスト文、登録された音声の一部、およびそれに対応する文字起こしです。登録された音声の転写された音素を音素キューとして指定された文の音素シーケンスに追加し、登録された音声の第 1 レベルの音響トークンを音響プレフィックスとして使用します。 VALL-E は、音素キューと音響プレフィックスを使用して、特定のテキストの音響トークンを生成し、話者の音声を複製します。

VALL-E-continual: トランスクリプト全体と発話の最初の 3 秒をそれぞれ音素キューと音響キューとして使用し、モデルに連続コンテンツを生成するように要求します。

推論プロセスは、登録された音声と生成された音声が意味的に連続していることを除いて、VALL-E の設定と同じです。

実験セクション

研究者らは、LibriSpeech および VCTK データセットで VALL-E を評価しましたが、テストされたすべての話者がトレーニングコーパスに含まれていませんでした。

VALL-E は、音声の自然さと話者の類似性の点で最先端のゼロショット TTS システムを大幅に上回り、比較平均オプションスコア (CMOS) が 0.12、LibriSpeech オプションの類似性平均が 0.93 でした。スコア (SMOS)。

VALL-E は、VCTK 上で 0.11 SMOS および 0.23 CMOS のパフォーマンス向上によりベースラインシステムを上回り、グラウンドトゥルースに対して 0.04CMOS スコアに達しました。これは、VCTK 上で、目に見えない話者からの合成音声は人間の録音と同じくらい自然です。

さらに、定性分析では、VALL-E が 2 つの同一のテキストとターゲット話者を使用して異なる出力を合成できることが示されており、これは音声認識タスクの疑似データに有益である可能性があります。作成する。

実験では、VALL-E が音環境（残響など）と音によって引き起こされる感情（怒りなど）を維持できることもわかりました。

セキュリティ上の危険

強力なテクノロジーが悪用されると、社会に害を及ぼす可能性があります。たとえば、電話詐欺の基準値が再び引き下げられました。

VALL-E にはいたずらや欺瞞の可能性があるため、Microsoft は VALL-E のコードやインターフェイスをテスト用に公開していません。

一部のネチズンは次のように共有しています。システム管理者に電話する場合は、「こんにちは」という言葉をいくつか録音し、その言葉に基づいて音声を再合成します。「こんにちは、私はシステム管理者です。」音声は一意の識別子であり、安全に検証できます。」私はいつもこれは不可能だと思っていました。これほど少ないデータではこのタスクを達成することはできませんでした。今となっては、私は間違っているかもしれません...

プロジェクトの最終倫理声明で、研究者らは「この記事の実験は、対象話者としてのモデルユーザーに基づいており、以下の条件で実行されて得られたものである」と述べています。」

あなたの声を盗むのにかかる時間はわずか 3 秒です。 Microsoft、音声合成モデルVALL-Eをリリース：ネットユーザーは「電話詐欺」の敷居がまた下がったと叫ぶ #著者は論文の中で、VALL-E は話者の身元を維持した音声を合成できるため、なりすましの音声認識や音声認識など、モデルの悪用の潜在的なリスクを引き起こす可能性があるとも述べています。特定の話者の真似をすること。