Microsoft は、Ignite カンファレンスで「Azure AI Speech text to speech (TTS) avatar」と呼ばれる AI ツールをリリースし、リアルな仮想キャラクターを生成できると主張しました。このツールはパブリック プレビューで利用できるようになりました
Microsoft は、ユーザーが Azure AI Speech テキスト読み上げ (TTS) アバターを使用して、「コンテンツを話すためのテキスト入力」に基づいて仮想アバターを作成し、それを実際の人物の写真トレーニングと組み合わせて「インタラクティブ アバター」ベースの構築ができると発表しました。 「チャットボット」は、企業のマーケティング、ビジネス、または顧客サービスのシナリオで使用できます。
レポートによると、Azure AI Speech のテキスト読み上げ (TTS) アバターは主に、テキスト アナライザー、TTS サウンド シンセサイザー、TTS 仮想アバター シンセサイザーの 3 つのモジュールで構成されています。
テキスト アナライザーは、まずユーザーが入力したテキスト コンテンツを分析し、音素シーケンスを生成します。次に、TTS サウンド シンセサイザーの TTS 音声モデルがユーザーの入力テキストの音響特性を予測し、サウンドを合成します。最後に、ニューラル ネットワーク音声合成モデル Avatar が、上記の音響特性に基づいてキャラクターの唇の画像を予測し、最終的に仮想アバター画像を形成します。マイクロソフトは、従来のアバター制作には時間と労力がかかり、専用の撮影環境の構築が必要であり、撮影と編集のポストプロダクションプロセスにもかなりのコストがかかると説明しました。現在、Microsoftの最新のAzure AI Speech Text to Speech(TTS)アバターサービスを利用しており、初めてモデルを確立した後は、テキストを入力するだけでさまざまな製品紹介やインタラクティブな動画などを作成できる。 Microsoft Azure OpenAI Service およびニューラル ネットワーク TTS 機能と組み合わせることで、より自然なインタラクティブなエクスペリエンスを提供することもできます。
IT House は、Microsoft が、ユーザーが Azure AI Speech TTS アバターを使用して、企業文化ビデオ、製品紹介、カンファレンスでの CEO のデジタル アバターなどのさまざまなビデオ コンテンツをバッチ作成できる例を示したと報告しました。さらに、仮想ライブ配信のデジタル ヒューマン、チャット ロボット、ビジネス ロボット、オンライン教育用の AI 教師などを作成することもできます。
Microsoft は、Azure AI Speech Synthesis (TTS) アバターが Azure サブスクライバーに利用可能になり、複数の言語をサポートすると発表しました。ユーザーは、プリセットのアバター オプションから希望の役割を選択するか、アバターをカスタマイズできます
ユーザーが独自の仮想アバターをカスタマイズしたい場合は、キャラクター ビデオ クリップのバッチをアップロードする必要があります。Azure プラットフォームはこれらのビデオをオンラインで処理して仮想アバターを生成します。キャラクター本体と音源は分離されており、ユーザーは公式のデフォルト音源を選択するか、独自のトレーニング音源をアップロードすることができます。
以上がMicrosoft、仮想 3D デジタル ヒューマンを作成できる Text To Speech アバター AI ツールを発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。