Huoshan Voice TTS の技術力は国家検査検疫センターによって認定されており、MOS スコアは 4.64 という高さです。-AI-php.cn

Huoshan Voice TTS の技術力は国家検査検疫センターによって認定されており、MOS スコアは 4.64 という高さです。

王林

リリース： 2023-04-12 10:40:05

転載

1100 人が閲覧しました

最近、Volcano Engine 音声合成製品は、National Speech and Image Recognition Product Quality Inspection and Testing Center (以下、「」といいます) によって発行された 音声合成強化検査およびテスト証明書 を取得しました。 AI 国家検査センター」)。音声合成の基本要件と拡張要件は、AI 国家検査センターの 最高レベルの基準 に達しています。この評価は、標準中国語、複数の方言、複数の言語、混合言語、複数の音色、パーソナライゼーションの側面から行われ、製品のテクニカルサポートチームである Volcano Voice チームが豊富なサウンドライブラリを提供します。 MOS 最高スコアは業界トップレベルの4.64点に達します。

Huoshan Voice TTS の技術力は国家検査検疫センターによって認定されており、MOS スコアは 4.64 という高さです。

人工知能分野における最初で唯一の国家レベルの音声および画像製品品質検査システムとして、国の検査試験機関である AI 国家検査センターは、インテリジェント音声業界の健全な発展の促進に取り組んでいます。今回AI国家検査センターから権威ある認証を取得したことは、Huoshan Voiceの音声合成技術能力が業界をリードするレベルに達していることを十分に証明している。

火山音声合成の効果を実感してください: https://www.php . cn/link/8e0ce414531179ae9b7f60e20351ee8b

##さらなるサウンド体験:

//m.sbmmt.com/link/a1ada9947e0d683b4625f94c74104d73 Huoshan Voice は長い間、Bytedance の主要な事業分野をターゲットにしており、 Volcano Engine ToB 業界と革新的なシナリオは、業界をリードする AI 音声テクノロジー機能と優れたフルスタック音声製品ソリューションを提供します。現在、チームの音声認識と音声合成は複数の言語と方言をカバーしており、音声とビデオ、音声読み上げ、音声対話、ゲーム、広告、その他のアプリケーションシナリオをカバーしており、Douyin、Jianying、Feishu、Tomato Novels、 Pico など。中核となるビジネスは、最先端の音声機能を提供します。

このコンテストに参加する Volcano Engine 音声合成製品

は、Volcano Voice チームによって独自に開発され、業界をリードする生成ニューラルネットワーク技術

を使用していることがわかります。主に構成されているのは、フロントエンドテキスト分析、音響モデル、ボコーダーの 3 つの主要なモジュールで構成されており、具体的には次のとおりです:

フロントエンドテキスト分析:主に、テキストの正規化 (数値を年の読みや数値の読みに変換するなど)、文字の発音変換 (特に複数発音文字の問題を解決するための中国語の発音表記など) などのわかりやすさを担当します。単語の分割や韻の予測など。

音響モデル:主に言語特徴から音響特徴までのモデリングを担当します。データによると、Huoshan Voice TTS のバックエンド精度率は 99.90% に達する可能性があります。同時に、このモデルは、複数の感情やスタイルの洗練された制御、異なる音色間でのスタイルの転送もサポートし、単一言語のトレーニングデータのみを使用して多言語合成効果を達成することもできます。
ボコーダーモジュール: 主に音響特徴をオーディオ信号にモデリングする役割を果たします。現在、Volcano Voice チームは、敵対的ニューラルネットワークモデリングに基づいたボコーダーを自己開発しており、その精度は最大 99.95% です。軽量モデル設計とエンジニアリングの最適化に依存して、クラウドでのリアルタイムレートは 1 年以上に達します。何百回も。
Volcano Engine 音声合成製品は、リアルで自然なサウンド、鮮やかな解釈、多様なスタイルを備えていると同時に、現実の人々のリズムを復元します。言語現象は、人々に臨場感あふれるリスニング体験をもたらします。 Volcano Voiceチームが最近リリースした超自然対話音声合成技術も同様で、従来のTTSと比較して、モーダル助詞、吸気音、ためらいの音の間、発音の伸びなどの細部まで完璧に再現でき、従来のサウンドライブラリが必要な1/4データ。

「トーン再現技術」もVolcano Voiceチームが開発したものです。

従来の音声合成技術ではデータの閾値が高く要求されていましたが、Volcano 音声音色再現技術では従来のデータ量の 0.3% しか必要としません。一般の人は比較的静かな環境で作業できます。オープン環境で 2 分以上録音すると、音色空間モデリングの基準を満たし、専用の音色の AI モデルを生成できるため、便利で効率的です。

現在、Huoshan Voice は長年磨いてきた音声技術機能を市場に投入し、Volcano エンジンを通じて外部企業に開放していきます。 Volkswagen Automotive や Zhuishu Artifact など、業界の多くの大手企業が、AI 音声機能の応用と拡張を実現しています。は、より大きな価値を達成するために、最先端のテクノロジーとビジネスシナリオの効率的な組み合わせを模索し続け、ユーザーエクスペリエンスとビジネスの成長に革新的なエネルギーを注入し続けます。

以上がHuoshan Voice TTS の技術力は国家検査検疫センターによって認定されており、MOS スコアは 4.64 という高さです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。