Meta发布音频AI模型，仅需2秒片段模拟真人语音-人工智能-PHP中文网

Meta发布音频AI模型，仅需2秒片段模拟真人语音

WBOY

发布： 2023-06-21 15:20:17

转载

1661 人浏览过

近日，Meta发布了Voicebox AI模型，它在音频模拟方面有着显著优势。

据悉，Voicebox只需要一段2秒钟的音频样本，即可准确辨别出音频细节、音色，并基于文字结果转换为语音输出。

Meta发布音频AI模型，仅需2秒片段模拟真人语音

Voicebox 是一种生成式 AI 模型，可以帮助进行音频编辑、采样和造型。

这种技术在未来可以用来帮助创作者轻松编辑音轨，同时，它也能够为声带受损的人群提供协助，帮助TA们重新“发声”。使视障人士能够通过声音听到他们朋友的书面信息，同时使人们能够用自己的声音说任何外语。

同时，它还可以基于语音片段的前后内容，自动补齐中间缺失的内容。

根据Meta的介绍，Voicebox能够为AI助手，或是未来元宇宙的NPC提供自然且真实的语音效果，大大提升用户使用时的沉浸感。

Voicebox 的多功能性支持各种任务，包括：

上下文文本到语音合成：使用短至两秒的音频样本，Voicebox 可以匹配音频风格并将其用于文本到语音生成。

语音编辑和降噪：Voicebox 可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音。例如，您可以识别被狗叫声打断的一段语音，将其裁剪，然后指示 Voicebox 重新生成该段——就像用于音频编辑的橡皮擦一样。

跨语言转换：当给定某人演讲样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本时，Voicebox 可以生成任何这些语言的文本阅读，即使样本语音和文本是不同的语言。将来，即使人们不懂这些语言，他们也可以使用此功能以一种更为自然、真实的方式进行交流。

流匹配是 Voicebox 使用的一种方法，已被证明可以提高扩散模型的性能。Voicebox 在可懂度（5.9% 对 1.9% 的单词错误率）和音频相似性（0.580 对 0.681）方面优于当前最先进的英语模型 VALL-E，同时快 20 倍。对于跨语言风格迁移，Voicebox 优于 YourTTS，将平均单词错误率从 10.9% 降低到 5.2%，并将音频相似度从 0.335 提高到 0.481。

Meta发布音频AI模型，仅需2秒片段模拟真人语音