只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
文章简介:让ChatGPT帮你写剧本,StableDiffusion生成插图,做视频就差个配音演员了?它来了!最近来自微软的研究人员发布了一个全新的文本到语音(text-to-speech,TTS)模型VALL-E,只需要提供三秒的音频样本即可模拟输入人声,并根据输入文本合成出对应的音频,而且还可以保持说话者的情感基调。论文链接:https://arxiv.org/abs/2301.02111项目链接:https://valle-demo.github.io/代码链接:https://github.com
2023-04-28
评论 0
715