文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首页 > 常见问题 > 正文

未来说话：超低延迟的实时人工智能语音代理

James Robert Taylor

发布： 2024-09-24 16:41:31

原创

385 人浏览过

语音模式已迅速成为对话式人工智能的旗舰功能，让用户感到轻松并允许他们以最自然的方式（通过语音）进行交互。 OpenAI 不断开拓创新，推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源，提供了无与伦比的工具访问权限，使构建高质量的响应式语音代理成为可能。

thumbnail (1).jpg

语音模式有迅速成为对话式人工智能的旗舰功能，让用户感到轻松并允许他们以最自然的方式（通过语音）进行交互。 OpenAI 不断开拓创新，推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源，提供了无与伦比的工具访问权限，使构建高质量的响应式语音代理成为可能。

OpenAI 并没有采取任何行动。当他们为 ChatGPT 开发语音功能时，他们引进了顶尖的选角和导演人才，以确保声音具有身临其境的感觉，同时又让他们看起来像是属于自己的。随后，400 名试镜者被削减至今天的 5 名。这并不是说一切都是一帆风顺的。不是当公司不得不搁置“天空”，因为它与斯嘉丽约翰逊惊人的相似。

但真正令人兴奋的是最新的发展：能够在本地利用这项技术。想象一下，在您自己的 GPU 上进行实时语音到语音处理，延迟低于 500 毫秒。这不再是一个遥远的梦想：系统现已完全开源。

它是如何工作的？

为了实现如此小的延迟，AI 管道被分为不同的组件，每个组件都经过优化为了速度和效率：

1。语音活动检测 (VAD)

管道从 Silero VAD v5 模块开始，负责检测用户何时结束讲话。它是触发下一阶段处理的“看门人”。

2.实时转录（语音到文本）

这部分流程使用一些更复杂的模型（例如 Whisper 或 DeepSpeech）将用户的语音转录为文本。例如，Whisper 是实时运行的，系数为 0.5；因此，它可以以两倍于实时速度的速度处理语音，并在大约 100 毫秒内提供准确的转录。

3.响应生成

随着转录的进行，大型语言模型（LLM）开始同时预测可能的响应。在 200 毫秒内，系统可以生成相关的基于文本的回复。

4.语音合成（文本到语音）

使用快速语音合成器立即将生成的响应转换为语音，这还需要 200 毫秒才能产生高质量的音频。

通过并行提高效率处理

这种令人印象深刻的速度的秘密在于并行处理。与顺序处理组件或一次处理一项任务相比，系统同时进行转录、响应生成和语音合成。这种端到端的设计确保了流程的各个部分协同工作，极大地减少了完成用户交互所需的总体时间

例如，当系统检测到语音结束时，系统会启动转录过程。当转录完成时，语言模型已生成响应，随后立即开始语音合成。这种任务并行处理确保从用户语音到 AI 响应的整体交互在 500 毫秒内完成。

结论：解锁语音 AI 的未来

AI 语音代理 down人机交互延迟达到500ms，是无缝人机交互的重大发展。该技术的使用是通过实时转录、快速响应生成和语音合成，同时提供超响应的对话体验。

这意味着，随着整个管道开源，可以集成此技术技术融入您的项目。开发人员可以针对各种应用程序微调和自定义其语音代理，包括语音助手甚至实时游戏化身。

这不仅仅是向前迈出的一步；这是构建对话式人工智能未来的邀请。那么，你会用它创造什么？

以上是未来说话：超低延迟的实时人工智能语音代理的详细内容。更多信息请关注PHP中文网其他相关文章！

来源：dzone.com

上一篇：机器学习和人工智能如何改变移动应用程序中的医疗诊断下一篇：开源：个人和职业成长的途径

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

最新问题

function_exists()无法判定自定义函数 function test() { return true; } if (function_exists('TEST')) { ech...

来自于 2024-04-29 11:01:01

0

2

1546

google 浏览器手机版显示的怎么实现老师您好，google 浏览器怎么变成手机版样式的？

来自于 2024-04-23 00:22:19

0

10

1708

子窗口操作父窗口，输出没反应前两句可执行，最后一句没法应

来自于 2024-04-19 15:37:47

0

1

1450

父窗口没有输出 document.onclick = function(){ window.opener.document.write('我是子窗口的输出'); ...

来自于 2024-04-18 23:52:34

0

1

1371

关于CSS思维导图的课件在哪？课件

来自于 2024-04-16 10:10:18

0

0

1425

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1409894
php入门教程之一周学会PHP

4243731
JAVA 初级入门视频教程

2442742
小甲鱼零基础入门学习Python视频教程

500791
PHP 零基础入门教程

839304

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责声明 Sitemap: PHP中文网：公益在线PHP培训，帮助PHP学习者快速成长！