如何使用Dify API实现实时语音-js教程-PHP中文网

Dify 是一个开源 SaaS 平台，用于在线构建 LLM 工作流程。我正在使用 API 在我的应用程序上创建对话式 AI 体验。我一直在努力获取 TTS 流作为 API 响应并播放它。这里我演示如何处理音频流并正确播放。

我使用 API 端点 https://api.dify.ai/v1/chat-messages 进行文本聊天。如果我们在 Dify 应用程序中启用“文本转语音”功能，它会在与文本响应相同的流中返回音频数据。

按添加功能按钮并添加文本到语音功能。
How to realize Real-Time Speech with Dify API

您可以使用以下curl命令检查API的响应。

雷雷

我用 TypeScript / JavaScript 进行演示，但您可以将相同的逻辑应用于您的编程语言。

流数据剖析

首先，让我们了解一下 Dify 使用什么样的数据进行流。

流数据格式

Dify 使用以下文本数据格式。它类似于 JSON 行，但并不完全相同。

雷雷

在响应中，Dify 推送文本答案和音频数据。

文本答案示例行

雷雷

音频数据示例行

雷雷

我们可以通过检查事件属性来区分音频数据的 JSON 行。音频 JSON 将 tts_message 作为值。音频 mp3 二进制文件以 Base64 格式存储在 JSON 的音频属性中。

处理数据的问题

实时播放 TTS 音频时遇到的第一个问题是 JSON 行被分成数据包，并且每个数据包都不是有效的 JSON 数据。

从中间切开的示例包

雷雷

数据包从 JSON 行的中间开始。我们必须组合多个数据包才能获得有效的 JSON 行。

第二个问题是 JSON 中的音频数据块不是有效的音频数据。数据在 mp3 帧的中间被剪切。

执行

为了处理 JSON 和 mp3 的分割数据，我们必须采取一些聪明的方法。流程如下：

How to realize Real-Time Speech with Dify API

首先，我们必须获取有效的 JSON 数据，并在接收数据包时将其拆分为 JSON。当我们得到一个以 n 结尾的数据包时，我们可以说到目前为止收到的数据包的串联没有在中间被切断。伪代码是这样的。

雷雷

其次，我们必须将音频块分割成 mp3 帧。我们将音频块连接成二进制文件并找到其中的每个 mp3 帧。

雷雷

这不是分割成 mp3 帧的完整实现。在实际过程中，我们必须考虑当我们从音频二进制文件中提取 mp3 帧时存在剩余字节并在下一次迭代中使用剩余字节作为音频字节的开头的情况。请检查我的 Github 存储库以了解完整的实施。

以上是如何使用Dify API实现实时语音的详细内容。更多信息请关注PHP中文网其他相关文章！

php8，我来也

30分钟学会网站布局

尚观Oracle入门到精通视频教程

你的第一行 UNI-APP 代码

Flutter 从头到应用启动

兄弟连Linux新版视频教程

AXURE 9视频教程（适合产品经理交互产品设计UI）

零基础PS视频教程

16天带你入门UI视频教程

PS技巧和切片技巧视频教程

阿里云环境搭建以及项目上线视频教程

计算机网络概述——程序员必须掌握的基础知识

程序员必备教程——HTTP协议讲解

Websocket视频教程

如何使用Dify API实现实时语音

流数据剖析

流数据格式

处理数据的问题

执行