Dify API로 실시간 음성을 구현하는 방법

PHPz
풀어 주다: 2024-08-24 16:51:02
원래의
558명이 탐색했습니다.

Dify는 온라인으로 LLM 워크플로를 구축하기 위한 오픈 소스 SaaS 플랫폼입니다. 저는 API를 사용하여 앱에서 대화형 AI 경험을 만들고 있습니다. API 응답으로 TTS 스트림을 가져와서 재생하는 데 어려움을 겪고 있었습니다. 여기에서는 오디오 스트림을 처리하고 올바르게 재생하는 방법을 보여줍니다.

문자 채팅에 API 엔드포인트 https://api.dify.ai/v1/chat-messages를 사용하고 있습니다. Dify 앱에서 텍스트 음성 변환 기능을 활성화한 경우 텍스트 응답과 동일한 스트림으로 오디오 데이터를 반환합니다.

기능 추가 버튼을 누르고 음성 기능에 텍스트를 추가하세요.
How to realize Real-Time Speech with Dify API

다음 컬 명령어를 사용하여 API의 응답을 확인할 수 있습니다.

으아아아

저는 TypeScript/JavaScript로 시연하지만 프로그래밍 언어에도 동일한 논리를 적용할 수 있습니다.

스트리밍 데이터 분석

먼저 Dify가 스트림에 어떤 데이터를 사용하는지 알아보겠습니다.

스트리밍된 데이터 형식

Dify는 다음과 같은 텍스트 데이터 형식을 사용하고 있습니다. JSON 라인과 비슷하지만 완전히 똑같지는 않습니다.

으아아아

응답에 Dify는 문자 답변과 오디오 데이터를 푸시합니다.

텍스트 답변 예시

으아아아

오디오 데이터의 예

으아아아

이벤트 속성을 확인하면 오디오 데이터의 JSON 라인을 구별할 수 있습니다. 오디오 JSON의 값은 tts_message입니다. 오디오 mp3 바이너리는 JSON의 audio 속성에 base64 형식으로 저장됩니다.

데이터 처리 문제

TTS 오디오를 실시간으로 재생할 때 발생하는 첫 번째 문제는 JSON 라인이 패킷으로 분할되어 있고 각 패킷이 그대로 유효한 JSON 데이터가 아니라는 것입니다.

가운데가 잘린 패킷 예시

으아아아

패킷은 JSON 라인의 중간부터 시작됩니다. 유효한 JSON 라인을 얻으려면 여러 패킷을 결합해야 합니다.

두 번째 문제는 JSON의 오디오 데이터 청크가 유효한 오디오 데이터가 아니라는 것입니다. mp3 프레임 중간에 데이터가 잘립니다.

구현

JSON과 mp3의 분할 데이터를 처리하려면 현명한 방법을 취해야 합니다. 프로세스 흐름은 다음과 같습니다.

How to realize Real-Time Speech with Dify API

먼저 유효한 JSON 데이터를 가져와서 패킷을 수신하면서 JSON으로 분할해야 합니다. 끝에 n이 있는 패킷을 얻었을 때 지금까지 수신된 패킷의 연결이 중간에 잘리지 않았다고 말할 수 있습니다. 의사 코드는 이렇습니다.

으아아아

두 번째로 오디오 청크를 mp3 프레임으로 분할해야 합니다. 오디오 청크를 바이너리로 연결하고 그 안에 있는 각 mp3 프레임을 찾습니다.

으아아아

MP3 프레임 분할이 완전히 구현된 것은 아닙니다. 실제 프로세스에서는 오디오 바이너리에서 mp3 프레임을 추출할 때 나머지 바이트가 있고 나머지를 다음 반복에서 오디오 바이트의 시작으로 사용하는 경우를 고려해야 합니다. 전체 구현을 보려면 내 Github 저장소를 확인하세요.

위 내용은 Dify API로 실시간 음성을 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!