社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 正文

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

王林

发布： 2023-06-03 14:05:32

转载

1045 人浏览过

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。

将 LLM 应用于音频文件的一个关键挑战是，LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前，它需要被转换成文本。音频文件越长，绕过 LLM 的上下文窗口限制的工程挑战就越大。但工作场景中，我们往往需要 LLM 帮我们处理非常长的语音文件，比如从一段几个小时的会议录音中抽取核心内容、从一段访谈中找到某个问题的答案……

最近，语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型。就像 ChatGPT 处理几十页的 PDF 文本一样，LeMUR 可以将长达 10 小时的录音进行转录、处理，然后帮用户总结语音中的核心内容，并回答用户输入的问题。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

试用地址：https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech（利用大型语言模型来理解识别的语音）的缩写，是将强大的 LLM 应用于转录的语音的新框架。只需一行代码（通过 AssemblyAI 的 Python SDK），LeMUR 就能快速处理长达 10 小时的音频内容的转录，有效地将其转化为约 15 万个 token。相比之下，现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

为了降低将 LLM 应用于转录音频文件的复杂性，LeMUR 的 pipeline 主要包含智能分割、一个快速矢量数据库和若干推理步骤（如思维链提示和自我评估），如下图所示：

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

图 1：LeMUR 的架构使用户能够通过一个 API 调用将长的和 / 或多个音频转录文件发送到 LLM 中。

未来，LeMUR 有望在客服等领域得到广泛应用。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

LeMUR 解锁了一些惊人的新可能性，在几年前，我认为这些都是不可能的。它能够毫不费力地提取有价值的见解，如确定最佳行动，辨别销售、预约或呼叫目的等呼叫结果，感觉真的很神奇。—— 电话跟踪和分析服务技术公司 CallRail 首席产品官 Ryan Johnson

LeMUR 解锁了什么可能性？

将 LLM 应用于多个音频文本

LeMUR 能够让用户一次性获得 LLM 对多个音频文件的处理反馈，以及长达 10 小时的语音转录结果，转化后的文本 token 长度可达 150K 。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

可靠、安全的输出

由于 LeMUR 包含安全措施和内容过滤器，它将为用户提供来自 LLM 的回应，这些回应不太可能产生有害或有偏见的语言。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

可补充上下文

在推理时，它允许加入额外的上下文信息，LLM 可以利用这些额外信息在生成输出时提供个性化和更准确的结果。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

模块化、快速集成

LeMUR 始终以可处理的 JSON 形式返回结构化数据。用户可以进一步定制 LeMUR 的输出格式，以确保 LLM 给出的响应是他们下一块业务逻辑所期望的格式（例如将回答转化为布尔值）。在这一流程中，用户不再需要编写特定的代码来处理 LLM 的输出结果。

试用结果

根据 AssemblyAI 提供的测试链接，机器之心对 LeMUR 进行了测试。

LeMUR 的界面支持两种文件输入方式：上传音视频文件或粘贴网页链接均可。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

我们用 Hinton 近期的一份访谈资料作为输入，测试 LeMUR 的性能。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

上传之后，系统提示我们要等一段时间，因为它要先把语音转成文字。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

转录之后的界面如下：

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

在页面右侧，我们可以要求 LeMUR 总结采访内容或回答问题。LeMUR 基本可以轻松地完成任务：

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

如果要处理的语音是一段演讲或客服回复，你还能向 LeMUR 征求改进建议。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

不过，LeMUR 似乎目前还不支持中文。感兴趣的读者可以去尝试一下。

以上是能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

模型

来源：51cto.com

上一篇：AI时代虚拟现实产业领创者虚拟动点发布产业布局白皮书下一篇：硬核专业系列之一丨广州市公用事业技师学院物联网应用技术专业

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

创造未来：面向零基础的 Java 编程

2024-10-13 13:32:21
你并不孤单：在社区的支持下掌握 Python

2024-10-12 11:58:51
从新手到程序员：利用 Python 编程的力量

2024-10-11 20:06:51
像程序员一样思考：学习 Java 基础知识

2024-10-11 18:59:31
Java 变得简单：编程能力的初学者指南

2024-10-11 18:30:51
使用 PHP 构建博客：一个适合初学者的项目

2024-10-11 15:51:51
讲系统语言：学习 C，一次一行

2024-10-11 15:42:10
C 语言的数据结构和算法：适合初学者的方法

2024-10-11 14:41:20
不流泪编码：轻松学习 C

2024-10-11 14:08:31
使用 Java 进行数据分析：信息处理初学者指南

2024-10-11 13:42:21

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1418666
php入门教程之一周学会PHP

4260195
JAVA 初级入门视频教程

2495590
小甲鱼零基础入门学习Python视频教程

504733
PHP 零基础入门教程

859720

最新下载

更多>

网站特效

网站源码

网站素材

前端模板