社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用

王林

发布： 2023-09-22 16:53:01

转载

1211 人浏览过

首个中英双语的语音对话开源大模型来了！

这几天，一篇关于语音-文本多模态大模型的论文出现在arXiv上，署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

这篇论文介绍了一个名为LLaSM的中英双语可商用对话模型。该模型不仅支持录音和文本输入，而且能够实现“混合双打”的功能

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

研究指出，“语音聊天”是AI与人之间更方便自然的交互方式，不仅仅是通过文本输入

用上大模型，有网友已经在想象“躺着说话就能写代码”的场景了。

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

这项研究是由LinkSoul.AI、北京大学和零一万物共同完成的，目前已经开源，并且可以直接在抱抱脸中进行试玩

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

让我们一起来看看它的效果如何吧

支持文本语音输入，手机也可玩

据研究人员表示，LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。

那么，就来看看它的语音文本输入和中英双语能力如何。

首先，让我们进行一次中英文化碰撞，用英文来评价李白：

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

还可以，正确地说出了李白的朝代。如果看不懂英文，让它直接翻译成中文也没问题：

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

在接下来的练习中，让我们尝试一下中英混合提问，将一个“炸食物”一词加入到中文句子中。模型的输出效果也相当不错：

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

让我们再试探一下模型，让它进行一些评价，看看李白和杜甫哪个更厉害

可以观察到，在经过一段时间的思考后，这个模型给出了非常客观中立的评价，同时也具备了大型模型所必备的基本知识和常识（手动狗头）

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

当然，不止是电脑，手机也能玩。

我们试着用语音输入“给我推荐一个菜谱吧”：

可以看到模型准确地输出了一个“茄子芝士”的菜谱，就是不知道好不好吃。

不过，我们在尝试的时候也发现，这个模型有时候会出bug。

例如有时候它并不能很好地“听懂人话”。

要求输出中英混合的内容，它会假装看不懂并输出英文：

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

当中英混合询问想听“Taylor Swift的Red”时，模型出现了严重的错误，不断重复输出同一句话，甚至无法停止……

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

总体来看，当遇到中英混合的提问或要求时，模型输出能力还是不太行。

不过分开的话，它的中英文表述能力还是不错的。

那么，这样的模型究竟是怎么实现的呢？

做了个什么新模型？

从试玩来看，LLaSM主要有两个特点：一个是支持中英输入，另一个是语音文本双输入。

要做到这两点，分别需要在架构和训练数据上做一些调整。

架构上，LLaSM将当前的语音识别模型和大语言模型做了个整合。

LLaSM由三个部分构成，分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。

在这个过程中，Whisper负责接收原始语音输入并输出语音特征的向量表示。模态适配器的作用是对齐语音和文本嵌入。而LLaMA则负责理解语音和文本输入的指令，并生成回复

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

模型的训练分为两个阶段。第一阶段是训练模态适配器，此时编码器和大模型被冻结，让模型学习语音和文本的对齐。第二阶段是冻结编码器，训练模态适配器和大模型，以提升模型的多模态对话能力

训练数据上，研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。

在50.8万个语音-文本样本中，有8万个是中文语音样本，而42.8万个是英文语音样本

研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集，通过文本转语音技术，给这些数据集生成语音包，同时过滤掉无效对话。

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

这也是目前最大的中英文语音文本指令遵循数据集，不过目前还在整理中，据研究人员表示，整理完后会进行开源。

然而，目前还没有对比该论文与其他语音模型或文本模型的输出效果

作者介绍

这篇论文的作者来自LinkSoul.AI、北京大学和零一万物

共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI，此前曾经在北京智源人工智能研究院工作。

LinkSoul.AI是一家AI初创公司，之前推出过首个开源Llama 2的中文语言大模型。

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

作为李开复旗下的大模型公司，零一万物也在这次研究中有所贡献。作者Wenhao Huang的Hugging Face主页显示，他毕业于复旦大学。

国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用图片

论文地址：
//m.sbmmt.com/link/47c917b09f2bc64b2916c0824c715923

Demo地址：
//m.sbmmt.com/link/bcd0049c35799cdf57d06eaf2eb3cff6

以上是国内推出全新语音对话大模型：李开复领衔，零一万物参与，支持中英双语和多模态，开源并可商用的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

适配器模型国产语音

来源：51cto.com

上一篇：AI生成个人写真瞬间走红！妙鸭相机推出免费试用，仅限首次使用者下一篇：小叶子钢琴智能陪练深耕人工智能构建智能化音乐学习生态

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

创造未来：面向零基础的 Java 编程

2024-10-13 13:32:21
你并不孤单：在社区的支持下掌握 Python

2024-10-12 11:58:51
从新手到程序员：利用 Python 编程的力量

2024-10-11 20:06:51
像程序员一样思考：学习 Java 基础知识

2024-10-11 18:59:31
Java 变得简单：编程能力的初学者指南

2024-10-11 18:30:51
使用 PHP 构建博客：一个适合初学者的项目

2024-10-11 15:51:51
讲系统语言：学习 C，一次一行

2024-10-11 15:42:10
C 语言的数据结构和算法：适合初学者的方法

2024-10-11 14:41:20
不流泪编码：轻松学习 C

2024-10-11 14:08:31
使用 Java 进行数据分析：信息处理初学者指南

2024-10-11 13:42:21

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422669
php入门教程之一周学会PHP

4267549
JAVA 初级入门视频教程

2530287
小甲鱼零基础入门学习Python视频教程

507003
PHP 零基础入门教程

862168

最新下载

更多>

网站特效

网站源码

网站素材

前端模板