社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 谷歌发布了史上最大的通用模型PaLM-E，该模型拥有5620亿个参数，被称为终结者中最强大的大脑，并且可以通过图像与机器人进行交互

谷歌发布了史上最大的通用模型PaLM-E，该模型拥有5620亿个参数，被称为终结者中最强大的大脑，并且可以通过图像与机器人进行交互

王林

发布： 2023-05-09 20:28:09

转载

1358 人浏览过

大语言模型的飞速「变异」，让人类社会的走向越来越科幻了。点亮这棵科技树后，「终结者」的现实仿佛离我们越来越近。

前几天，微软刚宣布了一个实验框架，能用ChatGPT来控制机器人和无人机。

谷歌当然也不甘其后，在周一，来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

论文地址：https://arxiv.org/abs/2303.03378

作为一种多模态具身视觉语言模型 (VLM)，PaLM-E不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。

此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

横跨机器人、视觉-语言领域的「通才」模型

PaLM-E，全称Pathways Language Model with Embodied，是一种具身视觉语言模型。

它的强大之处在于，能够利用视觉数据来增强其语言处理能力。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

当我们训练出最大的视觉语言模型，并与机器人结合后，会发生什么？结果就是PaLM-E，一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

据论文介绍，PaLM-E是一个仅有解码器的LLM，在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。

其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

经过单个图像提示训练，PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言。

可以说，PaLM-E展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。

更重要的是，研究人员证明，通过在多个机器人和一般视觉语言的不同混合任务组合进行训练，可以带来从视觉语言转移到具身决策的几种方法，让机器人规划任务时能够有效地利用数据。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

除此之外，PaLM-E尤为突出的一点在于，拥有强大的正迁移能力。

在不同领域训练的PaLM-E，包括互联网规模的一般视觉-语言任务，与执行单一任务机器人模型相比，性能明显提高。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

而在模型尺度上，研究人员则观察到了一个显著的优势。

语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强。

从模型规模来看，5620亿参数的PaLM-E几乎保持了它所有的语言能力。

尽管只在单个图像进行训练，但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

在OK-VQA基准上，PaLM-E取得了新的SOTA。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

测评结果

在测试中，研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

值得注意的是，所有这些结果都是使用基于相同数据训练的相同模型获得的。

在以前，机器人通常需要人工的协助才能完成长跨度任务。但现在，PaLM-E通过自主学习就可以搞定了。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

比如，「从抽屉里拿出薯片」这类指令中，就包括了多个计划步骤，以及来自机器人摄像头的视觉反馈。

经过端到端训练的PaLM-E，可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中，所以机器人在拿薯片的过程中，对途中的干扰都有鲁棒性。

人类：给我来点薯片。

机器人：1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

同样，让机器人去拿一个苹果时，给出图片后，机器人执行任务步骤如下——

人类：给我拿一个苹果。

机器人：1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

除了执行长跨度任务，PaLM-E可以让机器人执行规划任务，比如排列积木。

研究人员根据视觉和语言输入成功地进行多阶段的计划，并结合了长时间范围的视觉反馈，进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。

如下，在排列组合上，机器人化身为多面手，按颜色将积木排序。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

模型的泛化方面，PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。

值得一提的是，数据集只包含有咖啡杯的三个演示，但其中没有一个包括红色的积木块。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

类似的，虽然模型此前从未见过乌龟，但照样可以顺利地把绿色积木推到乌龟旁边

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

在零样本推理方面，PaLM-E可以在给定图像的情况下讲述笑话，并展示了包括感知，基于视觉的对话和计划在内的能力。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

多张图的关系，PaLM-E也整得很明白，比如图一（左）在图二（右）的哪个位置。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

此外，PaLM-E还可以在给定带有手写数字的图像执行数学运算。

比如，如下手写餐馆的菜单图，2张披萨需要多少钱，PaLM-E就直接给算出来了。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

以及一般的QA和标注等多种任务。

终结者最强大脑！谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，看图说话还能操控机器人

最后，研究结果还表明，冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

但同时，研究人员还发现了一条解冻模型的替代路线，即扩大语言模型的规模可以显著减少灾难性遗忘。

以上是谷歌发布了史上最大的通用模型PaLM-E，该模型拥有5620亿个参数，被称为终结者中最强大的大脑，并且可以通过图像与机器人进行交互的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

谷歌模型

来源：51cto.com

上一篇：了解GPT-4应用的相关信息有哪些？下一篇：CMU朱俊彦团队研发出一款自动匹配排名系统，用于评估各种AI生成模型的优劣

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

创造未来：面向零基础的 Java 编程

2024-10-13 13:32:21
你并不孤单：在社区的支持下掌握 Python

2024-10-12 11:58:51
从新手到程序员：利用 Python 编程的力量

2024-10-11 20:06:51
像程序员一样思考：学习 Java 基础知识

2024-10-11 18:59:31
Java 变得简单：编程能力的初学者指南

2024-10-11 18:30:51
使用 PHP 构建博客：一个适合初学者的项目

2024-10-11 15:51:51
讲系统语言：学习 C，一次一行

2024-10-11 15:42:10
C 语言的数据结构和算法：适合初学者的方法

2024-10-11 14:41:20
不流泪编码：轻松学习 C

2024-10-11 14:08:31
使用 Java 进行数据分析：信息处理初学者指南

2024-10-11 13:42:21

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422821
php入门教程之一周学会PHP

4267919
JAVA 初级入门视频教程

2532274
小甲鱼零基础入门学习Python视频教程

507180
PHP 零基础入门教程

862288

最新下载

更多>

网站特效

网站源码

网站素材

前端模板