社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

WBOY

发布： 2023-04-09 17:01:04

转载

1575 人浏览过

最近，似乎早已把GPT抛在脑后的OpenAI又整了个新活。

在经过海量无标注视频以及一点点标注过的数据训练之后，AI终于学会了在「我的世界」（Minecraft）里制作钻石镐。

而整套流程需要一个骨灰级玩家至少20分钟的时间才能完成，总计要操作24000次。

这个东西吧，看似简单，但对AI来说却非常困难。

7岁小孩看10分钟就能学会

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

对于最简单的木镐，让人类玩家从头开始学过程并不太难。

一个死宅不到3分钟用单个视频就能教会下一个。

演示视频全长2分52秒

然而，钻石镐的制作就复杂多了。

不过即便如此，一个7岁小孩也只需看上十分钟的演示视频，就能学会了。

这个任务的难点，主要在如何挖到钻石矿。

过程大概可以概括为12个步骤：先徒手刨下像素块「木头」，再由原木合成木块，木块制作木棍，木棍制作工坊装具台，工台造木镐，木镐敲石块，石块加木棍做石镐，石镐打造炼炉，炼炉加工铁矿，铁矿熔铸铁锭，铁锭制作铁镐，铁镐去挖钻石。

现在，压力来到了AI这边。

正巧，CMU、OpenAI、DeepMind、Microsoft Research等机构自2019年起，就搞了一个相关的比赛——MineRL。

参赛选手需要自研出一个「自主从零开始打造工具、自动寻找并挖掘钻石矿」的人工智能体，而获胜条件也很简单—最快者胜出。

结果如何？

在首届MineRL比赛结束之后，「7岁小孩看10分钟视频就学会，AI用了8百万步还搞不定」，可是上了Nature杂志的。

数据虽多，但我用不上啊

「我的世界」作为沙盒建筑游戏，其玩家策略、游戏内虚拟环境的高开放性，特别适合作为各种AI模型学习、决策能力的测试场和试金石。

而且作为一款「国民级」的游戏，想在网上找到和「我的世界」相关的视频简直易如反掌。

然而，不管是搭建教程，还是炫耀自己的作品，从某种程度上来说都只是在画面上呈现出的结果。

换句话说，看视频的人只能知道up主干了个啥，干的怎么样，但没法知道是怎么干的。

更具体点，电脑屏幕上呈现出来的只是结果，而操作步骤是up主在键盘上的不停点击，以及鼠标的不停移动，这部分是看不到的。

甚至，连这个过程都是经过剪辑的，人看了估计都学不会，更别说AI了。

雪上加霜的是，不少玩家抱怨在游戏里刨木头的枯燥度，太像做作业完成任务。结果一波更新之后，有不少工具可以直接白捡……这下，连数据都不好找了。

而OpenAI想要让AI学会玩儿「我的世界」，就必须找到一个办法，能够让这些海量的未标注的视频数据派上用场。

视频预训练模型——VPT

于是，VPT应运而出。

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

论文地址：https://cdn.openai.com/vpt/Paper.pdf

这东西说新也新，但是却并不复杂，是一种半监督式的模仿学习方法。

首先，收集一波数据标注外包们玩游戏的数据，其中包含视频和键鼠操作的记录。

VPT方法概述

然后，研究人员用这些数据搞了个逆动力学模型（inverse dynamics model，IDM），可以推测出视频中每一步进行的时候，键鼠都是怎么动的。

这样一来，整个任务就变得简单多了，只需要比原来少很多的数据就可以实现目的。

用一小撮外包数据搞完IDM之后，就可以用IDM接下来标注更大规模的无标记数据集了。

基础模型训练数据对微调的影响

在训练了70000个小时以后，OpenAI的行为克隆模型就能实现各种别的模型做不到的工作了。

模型学会了怎么砍树收集木头，怎么用木头做木条，怎么用木条做桌子。而这一套事儿需要一个比较熟练的玩家操作小50秒的时间。

除了做桌子，模型还能游泳，打猎，吃东西。

甚至还有「跑跳搭」的骚操作，也就是起跳的时候脚下放个砖块或者木块，跳着跳着就能搭个柱子。这属于是骨灰级玩家的必修课了。

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

制作桌子（0 shot）

打猎（0 shot）

「跑跳搭」简陋版（0 shot）

而为了让模型能完成一些更精细的任务，一般还会把数据集微调成更小的规模，区分细小的方向。

OpenAI做了一项研究，展示了用VPT训练过的模型，再经过了微调之后，有多适应下游的数据集。

研究人员邀请人玩儿了10分钟的「我的世界」，用基础材料搭了个房子。他们希望通过这种方式可以加强模型执行一些游戏初期的任务的能力，比如说搭一个工作台。

当对该数据集进行完微调以后，研究人员不仅发现模型在执行初期任务时更加得心应手，还发现模型自个儿研究明白了怎么分别做出一张木制的工作台，和一张石制的工具台。

有时候，研究人员还能看到模型自己搭建简陋的避难所，搜查村子，还有抢箱子。

制作一把石镐的全过程（下方标注的时间是一名熟练玩家执行同样的任务的耗时）

制作石镐

然后我们来看看，OpenAI的专家们是怎么进行的微调。

他们使用的办法是，强化学习（RL）。

大多数RL方法通过随机探索先验来解决这些挑战，例如模型通常被激励通过熵奖励随机行动。VPT 模型应该是RL更好的先验模型，因为模拟人类行为可能比采取随机行动更有帮助。

研究人员将模型设置为收集钻石镐这类艰巨任务，这是「我的世界」中前所未有的功能，因为执行整个任务时使用本机人机界面时会变得更加困难。

制作钻石镐需要一系列漫长而复杂的子任务。为了使这项任务易于处理，研究人员为序列中的每个项目奖励智能体。

他们发现，从随机初始化（标准RL方法）训练的RL策略几乎没有获得任何奖励，从不学习收集日志，而且很少收集木棍。

与之形成鲜明对比的是，VPT模型的微调不仅可以学习如何制作钻石镐，而且在收集所有物品方面的成功率，甚至达到人类水平。

而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型。

以上是惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

ai 模型

来源：51cto.com

上一篇：大多数企业不相信人工智能能够自主做出商业决策下一篇：AI 正在引领一场新型科学革命

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1423295
php入门教程之一周学会PHP

4268797
JAVA 初级入门视频教程

2536697
小甲鱼零基础入门学习Python视频教程

507482
PHP 零基础入门教程

862797

最新下载

更多>

网站特效

网站源码

网站素材

前端模板