社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 正文

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

WBOY

发布： 2023-05-11 18:58:04

转载

1255 人浏览过

大模型的卷，已经不睡觉都赶不上进度了......

这不，微软亚研院刚刚发布了一个多模态大型语言模型（MLLM）—— KOSMOS-1。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

论文地址：https://arxiv.org/pdf/2302.14045.pdf

论文题目Language Is Not All You Need，还得源于一句名言。

文中有这么一句话，「我语言的局限，就是我世界的局限。——奥地利哲学家Ludwig Wittgenstein」

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

那么问题来了......

拿着图问KOSMOS-1「是鸭还是兔」能搞明白吗？这张有100多年历史的梗图硬是把谷歌AI整不会了。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

1899年，美国心理学家Joseph Jastrow首次使用「鸭兔图」来表明感知不仅是人们所看到的，而且是一种心理活动。

现在，KOSMOS-1便能将这种感知和语言模型相结合。

-图中是什么？

-像一只鸭子。

-如果不是鸭子，那是什么？

-看起来更像兔子。

-为什么？

-它有兔子的耳朵。

这么一问，KOSMOS-1真有点像微软版的ChatGPT了。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

不仅如此，Kosmos-1还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉QA。

甚至IQ测试也不在话下。

「宇宙」无所不能

Kosmos来源希腊一词cosmos，有「宇宙」之意。

据论文介绍，最新Kosmos-1模型是一个多模态大型语言模型。

其主干是一个基于Transformer的因果语言模型，除了文本之外，其他模态，如视觉、音频都可以嵌入模型。

Transformer解码器用作多模态输入的通用接口，因此它能感知一般模态，进行上下文学习，并遵循指令。

Kosmos-1在语言和多模态任务上取得了令人印象深刻的表现，无需进行微调，其中包括带有文字指示的图像识别、视觉问答和多模态对话。

如下是Kosmos-1生成一些例子式样。

图片解释、图片问答、网页问题回答，简单数字公式，以及数字识别。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

那么，Kosmos-1是在哪些数据集上进行预训练的呢？

训练所用的数据库，包括文本语料库、图像-字幕对、图像和文本交叉数据集。

文本语料库取自The Pile和Common Crawl（CC）；

图像-字幕对的来源为English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions；

文本交叉数据集的来源是Common Crawl snapshot。

数据库有了，接下来就是对模型进行预训练了。

MLLM组件有24层、2,048个隐藏维度、8,192个FFN和32个注意力头头，产生了大约1.3B的参数。

为了保证优化的稳定性，采用Magneto初始化；为了更快地收敛，图像表示是从一个预先训练好的具有1024个特征维度的CLIP ViT-L/14模型获取的。在训练过程中，图像被预处理成224×224分辨率，CLIP模型的参数除了最后一层均被冻结。

KOSMOS-1的参数总量约为16亿。

为了使KOSMOS-1更好地与指令保持一致，对其进行了只用语言的指令调整 [LHV+23, HSLS22]，即用指令数据继续训练模型，该指令数据是仅有的语言数据，与训练语料库混合。

该调优过程是按照语言建模的方式进行的，选取的指令数据集为Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。

结果显示，指令跟随能力的提高可以跨模式转移。

总之，MLLM可以从跨模态迁移中获益，将知识从语言迁移到多模态，反之亦然；

5大类10个任务，都拿捏了

一个模型好不好使，拿出来溜溜就知道了。

研究团队从多角度进行实验来评价KOSMOS-1的性能，包括5大类十项任务：

1 语言任务（语言理解、语言生成、无OCR的文本分类）

2 多模态转移（常识推理）

3 非语言推理（IQ测试）

4 感知-语言任务（图像说明、视觉问答、网页问答）

5 视觉任务（零样本图像分类、带描述的零样本图像分类）

无OCR的文本分类

这是一种不依赖于光学字符识别（OCR）的专注于文本和图像的理解任务。

KOSMOS-1对HatefulMemes和对Rendered SST-2测试集的准确率均高于优于其他模型。

而且Flamingo明确提供OCR文本到提示中，KOSMOS-1并没有访问任何外部工具或资源，这展示了KOSMOS-1阅读和理解渲染的图像中的文本的内在能力。

IQ测试

瑞文智力测试是评估非语言的最常用测试之一。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

KOSMOS-1在没有进行微调时准确率比随机选择提高了5.3%，经过微调后则提高了9.3%，表明其具有感知非语言环境中的抽象概念模式的能力。

这是首次有模型能够完成零样本Raven测试，证明了MLLMs通过将感知与语言模型结合起来进行零样本非言语推理的潜力。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

图像说明

KOSMOS-1在COCO和Flickr30k测试中的零样本性能均表现优秀，相比其他模型，其得分更高，但采用的参数量更小。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

在少样本性能测试中，得分随着k值增大有所增加。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

零样本图像分类

给定一个输入图像，并将该图像与提示「The photo of the」连接起来。然后，输入模型以获得图像的类别名称。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

通过在ImageNet[DDS+09]上评估该模型，在有约束和无约束的条件下，KOSMOS-1的图像归类效果都明显优于GIT[WYH+22]，展现了完成视觉任务的强大能力。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

常识推理

视觉常识推理任务要求模型理解现实世界中日常物体的属性，如颜色、大小和形状，这些任务是具有挑战性的，因为它们可能需要比文本中更多的关于物体属性的信息。

结果显示，KOSMOS-1在尺寸和颜色方面的推理能力都明显好于LLM模型。这主要是因为KOSMOS-1具备多模态迁移能力，从而能够将视觉知识运用到语言任务中，而不必像LLM那样必须依靠文本知识和线索来推理。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

对于微软Kosmos-1，网友称赞道，未来5年，我可以看到一个高级机器人浏览网络，并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

以上是连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

微软模型

来源：51cto.com

上一篇：体育产业的五个重要AI应用领域下一篇：用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1418673
php入门教程之一周学会PHP

4260214
JAVA 初级入门视频教程

2495646
小甲鱼零基础入门学习Python视频教程

504740
PHP 零基础入门教程

859730

最新下载

更多>

网站特效

网站源码

网站素材

前端模板