社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

WBOY

发布： 2023-11-27 14:49:15

转载

1008 人浏览过

想知道《清明上河图》里面有多少头骆驼吗？来看看这个支持超高清输入的多模态模型吧。

最近，来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

论文地址：https://arxiv.org/abs/2311.04219

与受限于固定尺寸视觉编码器的传统模型不同，OtterHD-8B具有处理灵活输入尺寸的能力，确保了其在各种推理需求下的通用性。

同时，团队还提出了一个全新的基准测试MagnifierBench，可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。

实验结果表明，OtterHD-8B的性能表现在直接处理高分辨率输入方面显着优于同类型号

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

效果演示

如下图中，询问清明上河图（局部）中有多少只骆驼，图片输入达到了2446x1766像素，模型也能成功对答。

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

面对GPT4-V曾经为之困惑的数苹果问题，该模型成功地计算出其中包含11个苹果

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

除了论文中展示的高清输入的例子，我们也进行了一些测试，下图我们让模型假设用户是一个剑桥大学的PhD，解释这个图是什么意思。

其中模型的回答中准确的识别出图片中的Black Hole和White Hole等信息，并且识别出其是一个tunnel-like structure，然后给出了详细的解释。

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

在下面的图表中，模型被要求解释关于能源占比的情况。模型成功地识别了图中所示的几种能源类型，并准确地呈现了它们随时间变化的占比情况

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

下图关于换灯泡的流程图，模型准确理解了流程图的含义并且给出了一步一步的详细指导。

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

80亿参数指令微调OtterHD-8B

Fuyu-8B的OtterHD-8B是第一个在最大1024×1024输入上进行训练的开源指令微调大语言模型，这一点值得注意

此外，在推理过程中，它还能进一步扩展到更大的分辨率（如1440×1440）。

训练细节

在初步实验中，团队发现Fuyu在对某些基准测试的特定指令作出响应时表现不佳，这导致在MME和MMBench上模型的性能非常弱

为了解决这些问题，团队进行了指令微调，基于370K条混合数据对Fuyu模型进行了调整，并参考LLaVA-1.5的相似指令模板来规范模型回答的格式

在训练阶段，所有数据集都被组织成指令/应答对，汇总到统一的dataloader中，并进行统一采样，以确保代表性的完整性。

为了提升建模代码的效能，团队采用了FlashAttention-2和FlashAttention资源库中的算子融合技术

在Fuyu简化的架构的帮助下，根据图2所示，这些修改显着提高了GPU的利用率和吞吐量

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

具体来说，团队提出的方法可以在8×A100 GPU上以3小时/epoch的速度完成全参数训练，而LoRA微调后每epoch只需1小时。

在使用AdamW优化器训练模型时，批大小为64，学习率设置为1×10^-5，权重衰减为0.1。

超精细评测基准MagnifierBench

人类视觉系统可以自然地感知视野内物体的细节，但目前用于测试LMM的基准并没有特别侧重于评估这方面的能力。

随着Fuyu和OtterHD模型的出现，我们第一次将输入图像的分辨率扩展到了更大的范围。

为此，团队基于Panoptic Scene Graph Generation（PVSG）数据集，制作了一个涵盖166幅图像共283组问题的全新测试基准MagnifierBench。

PVSG数据集由视频数据组成，其中包含大量杂乱无章的复杂场景，尤其是第一人称的家务视频。

在标注阶段，团队仔细检查了数据集中的每个问题-答案对，剔除了那些涉及大型物体，或者很容易用常识性知识回答的问题。例如，遥控器大多都是黑的，很容易猜到，而红黄等颜色则不在此列。

如图3所示，MagnifierBench设计的问题类型包括识别、数字、颜色相关问题等。该数据集的一个重要标准是，问题必须足够复杂，就连标注者都必须在全屏模式下，甚至放大图像才能准确回答

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

与简短的回答相比，LMM更擅长在对话环境中生成扩展的回答。

- 多选题

这个模型面临的问题是有多个选项可以选择。为了引导模型选择一个字母（如A、B、C）作为答案，团队在问题前加上了给定选项中的字母作为提示。在这种情况下，只有完全符合正确选项的答案才被视为正确答案

- 开放题

多个选项会简化任务，因为随机猜测有25%的正确率。此外，这并不能反映聊天助手所面临的真实场景，因为用户通常不会向模型提供预定义的选项。为了消除这种潜在的偏差，团队还以直截了当、不设任何提示选项的开放式方式向模型提出问题。

实验分析

研究结果表明，虽然很多模型在MME和POPE等既定基准上取得了高分，但它们在MagnifierBench上的表现却往往不尽如人意。另一方面，OtterHD-8B在MagnifierBench上表现出色。

团队为了进一步探索提高分辨率的效果，以及测试OtterHD在不同、可能更高的分辨率下的泛化能力，通过使用固定或动态分辨率对Otter8B进行了训练

x轴表明，随着分辨率的提高，会有更多的图像token被发送到语言解码器，从而提供了更多的图像细节。

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

实验结果表明，随着分辨率的提高，MagnifierBench的性能也在相应提升

随着分辨率的提高，图像与文本的比例逐渐增大。这是因为平均文本的token数保持不变

这一变化突出了LMM分辨率的重要性，尤其是对于需要复杂视觉关联的任务。

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

此外，固定训练方法和动态训练方法之间的性能差异凸显了动态调整大小的优势，尤其是防止特定分辨率的过拟合。

动态策略还有一个优点，就是可以让模型适应更高的分辨率（1440），即使在训练期间没有见过

一些对比

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验

结论

基于Fuyu-8B的创新架构，研究团队提出了OtterHD-8B模型，它可以有效处理各种分辨率的图像，并摆脱了大多数LMM中固定分辨率输入的限制

与此同时，OtterHD-8B在处理高分辨率图像方面表现出色

在新的MagnifierBench基准测试中，这一点变得尤为明显。该基准测试的目的是评估LMM在复杂场景中识别细节的能力，突出了对不同分辨率更加灵活支持的重要性

以上是通过80亿参数OtterHD，南洋理工华人团队带你「清明上河图」中数骆驼的体验的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

数据训练

来源：51cto.com

上一篇：谷歌：LLM找不到推理错误，但能纠正它下一篇：结合物理引擎，GPT-4+扩散模型生成逼真、连贯、合理视频

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

function_exists()无法判定自定义函数 function test() { return true; } if (function_exists('TEST')) { ech...

来自于 2024-04-29 11:01:01

0

2

1429

PHP数组从URL参数中获取的行为不如预期我有一个包含类别ID的URL参数，我想将其视为一个数组，如下所示：http://example.com?cat[]=3,9,13在PHP中，我使用它从URL参数获取数组：$catI...

来自于 2024-04-06 22:09:02

0

1

1428

返回值中变量的格式是什么？我是php的新学习者。我发现有一段代码：if($x<time()){return[false,'error'];}逻辑或变量并不重要，但我不明白[false,'error']...

来自于 2024-04-06 21:55:20

0

1

778

将将类的私有成员设置为构造函数参数 classFoo{#一#二#三#四#五#六#七#八#九#十#十一#十二#十三#十四#十五#六十六构造函数（一，二，三，四，五，六，七，八,九,十,十一,十二,十三,十四,f

来自于 2024-04-06 21:48:47

0

1

637

匹配单词的正则表达式我有一个脚本，我试图将新的职位名称与数据库中的现有职位名称进行匹配。SELECTa.titleASJobTitle,j.DescriptionASMatchedJobTitle,f...

来自于 2024-04-06 21:24:04

0

1

606

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1423152
php入门教程之一周学会PHP

4268696
JAVA 初级入门视频教程

2536343
小甲鱼零基础入门学习Python视频教程

507371
PHP 零基础入门教程

862725

最新下载

更多>

网站特效

网站源码

网站素材

前端模板