社区

学习

工具库

AI工具

休闲

简体中文

首页 > 科技周边 > 人工智能 > GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误

PHPz

发布： 2023-11-13 20:17:23

转载

918 人浏览过

GPT-4解决网络名梗“吉娃娃or蓝莓松饼”，一度惊艳无数人。

然而，如今它被指控为“作弊”！

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

全用原题中出现的图，只是打乱顺序和排列方式。

最新版本的GPT-4以其全模式合一的特点而闻名。然而，令人惊讶的是，它在识别图片数量方面出现了错误，而且连原本能够正确识别的吉娃娃也出现了识别错误

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

GPT-4在原图上表现出色的原因是什么呢？

根据UCSC助理教授Xin Eric Wang的猜测，搞这项测试的原因是因为互联网上的原图太受欢迎了。他认为GPT-4在训练过程中多次遇到过原始答案，并成功地记住了它们

图灵奖三巨头中的LeCun也关注此事，并表示：

警惕在训练集上测试。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

泰迪和炸鸡也无法区分

原图究竟有多流行呢，不但是网络名梗，甚至在计算机视觉领域也成了经典问题，并多次出现在相关论文研究中。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

针对GPT-4的能力局限在哪个环节，许多网友提出了各自的测试方案，不考虑原图的影响

为了排除排列方式太复杂是否有影响，有人修改成简单3x3排列也认错很多。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

有人把其中一些图拆出来单独发给GPT-4，得到了5/5的正确率。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

Xin Eric Wang认为，将这些容易混淆的图像放在一起正是这个挑战的核心

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

最终，有人成功地同时运用了让人工智能“深呼吸”和“一步一步地思考”的两个关键技巧，并获得了正确的结果

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”，也暴露了原图确实可能存在于训练数据里。重新表述如下：然而，GPT-4在其回答中使用了：“这是一个视觉双关或著名梗图的例子”，这也揭示了原始图片可能确实存在于训练数据中

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

最后也有人测试了经常一起出现的“泰迪or炸鸡”测试，发现GPT-4也不能很好分辨。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

这个“蓝莓或者巧克力豆”实在有点过分……

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

视觉幻觉成热门方向

大模型“胡说八道”在学术界被称为幻觉问题，多模态大模型的视觉幻觉问题，已经成了最近研究的热门方向。

在EMNLP 2023的一项研究中，我们创建了GVIL数据集，其中包含了1600个数据点，并对视觉幻觉问题进行了系统评估

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

研究表明，较大规模的模型更容易受到错觉的影响，并且更接近人类的感知

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

另一项最新研究的重点是评估两种幻觉类型：偏差和干扰

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

偏差指模型倾向于产生某些类型的响应，可能是由于训练数据的不平衡造成的。
干扰则是可能因文本提示的措辞方式或输入图像的呈现方式造成去别的场景。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

研究中指出GPT-4V一起解释多个图像时经常会困惑，单独发送图像时表现更好，符合“吉娃娃or松饼”测试中的观察结果。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

流行的缓解措施，如自我纠正和思维链提示，并不能有效解决这些问题，并且测试显示LLaVA和Bard等多模态模型也存在类似的问题

另外研究还发现，GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。

比如GPT-4V能正确数出七个小矮人+白雪公主，却把七个葫芦娃数成了10个。

GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误图片

参考链接：[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

以上是GPT-4被曝作弊！LeCun呼吁谨慎在训练集上测试，吉娃娃or松饼的顺序混乱导致错误的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

bard gpt-4v llava

上一篇：我们一起聊聊知识抽取，你学会了吗？下一篇：天玑9300处理器性能解剖：AI助力游戏轻松应对，硬核应对第八代技术

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

ASFAFASFASFASFASF

2025-02-28 14:37:10
不受欢迎的意见：成为一名好数据科学家比以往任何时候都更难

2025-02-26 03:55:10
DeepSeek-V3解释了1：多头潜在注意力

2025-02-26 03:00:17
如何使用Verifai轻松部署本地生成搜索引擎

2025-02-25 23:04:13
了解chatgpt的演变：第2部分＆＃8211; GPT-2和GPT-3

2025-02-25 21:02:11
为什么在长篇小说模型的时代仍然有意义

2025-02-25 19:31:14
超越因果语言建模

2025-02-25 18:28:09
LLMS合成数据生成

2025-02-25 16:54:10
如何重置YouTube算法

2025-02-24 12:34:11
4个智能用途用于旧的Mac

2025-02-24 12:29:09

最新问题

objective-c - presentViewController后,dismiss回来高度偏差

来自于 1970-01-01 08:00:00

0

0

0

把gitlab中的测试项目，添加到jenkins发生认证错误

来自于 1970-01-01 08:00:00

0

0

0

objective-c - 做post请求时，服务端可以检测到接收到两个非空的字段，但是返回了错误

来自于 1970-01-01 08:00:00

0

0

0

github中如何将本地分支与远程标签合并？

来自于 1970-01-01 08:00:00

0

0

0

objective-c - textfield输入字符串过滤

来自于 1970-01-01 08:00:00

0

0

0

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1436501
php入门教程之一周学会PHP

4295663
JAVA 初级入门视频教程

2659835
小甲鱼零基础入门学习Python视频教程

516247
PHP 零基础入门教程

876898

最新下载

更多>

网站特效

网站源码

网站素材

前端模板