社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

王林

发布： 2024-06-22 07:46:19

原创

1089 人浏览过

机器之能报道

编辑：杨文

玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？

它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！

蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——

Claude 3.5 Sonnet！

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

这款大模型有啥独到之处？

首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。

它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

此外，它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。

总之，按官方介绍，Claude 3.5 Sonnet 是迄今为止最智能的模型，在多个方面吊打 GPT-4o。

话说到这份上，那我们就不客气了，直接让 Claude 3.5 Sonnet 和 GPT-4o 对决，孰优孰劣实力说话。

第一局：心眼子练习

日常生活中，总会遇到一些尴尬的场面。

例如，饭局上，你帮领导盛饭，领导接过后，说：“盛这么多，喂猪呢？” 这种情况下，高情商者会如何应对？

我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

它们是懂拍马屁的。

Claude 3.5 一口气给了 5 个示例，不过第 2 句「我眼神不好使，把您当成我们单位的顶梁柱了」，这是拍马蹄子上了吧。

GPT-4o 就更懂「人情世故」了，「看您身材保持得这么好，我可得向您请教减肥秘籍」，这马屁拍的是恰到好处啊。

值得一提的是，Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

用户可直接在原始提示词上进行编辑修改，而不用一遍遍复制粘贴。

第二局：根据菜肴生成菜谱

我们上传了一张「西红柿炒鸡蛋」的图片，分别让这俩大模型介绍一下制作流程。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

它们对于这道经典的中国菜颇有心得，从配料到步骤一应俱全，最有意思的是，它俩懂得中国人做菜的精髓「少许」，也都强调加点糖平衡酸度。

论做菜，两个大模型不相上下。

第三局：做数学题

官方给出的评估表中，GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中，GPT-4o 是 76.6%，而 Claude 3.5 Sonnet 是 71.1%。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

我们从 2024 年新高考 I 卷中摘录了两道题目，一道是选择题，一道是解答题，分别以图片的形式「投喂」给这两个大模型。

第一道是送分题，正确答案是 A。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

这两个大模型「心有灵犀」，不仅给出了正确答案，还给出了详细的解题步骤。

我们又将解答题第一题交给他们，还让它们给出解题过程。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

正确答案是：B=3/π。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

其实，这道题目算是最基础的题目，但俩大模型「一顿操作猛如虎」，最后给出了错误答案。

更搞笑的是，这错误答案也不是凭空出来的，而是经过了一连串的推理，连犯的错都一个样。

对于数学能力，这俩大模型半斤八两。

第四局：玩网络热梗

今年，AI 视频领域遍地开花，不仅闯入新的「踢馆者」—— 可灵、Luma、即梦等，曾经的 AI 视频「扛把子」Runway 也「王者归来」。

由此，网友制作了这张梗图，来调侃如今各大 AI 视频应用的江湖地位。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

我们分别向两家大模型上传这张梗图，并输入提示词「这张图是什么意思」，以此来测试它们的图片解读能力。

Claude 3.5 Sonnet：

GPT-4o：

Claude 3.5 Sonnet 从画面角色、场景以及氛围等方面进行详细描述，不过它似乎没搞懂这张梗图的内涵，也不认识这几个 AI 视频应用，只是含混其辞地表示「这是对在线社区、人工智能系统或虚拟世界中权力结构的评论。」

GPT-4o 一瞅就明白其中深意，「这张图片可能象征着 Runway 在人工智能和创意工具领域的公认优势或领导地位，与提到的其他应用相比，Runway 受到高度重视。」

显而易见，这一局，GPT-4o 完胜。

第五局：读懂世界名画

我们拿出皮埃尔・奥古斯特・库特在 1873 年画的《春光》一图，让它们识别画作并进行赏析。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

这两个大模型堪称艺术界的「行家里手」，均认出了这幅画作，基础信息也表达无误，同时从不同的角度进行赏析。

它们都提到市场价值，不过，Claude 3.5 Sonnet 拒绝置评，只提醒「艺术品估价需要专家评估，考虑多种因素，而且价格可能会随着时间的推移而大幅波动。」

GPT-4o 则认为该画可能会拍出数百万美元的价格，这是不是太小看这幅经典画作了？

这一局，两个大模型算是打成平手。

第六局：AI 看病

最近网友们玩起了用 AI 大模型来看病。我们找了一张 6 岁孩子牙齿的 X 光照片，让大模型们通过牙齿推断年龄，以及有哪些问题。

Claude 3.5 Sonnet：

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

GPT-4o：

Claude 3.5 Sonnet 基于乳牙和恒牙的发育情况，得出结论：这是一个 6-7 岁左右孩子的牙齿，下颌牙齿有些拥挤，恒牙似乎受到阻生，牙齿上较暗的区域或许有腐烂。

GPT-4o 则认为这是 7-9 岁孩子的牙齿，主要的牙齿问题包括恒牙拥挤和潜在的嵌塞。

同时，它们都提到这需要专业的牙医检查。

两相比较，Claude 3.5 Sonnet 对于年龄的判断更为精准一些。

这一局，Claude 3.5 略胜一筹。

此外，不少网友还在线整活儿，捣鼓出不少有趣的玩法。

比如说，EverArt 创始人 Pietro Schirano 在 Claude 3.5 Sonnet 的帮助下，使用几何形状克隆了马里奥游戏，整个过程仅持续 3 分钟。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

他表示，「最疯狂的部分是它还为角色提供了动画，而且这些形状看起来很新颖。」

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

视频链接://m.sbmmt.com/link/a412963e013751a90654aa344bc26efe

各位读者，你们觉得这次 Claude 3.5 Sonnet 有没有完成对 GPT-4o 的「绝杀」呢？

以上是一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

产业

来源：jiqizhixin.com

上一篇：涵盖文本、定位和分割任务，智源、港中文联合提出首个多功能3D医学多模态大模型下一篇：华为云用盘古大模型重塑服务，ModelArts Studio全面升级

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

创造未来：面向零基础的 Java 编程

2024-10-13 13:32:21
你并不孤单：在社区的支持下掌握 Python

2024-10-12 11:58:51
从新手到程序员：利用 Python 编程的力量

2024-10-11 20:06:51
像程序员一样思考：学习 Java 基础知识

2024-10-11 18:59:31
Java 变得简单：编程能力的初学者指南

2024-10-11 18:30:51
使用 PHP 构建博客：一个适合初学者的项目

2024-10-11 15:51:51
讲系统语言：学习 C，一次一行

2024-10-11 15:42:10
C 语言的数据结构和算法：适合初学者的方法

2024-10-11 14:41:20
不流泪编码：轻松学习 C

2024-10-11 14:08:31
使用 Java 进行数据分析：信息处理初学者指南

2024-10-11 13:42:21

最新问题

使用具有 3 级层次结构的自定义分类法选择 woocommerce 相关产品我有一家woocommerce商店，其自定义分类为“运动”。该分类具有三个级别-父级、子级、子级-例如：室内运动>竞技场运动>篮球。如果用户查看篮球项目，那么我希望相关...

来自于 2024-04-06 20:05:30

0

1

544

CSS 样式未应用于网站我正在使用Bootstrap5制作网站，但index.css属性未应用于index.html。当我将鼠标悬停在服务卡上时，背景应该会发生变化，从而产生过渡效果。应该是从这个到这个。...

来自于 2024-04-06 17:12:23

0

1

336

解决Vue3 webcomponents生产构建问题我正在尝试将我的vue2web组件迁移到vue3，尽管当我为生产创建构建时问题就出现了。我将vue-cli与--targetwc一起使用，它现在显示一个错误，指出vue3Web组件...

来自于 2024-04-06 12:43:37

0

1

473

Symfony Redis 无法连接到 env 文件中定义的主机，默认为 localhost 我们有一个新的Symfony设置，以Redis作为缓存机制。我们想要连接到特定主机，而不是默认的本地主机。在生产环境中，./bin/consoledebug:dotenv给出了正确...

来自于 2024-04-06 10:53:02

0

1

375

使用vite构建React应用时遇到的Axios相关错误 Axios在生产环境中工作得很完美，但在构建应用程序时出现了这个错误。>react-app@0.0.0build>vitebuildvitev4.4.7正在为生产环境构...

来自于 2024-04-05 13:20:02

0

1

326

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1421625
php入门教程之一周学会PHP

4265900
JAVA 初级入门视频教程

2518371
小甲鱼零基础入门学习Python视频教程

506472
PHP 零基础入门教程

861564

最新下载

更多>

网站特效

网站源码

网站素材

前端模板