推理模型的思想链可能无法长期解决
例如,如果您向模型提出一个问题,例如:“(x)人在(x)公司做什么?”您可能会看到一个看起来像这样的推理链,假设系统知道如何检索必要的信息:
- 找到有关公司的详细信息
- 确定目录中的人
- 评估人的角色和背景
- 编译摘要点
这是一个基本情况,但是几年来,人们越来越依赖这种推理链。
然而,研究人员开始指出思想链推理的缺点,这表明这可能使我们对AI生成的响应的可靠性具有毫无根据的信心。
语言本质上有限
理解推理链的局限性的一种方法是认识到语言本身的不精确,以及有效基准测试的难度。
语言本质上是尴尬的。全球有数百种语言,因此希望一台机器清楚地表达其内部逻辑,任何一种语言都有很大的限制。
考虑一下由拟人化的研究论文,由多个学者合着。
这样的研究表明,经过思考的解释缺乏真正准确性所需的深度,尤其是在模型扩大并表现出更先进的性能时。
还考虑梅兰妮·米切尔(Melanie Mitchell)在2023年在替代方面提出的一个想法,就像Cot方法越来越受欢迎一样:
米切尔指出:“推理在于人类智能的核心,实现强大的通用推理一直是AI的核心目标。” “尽管大型语言模型(LLMS)没有明确训练理性,但它们显示出像推理一样的行为。但是这些是真正的抽象思维的迹象,还是由较不可靠的机制驱动 - 例如基于训练数据的记忆和模式匹配?”
米切尔随后质疑为什么这种区别很重要。
她解释说:“如果LLM确实具有强大的一般推理能力,那就暗示他们正在向值得信赖的人工通用情报迈进。” “但是,如果他们的能力主要依靠记忆模式,我们不能相信他们可以在他们已经看到的范围之外处理任务。”
衡量真实性?
艾伦·图灵(Alan Turing)在20世纪中叶提出了图灵测试 - 我们可以判断机器如何模仿人类行为的想法。我们还可以使用高级基准测试LLMS-测试他们解决数学问题或解决复杂认知任务的能力。
但是,我们如何确定一台机器是否是真实的 - 或者,正如一些研究人员所说的“忠实”?
前面提到的论文深入研究了LLM输出中忠诚的主题。通过阅读它,我得出的结论是,以数学精度不是的方式,真实性是主观的。这意味着我们评估机器是否诚实的能力非常有限。
这是另一种查看它的方法 - 我们知道,当LLM响应提示时,它们本质上是通过在线上大量的人工写的文本进行扫描并模仿它。他们复制事实知识,复制推理风格,并反映了人类如何交流(包括逃避策略,遗漏,甚至是简单和复杂形式的故意欺骗)。
奖励的动力
此外,本文的作者认为,在追逐激励措施时,LLM的行为可能与人类相似。如果导致奖励,他们可以优先考虑某些不准确或误导性信息。
他们将其称为“奖励黑客”。
作者说:“奖励黑客是有问题的。” “即使它适合一项特定任务,它也不太可能转移到其他任务上。这使该模型充其量无效,甚至可能危险 - 想象一下一种自动驾驶汽车,优化了速度和忽略红灯以提高效率。”
充其量是无用的,最糟糕的是风险 - 这并不令人放心。
技术哲学
这里还有另一个关键角度值得探索。
评估推理链本身并不是技术问题。它不取决于模型具有多少参数,如何调整这些权重或如何求解特定方程。相反,它取决于培训数据以及如何直观地解释它。换句话说,该讨论涉及在评估模型时很少与专家互动的领域。
这让我再次想到,我们需要以前提倡的事情 - 新一代的专业哲学家,他们帮助我们浏览AI互动。我们不仅需要依靠编码人员,还需要能够将具有深厚,直观的人类思想应用于历史和社会价值观的思想家。我们在这个领域远远落后,因为我们几乎完全专注于雇用Python开发人员。
我现在会走下肥皂盒,但是要点很明确:超越经过思考的方法可能需要重新思考我们如何培训和雇用与AI相关的角色。
以上是推理模型的思想链可能无法长期解决的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undress AI Tool
免费脱衣服图片

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Stock Market GPT
人工智能驱动投资研究,做出更明智的决策

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

为什么NVIDIA即将到来的收益报告比美联储主席的讲话更具关注?答案在于对投资者对人工智能投资的实际回报的焦虑越来越大。而鲍威尔的

AI泡沫和互联网时代越来越关注。所谓的“壮丽的七” - 字母,亚马逊,苹果,元,微软,Nvidia和特斯拉 - 现在代表了标准普尔500指数总价值的三分之一,而他们最近的大部分SU SU

该研究的参与者是患有ALS或瘫痪的人,那些无法依靠传统手势或言语的人。该系统直接挖掘到电动机皮层中,内部语音以缩放的镜子的镜头生存

从“ 40餐”到“我的饭菜” Hellofresh是世界上最大的餐具套件公司,每天提供数百万餐,并拥有14年的历史。传统上,它为客户提供了套装菜单,然后客户对他们的评价进行了评分

这种结果并不意外。一项在社会心理学上发表的2024年的研究季刊以前揭示了类似的工作场所动态,在该动态上,与男性相同水平的女性仍然被认为能力较差。这项研究,调查

人工智能代理商正在推动各个部门的转型客户服务策略,已经意识到通过在客户支持中部署AI代理商会带来巨大的好处。以Klarna为例 - 它的AI代理与CRM和库存集成在一起

随着高级自动化和智能工具的兴起,客户数据已成为个性化,客户体验提升和前所未有的运营效率的基石。对于无数的组织,利用客户数据 -

无论是误解的指令还是在裂缝中滑倒的决定,关键会议期间的笔记不足都可能导致不仅效率低下,这可能导致错过的机会或忽视的安全问题。在RECO时
