这篇研究论文“并非所有LLM推理者都是平等的”,探讨了复杂的推理任务中大型语言模型(LLM)的局限性,尤其是那些需要多步解决问题的人。尽管LLM在具有挑战性的数学问题方面表现出色,但面对互连的问题时,它们的性能会大大降低,其中解决一个问题的解决方案将为下一个问题提供信息,这是一个称为“组成推理”的概念。
这项由MILA,Google DeepMind和Microsoft Research的研究人员进行的研究揭示了较小,更具成本效益的LLM的弱点。这些模型虽然精通更简单的任务,但仍在解决链接问题所需的“第二跳推理”。这不是由于数据泄漏之类的问题;相反,它源于无法维护上下文并在逻辑上连接问题部分。教学调整是一种常见的性能增强技术,为较小的型号提供了不一致的好处,有时会导致过度拟合。
关键发现:
本文使用构图级数学(GSM)测试来说明这一差距。该测试涉及两个链接的问题,其中第一个(Q1)的答案变成了第二个(Q2)的变量(x)。结果表明,大多数模型在组成任务上的表现要比其在单个问题上的表现所预测的要差得多。诸如GPT-4O之类的较大,更强大的模型表现出了卓越的推理能力,而较小的,具有成本效益的模型,甚至是专门从事数学的模型,但表现出大幅下降。
比较开源和封闭源LLM的图表突出了此推理差距。较小,成本效益的模型始终显示出更大的负面推理差距,表明与较大模型相比,在组成任务上的性能较差。例如,GPT-4O显示出最小的间隙,而其他类似Phi 3-Mini-4K-IT的差距则显示出显着的缺点。
进一步的分析表明,推理差距不仅是由于基准泄漏。这些问题源于过度拟合到基准,不相关的环境分散注意力以及在子任务之间未能有效传输信息。
研究得出的结论是,提高组成推理需要创新的培训方法。尽管教学调整和数学专业化等技术提供了一些好处,但它们不足以弥合推理差距。探索替代方法(例如基于代码的推理)可能是必要的,以增强LLM处理复杂的多步推理任务的能力。该研究强调需要改进的培训技术,以使较小,更具成本效益的LLM可靠地执行复杂的推理任务。
以上是LLMS中的复杂推理:为什么较小的模型挣扎?的详细内容。更多信息请关注PHP中文网其他相关文章!