LLMS中的复杂推理：为什么较小的模型挣扎？-人工智能-PHP中文网

LLMS中的复杂推理：为什么较小的模型挣扎？

尊渡假赌尊渡假赌尊渡假赌

发布： 2025-03-20 10:51:12

原创

1003 人浏览过

这篇研究论文“并非所有LLM推理者都是平等的”，探讨了复杂的推理任务中大型语言模型（LLM）的局限性，尤其是那些需要多步解决问题的人。尽管LLM在具有挑战性的数学问题方面表现出色，但面对互连的问题时，它们的性能会大大降低，其中解决一个问题的解决方案将为下一个问题提供信息，这是一个称为“组成推理”的概念。

这项由MILA，Google DeepMind和Microsoft Research的研究人员进行的研究揭示了较小，更具成本效益的LLM的弱点。这些模型虽然精通更简单的任务，但仍在解决链接问题所需的“第二跳推理”。这不是由于数据泄漏之类的问题；相反，它源于无法维护上下文并在逻辑上连接问题部分。教学调整是一种常见的性能增强技术，为较小的型号提供了不一致的好处，有时会导致过度拟合。

LLMS中的复杂推理：为什么较小的模型挣扎？

关键发现：

解决组成问题时，较小的LLMS表现出显着的“推理差距”。
在解决互连问题时，性能会急剧下降。
指令调整在较小的模型中会导致不一致的改进。
这种推理限制限制了在现实世界应用中较小的LLM的可靠性。
即使是专业的数学模型，也都在构图推理方面努力。
需要更有效的培训方法来增强多步推理能力。

本文使用构图级数学（GSM）测试来说明这一差距。该测试涉及两个链接的问题，其中第一个（Q1）的答案变成了第二个（Q2）的变量（x）。结果表明，大多数模型在组成任务上的表现要比其在单个问题上的表现所预测的要差得多。诸如GPT-4O之类的较大，更强大的模型表现出了卓越的推理能力，而较小的，具有成本效益的模型，甚至是专门从事数学的模型，但表现出大幅下降。

LLMS中的复杂推理：为什么较小的模型挣扎？