LLMS中的複雜推理：為什麼較小的模型掙扎？-人工智慧-PHP中文網

LLMS中的複雜推理：為什麼較小的模型掙扎？

尊渡假赌尊渡假赌尊渡假赌

發布： 2025-03-20 10:51:12

原創

1003 人瀏覽過

這篇研究論文“並非所有LLM推理者都是平等的”，探討了複雜的推理任務中大型語言模型（LLM）的局限性，尤其是那些需要多步解決問題的人。儘管LLM在具有挑戰性的數學問題方面表現出色，但面對互連的問題時，它們的性能會大大降低，其中解決一個問題的解決方案將為下一個問題提供信息，這是一個稱為“組成推理”的概念。

這項由MILA，Google DeepMind和Microsoft Research的研究人員進行的研究揭示了較小，更具成本效益的LLM的弱點。這些模型雖然精通更簡單的任務，但仍在解決鏈接問題所需的“第二跳推理”。這不是由於數據洩漏之類的問題；相反，它源於無法維護上下文並在邏輯上連接問題部分。教學調整是一種常見的性能增強技術，為較小的型號提供了不一致的好處，有時會導致過度擬合。

LLMS中的複雜推理：為什麼較小的模型掙扎？

關鍵發現：

解決組成問題時，較小的LLMS表現出顯著的“推理差距”。
在解決互連問題時，性能會急劇下降。
指令調整在較小的模型中會導致不一致的改進。
這種推理限制限制了在現實世界應用中較小的LLM的可靠性。
即使是專業的數學模型，也都在構圖推理方面努力。
需要更有效的培訓方法來增強多步推理能力。

本文使用構圖級數學（GSM）測試來說明這一差距。該測試涉及兩個鏈接的問題，其中第一個（Q1）的答案變成了第二個（Q2）的變量（x）。結果表明，大多數模型在組成任務上的表現要比其在單個問題上的表現所預測的要差得多。諸如GPT-4O之類的較大，更強大的模型表現出了卓越的推理能力，而較小的，具有成本效益的模型，甚至是專門從事數學的模型，但表現出大幅下降。

LLMS中的複雜推理：為什麼較小的模型掙扎？