首頁 > 科技週邊 > 人工智慧 > LLMS中的複雜推理:為什麼較小的模型掙扎?

LLMS中的複雜推理:為什麼較小的模型掙扎?

尊渡假赌尊渡假赌尊渡假赌
發布: 2025-03-20 10:51:12
原創
1003 人瀏覽過

這篇研究論文“並非所有LLM推理者都是平等的”,探討了複雜的推理任務中大型語言模型(LLM)的局限性,尤其是那些需要多步解決問題的人。儘管LLM在具有挑戰性的數學問題方面表現出色,但面對互連的問題時,它們的性能會大大降低,其中解決一個問題的解決方案將為下一個問題提供信息,這是一個稱為“組成推理”的概念。

這項由MILA,Google DeepMind和Microsoft Research的研究人員進行的研究揭示了較小,更具成本效益的LLM的弱點。這些模型雖然精通更簡單的任務,但仍在解決鏈接問題所需的“第二跳推理”。這不是由於數據洩漏之類的問題;相反,它源於無法維護上下文並在邏輯上連接問題部分。教學調整是一種常見的性能增強技術,為較小的型號提供了不一致的好處,有時會導致過度擬合。

LLMS中的複雜推理:為什麼較小的模型掙扎?

關鍵發現:

  • 解決組成問題時,較小的LLMS表現出顯著的“推理差距”。
  • 在解決互連問題時,性能會急劇下降。
  • 指令調整在較小的模型中會導致不一致的改進。
  • 這種推理限制限制了在現實世界應用中較小的LLM的可靠性。
  • 即使是專業的數學模型,也都在構圖推理方面努力。
  • 需要更有效的培訓方法來增強多步推理能力。

本文使用構圖級數學(GSM)測試來說明這一差距。該測試涉及兩個鏈接的問題,其中第一個(Q1)的答案變成了第二個(Q2)的變量(x)。結果表明,大多數模型在組成任務上的表現要比其在單個問題上的表現所預測的要差得多。諸如GPT-4O之類的較大,更強大的模型表現出了卓越的推理能力,而較小的,具有成本效益的模型,甚至是專門從事數學的模型,但表現出大幅下降。

LLMS中的複雜推理:為什麼較小的模型掙扎?

比較開源和封閉源LLM的圖表突出了此推理差距。較小,成本效益的模型始終顯示出更大的負面推理差距,表明與較大模型相比,在組成任務上的性能較差。例如,GPT-4O顯示出最小的間隙,而其他類似Phi 3-Mini-4K-IT的差距則顯示出顯著的缺點。

LLMS中的複雜推理:為什麼較小的模型掙扎?

進一步的分析表明,推理差距不僅是由於基準洩漏。這些問題源於過度擬合到基準,不相關的環境分散注意力以及在子任務之間未能有效傳輸信息。

LLMS中的複雜推理:為什麼較小的模型掙扎?

LLMS中的複雜推理:為什麼較小的模型掙扎?

LLMS中的複雜推理:為什麼較小的模型掙扎?

研究得出的結論是,提高組成推理需要創新的培訓方法。儘管教學調整和數學專業化等技術提供了一些好處,但它們不足以彌合推理差距。探索替代方法(例如基於代碼的推理)可能是必要的,以增強LLM處理複雜的多步推理任務的能力。該研究強調需要改進的培訓技術,以使較小,更具成本效益的LLM可靠地執行複雜的推理任務。

以上是LLMS中的複雜推理:為什麼較小的模型掙扎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板