更有用的模型需要更深入地「逐步思考」，而不僅僅是「逐步思考」不夠-人工智慧-PHP中文網

最近，大型語言模型（LLM）以及它們的高級提示策略的出現，意味著語言模型的研究取得了重大進展，尤其是在經典的自然語言處理（NLP）任務中。其中一個重要的創新是思維鏈（CoT）提示技術，這種技術因其在多步驟問題解決中的能力而受到讚譽。 CoT技術遵循了人類的順序推理方式，在各種挑戰中展現了卓越的性能，包括跨領域、長期泛化和跨語言任務。 CoT以其富有邏輯的、逐步推理的方法，在複雜問題解決場景中提供了至關重要的可解釋性。

儘管 CoT 已取得長足進展，但研究界對於其具體機制和有效原因尚未達成共識。這種知識差距意味著提高 CoT 效能仍是一片未知的領域。目前，試誤法是探索 CoT 改進的主要途徑，因為缺乏系統性方法論，研究人員只能依賴猜測和實驗。然而，這也意味著該領域存在著重要的研究機會：深入、結構化地理解 CoT 的內部運作。實現這一目標不僅能揭開當前 CoT 過程的神秘面紗，還能為各種複雜的 NLP 任務中更可靠、高效地應用這種技術鋪平道路。

來自美國西北大學、利物浦大學和新澤西理工大學等研究者的研究進一步探討了推理步驟的長度與結論準確性之間的關係，以幫助人們更好地理解如何有效解決自然語言處理（NLP）問題。該研究探討了推理步驟是否是促使連續開放式文本（CoT）發揮作用的提示中最關鍵的部分。在實驗中，研究者嚴格控制了變量，特別是在引入新的推理步驟時，確保不引入額外的知識。在零樣本實驗中，研究者將初步提示從「請逐步思考」調整為「請逐步思考，並盡可能思考出更多的步驟」。對於小樣本問題，研究者設計了一個實驗，在保持其他所有因素不變的情況下，擴展了基礎推理步驟。透過這些實驗，研究者發現推理步驟的長度與結論準確度之間有一定的關聯。更具體地說，當提示中要求思考更多步驟時，參與者往往能夠提供更準確的結論。這表明在解決NLP問題時，透過擴展推理步驟可以提高問題解決的準確性。這項研究對於深入理解NLP問題的解決方式具有重要意義，為進一步優化和改進NLP技術提供了有益的指導。

「think step by step」还不够，让模型「think more steps」更有用

論文標題：The Impact of Reasoning Step Length on Large Language Models
#論文連結：https://arxiv.org/pdf/2401.04925.pdf

「think step by step」还不够，让模型「think more steps」更有用

本文的第一組實驗旨在評估在上述策略下使用Auto-CoT技術對零樣本和小樣本任務推理表現的提高。接著，對不同方法在不同推理步數下的準確性進行了評估。隨後，研究者擴大了研究對象，比較了本文提出的策略在不同LLM（如GPT-3.5和GPT-4）上的有效性。研究結果顯示，在一定範圍內，推理鏈的長度與LLM的能力之間有明顯的相關性。值得思考的是，當研究者在推理鏈中引入誤導訊息時，表現仍然會提高。這提示我們一個重要結論：影響表現的關鍵因素似乎是思維鏈的長度，而不是其準確度。

本文的主要發現如下：

对于小样本 CoT，推理步数和精度之间存在直接的线性关系。这为优化复杂推理中的 CoT 提示提供了一种可量化的方法。具体来说，增加 prompt 中的推理步骤大大提高了 LLM 在多个数据集上的推理能力。反过来，即使在保留了关键信息的情况下，缩短推理步骤也会显著削弱模型的推理能力。
即使是不正确的推理，如果能保持必要的推理长度，也能产生有利的结果。例如，在数学问题等任务中，过程中产生的中间数字出错也不太会影响最终结果。
增加推理步骤所产生的收益大小受限于任务本身：更简单的任务需要更少的步骤，而更复杂的任务则从更长的推理序列中获得显著收益。
增加零样本 CoT 中的推理步骤也可以显著提高 LLM 的准确性。

研究方法

研究者通过分析来检验推理步骤与 CoT 提示性能之间的关系。他们的方法的核心假设是，在推理过程中，序列化步骤是 CoT 提示中最关键的组成部分。这些步骤能够使语言模型在生成回复内容时应用更多的逻辑进行推理。为了测试这一观点，研究者设计了一个实验，通过先后扩展和压缩基础推理步骤，来改变 CoT 的推理过程。同时，他们保持了所有其他因素不变。具体而言，研究者只系统地改变推理步骤的数量，而没有引入新的推理内容或删除已有的推理内容。他们在下文中评估了零样本和少样本的 CoT 提示。整个实验过程如图 2 所示。通过这种控制变量分析的方法，研究者阐明了 CoT 如何影响 LLM 生成逻辑健全的应答能力。

「think step by step」还不够，让模型「think more steps」更有用

零样本 CoT 分析

在零样本场景中，研究者将最初的 prompt 从「请逐步思考」修改为「请逐步思考，并且尽可能思考出更多的步骤」。之所以做出这一改变，是因为与少样本 CoT 环境不同，使用者不能在使用过程中引入额外的推理步骤。通过改变初始 prompt，研究者引导 LLM 进行了更广泛的思考。这种方法的重要性在于能够提高模型的准确性，而且不需要少样本场景中的典型方案：增量训练或额外的示例驱动优化方法。这种精细化策略确保了更全面、更详细的推理过程，显著提高了模型在零样本条件下的性能。

小样本 CoT 分析

本节将通过增加或压缩推理步骤来修改 CoT 中的推理链。其目的是研究推理结构的变化如何影响 LLM 决策。在推理步骤的扩展过程中，研究者需要避免引入任何新的任务相关信息。这样，推理步骤就成了唯一的研究变量。

为此，研究者设计了以下研究策略，以扩展不同 LLM 应用程序的推理步骤。人们思考问题的方式通常有固定的模式，例如，一遍又一遍地重复问题以获得更深入的理解、创建数学方程以减轻记忆负担、分析问题中单词的含义以帮助理解主题、总结当前状态以简化对主题的描述。基于零样本 CoT 和 Auto-CoT 的启发，研究者期望 CoT 的过程成为一种标准化的模式，并通过在 prompt 部分限制 CoT 思维的方向来获得正确的结果。本文方法的核心是模拟人类思维的过程，重塑思维链。表 6 中给出了五种通用的 prompt 策略。

「think step by step」还不够，让模型「think more steps」更有用

單字思考：這種策略是要求模型解釋單字並重建知識庫。通常情況下，一個單字有多種不同的意義，這樣做的效果是讓模型跳出條條框框，根據生成的解釋重新解釋問題中的單字。這一過程不會引入新的資訊。在 prompt 中，研究者給出了模型正在思考的單字的例子，模型會根據新問題自動挑選單字進行這個過程。
問題重載：重複閱讀問題，減少其他文本對思考鏈的干擾。簡而言之，讓模型記住問題。
重複狀態：與重複閱讀類似，在一長串推理之後加入一個當前狀態的小結，目的是幫助模型簡化記憶，減少其他文本對 CoT 的干擾。
自我驗證：人類在回答問題時會檢查自己的答案是否正確。因此，在模型得到答案之前，研究者增加了一個自我驗證過程，根據一些基本資訊來判斷答案是否合理。
方程式製備：對於數學問題，製作公式可以幫助人類總結和簡化記憶。對於一些需要假設未知數 x 的問題，建立方程式是一個不可或缺的過程。研究者模擬了這個過程，並讓模型嘗試在數學問題中建立方程式。

總體而言，本文的即時策略都在模型中有所體現。表 1 展示的內容是其中一個例子，其他四種策略的範例可以在原論文中查看。

「think step by step」还不够，让模型「think more steps」更有用

實驗及結果

推理步驟與準確度的關係

表2 比較了使用GPT-3.5-turbo-1106 在三類推理任務的八個資料集上的準確性。

「think step by step」还不够，让模型「think more steps」更有用

得益於研究者能夠將思維鏈流程標準化，接下來就可以量化在CoT 的基本流程中增加步驟而對準確性的提高程度。本實驗的結果可以回答先前提出的問題：推理步驟與 CoT 表現之間的關係是什麼？實驗基於 GPT-3.5-turbo-1106 模型。研究者發現，有效的 CoT 過程，例如在 CoT 過程中增加多達六個步驟的額外思維過程，會讓大型語言模型推理能力都會得到提高，並且是在所有的數據集上都有體現。換句話說，研究者發現準確性和 CoT 複雜性之間存在一定的線性關係。

「think step by step」还不够，让模型「think more steps」更有用

錯誤答案的影響

#推理步驟是影響LLM 效能的唯一因素嗎？研究者做了以下嘗試。將 prompt 中的一個步驟改為不正確的描述，看看它是否會影響思維鏈。對於這個實驗，本文研究者在所有 prompt 中加入一個錯誤。有關具體範例，請看表 3。

「think step by step」还不够，让模型「think more steps」更有用

對於算術類型的問題，即使其中一個prompt 結果出現偏差，對推理過程中思維鏈的影響也是微乎其微的，因此研究者認為在解決算術類型的問題時，大語言模型對提示中思維模式鏈的學習要多於單一計算。對於類似硬幣數據的邏輯問題，prompt 結果中的一個偏差往往會帶來整個思維鏈的支離破碎。研究者同樣使用 GPT-3.5-turbo-1106 完成這項實驗，並根據先前實驗得出的每個資料集的最佳步數保證了效能。結果如圖 4 所示。

「think step by step」还不够，让模型「think more steps」更有用

#壓縮推理步驟

先前的实验已经证明了增加推理步骤可以提高 LLM 推理的准确性。那么在小样本问题中压缩基础推理步骤会损害 LLM 的性能吗？为此，研究者进行了推理步骤压缩实验，并采用实验设置中概述的技术，将推理过程浓缩成 Auto CoT 和 Few-Shot-CoT，减少推理步骤数。结果如图 5 所示。

「think step by step」还不够，让模型「think more steps」更有用

结果显示，模型的性能显著下降，回归到与零样本方法基本相当的水平。这个结果进一步表明，增加 CoT 推理步骤可以提高 CoT 性能，反之亦然。

不同规格模型的性能对比

研究者还提出疑问，我们能否观察到缩放现象，即所需的推理步骤与 LLM 的大小有关？研究者研究了各种模型（包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4）中使用的平均推理步骤数。通过在 GSM8K 上的实验计算出了每个模型达到峰值性能所需的平均推理步骤。在 8 个数据集中，该数据集与 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 的性能差异最大。可以看出，在初始性能最差的 text-davinci-002 模型中，本文提出的策略具有最高的提升效果。结果如图 6 所示。

「think step by step」还不够，让模型「think more steps」更有用

协同工作实例中问题的影响

问题对 LLM 推理能力的影响是什么？研究者想探讨改变 CoT 的推理是否会影响 CoT 的性能。由于本文主要研究推理步骤对性能的影响，所以研究者需要确认问题本身对性能没有影响。因此，研究者选择了数据集 MultiArith 和 GSM8K 和两种 CoT 方法（auto-CoT 和 few-shot-CoT）在 GPT-3.5-turbo-1106 中进行实验。本文的实验方法包括对这些数学数据集中的样本问题进行有意的修改，例如改变表 4 中问题的内容。

「think step by step」还不够，让模型「think more steps」更有用