ACL 2024 | 25 のオープンおよびクローズドソースモデルの数学的評価では、GPT-3.5-Turbo がかろうじて合格しました-AI-php.cn

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者來自香港大學和騰訊。 作者列表：李沁桐，Leyang Cui，趙學亮，孔令鵬，Wei Bi。其中，第一作者李沁桐是香港大學自然語言處理實驗室的博士生，研究方向涉及自然語言生成和文本推理，與博士生趙學亮共同師從孔令鵬教授。 Leyang Cui 和 Wei Bi 是騰訊資深研究員。

前言

大型語言模型（LLMs）在解決問題方面的非凡能力日益顯現。最近，一個值得關注的現像是，這些模型在多項數學推理的基準測試中獲得了驚人的成績。以 GPT-4 為例，在高難度小學應用題測驗集 GSM8K [1] 中表現優異，準確率高達 90% 以上。同時，許多開源模型也展現了不俗的實力，準確率超過 80%。

然而在使用中我們經常會發現，當數學問題稍作改變時，LLMs 可能會出現一些低級錯誤，如下圖所示：

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

正確解答了一個數學問題（左），但當在原問題的基礎上添加一個限制條件（右）時，Turbo 因為沒有正確區分“離開” 和“返回” 的方向，而誤用運算符出錯。

我們不禁要問：大型語言模型是否真的掌握了數學知識的精髓？它們是如何在這些測試中取得如此高分的？難道只是因為模仿了大量訓練資料中的表面推理模式嗎？ LLMs 是否真正理解數學概念，仍是一個值得探討的問題。

為了探究這個問題，本文作者設計了一個評估基準

GSM-Plus。這個測驗旨在對一個問題進行 8 種不同的細粒度數學變換，系統地評估當前 LLMs 在處理基礎數學應用問題時的能力。在這項全新的基準測試中，論文對 25 個不同的 LLMs 進行了嚴格評測，包括業界的開源和閉源模型。

實驗結果表明，對於大多數 LLMs 來說，GSM-Plus 是一個具有挑戰性的基準測試。即便是在 GSM8K 上，GPT-3.5-Turbo 已能取得 73.62% 的準確率，但在 GSM-Plus 上僅能達到 61.19% 的準確率。本文工作已以4，4， 4.5分被ACL2024錄取。

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

論文標題：GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
論文地址：https://arxiv.org/pdf/2402.1925555頁紙//qtli.github.io/GSM-Plus/

背景

數學推理是人工智慧發展的重要證明。它需要嚴格的問題理解、策略制定和計算執行能力。在過去幾年中，許多公開資料集被用於評估人工智慧系統的數學推理能力。早期的數學資料集側重於基於方程式的數學問題。隨後，更難的數據集被引入，涵蓋了小學、高中和大學程度的數學問題。

隨著評測數據難度的不斷提高，LLMs 的發展也變得十分迅速。為了提升 LLMs 在數學領域的效能，可以透過在多樣化的任務資料上進行訓練，使用監督微調（SFT）來快速幫助 LLMs 適應到數學領域。在推理階段，透過設計巧妙的輸入提示（例如，Chain-of-Thought 和 Program-of-Thought）也可以有效激發 LLMs 的數學能力。

對於大多數 LLMs 而言，面對高中及以上的數學問題仍有很大的提升空間。然而，在小學數學領域，LLMs 已經展現出巨大的潛力。

這讓我們不禁思考，

在現實環境中 LLMs 是否能依然保持高效能？

對抗性評測資料集GSM-Plus

本研究旨在推出一個綜合性基準測試GSM-Plus，以系統地檢驗LLMs 在系統地檢驗數學問題。受Polya 原則[2] 中解決數學問題的能力分類法的啟發，本文確定了五個方面的指導原則用於構建GSM-Plus 數據集：

為了便於理解，此處以“ 珍妮特的鴨子每天下16 個蛋。在農夫市集賺多少美元？

（1）

數值變化

：指改變數值資料或其類型，本文定義了三個子類別：

將問題中的“16” 替換為“20”。

：指數學問題引入額外的運算或反轉，但只限於加、減、乘、除運算：

：

。在原問題基礎上增加限制條件。例如，增加新條件「她每天還會使用兩顆雞蛋自製髮膜」。

運算逆轉：將原問題的某個已知條件轉換為 GSM-Plus 變體問題的待求解變數。例如，圖2 中原問題的陳述“每個鴨蛋2 美元” 轉換為新問題的疑問句“每個鴨蛋的價格是多少？”，而原問題疑問句” 每天在農貿市場上賺多少美元？” 則轉換為新問題的已知條件” 她每天在農貿市場賺18 美元”

（3）問題理解
：指在意思不變的前提下，用不同詞句重新表述數學問題，如”珍妮特養了一群鴨子，這些鴨子每天產16 個鴨蛋。價格將剩餘的鴨蛋全部出售。到原問題中，如」珍妮特還想用兩個鴨蛋餵養她的寵物鸚鵡，所幸她的鄰居每天送她兩個鴨蛋用於餵養鸚鵡」。

（5）批判性思維

：專注於當數學問題缺乏必要條件時，LLMs 是否具有提問或懷疑能力，例如」珍妮特的鴨子每天都會下蛋。她每天早上吃三個蛋作為早餐，並且每天用四個蛋烤鬆餅給她的朋友。她每天在农贸市场上赚多少美元？”。

基于 GSM8K 的 1,319 个测试问题，本文为每个问题创建了八个变体，从而生成了包含 10,552 个问题变体的 GSM-Plus 数据集（本文还提供了一个包含 2,400 个问题变体的测试子集，以便快速评测）。通过使用每个问题及其八个变体测试 LLMs，GSM-Plus 可以帮助研究人员全面评估 LLMs 在解决数学问题中的鲁棒性。

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{图 2：基于一个种子数学题，使用 5 个角度的 8 种扰动生成问题变体。主要修改内容以绿色标出。}

通过使用 GSM-Plus 评估 25 个不同规模、不同预训练方式、不同任务微调的 LLMs，以及组合 4 种常用的提示技术，本文发现 LLMs 整体上可以准确解决 GSM8K 问题，但在回答 GSM-Plus 中的变体问题时会遇到明显困难。主要发现如下：

任务特定的优化，即在数学相关的数据集上微调，通常可以提高下游任务准确性；而鲁棒性的高低更多地取决于基础模型和微调数据集的选择。
当需要 “批判性思维”、涉及 “算术变化” 和 “干扰因素插入” 时，LLMs 的性能会迅速下降；但对于 “数值变化” 和 “问题理解” 的扰动，LLMs 的性能比较稳定。
先前的提示技术（例如，CoT，PoT，LtM 和 Complexity-based CoT）对于鲁棒性增强作用不显著，特别是对于 “算术变化 “和” 批判性思维”。在前人工作的基础上，本文进一步探索了一种组合提示方法，通过迭代生成和验证每个推理思维，可以同时提升 LLMs 在 GSM8K 和 GSM-Plus 上的性能。

GSM-Plus 特点

质量保证：采用两阶段生成 GSM-Plus 评测题。首先，利用 GPT-4 的问题改写能力生成问题变体，然后为这些变体生成候选答案；为确保数据质量，所有由 GPT-4 生成的问题变体和答案都要经过人工标注团队进行严格检查。人工标注团队修正了 18.85% 的 GPT-4 改写的问题。
细粒度评估：对于主流评测数据集 GSM8K 的每个测试题，GSM-Plus 提供了 8 个扰动方向的变体问题，充分测试了在不同上下文下，大模型灵活解决数学应用题的能力。
挑战性：相比于 GSM8K，GSM-Plus 的问题变体更具挑战性，所有参与评估的 LLMs 的性能都显著下降。在接下来的分析中，本文会特别分析 LLMs 在不同类型扰动下的解题鲁棒性。

与其他小学数学应用题数据的比较

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{表 1: 異なる色は異なる摂動タイプを表します:}^{数値置換、桁拡張、整数-小数変換、演算拡張、操作の反転、問題の理解、邪魔者の挿入、}^{批判的思考。}

上の表からわかるように、以前の研究ではさまざまな摂動を使用して数学的推論の堅牢性をテストしていましたが、評価設定は一部の摂動タイプのみをカバーしており、それらのほとんどは自動メソッド構築を通じて摂動を導入します。品質を保証するのは難しい。対照的に、GSM-Plus は 8 つの異なる数学的推論スキルを使用して、より包括的なカバレッジと厳格な品質管理を行い、単一の問題を混乱させます。

実験分析

評価指標

:元の問題と比較した混乱した問題の低下度。
同時に解決された問題ペア (ASP) の割合: LLM によって両方とも正しく回答された、元の問題とそれに対応する問題の変形の割合。

全体的なパフォーマンス

以下の表に示すように、GSM-Plus 上のほとんどの LLM のパフォーマンスは、GSM8K と比較して大幅に低下します。

GPT-4 は最も高い堅牢性を示し、最小 PDR はわずか 8.23% です。 CodeLlama の PDR は最大で、その中で 7B、13B、34B モデルはそれぞれ 40.56%、39.71%、34.27% で、基本モデル LLaMA-2-7B (39.49%) を上回っており、微調整された数学的 SFT モデルも上回っています。 SEGO-7B (34.91%) など。これは、手続き型言語のみを使用した推論が摂動に対して脆弱であることを示しています。

数学的摂動に直面しても、モデルのサイズが大きくなるほど、パフォーマンスはより安定します。教師あり微調整は下流タスクの精度を向上させることができますが、摂動に対するモデルの堅牢性 (つまり、PDR の低下) を大幅に強化することはありません。微調整を管理するデータは堅牢性にとって重要です。また、LLaMA-2 に基づいて微調整され、異なるデータが使用されるため、モデルの精度と堅牢性に大きな違いが生じます。表 2: 全体的なパフォーマンス外乱下での LLM のパフォーマンス

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

この論文では、問題変種の下での 8 種類のパフォーマンス安定性で LLM をさらに評価します。クリティカルシンキング (紫)、操作拡張と操作反転 (青)、ディストラクター挿入 (ピンク)、整数 - 小数 - 分数変換 (オレンジ) の摂動に対する人間のベースラインと比較すると、LLM のパフォーマンスは大幅に低下します。「数値の置き換え」と「問題の理解」に関しては、LLM のパフォーマンスは安定しているか、わずかに向上しています。

^{图 3：细粒度实验分析}

数学推理能力的迁移性

前面的分析主要基于数据集整体。接下来，本文根据数学题是否被正确回答将 2 个数据集分割，分析当 LLMs 成功解决 GSM8K 问题时，是否意味着正确回答 GSM-Plus 变体问题的可能性变高（即高 ASP 值），反之亦然。如果这种断言成立，可以认为 LLMs 在这类特定的数学题子集上性能稳定，即使在整个数据集上并非如此。在实验设置中，每个 GSM8K 问题及其在 GSM-Plus 中的变体转化为 8 个问题对，结果如图 4 所示。

^{图 4：LLMs 在 GSM8K 和 GSM-Plus 问题对之间的推理可迁移性。紫色（均正确）和蓝色（均错误）的条形图表示一致的模型行为，而红色（GSM8K 正确 & GSM-Plus 错误）和黄色（GSM8K 错误 & GSM-Plus 正确）的条形图则表示不一致的模型行为。紫色和红色条形图的高度和表示 LLMs 正确解决 GSM8K 问题的数量。}

红色条形图的存在（LLMs 正确回答原问题，但未解决变体问题），表明大多数模型的性能可迁移性有限。虽然 LLMs 在 GSM8K 问题上性能有所差异（紫色和红色条形图的高度），但性能可迁移性相似（红色条形图的高度）。这意味着现有的基准测试无法准确评估模型在数学推理方面的真实能力。高准确率并不等价于强大的推理鲁棒性。

提示对于 LLMs 性能鲁棒性的帮助

先前的工作表明，良好的提示指令对于激发语言模型的数学能力十分重要。本文选择了 4 个代表性模型，并测试它们在不同的提示指令下解题的表现。如下图所示，当面对干扰时，使用复杂的示例作为上下文演示（Complexity-based CoT）时，LLMs 表现最为稳定；相比之下，仅使用程序语言表示中间推理（Program-of-Thought）时，LLMs 更容易受到干扰的影响。总体而言，这些提示技巧都不足以让 LLMs 在 GSM-Plus 上维持与 GSM8K 相同的性能。

^{图 5：提示对于 LLMs 性能鲁棒性的影响}

组合提示是否有效？

如何基于现有的提示方法增强 LLMs 的鲁棒性呢？本文发现 LLMs 在解题过程中常常会忽略重要条件或出现计算错误。为此，本文探索了一种组合提示方法 Comp。该方法首先提示 LLMs 提取问题中与数值相关的必要条件（Prompt1）。接着，根据问题和关键条件，指示 LLMs 迭代地生成推理目标（Prompt2）和计算目标（Prompt3），并让其为生成的历史解题步骤提供反馈，以确定是否获得了最终答案（Prompt4）。具体实现如图 6 所示。

^{图 6：Comp 迭代提示方式的示意图}

可以看出，Comp 通过迭代生成和自我验证可以改善 LLMs 在各种问题变化类型下的性能，但它仍然无法弥合 LLMs 在标准测试集和对抗性测试集之间的性能差距。该研究期待未来有更多的方法进一步提升模型的鲁棒性，推动 LLMs 在数学推理领域的进一步发展。
表 3: さまざまなプロンプト手法での、質問の書き換えに関する比較プロンプトのパフォーマンス GPT-3.5-Turbo のパフォーマンス。すべてのプロンプトはターボが GSM8K の質問に正確に答えるように動機付けられましたが、コンプだけがターボが GSM-Plus バリアントの質問に対して正しい答えを生成するのに役立ちました。この記事では、数学的アプリケーションの問題を解決する際にLLMの堅牢性を体系的に分析するように設計された敵対的な小学校数学アプリケーションの質問評価セットGSM -Plusを紹介します。実験分析によると、ほとんどの LLM のパフォーマンスは、摂動に直面すると標準ベンチマークのパフォーマンスと比較して大幅に低下し、人間のパフォーマンスレベルには遠く及ばないことがわかりました。研究者らは、この記事の研究によって、(1) LLM の数学的スキルの体系的な評価、(2) 数学的推論を柔軟に実行できるモデルの構築など、今後の研究が促進されることを期待しています。
参考リンク

[1] Cobbe、Karl、他「数学の文章問題を解決するための検証者をトレーニングする」arXiv プレプリント arXiv:2110.14168 (2021)。 com/sota/arithmetic-reasoning-on-gsm8k
[2] George Polya、2004 年。解き方: 数学的手法の新しい側面、第 85 巻。プリンストン大学出版局。