LLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？-AI-php.cn

LLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？

尊渡假赌尊渡假赌尊渡假赌

リリース： 2025-03-20 10:51:12

オリジナル

1009 人が閲覧しました

この研究論文「すべてのLLMの推論者が平等に作成されるわけではない」は、複雑な推論タスク、特にマルチステップの問題解決を必要とするタスクにおける大規模な言語モデル（LLM）の制限を探ります。 LLMSは数学的な問題に挑戦することに優れていますが、1つの問題の解決策が次の問題（「構成の推論」と呼ばれる概念）に通知する相互接続された質問に直面すると、そのパフォーマンスは大幅に低下します。

MILA、Google Deepmind、およびMicrosoft Researchの研究者によって実施されたこの研究は、より小さく、より費用効率の高いLLMの驚くべき弱点を明らかにしています。これらのモデルは、よりシンプルなタスクに習熟していますが、チェーンの問題を解決するために必要な「セカンドホップ推論」と闘っています。これは、データの漏れなどの問題によるものではありません。むしろ、それはコンテキストを維持できず、問題の部分を論理的に接続できないことに起因します。一般的なパフォーマンスを向上させる手法である命令チューニングは、より小さなモデルに一貫性のない利点を提供し、時には過剰フィットにつながることがあります。

LLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？

重要な調査結果：

より小さなLLMは、組成の問題に取り組むときに重要な「推論ギャップ」を示します。
相互接続された質問を解くと、パフォーマンスは劇的に低下します。
命令の調整により、小規模なモデルで一貫性のない改善が得られます。
この推論制限は、実際のアプリケーションでのより小さなLLMの信頼性を制限します。
専門の数学モデルでさえ、構成の推論に苦労しています。
マルチステップの推論機能を強化するには、より効果的なトレーニング方法が必要です。

この論文では、このギャップを説明するために、作曲学年数学（GSM）テストを使用しています。このテストには、2つのリンクされた質問が含まれます。この質問では、最初（Q1）への回答が2番目（Q2）の変数（x）になります。結果は、ほとんどのモデルが個々の質問に対するパフォーマンスによって予測されるよりも、構成タスクではるかに悪化することを示しています。 GPT-4Oのようなより大きく、より強力なモデルは優れた推論能力を示していますが、数学に特化したモデルでさえ、より小さく、費用対効果の高いモデルであっても、大幅なパフォーマンスの低下を示しています。

LLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？

オープンソースとクローズドソースLLMを比較するグラフは、この推論ギャップを強調しています。より小さく、費用対効果の高いモデルは一貫してより大きな否定的な推論ギャップを示し、より大きなモデルと比較して作曲タスクのパフォーマンスが低いことを示しています。たとえば、GPT-4Oは最小限のギャップを示しますが、PHI 3-MINI-4K-ITのような他のGPは重要な欠点を示しています。

LLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？

さらなる分析により、推論のギャップはベンチマークの漏れによるものではないことが明らかになりました。この問題は、過剰適合、つまり無関係なコンテキストによる気晴らし、およびサブタスク間で情報を効果的に転送しなかったことに起因します。

LLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？

この研究では、構成の推論を改善するには革新的なトレーニングアプローチが必要であると結論付けています。指導の調整や数学の専門化などのテクニックはいくつかの利点を提供しますが、推論のギャップを埋めるには不十分です。コードベースの推論などの代替方法の調査が、複雑でマルチステップの推論タスクを処理するLLMの能力を高めるために必要な場合があります。この研究は、より小さく、より費用対効果の高いLLMが複雑な推論タスクを確実に実行できるようにするための改善されたトレーニング技術の必要性を強調しています。

以上がLLMSの複雑な推論：なぜ小さなモデルが苦労するのですか？の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。