LLMSを「思考」にトレーニングする方法（O1＆Deepseek-R1）-AI-php.cn

LLMSを「思考」にトレーニングする方法（O1＆Deepseek-R1）

Patricia Arquette

リリース： 2025-03-04 10:37:11

オリジナル

303 人が閲覧しました

2024年9月に発表されたOpenaiのO1モデルは、大規模な強化学習を通じて「高度な推論」機能を紹介しました。 AIリサーチラボであるDeepseekは、この動作をうまく再現し、方法論を公然と公開しました。この記事では、このブレークスルーのコア概念と根底にあるメカニズムを探ります。

OpenaiのO1モデルは、「思考」トークンを導入して、大規模な言語モデル（LLM）トレーニングに革命をもたらしました。これらの特別なトークンはスクラッチパッドとして機能し、モデルが問題とユーザークエリを体系的に処理できるようにします。重要な発見は、テスト時間計算の増加によるパフォーマンスの改善でした。より生成されたトークンは、より良い応答に相当します。次のグラフ（Openaiのブログから）は、これを示しています：

How to Train LLMs to “Think” (o1 & DeepSeek-R1)

左のプロットは、より長いトレーニング（トレインタイム計算）がパフォーマンスを向上させる確立された神経スケーリング法則を示しています。正しいプロットは、新しいスケーリング法則を明らかにします。推論中のトークン生成の増加（テスト時間計算）はパフォーマンスを向上させます。

How to Train LLMs to “Think” (o1 & DeepSeek-R1) トークンを考える

O1の「思考」トークンは、モデルの思考の連鎖（COT）の推論を区別します。それらの重要性は2つあります。彼らは明らかにUI開発の推論プロセスを描き、モデルの思考プロセスの人間が読みやすい記録を提供します。 Openaiはトレーニングの詳細を秘密にしていましたが、Deepseekの研究はこれに光を当てています。

deepseekの研究

Deepseekの2025年1月の出版物、「Deepseek-R1：補強学習を介してLLMSの推論能力をインセンティブする発見された

cotおよびテスト時間コンピューティングRLのみを介してスケーリングします。

deepseek-r1-zero（rlのみ） 強化学習（RL）により、モデルは試行錯誤を通じて学習でき、モデルパラメーターとの明示的な機能関係なしに報酬信号を受け取ります。 R1-Zeroのトレーニングの3つの重要な側面が強調表示されています：

プロンプトテンプレート：

シンプルなテンプレートは

および

タグを使用してモデルの応答を構成します。

最小限のプロンプトは、応答のバイアスを避け、RLの間に自然な進化を可能にします。

報酬シグナル：ルールベースのシステムは、正確性とフォーマットを評価し、潜在的な「報酬ハッキング」問題を回避します。

grpo（グループ相対ポリシーの最適化）：このRLアプローチは、モデルパラメーターを更新するための応答を集約し、安定したトレーニングのためにクリッピングとKL-divergenceの正則化を組み込みます。損失関数は以下に示されています：

r1-zeroの結果（緊急能力）
驚くべきことに、R1-Zeroは、テスト時間計算を通じて応答を改善することを暗黙的に学び、しばしば検証手順を含む人間のような内部モノローグを示しました。例は、元の記事に記載されています。

deepseek-r1（sft rl）
deepseek-r1は、SFTとRLを組み合わせた4段階のトレーニングプロセスを通じてR1-Zeroの読みやすさの問題に対処します：

推論データを備えたSFT：初期SFTは、数千の長いベッドコットの例を使用して推論フレームワークを確立します。

r1-zeroスタイルRL（言語の一貫性報酬）：
RLトレーニングR1-Zeroに似ていますが、言語の一貫性報酬が追加されています。混合データを備えた

sft：
推論データと非合理的なデータの両方を備えたSFTモデルの機能を拡大します。

rl rlhf：
最終RLトレーニングには、有用性と無害性を向上させるための推論トレーニングとRLHFが含まれています。

r1-zeroおよびr1

へのアクセス
DeepSeekは、モデルの重みを公開し、さまざまな推論プロバイダーとローカル展開（Deepseek、一緒に、双曲線、オラマ、顔を抱き締める）を介したアクセスを可能にしました。
結論

O1 LLM改善の新しい次元としてテスト時間計算を導入しました。 Deepseekのレプリケーションと公開出版物は、補強学習が既存の人間の知識の制限を上回るモデルを独立して生成できることを示しています。これは、将来の科学技術の進歩のためのエキサイティングな可能性を開きます。

[注：外部リソースへのリンクは、言い換えされたコンテンツに関連しておらず、プロモーションと見なされる可能性があるため省略されました。]