これは、ノースイースタン大学と MIT によって発表された最新の論文「Reflexion」の手法です。
この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載しておりますので、転載については出典元にご連絡ください。
GPT-4が再び進化!
簡単な方法を使用すると、GPT-4 などの大規模な言語モデルは自己反省を学習でき、パフォーマンスを直接30%向上させることができます。
これまで、大規模な言語モデルは間違った答えを出し、何も言わずに謝った後、うーん、とランダムな推測を続けることがよくありました。
これではもうこのようなことはなくなり、新しいメソッドを追加することで、GPT-4 はどこが悪かったのかを反省するだけでなく、改善戦略も提供します。
たとえば、「ループに陥っている」理由を自動的に分析します:
または、自分自身の欠陥のある検索戦略を振り返ります:
これは、ノースイースタン大学と MIT によって発表された最新の論文「Reflexion」の方法です。
GPT-4 だけでなく、他の大規模な言語モデルにも適用され、人間特有の熟考能力を学習することができます。
この論文はプレプリント プラットフォーム arxiv で公開されました。
#これにより、ネットユーザーは「AI の進化のスピードが人間の適応能力を超え、人類は滅亡するだろう」と直接言わざるを得ませんでした。 一部のネチズンは開発者に「仕事の警告」さえ送っています:この方法でコードを書くための時給は、通常の開発者の時給よりも安いです。
バイナリ報酬メカニズムを使用して反射を実現しますネチズンが言ったように、Reflexion によって GPT-4 に与えられた反射能力は人間の思考プロセスに似ています:
は 2 つの単語で要約できます:フィードバック。
このフィードバック プロセスは、次の 3 つの主要なステップに分けることができます: 1. 評価: 現在生成されている回答の精度をテストします 2. 内省の生成: エラーの特定 - 修正の実装
つまり、LLM は、外部からのフィードバックがない場合、まず答え自体を反映する必要があります。内省を行うにはどうすればよいでしょうか?
研究チームは、
バイナリ報酬メカニズムを使用して、現在の状態でLLMによって実行される操作に値を割り当てました:
1は生成された結果を表しますOK、0 生成された結果があまり良くないことを意味します。
複数値や連続出力などのより記述的な報酬メカニズムの代わりにbinary
が使用される理由は、外部入力の不足に関連しています。
外部フィードバックなしで内省を行うには、答えをバイナリ状態に制限する必要があります。この方法でのみ、LLM に意味のある推論を強制することができます。自己評価が完了した後、バイナリ報酬メカニズムの出力が 1 の場合、自己反射装置は起動されません。0 の場合、LLM は反射モードをオンにします。
リフレクション プロセス中に、モデルはヒューリスティック関数 h (以下に示すように) をトリガーします。人間の思考プロセスと同様に、h は
監視と同じ役割を果たします。
#ただし、人間の思考と同様、LLM にも反映のプロセスに制限があり、それが関数の Ω と ε に反映される可能性があります。
Ω は、連続アクションが繰り返される回数を表します。通常、この値は 3 に設定されます。これは、反映プロセス中にステップが 3 回繰り返されると、次のステップに直接ジャンプすることを意味します。
そして、ε は、リフレクション プロセス中に実行できる操作の最大数を表します。
監視があるので、修正も実装する必要があります。修正プロセスの機能は次のとおりです。 , 自己反映モデルは「ドメイン固有の
障害軌跡と理想的な反映ペア」を使用してトレーニングされており、データセット内の特定の問題に対するドメイン固有の解決策へのアクセスは許可されません。
このようにして、LLM は反省の過程でより「革新的な」ものを思いつくことができます。リフレクション後はパフォーマンスが 30% 近く向上しました
GPT-4 などの LLM は自己リフレクションを実行できるため、具体的にはどのような効果があるのでしょうか? 研究チームは、ALFWorld と HotpotQA ベンチマークでこのアプローチを評価しました。 100 の質問と回答のペアの HotpotQA テストでは、反射法を使用した LLM が大きな利点を示し、複数回の反射と繰り返しの質問の後、LLM のパフォーマンスは 30% 近く向上しました。 Reflexion を使用しない場合、Q&A を繰り返してもパフォーマンスに変化はありませんでした。HotpotQA の 134 問と回答のテストでは、Reflexion のサポートにより、複数回のリフレクション後に LLM の精度が 97% に達したことがわかります。
別のブログでは、チーム メンバーが GPT-4 でのメソッドの効果も示しました。テストの範囲はコードの作成でした。
結果も明らかで、Reflexion を使用すると、GPT-4 のプログラミング能力が直接 21% 向上しました。
GPT-4 について「考える」方法はすでに知っていますが、(フアン) (レ) (マ) は何と読みますか?
論文アドレス: https://arxiv.org/abs/2303.11366
以上がGPT-4のコーディング能力が21%向上! MITの新しい方法により、LLMは反省することを学ぶことができる、ネチズン:人間が考えるのと同じ方法だの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。