「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません-AI-php.cn

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

王林

リリース： 2023-10-24 20:53:06

転載

1157 人が閲覧しました

AI サークルに所属しているか他の分野に所属しているかに関係なく、多かれ少なかれ大規模言語モデル (LLM) を使用したことがあります。LLM によってもたらされたさまざまな変化を誰もが賞賛しているとき、いくつかの大きな変化モデルの欠点が徐々に明らかになります。

たとえば、少し前に、Google DeepMind は、LLM が一般に人間の「お調子者」行動を示すこと、つまり、人間のユーザーの見解が客観的に間違っている場合があり、モデルも同様であることを発見しました。ユーザーの視点に従うように独自の応答を調整します。以下の図に示すように、ユーザーがモデルに 1 1=956446 を伝えると、モデルは人間の指示に従い、この答えが正しいと信じます。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません ##画像ソース https://arxiv.org/abs/2308.03958

実際、この現象は多くの地域で一般的です。 AIモデル、その理由は何ですか？ AI スタートアップ Anthropic の研究者らはこの現象を分析し、「お世辞」は RLHF モデルの一般的な行動であり、これは人間が「お世辞」の反応を好むことが部分的に原因であると考えています。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

論文アドレス: https://arxiv.org/pdf/2310.13548.pdf

接続具体的な研究プロセスを見てみましょう。

GPT-4 などの AI アシスタントは、より正確な回答を生成するようにトレーニングされており、その大部分が RLHF を使用しています。 RLHF を使用して言語モデルを微調整すると、人間によって評価されるモデルの出力の品質が向上します。このモデルは人間の評価者にとって魅力的な出力を生成できますが、実際には欠陥があるか、正しくありません。同時に、最近の研究では、RLHF でトレーニングされたモデルがユーザーと一致する回答を提供する傾向があることも示されています。

この現象をより深く理解するために、この研究ではまず、SOTA パフォーマンスを備えた AI アシスタントがさまざまな現実世界の環境で「お世辞」モデル応答を提供するかどうかを調査しました。 RLHF でトレーニングを受けた SOTA AI アシスタントは、自由形式のテキスト生成タスクにおいて一貫した「お世辞」パターンを示しました。お世辞は RLHF でトレーニングされたモデルに一般的な行動であると思われるため、この記事ではこのタイプの行動における人間の好みの役割についても調査します。

この記事では、嗜好データに存在する「お世辞」が RLHF モデルの「お世辞」につながるかどうかも調査し、最適化を進めると一部の形式の「お世辞」が増加することがわかりました。」、しかし、他の形の「お世辞」は減少します。

大型モデルの「お世辞」の程度とその影響

大型モデルの「お世辞」の度合いを評価し分析するには現実生成への影響 Impact では、この研究では、Anthropic、OpenAI、Meta によってリリースされた大規模モデルの「お世辞」の程度をベンチマークしました。

具体的には、この研究では SycophancyEval 評価ベンチマークが提案されています。 SycophancyEval は、既存の大規模モデルの「お世辞」評価ベンチマークを拡張します。モデルに関して、この研究では特に claude-1.3 (Anthropic、2023)、claude-2.0 (Anthropic、2023)、GPT-3.5-turbo (OpenAI、2022)、GPT-4 (OpenAI、2023) を含む 5 つのモデルをテストしました。）、llama-2-70b-chat（Touvron et al.、2023）。

ユーザーの好みに合わせる

ユーザーが大規模なモデルに、作品に関する自由形式のフィードバックを提供するよう依頼する場合の理論技術的には、議論の質は議論の内容によってのみ左右されますが、研究では、大規模モデルは、ユーザーが好む議論にはより肯定的なフィードバックを与え、ユーザーが嫌いな議論にはより否定的なフィードバックを与えることがわかりました。

以下の図 1 に示すように、テキスト段落に対する大規模モデルのフィードバックは、テキストの内容に依存するだけでなく、ユーザーの好みにも影響されます。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

振り回されやすい

調査によると、たとえ規模が大きくてもモデルは正確な回答を提供し、その回答に対する自信を表明しますが、ユーザーが質問すると回答を変更したり、誤った情報を提供したりすることがよくあります。したがって、「お世辞」は大規模なモデル応答の信頼性と信頼性を損なう可能性があります。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

ユーザーの信念と一致する回答を提供する

調査では、次のことが判明しました。自由回答型の質問と回答のタスクでは、大規模なモデルはユーザーの信念と一致する回答を提供する傾向があります。たとえば、以下の図 3 では、この「お世辞」動作により、LLaMA 2 の精度が 27% も低下しました。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

#ユーザーエラーを模倣する

For To大規模なモデルがユーザーのエラーを繰り返すかどうかをテストするため、この研究では、大規模なモデルが誤って詩の作者を与えているかどうかを調査します。以下の図 4 に示すように、大規模モデルが詩の正しい作者を答えることができたとしても、ユーザーが間違った情報を与えたため、間違った答えを返すことになります。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

言語モデルにおけるお世辞の理解

研究では、現実世界のさまざまな設定において、より多くのことが判明しました。大きなモデルは一貫した「お世辞」動作を示すため、これは RLHF の微調整によって引き起こされる可能性があると推測されます。したがって、この研究では、嗜好モデル (PM) をトレーニングするために使用される人間の嗜好データを分析します。

以下の図 5 に示すように、この研究では人間の好みのデータを分析し、どの機能がユーザーの好みを予測できるかを調査しました。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

実験結果は、他の条件が等しい場合、モデルの応答における「お世辞」行動により、人間がその行動を好む可能性が高まることを示しています。反応、セックス。以下の図 6 に示すように、大規模モデルのトレーニングに使用される選好モデル (PM) は、大規模モデルの「お世辞」動作に複雑な影響を与えます。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません

最後に、研究者らは、人間と PM (優先モデル) モデルがどのくらいの頻度で、どのようにして真実に答える傾向があるかを調査しました。多くの？人間と PM モデルは、正しい応答よりもお世辞の応答を好むことが判明しました。

PM 結果: 95% のケースで、真実の応答よりもお世辞の応答が好まれました (図 7a)。この調査では、PM がほぼ半分 (45%) の時間でお世辞を言う反応を好むこともわかりました。

人間のフィードバック結果: 人間はお世辞よりも正直に反応する傾向がありますが、難易度 (誤解) が増すにつれて、信頼できる答えを選択する確率は減少します (図 7b)。複数の人の好みを集約することでフィードバックの質は向上しますが、これらの結果は、専門家ではない人間のフィードバックを使用するだけでお世辞を完全に排除するのは難しい可能性があることを示唆しています。

図 7c は、Claude 2 PM の最適化によりお世辞は減少しますが、その効果は顕著ではないことを示しています。

「お世辞」は RLHF モデルでは一般的であり、クロードから GPT-4 の影響を受けない人は誰もいません