言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明-AI-php.cn

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

PHPz

リリース： 2023-10-04 09:53:03

転載

527 人が閲覧しました

驚くべき発見: この大規模モデルには知識推論において重大な欠陥があります。

#知識を柔軟に活用することが知恵の鍵です。人間の脳は、「『きよしこの夜の考え』には何語ある？」と即座に答えるなど、知識を素早く処理することができます。では、同様の操作を大きなモデルでも実行できるのでしょうか?大規模なモデルは、まず思考連鎖 (CoT) を通じて「きよしこの夜の思考」をサイレントに書き込み、次に書かれた内容に基づいて質問に答えることができることが知られていますが、これにより生成されるテキストが長くなります。対照的に、人間は中間ステップを書き出すことなく、単純な知識の演繹を頭の中で完了することができます。それでは、非常に大規模な言語モデルは、最初に知識ポイントを書き留めることなく、人工脳内で直接答えを生成できるのでしょうか? ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃答えはいいえだ！図 1/2/3 は、GPT4 に関する多くの反例を示しています。最も基本的な分類 (有名人の誕生日が等しいかどうかを判断するなど) や比較 (2 人の大統領の誕生日を比較するなど) でさえ、思考連鎖を通過する必要があります。さらに悪いことに、大規模なモデルはトレーニングセットから知識を逆に抽出することがほぼ完全に不可能です。

#書き直す必要がある内容は次のとおりです。図 1: GPT4 には知識の分類/比較にエラーがありますが、取得できます。思考の連鎖を通して正解

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

#書き直す必要がある内容は次のとおりです。図 2: GPT4 ナレッジ逆引き検索エラー

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

図 3: GPT4 は「誰かの誕生日はいつですか?」と「特定の数字は何ですか?」には正しく答えることができますが、「偶数？」という質問がありましたが、この 2 つを組み合わせた場合、Chain of Thought (CoT) がないと精度は 50% しかありません。 1900年から1910年までの有名人の誕生日を比較した場合も、このパフォーマンスは盲目的な推測に近かった。

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

Zhu Zeyuan (MetaAI) と Li Yuanzhi (MBZUAI) による最新の研究「言語モデル物理学パート 3.2: 知識」「操作」では上記の問題に焦点を当てます。

論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2309.14402
最初に、図などの質問をしてください。 1/2/ 3 このような問題は、GPT4 の人々の誕生日の記憶が十分正確ではない (圧縮率が十分ではない、トレーニング損失が十分に低くない) か、微調整を通じてパリティについての理解を深めていないことです。 ? GPT4 を微調整して、モデル内の既存の知識を組み合わせて「誕生日パリティ」などの新しい知識を生成し、CoT に依存せずに関連する質問に直接答えることができるようにすることは可能ですか? GPT4のトレーニングデータセットが分からないため、微調整ができません。したがって、著者は、制御可能なトレーニングセットを使用して、言語モデルの「知識演繹」能力をさらに研究することを提案します。

図 4: GPT4 などの事前トレーニングモデル、制御不能なインターネットデータのため、状況を判断することが困難 B /C/D それは起こりますか

記事「言語モデル物理学パート 3.1: 知識の保存と抽出」の中で、著者は 100,000 件の伝記を含むデータセットを構築しました。各経歴には、個人の名前に加えて、生年月日、出生地、大学の専攻、大学名、勤務先、勤務先の 6 つの属性が含まれます。例: 言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

Anya Briar Forger 出身地はニュージャージー州 ^{プリンストンです。} 彼女は勉強をコミュニケーション

に捧げ、## で実務経験を積みました。カリフォルニア州 #メンローパーク

。彼女は

メタプラットフォーム

でキャリアを築きました。彼女は 1996 年 10 月 2 日にこの世界に生まれ、 MIT で高度なコースを履修しました。著者は、モデルがより適切に知識にアクセスできるように、伝記エントリの多様性を確保しています。事前トレーニング後、モデルは微調整を通じて、「アーニャの誕生日はいつですか?」などの知識抽出の質問に正確に答えることができます (正解率は 100% に近い) 次に、著者は微調整を続けます。、モデルを作ってみる知識の分類・比較・足し算引き算などの知識演繹問題を学びます。この記事では、自然言語モデルの知識演繹能力は非常に限られており、モデルによってすでに習得された知識の単純な変換/組み合わせであっても、微調整を通じて新しい知識を生成するのは困難であることがわかりました。

^{図 5: 微調整中に CoT が使用されず、モデルが知識の分類/比較/減算を許可されている場合、多数のサンプルが必須でない場合、正解率は非常に低くなります— 実験では 100 の専攻}

が使用されました。図 5 に示すように、著者は、モデルが全員の誕生日を正確に答えることができるにもかかわらず、その後事前トレーニング (事前トレーニング) (正解率は 100% に近い)、ただし、「xxx の誕生月は偶数ですか?」に答えるように微調整して 75% の正解率を達成するには、盲目的な推測には次のような問題があることを忘れないでください。精度率 50% - 少なくとも 10,000 の微調整サンプルが必要です。比較すると、モデルが「誕生日」と「パリティ」の知識の組み合わせを正しく完了できる場合、従来の機械学習理論によれば、モデルは 12 か月を分類することを学習するだけでよく、通常は約 100 個のサンプルで十分です。

同様に、モデルが事前トレーニングされた後でも、全員の専攻 (合計 100 の異なる専攻) に正確に答えることができますが、50,000 の微調整サンプルを使用した場合でも、モデルに「アーニャの専攻とサブリナの専攻」を比較させます。「どの専攻が良いか」という正解率は 53.9% に過ぎず、ほぼ推測に等しい。しかし、CoT 微調整モデルを使用して「アーニャの誕生月は 10 月なので、偶数」の場合、テストセットで誕生月のパリティを判断するモデルの精度が大幅に向上します (図 5 の「テスト用の CoT」列を参照)

著者は、CoT の回答と非 CoT の回答を混合することも試みました。トレーニングデータの微調整では、テストセットで CoT を使用しない場合のモデルの精度が依然として非常に低いことがわかりました (図 5 の「CoT を使用しないテスト」列を参照)。これは、十分な CoT 微調整データが追加されたとしても、モデルは依然として「頭蓋内思考」を学習して答えを直接報告することができないことを示しています

これらの結果は、

言語モデルの場合、簡単な知識操作の難易度を実行してください!モデルは知識点を書き込んでから計算する必要があり、人間のように脳内で直接操作することはできず、いくら微調整しても役に立ちません。

逆知識検索が直面する課題

研究では、自然言語モデルが逆検索を通じて学習した知識を適用できないことも判明しました。人に関するすべての情報に答えることはできますが、この情報に基づいて人の名前を決定することはできません。

著者らは GPT3.5/4 を実験し、逆知識抽出のパフォーマンスが不十分であることを発見しました (図 6 を参照) ）。ただし、GPT3.5/4 のトレーニングデータセットを特定できないため、すべての言語モデルにこの問題があることが証明されるわけではありません。 6 : GPT3.5/4 の順方向/逆方向知識検索の比較。私たちが以前に報告した「呪いの逆転」研究 (arxiv 2309.12288) も、既存の大規模モデルでこの現象を観察しました。

著者は、モデルを評価するために前述の伝記データセットを使用しました。逆知識検索機能が実施されました。すべての伝記の名前が段落の先頭にあるため、著者は次のような 10 個の逆情報抽出質問を設計しました。言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

10 月にニュージャージー州プリンストンで生まれた人の名前を知っていますか? 1996年2月??

「MIT でコミュニケーションを学び、1996 年 10 月 2 日にニュージャージー州プリンストンで生まれ、カリフォルニア州メンローパークのメタプラットフォームで働いている人の名前を教えてください。」

書き直す必要があるコンテンツは次のとおりです。図 7: 有名人の伝記データセットに対する対照実験

# Author Itモデルは可逆知識圧縮と十分な知識強化を達成し、この知識をほぼ 100% 正しく抽出できましたが、微調整後もモデルは依然として知識の逆検索を実行できず、精度はほぼゼロであることが検証されました (参照)図7)。ただし、逆知識が事前トレーニングセットに直接現れると、逆検索の精度はすぐに向上します。言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

要約すると、逆の知識が事前学習データに直接含まれている場合にのみ、モデルは微調整を通じて逆の質問に答えることができます。しかし、これは実際には不正行為です。なぜなら、知識が逆になっている場合、それはもはや「知識の逆引き検索」ではありません。事前トレーニングセットに順方向の知識のみが含まれている場合、モデルは微調整を通じて質問に逆方向に答える能力を習得できません。したがって、知識のインデックス付け (知識データベース) に言語モデルを使用することは、現時点では不可能と思われます。

^{また、自己回帰言語モデル(GPTなど)が一方向であるため、上記の「逆知識探索」が失敗すると考える人もいるかもしれません。ただし、実際には、双方向言語モデル (BERT など) は知識抽出のパフォーマンスが低下し、前方抽出でも失敗します。興味のある読者は、論文の詳細情報を参照してください。}

以上が言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。