ChatGPT の 8 つの技術的問題についての推測-AI-php.cn

ChatGPT の華麗な誕生を目の当たりにして、喜び、驚き、パニックなど複雑な感情を抱いています。嬉しくもあり、驚きだったのは、これほど早く自然言語処理 (NLP) テクノロジーの大きな進歩を目撃し、一般テクノロジーの無限の魅力を体験できるとは思っていなかったということです。恐ろしいのは、ChatGPT は NLP のほとんどのタスクを高品質で完了でき、多くの NLP 研究方向が大きな課題に直面していることが徐々に分かってくることです。

全体として、ChatGPT の最も驚くべき点は、その多用途性です。GPT-3 と比較すると、GPT-3 では、あまり効果的ではないさまざまな NLP を実装するために非常に洗練されたプロンプトが必要です。機能により、ユーザーは次のことを行うことができなくなりました。プロンプトの存在を感じます。

ChatGPT は対話システムとして、理解から生成までのさまざまなタスクを達成するためにユーザーが自然に質問することを可能にし、そのパフォーマンスはオープンフィールドで現在の最高レベルにほぼ達しており、多くのタスクが実行されます。特定のタスク用に個別に設計されたモデルを超えて、コードプログラミングに優れています。

具体的には、Q&A、チャット、分類、要約、翻訳などの作業において、自然言語理解能力（特にユーザーの意図を理解する能力）が非常に顕著です。完全に正しいわけではないかもしれませんが、ほとんどの場合、ユーザーの意図を理解し、その理解能力は期待をはるかに超えています。

ChatGPT の生成能力は理解能力に比べて強力で、さまざまな質問に対して一定の論理と多様性のある長文を生成できます。一般に、ChatGPT はより優れており、AGI への初期段階にあり、いくつかの技術的なボトルネックが解決された後、より強力になります。

ChatGPT のパフォーマンス事例についてはすでに多くの概要が公開されていますが、ここでは主に ChatGPT の技術的な問題についての私の考えをまとめます。2 か月以上にわたる簡単な概要とみなすことができます。 ChatGPT との断続的なやり取り。 ChatGPTの具体的な実装技術や内容は当方では把握できておりませんので、ほぼ主観的な推測になりますが、間違いも多々あると思いますが、一緒に議論していただければ幸いです。

1. ChatGPT はなぜこれほど多機能なのでしょうか?

ChatGPT を使用する限り、これは従来の意味での人間とコンピューターの対話システムではなく、実際には対話として自然言語を使用する一般的な言語処理プラットフォームであることがわかります。方法。

2020 年の GPT-3 には一般的な機能のプロトタイプがありますが、対応する機能をトリガーするには慎重に設計されたプロンプトが必要です。ChatGPT を使用すると、ユーザーは非常に自然な質問を使用して正確に識別できます。機能。従来の方法では、多くの場合、最初にユーザーの意図を識別し、次にさまざまな意図に対応する関数を備えた処理モジュールを呼び出します。たとえば、ユーザーデータを通じて要約または翻訳の意図を識別し、次にテキストの要約または機械翻訳モデルを呼び出します。

オープンドメインの意図認識における従来の方法の精度は理想的ではなく、さまざまな機能モジュールが独立して動作し、情報を共有できないため、強力な NLP ユニバーサルプラットフォームを形成することが困難になります。 ChatGPT は分離モデルを打ち破り、異なる機能を区別しなくなり、会話プロセスにおける特定のニーズとして統合されます。では、なぜ ChatGPT はこれほど多機能なのでしょうか?この問題については私も考えていますが、実験による確認がないので推測するしかありません。

Google の命令チューニングの研究成果 FLAN によると、モデルが特定のサイズ (例: 68B) に達し、命令タスクの種類が特定の数 (例: 40) に達すると、モデルは新しい意図を持って現れる、認識能力。 OpenAIは、世界中のユーザーからさまざまなタスクタイプの対話データをオープンAPIから収集し、意図に応じて分類およびアノテーションを付けた後、175BパラメータGPT-3.5に対して命令チューニングを実行することで、普遍的な意図認識機能が自然に現れます。

2. なぜ会話中心の微調整では壊滅的な忘却の問題が発生しないのでしょうか?

壊滅的な忘却の問題は、深層学習において常に課題であり、多くの場合、特定のタスクでトレーニングした後、他のタスクのパフォーマンスが失われることが原因です。たとえば、30 億のパラメータを持つ基本モデルを最初に自動質疑応答データで微調整し、次に複数回の対話データで微調整すると、モデルの質疑応答能力が大幅に低下していることがわかります。 ChatGPT にはこの問題はないようです。基本モデル GPT-3.5 に対して 2 つの微調整が行われています。最初の微調整は手動で注釈が付けられた会話データに基づいており、2 番目の微調整は、人間のフィードバック。微調整に使用されるデータは非常に小さいです。人間によるフィードバックのスコアリングと並べ替えデータが少なく、特にデータが少なくなります。微調整後も、依然として強力な一般的な機能を示していますが、会話に完全に過剰適合しているわけではありません。タスク。

これは非常に興味深い現象ですが、検証する条件がない現象でもあります。憶測の理由は 2 つあります。1 つは、ChatGPT で使用される対話微調整データには、実際には非常に包括的な NLP タスクが含まれている可能性があります。InstructGPT の API を使用したユーザーの質問の分類からわかるように、多くの NLP タスクが含まれている可能性があります。その中には単純な会話ではなく、分類、質疑応答、要約、翻訳、コード生成などが含まれます。したがって、ChatGPT は実際には複数のタスクを同時に微調整します。十分な大きさがあるため、より小さいデータを微調整してもモデルは改善されません。影響は大きく、基本モデルのパラメーター空間の非常に狭い近傍でのみ最適化される可能性があるため、基本モデルの一般的な機能には大きな影響を与えません。

3. ChatGPT は、大規模なコンテキストに応じた継続的な対話機能をどのように実現しているのでしょうか?

ChatGPT を使用すると、非常に驚くべき能力に気づくでしょう。ChatGPT と 10 ラウンド以上対話した後でも、最初のラウンドの情報を記憶しており、ユーザーの情報に応じてより正確な情報を得ることができます。省略や参照などの言語現象を詳細に識別します。これらは私たち人間にとっては問題に思えないかもしれませんが、NLP 研究の歴史において、省略や参照などの問題は常に克服できない課題でした。さらに、従来の対話システムでは、対話ラウンドが多すぎると、トピックの一貫性を確保することが困難になります。

しかし、ChatGPT ではこの問題はほとんどなく、ラウンドが増えても会話の話題の一貫性と焦点を維持できるようです。この能力は 3 つの源から来ているのではないかと推測されています。まず、高品質なマルチターン対話データが基盤であり、鍵となります。Google の LaMDA と同様に、OpenAI も手動アノテーションを使用して、大量の高品質なマルチターン対話データを構築します。モデルの複数ラウンドの対話を刺激します。

第二に、人間のフィードバックに基づく強化学習により、モデルの応答の擬人化が改善され、複数ラウンドの対話におけるモデルの一貫性能力も間接的に強化されます。最後に、このモデルの 8192 言語単位 (トークン) の明示的なモデリング能力により、一般人のほぼ 1 日分の会話データを記憶することができます。会話のやり取りでこの長さを超えることは困難です。そのため、すべての会話履歴を効果的に記憶できます。これにより、複数回連続して会話を行う能力が大幅に向上します。

4. ChatGPT の対話型修正機能はどのように開発されていますか?

インタラクティブな修正能力は、知能の高度な表現であり、私たちにとっては当たり前のことが、機械にとっては弱点となります。コミュニケーションの過程において問題点が指摘された場合には、直ちに問題点を認識し、迅速かつ正確に情報を修正します。機械が問題を認識し、問題の範囲を特定し、対応する情報を各段階で修正することは容易ではありません。 ChatGPT が登場するまでは、強力な対話型修正機能を備えた一般的なモデルは存在しませんでした。

ChatGPT と対話すると、ユーザーが以前の発言を変更した場合でも、ChatGPT の返信の問題点を指摘した場合でも、ChatGPT は変更の意図を捉え、それを正確に識別できることがわかります。修正する必要があるものは最終的に修正できます。

これまでのところ、インタラクティブな修正能力に直接関係するモデル関連の要因は見つかっておらず、ChatGPT にリアルタイムで学習する能力があるとは考えていません。 ChatGPT は会話を再開しても間違いを犯す可能性がある一方で、基本的な大規模モデルの最適化学習は常に高頻度のデータから頻繁に発生するパターンを要約しており、更新が難しいという同じ間違いがあります。とにかく基本モデルを 1 回の会話で理解できます。

私は、これは基本的な言語モデルの歴史的な情報処理技術であると考えています。不確実な要素としては、次のものが挙げられます。

OpenAI の人工的に構築された対話データには、いくつかのインタラクティブな修正ケースが含まれており、微調整後にこのような機能が備わっています;
人工フィードバックの強化学習により、モデル出力は人間の好みにより一致するため、情報修正などの会話では、人間の修正意図とより一致します;
大規模なモデルが到達した後は、可能性があります。特定のスケール (例: 60B)、元のトレーニングデータモデル内の対話型修正ケースが学習され、モデルの対話型修正の能力が自然に現れました。

5. ChatGPT の論理的推論能力はどのようにして習得されますか?

ChatGPT に論理的推論に関するいくつかの質問をすると、直接答えは返されませんが、詳細な論理的推論の手順が示され、最終的に推論の結果が得られます。同じ檻の中のニワトリとウサギなどの多くのケースは、ChatGPT が推論の本質を学習しておらず、推論の表面的なロジックを学習しただけであることを示していますが、表示される推論のステップとフレームワークは基本的に正しいです。

基本的な論理的推論パターンを学習する言語モデルの能力は予想を大きく上回っており、その推論能力の起源を追跡することは非常に興味深い問題です。関連する比較研究では、モデルが十分に大きく、プログラムコードとテキストデータがトレーニング用に混合されている場合、プログラムコードの完全な論理チェーンが大規模な言語モデルに移行され、一般化されるため、大規模なモデルは特定の言語モデルを備えていることがわかりました。推論能力。

この種の推論能力の獲得は、少し魔法のようですが、理解できることでもあります。コードコメントは、論理コードから言語への推論能力の伝達と一般化の橋渡しとなるのかもしれません。大型モデル。多言語機能も同様である必要があります。 ChatGPT のトレーニングデータのほとんどは英語であり、中国語のデータはほとんど含まれていませんが、ChatGPT の中国語機能は英語ほどではないものの、それでも非常に強力であることがわかりました。トレーニングデータ内の一部の中国語と英語の並列データは、英語能力を中国語能力に移行するための橋渡しとなる可能性があります。

6. ChatGPT は、ダウンストリームタスクごとに異なるデコード戦略を使用しますか?

ChatGPT には多くの驚くべきパフォーマンスがあり、その 1 つは、同じ質問に対して複数の異なる応答を生成できることで、非常にスマートに見えます。

たとえば、ChatGPT の回答に満足できない場合は、「再生成」ボタンをクリックすると、すぐに別の回答が生成されます。それでも満足できない場合は、続行できます。それを再生させるために。これは NLP の分野では不思議ではなく、言語モデルの場合、サンプリングデコードという基本的な機能です。

テキストフラグメントの後には、別の単語が続く場合があります。言語モデルは、各単語が出現する確率を計算します。デコード戦略によって出力の確率が最も高い単語が選択される場合、毎回結果が決まってしまうため、ダイバーシティ応答を生成することはできません。たとえば、語彙出力の確率分布に従ってサンプリングが実行される場合、「戦略」の確率が 0.5、「アルゴリズム」の確率が 0.3 である場合、デコード出力「戦略」をサンプリングする確率は 50% になります。出力「アルゴリズム」の確率は 30% であるため、出力の多様性が保証されます。確率分布に従ってサンプリング処理が行われるため、出力結果が多様であっても、毎回確率の高い結果が選択されるため、さまざまな結果が比較的合理的に見えます。さまざまな種類のタスクを比較すると、ChatGPT の応答の多様性はダウンストリームタスクごとに大きく異なることがわかります。

「どのように」「なぜ」といった「どのように」「なぜ」のタスクに関して、再生成された返信は、表現や具体的な点で前の返信とは大きく異なります。内容違い: 機械翻訳や数学の文章問題などの「何を」するタスクの場合、さまざまな応答間の違いは非常に微妙で、場合によってはほとんど変化がありません。それらがすべて確率分布のサンプリングデコードに基づいているのであれば、なぜ異なる応答間の差がこれほど小さいのでしょうか?

理想的な状況は、「何を」タイプのタスクに基づいて大規模モデルによって学習された確率分布が非常にシャープ (シャープ) であることだと思います。たとえば、学習された「戦略」です。確率は 0.8、「「アルゴリズム」の確率は 0.1 であるため、ほとんどの場合同じ結果がサンプリングされます。つまり、前の例では「戦略」がサンプリングされる可能性の 80% です。大規模なアルゴリズムによって学習された確率分布「How」と「Why」タイプのタスクに基づくモデル。比較的スムーズ（スムーズ）。たとえば、「戦略」の確率は 0.4、「アルゴリズム」の確率は 0.3 であるため、異なる時点で異なる結果をサンプリングできます。

ChatGPT がタスクに関連する非常に理想的な確率分布を学習できれば、非常に強力になり、サンプリングベースのデコード戦略はすべてのタスクに適用できます。通常、機械翻訳、数学的計算、事実に基づく質疑応答など、答えが比較的確実または 100% 確実であるタスクでは、貪欲なデコードが一般的に使用されます。つまり、確率が最も高い単語が毎回出力されます。。同じセマンティクスで多様な出力を出力したい場合は、列検索ベースのデコード方法が主に使用されますが、サンプリングベースのデコード戦略はほとんど使用されません。

ChatGPT とのやり取りから、すべてのタスクにサンプリングベースのデコード方法が使用されているようですが、これは非常に暴力的な美学です。

7. ChatGPT は事実の信頼性の問題を解決できますか?

回答の信頼性の欠如は、現在 ChatGPT が直面している最大の課題です。特に事実や知識に関する質問と回答の場合、ChatGPT は意味のないものをでっち上げたり、誤った情報を生成したりすることがあります。出典や参考文献を提供するように求められた場合でも、ChatGPT は存在しない URL や未公開のドキュメントを生成することがよくあります。

しかし、ChatGPT は通常、ユーザーに良い感覚を与えます。つまり、多くの事実や知識を知っているように見えます。実際、ChatGPT は大規模な言語モデルです。大規模な言語モデルの本質はディープニューラルネットワークです。ディープニューラルネットワークの本質は、高頻度のデータから関連するパターンを学習する統計モデルです。多くの一般的な知識や事実がトレーニングデータに頻繁に現れますコンテキスト間のパターンは比較的固定されています単語の予測確率分布は比較的シャープで、エントロピーは比較的小さいです大規模なモデルは覚えやすく、デコードプロセス中に正しい単語を出力します. 事実または知識。

しかし、非常に大規模なトレーニングデータであってもめったに現れないイベントや知識が多くあり、大規模なモデルでは関連するパターンを学習することができません。コンテキスト間のパターンは比較的緩く、予測された単語は確率分布は比較的滑らかで、エントロピーは比較的大きいため、大規模なモデルは推論プロセス中に不確実なランダム出力を生成する傾向があります。

これは、ChatGPT を含むすべての生成モデルに固有の問題です。 GPT シリーズのアーキテクチャが継続され、基本モデルが変更されない場合、ChatGPT 応答の事実信頼性の問題を解決することは理論的に困難です。検索エンジンとの組み合わせは現在非常に実用的な解決策となっており、検索エンジンは信頼できる事実情報源を探す役割を担い、ChatGPTは要約・要約する役割を担っています。

ChatGPT に事実に基づく回答の信頼性の問題を解決させたい場合は、モデルの拒否能力をさらに向上させる必要があるかもしれません。つまり、モデルが判断した質問を除外する必要があるかもしれません。 ChatGPT の返信の正しさを検証するモジュールを使用して、回答できない場合や事実検証も必要です。次世代の GPT がこの問題をブレークスルーできることが期待されています。

8. ChatGPTはリアルタイム情報の学習を実現できるのでしょうか？

ChatGPT の対話型修正機能により、リアルタイムの自律学習機能があるように見えます。

上で説明したように、ChatGPT は、ユーザーが提供した修正意図や修正情報に基づいて、関連する返信を即座に修正することができ、リアルタイム学習の能力を示しています。実際にはそうではなく、学習能力は、学習した知識が普遍的であり、別の機会や別の機会にも使用できることを反映していますが、ChatGPT はこの能力を実証しません。 ChatGPT は、現在の会話におけるユーザーのフィードバックに基づいてのみ修正を行うことができます。会話を再開して同じ問題をテストすると、ChatGPT は依然として同じまたは類似の間違いを犯します。

1 つの疑問は、なぜ ChatGPT が変更された正しい情報をモデルに保存しないのかということです。ここでの問題には 2 つの側面があります。まず、ユーザーからフィードバックされた情報が必ずしも正しいとは限らず、ChatGPT が意図的に不合理な回答をするように誘導される場合がありますが、これは ChatGPT が人間のフィードバックに基づく強化学習においてユーザーへの依存を深めてきたためであり、ChatGPT も同様です。このプロセスでは、ユーザーからのフィードバックに大きく依存します。第二に、たとえユーザーからフィードバックされた情報が正しいとしても、発生頻度が高くない可能性があるため、基本的な大規模モデルは低頻度データに基づいてパラメータを更新できず、そうでない場合、大規模モデルは一部のロングテールデータに過剰適合してしまい、汎用性が失われます。

したがって、ChatGPT をリアルタイムで学習することは非常に困難ですが、シンプルで直感的な解決策は、一定期間が経過するたびに新しいデータを使用して ChatGPT を微調整することです。または、トリガーメカニズムを使用して、複数のユーザーが同じまたは類似のフィードバックを送信したときにモデルのパラメーター更新をトリガーすることで、モデルの動的学習能力を強化します。

この記事の著者である Zhang Jiajun は、中国科学院オートメーション研究所の研究者です。元のリンク:

https://zhuanlan .zhihu.com/p/606478660

以上がChatGPT の 8 つの技術的問題についての推測の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。