InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください-AI-php.cn

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

王林

リリース： 2023-04-24 16:04:10

転載

1352 人が閲覧しました

ChatGPT が普及してから、テクノロジーに注目する多くの学生が「ChatGPT の背後にある原理を体系的に理解できる学習教材はありますか?」という質問をしています。 OpenAI が ChatGPT に関連する論文をリリースしていないため、この問題は厄介になります。

ただし、ChatGPT に関する OpenAI のブログから、ChatGPT で使用されるメソッドは、 InstructGPT が GPT-3 で微調整されていることを除いて、その兄弟モデルである InstructGPT と同じであることがわかります。 ChatGPT は GPT-3.5 に基づいています。データ収集の点でも、両者にはいくつかの違いがあります。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

# ブログリンク: https://openai.com/blog/chatgpt/

InstructGPT の論文は 2022 年 3 月にリリースされましたが、OpenAI は早くも 1 月に関連ブログを公開しました (「GPT-3 ナンセンスをどうするか? OpenAI: 再トレーニングした」を参照)新しいバージョンはより「従順」です)。その際、OpenAI は、InstructGPT が GPT-3 を微調整するためにヒューマンフィードバックの強化学習法 (RLHF) を使用し、モデルの出力を人間の好みとより一致させることを明確に述べましたが、これは ChatGPT のトレーニングでも継続されています。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

# 論文リンク: https://arxiv.org/pdf/2203.02155.pdf

さらに、InstructGPT と ChatGPT の間には多くの類似点があります。したがって、InstructGPT の論文を徹底的に理解することは、ChatGPT の方向で何らかの作業を行いたい学生にとって非常に役立ちます。だからこそ、私たちは李牧の講義を強くお勧めします。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

コースアドレス: https://jmq.xet.tech/s/2lec6b (「読む」をクリック元のテキスト」に直接アクセスできます)

リー・ムー博士はアマゾンの上級主任科学者です。彼は以前にアストン・チャンと「ハンズオンディープラーニング」を共著しました。その他。過去 2 年間、彼はビデオを通じてさまざまな AI の知識を皆さんに紹介し、数十の論文に関する精読コースを制作してきました。多くの学生は李牧と一緒に論文を集中的に読む習慣を身につけました。

ステーション B の Li Mu 博士のアカウントは「Li Mu から AI を学ぶ」です。

InstructGPT の解釈コースは合計 67 分で、基本的に論文の執筆順に紹介されます。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

ChatGPT ブログを読んだ学生は、その技術原則が基本的に 1 つの図に要約できることを知っています。また、InstructGPT の論文にすでに掲載されている画像もあります (この 2 つには微妙な違いがあります)。論文の要約と序文を解釈する際、Li Mu 氏は図の 3 つのステップを詳細に紹介しました。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

ChatGPT ブログの技術図。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

InstructGPT 論文の技術図。

論文の第 3 章では、InstructGPT の著者が最初にデータ取得方法とプロセスを紹介し、Li Mu も全員にそれを詳しく読んでもらいました。この部分はエンジニアリングにおいて非常に価値があります。 Li Mu 氏が言ったように、これまでにこのようなこと (データのラベル付けなど) を行ったことがなく、データのラベル付けを手伝ってくれる人を探す必要がある場合は、直接使用できる多くのテンプレートが含まれている付録を参照してください。この論文の著者は、注釈付き Web サイトの UI がどのようなものであるかについても説明しており、学ぶ価値があります。

次に、Li Mu は、第 3 章で書かれた 3 つのモデル (「3.5 モデル」を参照)、SFT (教師あり微調整) モデル、RM (報酬モデリング) モデル、および RL (強化学習) モデルに焦点を当てました。これらのモデルに関係するパラメーターや目的関数などの詳細。

最後に、Li Mu 氏は、技術的に言えば、InstructGPT は依然として非常に実用的なテクノロジであると結論付けました。これは、大規模な言語モデルが与えられた場合、注釈付きデータを使用して実用的なものにすることで、関心のある分野でそのパフォーマンスを迅速に向上させるにはどうすればよいかという方法を全員に伝えます。したがって、生成モデルを使用して製品を作成したい人に運用上のアイデアを提供します。

もちろん、Li Mu 博士が言ったように、科学研究の作業は段階的に行われ、InstructGPT も以前の研究に基づいているため、ChatGPT を徹底的に理解したい学生は、必然的に戻って読む必要があり、さらに多くの論文が必要になります。以前のコースで、Li Mu は GPT、GPT-2、および GPT-3 の論文も詳細に解釈しました。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください