Microsoft は、「プロンプトプロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えました-AI-php.cn

Microsoft は、「プロンプトプロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えました

王林

リリース： 2023-12-04 14:25:45

転載

1373 人が閲覧しました

Microsoft の最新の研究は、プロンプトプロジェクト -

追加の微調整や専門家による計画を行わなくても、GPT-4 はプロンプトだけで「エキスパート」になることができることを再度証明しています。

彼らが提案した最新のプロンプト戦略 Medprompt を使用して、医療専門家の分野では、GPT-4 は MultiMed QA の 9 つのテストセットで最高の結果を達成しました。

MedQA データセット (米国医師免許試験問題) において、Medprompt は GPT-4 の精度を初めて 90% を超え、 は BioGPT および Med-PaLM# を上回りました。 ## 多数の微調整方法を待っています。

研究者らはまた、Medprompt 手法は普遍的であり、医学に適用できるだけでなく、電気工学、機械学習、法律、その他の専攻にも拡張できると述べています。

この研究はX（旧Twitter）で共有されるとすぐに、多くのネチズンの注目を集めました。

ウォートンスクール教授のイーサンモリック氏、人工直観の著者カルロス E. ペレス氏などがこの情報を転送し、共有しました。

カルロス E. ペレス氏は、「優れたプロンプト戦略には多くの微調整が必要です」と呼びかけました。

一部のネチズンは、この予感は長い間ありましたが、今結果が出ているのを見るのは本当に素晴らしいです!

一部のネチズンはこれが本当に「過激」であると考えています

GPT-4 は業界を変えることができるテクノロジーですが、まだ遠いです離れていますプロンプトの制限に達しておらず、微調整の制限にも達していません。

プロンプト戦略を組み合わせてエキスパートに「変身」

Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略を組み合わせたものです:

自己生成の思考連鎖
選択シャッフルアンサンブル)

次に、それらを紹介します。 by one

動的少数サンプル選択

少数サンプル学習はモデルを高速化するためのものです。コンテキストを学習する効果的な方法です。簡単に言えば、いくつかの例を入力し、モデルを特定のドメインに迅速に適応させ、タスクの形式に従うことを学習します。

特定のタスクプロンプトに使用されるこの種の少数サンプルの例は、通常

固定であるため、例の代表性と幅広さについては高い要件が求められます。

以前の方法は、ドメインの専門家が

手動でサンプルを作成するというものでしたですが、それでも、専門家が厳選した固定の少数サンプルのサンプルが各タスクを代表するものであるという保証はありません。

マイクロソフトの研究者は、動的少数ショット例の方法を提案しました。したがって、

アイデアは、タスクトレーニングセットを少数ショット例のソースとして使用できるということです。が十分に大きい場合、さまざまなタスク入力に対してさまざまな数ショットの例を選択できます。

具体的な操作に関しては、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニングサンプルとテストサンプルのベクトル表現を生成しました。次に、各テストサンプルについて、ベクトルの類似性を比較することにより、最も類似した k 個のサンプルがトレーニングサンプルから選択されます。

微調整方法と比較して、動的少数ショット選択はトレーニングを利用します。ただし、モデルパラメータの大規模な更新は必要ありません。

自己生成の思考連鎖

思考連鎖 (CoT) メソッドは、モデルに段階的に思考させ、一連の中間推論ステップを生成させるメソッドです

これまでの方法は専門家に依存していました迅速な思考連鎖を備えたいくつかの例を手動で作成しました

ここで、研究者らは、次のプロンプトを使用して、GPT-4 にトレーニング例の思考連鎖を生成するよう簡単に依頼できることを発見しました:

しかし、研究者らは、この自動的に生成された思考チェーンには間違った推論ステップが含まれている可能性があるとも指摘したため、効果的にエラーを減らすことができるフィルターとして検証タグを設定しました。

Med-PaLM 2 モデルの専門家によって手作りされた思考チェーンの例と比較して、GPT-4 によって生成された思考チェーンの基本原理は長く、段階的な推論ロジックは次のとおりです。よりきめ細かい。

オプションシャッフル統合

GPT-4 は、多肢選択問題を扱うときにバイアスがある可能性があります。つまり、質問の内容に関係なく、常に A を選択するか、常に B を選択する傾向があります。オプションは、これは位置の偏差です。

この問題を解決するために、研究者たちは元のオプションの順序を並べ替えて影響を軽減することにしました。たとえば、元のオプションの順序は ABCD ですが、BCDA、CDAB などに変更できます。

次に、各ラウンドで異なるオプションの順序を使用して、GPT-4 に複数のラウンドの予測を実行させます。これにより、GPT-4 はオプションの内容を考慮するように「強制」されます。

最後に、複数ラウンドの予測の結果に投票し、最も一貫性があり正しい選択肢を選択します。

上記のプロンプト戦略を組み合わせたものが Medprompt です。テスト結果を見てみましょう。

最適な複数テスト

このテストでは、研究者は MultiMed QA 評価ベンチマークを使用しました。

Medprompt プロンプト戦略を使用する GPT-4 は、MultiMedQA の 9 つのベンチマークデータセットすべてで最高スコアを達成し、Flan-PaLM 540B および Med-PaLM 2 よりも優れています。。

さらに、研究者らは、「アイズオフ」データに対する Medprompt 戦略のパフォーマンスについても議論しました。いわゆる「アイズオフ」データとは、トレーニングまたは最適化プロセス中にモデルが一度も見たことのないデータを指し、モデルがトレーニングデータを過学習しているかどうかをテストするために使用されます

#結果 GPT-4 と Medprompt 戦略の組み合わせは、複数の医療ベンチマークデータセットで良好なパフォーマンスを示し、平均精度は 91.3% でした。

研究者らは、全体的なパフォーマンスに対する 3 つのコンポーネントの相対的な寄与を調査するために、MedQA データセットでアブレーション実験を実施しました。

思考連鎖が自動的に生成されるこのステップはパフォーマンス向上に最大の役割を果たします

GPT-4 によって自動的に生成された思考連鎖のスコアは、Med-PaLM 2 の専門家によって計画されたスコアよりも高く、

#最後に、研究者らは、MMLU ベンチマークからの 6 つの異なるデータセットを使用して、電気工学、機械学習をカバーする Medprompt のクロスドメイン汎化機能も調査しました。、哲学、専門的な会計、専門的な法律、専門的な心理学の問題。

NCLEX (看護師国家試験) の問題を含む 2 つのデータセットも追加されました。

結果は、これらのデータセットに対する Medprompt の効果が MultiMedQA 医療データセットの改善と同様であり、平均精度が 7.3% 向上したことを示しています。

論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/pdf/2311.16452.pdf

以上がMicrosoft は、「プロンプトプロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft は、「プロンプト プロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えました

オプション シャッフル統合

最適な複数テスト

Microsoft は、「プロンプトプロジェクト」だけで GPT-4 を医療専門家に変えました。十数種類の高度に微調整されたモデルにより、プロによるテスト精度が初めて 90% を超えました

オプションシャッフル統合