文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁 > 科技週邊 > 人工智慧 > 主體

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

王林

發布： 2023-12-04 14:25:45

轉載

1121 人瀏覽過

微軟最新研究再次證明了提示工程的威力——

無需額外微調，無需專家策劃，僅憑提示，GPT-4就能化身「專家」。

使用他們提出的最新提示策略Medprompt，在醫療專業領域，GPT-4在MultiMed QA九個測試集中取得最佳結果。

在MedQA資料集(美國醫師執照考試題)上，Medprompt讓GPT-4的準確率首次超過90%，超越BioGPT和Med-PaLM等一眾微調方法。

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

研究人員也表示Medprompt方法是通用的，不僅適用於醫學，還可以推廣到電機工程、機器學習、法律等專業。

這項研究在X（原Twitter）一分享，就引發許多網友關注。

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

華頓商學院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉寄分享。

Carlos E. Perez直呼「出色的提示策略可以甩微調一大截」：

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

有一些網友表示早就有這種預感，現在能看到結果出來，真的太酷了！

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

有些網友認為這真的很「激進」

GPT-4是一項能改變產業的技術，而我們還遠沒有觸及提示的極限，也未達微調極限。

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

組合提示策略，「變身」專家

Medprompt是多種提示策略的組合體，包含三大法寶：

動態少樣本選擇（Dynamic few-shot selection）
自生成思維鏈（Self-generated chain of thought）
選項洗牌整合（Choice shuffling ensemble )

接下來，我們將逐一介紹

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

#動態少樣本選擇

少樣本學習是讓模型快速學習情境的一種有效的方法。簡單來說，就是輸入一些範例，讓模型快速適應特定領域，並學習遵循任務的格式。

這種用於特定任務提示的少樣本範例通常是固定的，所以對範例的代表性和廣泛性有較高的要求。

之前一種方法是讓領域專家手動製作範例，但即便如此，也不能保證專家策劃的固定的少樣本範例在每個任務中都有代表性。

微軟研究人員提出了一種動態少樣本範例的方法，因此

想法是，任務訓練集可以作為少樣本範例的來源，如果訓練集足夠大，那就可以為不同的任務輸入選擇不同的少樣本範例。

在特定操作上，研究人員首先使用text-embedding-ada-002模型為每個訓練樣本和測試樣本產生向量表示。然後，針對每個測試樣本，透過比較向量的相似度，從訓練樣本中選擇出與之最相似的k個樣本

與微調方法相比，動態少樣本選擇利用了訓練數據，但不需要對模型參數進行大量更新。

自生成思維鏈

思考鏈（CoT）方法是一種讓模型逐步思考並產生一系列中間推理步驟的方法

以前的方法是依靠專家手動編寫一些帶有提示思維鏈的範例

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

在這裡，研究人員發現，可以簡單地要求GPT-4使用以下提示為訓練範例產生思維鏈：

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

但研究人員也指出這種自動生成的思維鏈可能包含錯誤的推理步驟，於是設置了一個驗證標籤作為過濾器，可以有效減少錯誤。

與在Med-PaLM 2模型中專家手工製作的思維鏈範例相比，GPT-4產生的思維鏈基本原理更長，而且逐步推理邏輯更細粒度。

選項洗牌整合

GPT-4在處理選擇題時可能存在一種偏見，即無論選項的內容是什麼，它傾向於總是選擇A或總是選擇B ，這就是位置偏差

為了解決這個問題，研究人員決定對原有的選項進行順序重排，以減少影響。例如，原本的選項順序為ABCD，可以改為BCDA、CDAB等

然後讓GPT-4做多輪預測，每輪使用選項的一個不同排列順序。如此一來「迫使」GPT-4考慮選項的內容。

最後對多輪預測結果做個投票，選擇最一致、正確的選項。

將以上幾個提示策略組合在一起就是Medprompt，以下來看測試結果。

多項測試最優

在測試中，研究人員採用了MultiMed QA評估基準。

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

使用Medprompt提示策略的GPT-4，在MultiMedQA的九個基準資料集中均取得最高分，優於Flan-PaLM 540B、Med-PaLM 2。

此外，研究人員也討論了Medprompt策略在「Eyes-Off」資料上的表現。所謂「Eyes-Off」數據，指的是模型在訓練或優化過程中未曾見過的數據，用於檢驗模型是否過度擬合訓練數據

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

結果GPT-4結合Medprompt策略在多個醫學基準資料集上表現出色，平均準確率達到了91.3%。

研究人員對MedQA資料集進行了消融實驗，以探索三個組件對整體表現的相對貢獻

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

在其中，自動產生思維鏈步驟對於效能的提升起著最大的作用

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

GPT-4自動產生的思維鏈分數比Med-PaLM 2中專家策劃的得分更高，且不需要人工幹預

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

最後，研究人員也探討了Medprompt的跨域泛化能力，取用了MMLU基準中的六個不同的資料集，涵蓋了電機工程、機器學習、哲學、專業會計、專業法律和專業心理學的問題。

也增加了另外兩個包含NCLEX（美國護理師執照考試）問題的資料集。

結果顯示，Medprompt在這些資料集上的效果與在MultiMedQA醫學資料集上的提升幅度相近，平均準確率提高了7.3%。

微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%

請點選以下連結查看論文：https://arxiv.org/pdf/2311.16452.pdf

以上是微軟僅憑「提示工程」讓GPT-4成醫學專家！超過一眾高度微調模型，專業測試準確率首次超90%的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

數據模型

來源：51cto.com

上一篇：「新人工智慧時代的MBA教育」研討會在京隆重舉行下一篇：開發者必備的五類AI工具，不容錯過！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

創造未來：零基礎的 Java 編程

2024-10-13 13:32:21
你並不孤單：在社群的支持下掌握 Python

2024-10-12 11:58:51
從新手到程式設計師：利用 Python 程式設計的力量

2024-10-11 20:06:51
像程式設計師一樣思考：學習 Java 基礎知識

2024-10-11 18:59:31
Java 變得簡單：程式設計能力的初學者指南

2024-10-11 18:30:51
使用 PHP 建立部落格：一個適合初學者的項目

2024-10-11 15:51:51
講系統語言：學習 C，一次一行

2024-10-11 15:42:10
C 語言的資料結構與演算法：適合初學者的方法

2024-10-11 14:41:20
不流淚編碼：輕鬆學習 C

2024-10-11 14:08:31
使用 Java 進行資料分析：資訊處理初學者指南

2024-10-11 13:42:21

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1414603
php入門教程之一週學會PHP

4252723
JAVA 初級入門影片教學

2459841
小甲魚零基礎入門學習Python影片教學

502466
PHP 零基礎入門教學

842465

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！