當ChatGPT參加中國高考，把全國A卷B卷餵給它後，竟嚴重偏科！-人工智慧-PHP中文網

當ChatGPT參加中國高考，把全國A卷B卷餵給它後，竟嚴重偏科！

王林

發布： 2023-05-26 15:37:06

轉載

1625 人瀏覽過

夕小瑤科技說原創
作者 | PythonChatGPT作為一個智慧人機對話應用，在推出後迅速風靡全球。僅僅一個月的時間，其用戶數已經突破了一億大關。人們也用ChatGPT測試了很多考試項目，例如SAT、AP、GRE等。然而，如果讓ChatGPT來參加我們中國的高考，會是怎樣的一番光景呢？他會不會偏科呢？我們這些普通人又能否考得ChatGPT呢？且看復旦大學和華東師大的同學們帶給大家的評測。

論文主題:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark
論文連結://m.sbmmt.com/link/de66dbc30377a1f7908db45298324aa3

##如何讓ChatGPT解答高考題？

論文採用零監督prompt的方式，將試題轉換為ChatGPT的輸入，如下圖所示。對於不同的學科和題型，設計了不同的詢問方式。對於數學題，則將公式轉換為latex輸入。

當ChatGPT參加中國高考，把全國A卷B卷餵給它後，竟嚴重偏科！

高考資料集

本文測驗採用2010~2022年，總共13年間的全國A捲和全國B卷，每套考卷包含10門學科，即語數英物化生史地政，其中數學分為理科數學與文科數學。

資料集總共包含2811道試題。具體題型這裡就不展開，相信讀者們對高考題還是十分了解的。

當ChatGPT參加中國高考，把全國A卷B卷餵給它後，竟嚴重偏科！

在評估時，聘請上海市曹楊第二中學的高中老師批閱主觀題。

實驗與分析

歷年高考，ChatGPT取得的分數如下圖所示。由於在計算分數時，每個科目都歸一化到100分，所以這個成績無法和你我的高考成績直接比較。但也可以看出，這個分數並不理想，估計無論是復旦或華東師大都是考不上的。這是為什麼呢？

當ChatGPT參加中國高考，把全國A卷B卷餵給它後，竟嚴重偏科！

上圖展示了ChatGPT在各個學科、以及主客觀題上的表現。藍色為客觀題，黃色為主觀題。分析發現，ChatGPT對客觀題的成績較好，尤其是英語閱讀理解、單選、完形填空，分別取得了88.3%，78.1%，73.8%的準確率。但即使是客觀題，理科數學的準確率還不到40%。數學是真的難呀~

主觀題上，ChatGPT的表現較差，物理、化學、生物和數學科目中，主觀題的表現明顯不如客觀題。結合理科客觀題分數也較差，或許ChatGPT偏向文科？根據閱卷者的評語，ChatGPT主要欠缺在：1.數學問題中的複雜方程式難以正確解決，在解題過程中使用了錯誤的公式。 2.閱讀較長資料時理解及概括能力不足。

總結

ChatGPT在訓練過程中可能沒有使用中國高考題數據，因此其表現不受資料外洩的影響，具有較高的可信度。

觀察結果顯示，與國外考試相比，ChatGPT在中國高考題的表現稍遜一籌。因此，國內的學生暫時無需過度擔心無法考過ChatGPT。然而，文章中提到的長文本概括能力等在GPT4-32K中有顯著改進，國產大模型也在中文數據上做了進一步的最佳化。因此，我們可以期待未來大模型高考題上會取得更矚目的表現。

此外，用ChatGPT解高考題這個思路，或許可以回答網友們對哪個省的考題更難的爭論？

以上是當ChatGPT參加中國高考，把全國A卷B卷餵給它後，竟嚴重偏科！的詳細內容。更多資訊請關注PHP中文網其他相關文章！