社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

WBOY

發布： 2023-05-17 14:58:13

轉載

1583 人瀏覽過

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

用ChatGPT寫程式碼，已經是不少程式設計師的常規操作了。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

△「至少提速3~5倍」

但你有沒有想過，ChatGPT產生的程式碼，有不少只是「看起來準確」而已？

來自伊利諾大學香檳分校和南京大學的一項最新研究表明：

ChatGPT和GPT-4生成程式碼的準確率，比之前評估的至少要降低13%！

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

有網友感嘆，太多ML論文都在用一些有問題或有限制的基準來評估模型，來短暫地達到“SOTA”，結果換個測評方法就現出原形了。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

還有網友表示，這也說明大模型產生的程式碼仍然需要人工監督，「AI寫程式碼的黃金時間還沒到呢」。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

所以，論文提出了一個怎樣的新評量方法？

為AI程式碼測驗加大難度

這個新方法叫做EvalPlus，是一個自動化程式碼評估框架。

具體來說，它會透過改進現有評估資料集的輸入多樣性和問題描述準確性，來將這些評估基準變得更嚴格。

一方面是輸入多樣性。 EvalPlus會先根據標準答案，用ChatGPT產生一些種子輸入範例（雖然要測ChatGPT的程式設計能力，但用它產生種子輸入似乎也不矛盾doge）

隨後，用EvalPlus改進這些種子輸入，將它們改得更難、更複雜、更刁鑽。

另一方面是問題描述準確性。 EvalPlus會將程式碼需求描述改得更精確，在約束輸入條件的同時，補充自然語言問題描述，以提高對模型輸出的精確度要求。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

這裡，論文選擇了HUMANEVAL資料集作為示範。

HUMANEVAL是OpenAI和Anthropic AI一起製作的程式碼資料集，包含164個原始程式設計題，涉及語言理解、演算法、數學和軟體面試幾種類型的題目。

EvalPlus會透過改進這類資料集的輸入類型和功能描述，讓程式設計問題看起來更清晰，同時用於測試的輸入更「刁鑽」或更困難。

以其中的一道求並集程式設計題為例，請AI寫一段程式碼，找出兩個資料列表中的共同元素，並給這些元素排序。

EvalPlus用它來測測ChatGPT寫的程式碼準確度。

在進行簡單輸入測試後，發現 ChatGPT 能夠輸出準確的答案。但如果換個輸入，就找出了ChatGPT版程式碼的bug：

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

#屬實是給AI們加大了考題難度。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

基於這套方法，EvalPlus也做了一個改進版HUMANEVAL 資料集，增加輸入的同時，修正了一些HUMANEVAL裡面答案就有問題的程式題。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

那麼，在這套「新考題」下，大語言模型們的準確率其實要打幾折？

LLM程式碼準確率平均降低15%

作者們測試了目前比較受歡迎的10種程式碼產生AI。

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。

從表格中來看，經過嚴格測試後，這群AI的生成準確率都有所下降：

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

##這裡會透過一種名叫pass@k的方法評估準確率，其中k是允許大模型給問題產生的程式數量，n是用來測試的輸入數量，c是正確的輸入數量：

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

根據新的這套評估標準，大模型們的準確率平均下降了15%，其中比較廣泛研究的CODEGEN-16B更是下降了超過18%。

至於ChatGPT和GPT-4產生程式碼的效能，也下降了至少13%。

不過，也有網友表示，大模型產生的程式碼效果沒那麼好，已經是「眾所周知的事實」了，需要研究的是「為什麼大模型寫的程式碼不能用」。

ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了

以上是ChatGPT編程準確率暴降13%！ UIUC&南大新基準讓AI程式碼現原形了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

chatgpt gpt-4

來源：51cto.com

上一篇：如虎添翼，六個讓你效率翻倍的ChatGPT插件下一篇：Google深夜王炸級更新！ PaLM 2大模型震撼發售！ Bard寫程式碼，哪裡不懂點哪裡！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

將物件推送到數組，組合式API 有一個項目。有兩個選擇選項“size”（大，小）和數量（2/4/6）。當選擇每個選項時，需要在標題中顯示所選內容（假設為小和4）。點擊「新增到儲存」按鈕後，它將新增到儲存中，在另一...

來自於 2024-04-05 14:41:47

0

1

1526

嘗試將資料插入到列中我有一個名為design_designs的表該表包含4列：id、key、value、nonceId我正在嘗試運行查詢以插入表中：INSERTINTOdesign_designs(k...

來自於 2024-04-05 11:23:51

0

1

316

我該如何調整這些卡，使其能夠使用 Boostrap 4 做出回應？如何讓每個row顯示4張卡片，當然，如果螢幕尺寸發生變化，則使它們堆疊起來。理想情況下，它們之間應該有一些空間。我已經嘗試了我能研究的所有可能的組合。 #cardsContaine...

來自於 2024-04-05 10:48:45

0

1

4072

我正在嘗試比較兩個不同表中兩列中的值我有兩個表，tableA和tableB。表A有4列，而表B有3列。表A的最後一列是空白，在這一列中我想顯示表A和B中第三列之間的差異。表A名稱=估值_平均值。表B名稱=估價_成本。...

來自於 2024-04-04 20:05:03

0

1

280

從表單中選擇選項時變更影像不透明度當我選擇值為1（萬事達卡）的選項時，如何才能將idMaster的圖像的不透明度更改為1？並將其放入一個適用於這4個值的函數中，每個值都有自己的id？我希望預設影像為0.3，當選擇其...

來自於 2024-04-03 23:00:48

0

2

304

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1423363
php入門教程之一週學會PHP

4268899
JAVA 初級入門影片教學

2537000
小甲魚零基礎入門學習Python影片教學

507502
PHP 零基礎入門教學

862843

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板