社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

王林

發布： 2023-06-07 19:37:44

轉載

790 人瀏覽過

最近，Matthias Plappert的一篇推文點燃了LLMs圈的廣泛討論。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

Plappert是一位知名的電腦科學家，他在HumanEval上發布了自己對AI圈主流的LLM進行的基準測試結果。

他的測試偏向程式碼產生方面。

結果令人大為不震撼，又大為震撼。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

意料之內的是，GPT-4毫無疑問霸榜，摘得第一名。

意料之外的是，OpenAI的text-davinci-003異軍突起，拿了個第二。

Plappert表示，text-davinci-003堪稱一個「寶藏」模型。

而耳熟能詳的LLaMA在程式碼產生方面卻並不出色。

OpenAI霸榜

Plappert表示，GPT-4的表現表現甚至比文獻中的數據還要好。

論文中GPT-4的一輪測試數據是67%的通過率，而Plappert的測試則達到了73%。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

在分析成因時，他表示，資料上存在差異有不少可能性。其中之一是他給GPT-4的prompt要比論文作者測試的時候好上那麼一些。

另一個原因是，他猜測論文在測試GPT-4的時候模型的溫度（temperature）不是0。

「溫度」是用來調整模型生成文字時創造性和多樣性的參數。「溫度」是一個大於0的數值，通常在 0 到 1 之間。它影響模型生成文本時採樣預測詞彙的機率分佈。

當模型的「溫度」較高時（如0.8、1 或更高），模型會更傾向於從較多樣且不同的詞彙中選擇，這使得生成的文字風險性更高、創意性更強，但也可能產生更多的錯誤和不連貫之處。

而當「溫度」較低時（如0.2、0.3 等），模型主要會從具有較高機率的詞彙中選擇，從而產生更平穩、更連貫的文本。

但此時，產生的文字可能會顯得過於保守和重複。

因此在實際應用中，需要根據具體需求來權衡選擇合適的「溫度」值。

接下來，在評論text-davinci-003時，Plappert表示這也是OpenAI旗下一個很能打的模型。

雖然不比GPT-4，但是一輪測試有62%的通過率還是能穩穩拿下第二名的寶座。

Plappert強調，text-davinci-003最好的一點是，使用者不需要使用ChatGPT的API。這意味著給prompt的時候能簡單一點。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

此外，Plappert也給予了Anthropic AI的claude-instant模型比較高的評估。

他認為這個模型的表現不錯，比GPT-3.5能打。 GPT-3.5的通過率是46%，而claude-instant是54%。

當然，Anthropic AI的另一個LLM——claude，沒有claude-instant能打，通過率只有51%。

Plappert表示，測試兩個模型用的prompt都一樣，不行就是不行。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

除了這些熟能詳的模型，Plappert也測試了不少開源的小模型。

Plappert表示，自己能在本地運行這些模型，這點還是不錯的。

不過從規模上看，這些模型顯然沒有OpenAI和Anthropic AI的模型大，所以硬拿它們對比有點以大欺小了。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

LLaMA程式碼產生？拉胯

當然，Plappert對LLaMA的測試結果並不滿意。

從測試結果來看，LLaMA在產生程式碼方面表現很差勁。可能是因為他們在從GitHub收集資料時採用了欠採樣的方法（under-sampling）。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

就算和Codex 2.5B相比，LLaMA的表現也不是個兒。（通過率10% vs. 22%）

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

最後，他測試了Replit的3B大小的模型。

他表示，表現還不錯，但和推特上宣傳的數據相比差點意思（通過率16% vs. 22%）

Plappert認為，這可能是因為他在測試這個模型時所用的量化方式讓通過率掉了幾個百分比。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

在評測的最後，Plappert提到了一個很有趣的點。

某位用戶在推特上發現，當使用Azure平台的Completion API（補全API）（而非Chat API）時，GPT-3.5-turbo的效能表現更好。

Plappert認為這種現象具有一定合理性，因為透過Chat API輸入prompt可能會相當複雜。

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

#

以上是OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

電腦程式碼

上一篇：程式設計師問答平台 Stack Overflow 版主罷工，抗議公司允許 AI 生成內容湧入網站下一篇：未來的工作：適應自動化與人工智慧

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

叉子

2025-02-28 14:39:11
培訓大語言模型：從TRPO到GRPO

2025-02-26 04:41:08
託管開源LLM的經濟學

2025-02-26 03:15:10
當機器提前思考時：戰略AI的興起

2025-02-26 03:06:12
了解chatgpt的演變：第3部分 - Codex和Consendgpt的見解

2025-02-26 02:58:10
LLM中具有稀疏自動編碼器的特徵電路的配方

2025-02-26 01:46:08
封閉式學習背後的數學

2025-02-26 00:03:10
從簡歷到求職信，使用AI和LLM，帶有Python和簡化

2025-02-25 23:59:12
我們需要的一切嗎？

2025-02-25 19:49:12
AI驅動的信息提取和對接

2025-02-25 19:27:13

最新問題

有代碼？

來自於 1970-01-01 08:00:00

0

0

0

代碼拷貝的位址現在打開後不是代碼

來自於 1970-01-01 08:00:00

0

0

0

nginx - 什麼是正向代理,反向代理

來自於 1970-01-01 08:00:00

0

0

0

沒課件代碼下載啊。

來自於 1970-01-01 08:00:00

0

0

0

CentOS7 安裝Docker後啟動失敗

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1434812
php入門教程之一週學會PHP

4293029
JAVA 初級入門影片教學

2646517
小甲魚零基礎入門學習Python影片教學

515617
PHP 零基礎入門教學

875429

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板