社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性

CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性

PHPz

發布： 2023-12-21 08:13:38

轉載

867 人瀏覽過

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

GoogleGemini的實力究竟如何？卡內基美隆大學進行了一項專業客觀的第三方比較

為保證公平，所有模型使用相同的提示和生成參數，並提供可重複的程式碼和完全透明的結果。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

不會像Google官方發表會那樣，用CoT@32比較5-shot了。

一句話結果：Gemini Pro版本接近但略遜於GPT-3.5 Turbo，GPT-4還是遙遙領先。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

在深入分析中也發現Gemini一些奇怪特性，例如選擇題喜歡選D##…

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

有許多研究者表示，Gemini剛發布沒幾天就進行了非常詳細的測試，這是非常了不起的成就

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

六大任務深入測試

這個測試具體比較了6個不同的任務，並且為每個任務選擇了對應的資料集

數學：GSM8k、SVAMP、ASDIV、MAWPS
程式碼：HumanEval、ODEX
##翻譯：FLORES
#上網衝浪：WebArena
知識問答：喜歡選D

根據結果可以看出，在這類任務中使用思維鏈提示並不一定能夠提升效果

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复在MMLU資料集中，所有的題目都是多選題。進一步分析結果後，發現了一個奇怪的現象：Gemini更喜歡選擇D選項

GPT系列在4個選項上的分佈就要平衡很多，團隊提出這可能是

Gemini沒針對多選題做大量指令微調造成的。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复另外，Gemini的安全過濾非常嚴格。在涉及道德問題時，它只能回答85%的問題。而在涉及人類性行為相關問題時，它只能回答28%的問題

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 Gemini Pro在安全研究和高中微觀經濟學方面的表現超過了GPT- 3.5，但差距並不大，團隊表示無法找出任何特別之處

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 #推理：長問題不擅長

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 GPT系列在處理更長、更複雜的問題時表現更出色，相較之下，Gemini Pro的表現較為不佳

特別是在長篇問題上，GPT-4 Turbo幾乎沒有效能下降，這表明它具備了理解複雜問題的強大能力

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复根據問題類型進行分析，Gemini在「追蹤交換物品」這類問題上表現不佳，這類問題涉及人們進行物品交換，最終需要AI判斷每個人擁有哪些物品

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini擅長的任務包括理解世界各種體育運動知識、操作符號堆疊、按字母順序排序單字以及解析表格

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

數學：複雜任務反超

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

問題本身太長，導致Gemini Pro和GPT-3.5的表現同時下降，只有GPT-4能夠維持一貫的水準

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

當思維鏈的長度達到最長時，Gemini超過了GPT-3.5

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

程式碼：擅長matplotlib

對於程式碼問題，Gemini在參考答案較長的問題上表現不佳

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

#GPT系列在大多數類型中更強大，但在matplotlib方面表現完全不佳

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

翻譯：只要回答了，品質就很高

在翻譯任務中，Gemini拒絕回答了12種類型的問題，但只要回答了的翻譯品質都非常出色，整體表現超過了GPT-4

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

#雙子座拒絕翻譯的語言主要涉及拉丁語和阿拉伯語

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

網路導航：擅長跨站點衝浪

WebArena為AI模擬了一個網路環境，包括電子商務、社交論壇、GitLab協作開發、內容管理系統和線上地圖等。 AI需要在這個環境中尋找資訊或跨站點完成任務

Gemini在整體表現不如GPT-3.5 Turbo，但在跨多個站點的任務中表現稍好。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

網友：但是它免費啊

最終，CMU副教授格雷厄姆·紐比格承認了這項研究的一些限制

#基於API的模型行為可能隨時變化
只嘗試了有限數量的提示，對不同模型來說適用的提示詞可能不一樣
無法控制測試集是否洩漏

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Google大型模型推理團隊的負責人周登勇指出，將Gemini的溫度設定為0可以提高5-10個百分點，對於推理任務非常有幫助

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

在這項測試中，除了Gemini和GPT系列，還引入了最近備受關注的開源MoE模型Mixtral

不過，強化學習專家Noam Brown認為可以不考慮Mixtral的結果，因為它使用的是第三方API而不是官方實作

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Mistral AI創辦人為團隊提供了官方版呼叫權限，他相信這將帶來更好的結果

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

#雖然Gemini Pro還不及GPT-3.5，但它的優勢在於每分鐘調用不超過60次就可以免費使用

因此，許多個人開發者已經改變了陣營

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

目前Gemini的最高版本Ultra版尚未發布，屆時CMU團隊也打算繼續進行這項研究

你認為雙子座Ultra能夠達到GPT-4的水平嗎？

本文詳細介紹了論文：https://arxiv.org/abs/2312.11444

參考連結：
#[1]https://twitter.com/gneubig/status/17371089777954251216。

以上是CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

Google gpt-3.5 gemini

來源：51cto.com

上一篇：對Gemini進行全面評估：從CMU到GPT 3.5 Turbo，Gemini Pro失利下一篇：翼龍無人機再度騰空，成為甘肅的空中基地台

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

如何檢查座標是否在 PHP 中的邊界物件內？我有一些座標，我想檢查這些座標是否恰好在谷歌地圖範圍內（東北和西南）。範例：AvailableLat:40.712776AvailableLong:-74.005974我想知道上面...

來自於 2024-04-05 00:25:54

0

1

1401

嘗試了一切方法，但HTML內容仍未顯示基本上，html文檔的內容不會在瀏覽器上顯示任何內容。我製作的這個HTML文件是從另一個html文件連結的。當我在瀏覽器上開啟這個HTML檔案時，它是空白的，當其中有明確的程式碼時...

來自於 2024-04-04 19:16:15

0

1

3496

HTML標籤<a></a>和<a href=""></a>之間的差異是什麼？有些網站在其文本區域中使用[url]網站地址[/url]，並且無法在其中添加錨文本，有人可以向我解釋一下嗎？我對這個[url][/url]感到困惑。我知道html錨標記是如何工作的...

來自於 2024-04-02 22:46:16

0

2

403

當另一個按鈕已聚焦或有焦點內時，如何觸發按鈕的焦點內狀態？查看參考當選擇或點擊（按鈕）庫名稱時，我希望下一個非活動按鈕變為活動狀態（變成亮紅色）。我用谷歌搜尋並發現角度中有一個（模糊）和（焦點）事件

來自於 2024-04-02 16:49:31

0

1

336

如何使用 BeautifulSoup 抓取特定的Google天氣文字？如何使用BeautifulSoup在Python中找到課程文本“美國紐約市”？嘗試複製影片進行練習，但不再有效。嘗試在官方文件中找到一些內容，但沒有成功。或者我的get_html_...

來自於 2024-04-01 14:06:14

0

1

308

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422680
php入門教程之一週學會PHP

4267587
JAVA 初級入門影片教學

2530371
小甲魚零基礎入門學習Python影片教學

507007
PHP 零基礎入門教學

862178

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板