GPT 5與GPT 4O：哪個更好？-IT業界-PHP中文網

GPT-5上週發行的GPT-5現在是Chatgpt最先進的車型。 OpenAI的最新多模式LLM引入了代理功能和“統一系統”，以進行任務評估。該系統會自動確定查詢是需要深層推理還是基本處理。與以前的型號不同，GPT-5遵循一種“學習”方法。它顯示出更多的同理心，而比其前任不那麼同意。除此GPT-5外，還具有增強的編碼，寫作和氛圍的功能

在我上一篇有關GPT-5的文章中找到更多。

GPT-4O

GPT-4O（其中“ O”的意思是“ Omni”）是去年發行的。這個Multimodalchange是人們使用的方式。 ModelCamewith增強了編碼和視覺分析功能。 GPT-4 COMEM具有語音識別和語音分析功能。該模型的處理速度提高和響應延遲降低。 OpenAI的GPT-4O產生了更自然和明智的響應，並且能夠訪問工具並提供實時信息。

要了解更多信息，請在GPT 4O上查看本文。

GPT 5與GPT 4O：功能比較

特徵	GPT-4O	GPT-5
發布日期	2024年5月	2025年8月
方式	文本，圖像，音頻	文字，圖像，音頻，視頻
上下文窗口（chatgpt）	〜128K令牌	256K令牌
上下文窗口（API）	〜128K令牌	400k令牌
推理模式	單型	雙模式：快速深度推理
幻覺率	低的	在Openai模型中最低
個性化	沒有任何	個性預設語調控制
工具集成	有限的	Gmail，日曆，代碼工具，更多
安全完成	不	是的 - 有限的，有用的答案
SWE板凳經過驗證	30.8％的精度	74.9％的精度
Aime 2025（數學）	71％	94.6％（沒有工具）
videmmmu	58.8％	81.1％
Healthbench	31.6％	46.2％
目標用例	實時互動，創意任務	複雜的推理，企業工作流程

GPT 5與GPT 4O：任務比較

現在，讓我們通過評估其在以下任務上的性能來對兩個模型進行測試：

內容創建
圖像生成
編碼
圖像分析
推理

讓GPT-5與GPT-4O戰鬥開始！

任務1：內容創建

閱讀Athttps：//www.analyticsvidhya.com/blog/2024/07/building-agentic-gation-agentic-rag-systems-with-langgraph/langgraph/，以了解為Wikipedia數據創建向量數據庫的過程。然後，簡要摘要有關關鍵步驟。 ”

GPT-5響應：

GPT 5與GPT 4O：哪個更好？

GPT-4O響應：

GPT 5與GPT 4O：哪個更好？

觀察：

GPT-5產生的響應是一個簡明的摘要，即一個人知道該主題所需的。這些步驟均以適當的順序列出，並帶有足夠的上下文。另一方面，GPT-4O的響應是博客中提到的所有步驟的摘要。它以與討論相同的方式列出了博客中涵蓋的步驟。兩種模型的方法的差異：GPT-5合併了點以生成整個過程的簡明摘要，而GPT-4O則對博客中涵蓋的所有步驟進行了簡明的摘要。

任務2：圖像生成

圖像是語音代理的工作。它有3個主要部分
語音到文本（STT）：捕獲並將您的口語轉換為文本。
代理邏輯：這是您的代碼（或您的代理），它可以弄清楚適當的響應
文本到語音（TTS）：將代理的文本回復轉換為大聲說出的音頻。
將此基本圖像轉換為充滿活力的圖像。

GPT-5響應：

GPT 5與GPT 4O：哪個更好？

GPT-4O響應：

GPT 5與GPT 4O：哪個更好？

觀察：

該任務很簡單，並且將其二級用品很好地完成了。從GPT-5開始，它創建了帶有顏色的充滿活力的圖像。它生成的圖像具有文本和圖標；但是，存在一個較小的錯誤 - 將麥克風圖標與TTS框連接的小箭頭。至於GPT-4O生成的圖像，它使用了玻璃顏色，使其越來越活力。 GPT-4O的圖像是音頻輸入和輸出源。

任務3：編碼

單詞計數網站的基本HTML代碼。

GPT-5響應：

GPT 5與GPT 4O：哪個更好？

GPT-4O響應：

GPT 5與GPT 4O：哪個更好？

觀察：

GPT-5花了一些時間來生成此查詢的代碼，特別是針對counter網站的代碼。但是，最終產出令人印象深刻。 UI/UX和功能共同創建功能齊全的單詞計數網頁。另一方面，GPT-4O的輸出相比令人沮喪。 UI/UX是基本的，僅提供核心文字計數功能，沒有其他細化。它的設計看起來也有些過時

任務4：圖像分析

計算此電路圖的輸出。

GPT 5與GPT 4O：哪個更好？

GPT-5響應：

GPT 5與GPT 4O：哪個更好？

GPT-4O響應：

GPT 5與GPT 4O：哪個更好？

觀察：

GPT-5迅速回答了這個問題，有效地分析了圖像及其組件。它正確識別了半波整流器，讀取圖表上標記的值，並應用了適當的邏輯來計算輸出電流和電壓值。相比之下，GPT-4O在這項任務上掙扎。儘管它識別出輸出波形，但未能處理其他關鍵因素。最值得注意的是，GPT-4O無法從圖像中提取必要的值以執行任何計算。

任務5：推理

解決以下sudoku並將最終解決方案作為圖像提供。

GPT 5與GPT 4O：哪個更好？

GPT-5響應：

GPT 5與GPT 4O：哪個更好？

GPT-4O響應：

GPT 5與GPT 4O：哪個更好？

觀察：

GPT-5最初在圖像解釋中掙扎，花費三分鐘以上來處理輸入。它不是獨立求解拼圖，而是要求確認圖像中多個值。在我手動提供了所有行值後，該模型成功處理和解決了拼圖，儘管需要大量的用戶幫助，但產生了正確的解決方案。

相比之下，GPT-4O未能完全解決難題。它簡單地用零填充了所有缺失值，並將其作為其輸出解決方案。

GPT-5 vs GPT-4O：最終裁決

選擇明顯的贏家從未有過挑戰。這是兩個LLM在不同任務中執行的方式：

任務	GPT-5	GPT-4O
內容創建	更簡潔	更好的總結
圖像生成	更充滿活力	更具創造力
編碼	偉大的	功能有限
圖像分析	平均的	平均的
推理	出色的	基本能力

兩者之間有明顯的贏家嗎？答案是否定的。績效因任務而有很大差異：

GPT-5在編碼和推理中占主導地位
GPT-4O在內容創建和圖像生成/分析中擁有自己
速度與深度：GPT-4O提供更快的響應，而GPT-5有時會猶豫不決地分析和快速生成

上下文事項：請記住，GPT-4O年齡大了。雖然GPT-5受益於最新的培訓數據和代理優化，但與其前任相比，它是否真的是開創性的？不完全是。

結論

由於世界要求GPT-4O的複出，我全心全意地同意。

雖然GPT-5自第1天以來有所改善（現在勝過第3天的結果），但其匆忙的發布使用戶努力適應。事實是，GPT-5僅在特定任務上略超過GPT-4O，這使得放棄我們心愛的GPT-4O的痛苦很難讓人感覺“更好”。也許Openai需要在發布前進行更嚴格的測試。但是現在它已經活躍了，我們只能觀看它的進化。

今天？我會簽署任何請願書，以帶回GPT-4O。 Chatgpt發生了變化，而不是更好。在評論部分中讓我知道您的想法。

PS：我從以前的博客中獲取了GPT 4O輸出：

雙子座2.0 vs GPT-4O
GPT-4O圖像生成
O1 vs GPT-4O

以上是GPT 5與GPT 4O：哪個更好？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

PHP教程

1679

276

NYT連接提示和答案

331

836

Related knowledge

人工智能技能短缺因薪水需求加劇而加劇 Sep 07, 2025 am 12:54 AM

與AI相關的費用使預算高達三分之一，薪水高昂，需要使招聘工作變得複雜。根據Cloudzero的一份報告，AI支出預計將在2025年增長36％，推動了平均年度預算PAS

Openai的新父母控制和心理健康保護措施，以使AI更安全。 Sep 15, 2025 am 12:06 AM

Openai推出了ChatGptparents的父母控制措施現在可以與青少年的帳戶聯繫起來，限制功能並獲得警報，如果將情緒困擾檢測到危險的對話將通過經過專門調整的模型來處理，以支持使用的特殊調諧模型

Google Notebooklm的AI播客主持人現在可以通過您的筆記進行參數 Sep 16, 2025 am 07:12 AM

Notebooklm由Google Now具有新的音頻概述格式：簡短，批評和辯解的添加物帶來活潑的互動和結構化討論來上傳內容，增強功能使工具更接近互動，播客風格的AI

Microsoft警告緩慢的Azure流量 Sep 17, 2025 am 05:33 AM

微軟發出了警告，警告網絡潛伏期，影響了紅海中的海底電纜的中斷，影響了Azure服務，迫使公司通過替代路線重定向流量。

Codex Cli vs Gemini Cli vs Claude代碼：哪個是最好的？ Sep 18, 2025 am 04:06 AM

在2025年，多款可直接從終端訪問的AI編程助手相繼發布。 Codex CLI、Gemini CLI 和 Claude Code 是其中一些熱門工具，它們將大型語言模型嵌入到命令行工作流中。這些編程工具能夠通過自然語言指令生成和修復代碼，功能十分強大。我們對這三款工具在不同任務中的表現進行了詳細評測，以確定哪一款更具實用性。每款助手都基於先進的AI模型，例如 o4-mini、Gemini 2.5 Pro 或 Claude Sonnet 4，旨在提升開發效率。我們將三者置於相同的環境中，使用具體指標