目錄
目錄
什麼是Grok 4?
什麼是克勞德4?
Grok 4 vs Claude 4:基於績效的比較
任務1:SecurePay UI原型
比較分析
任務2:物理問題
Grok 4的回應
克勞德4的響應
任務3:網絡中的關鍵連接
首頁 科技週邊 人工智慧 Grok 4 vs Claude 4:哪個更好?

Grok 4 vs Claude 4:哪個更好?

Jul 12, 2025 am 09:37 AM

到2025年中,AI“軍備競賽”正在加熱,Xai和Anthropic都發布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設計理念和部署平台的相反端,但是他們在競爭推理和編碼基準標準方面互相比較。儘管Grok 4位居學術表格,但Claude 4正在以其編碼性能打破天花板。因此,燃燒的問題是 - Grok 4或Claude 4 - 哪種型號更好?

在此博客中,我們將在三個不同的任務上測試Grok 4和Claude 4的性能,並比較結果以找到最終的贏家!

目錄

  • 什麼是Grok 4?
  • 什麼是克勞德4?
  • Grok 4 vs Claude 4:基於績效的比較
  • 總體分析
  • Grok 4 vs Claude 4:基準比較
  • 結論
  • 常見問題

什麼是Grok 4?

Grok 4是XAI發布的最新多模式大型語言模型,可通過X訪問,可通過Grok App/網站使用。 Grok 4是一種已通過工具使用訓練的代理LLM。該模型非常擅長解決所有學科的學術問題,並在不同基準測試的幾乎所有其他LLM上都超越了所有其他LLM。隨之而來的是,Grok 4還結合了一個大的上下文窗口,其容量為256K令牌,實時網絡搜索以及增強的語音模式,該模式與人類保持平靜。 Grok 4包含出色的推理和類似人類的思維功能,使其成為迄今為止最有力的模型之一。

要了解有關Grok 4的所有信息,您可以閱讀此博客:Grok 4在這裡,這很棒。

什麼是克勞德4?

Claude 4是迄今為止擬人化的最先進的大型語言模型。這種多模式LLM具有混合推理,高級思維和代理建設能力。該模型顯示了簡單查詢的閃電響應,而對於復雜的查詢,它轉移到了更深的推理,通常將多步任務分解為小任務。它具有效率的性能,並記錄了編碼問題的出色結果。

前往此博客,詳細閱讀有關Claude 4的信息:Claude 4已經淘汰,這太神奇了!

Grok 4 vs Claude 4:基於績效的比較

現在我們已經了解了這兩種模型的細微差別,讓我們首先看一下這兩個模型的性能比較:

Grok 4 vs Claude 4:哪個更好?

從圖表中,很明顯,克勞德4在響應時間甚至每任務的成本方面都擊敗了Grok 4。但是我們不一定總是按數字進行。讓我們測試兩個模型的不同任務,看看以上統計數據是否成立!

任務1:SecurePay UI原型

提示: “使用HTML,CSS和JavaScript創建一個交互式且視覺上吸引人的付款網站網頁。”

Grok 4的回應

克勞德4的響應

比較分析

Claude 4提供了一個全面的用戶界面,其中包含拋光元素,其中包括卡,PayPal和Apple Pay功能。它還支持動畫和用戶界面的實時驗證。 Claude 4模型的佈局真實應用,例如Stripe或Razorpay。

Grok 4也是移動優先的,但剝離得多。它僅支持具有一些基本驗證功能的卡輸入。它具有非常簡單,乾淨且響應迅速的佈局。

結論:兩個用戶界面都有不同的用例,因為Claude 4最適合豐富的演示和展示櫃。 Grok 4最適合學習和構建快速,交互式移動應用程序。

任務2:物理問題

提示: “兩張質量為m和4m的兩張薄圓盤,分別具有A和2a的半徑,由無質量的,長度的右桿固定在其中心。該組件放置在牢固而平坦的表面上,並在表面上滾動,而不會滑倒,而無需在桿子上繞過鏡頭的軸向。圖)。

答:組件圍繞其質量中心的角動量的大小為17 ma²Ω / 2
B. L的Z組分的大小為55 ma²為
C.圍繞點O的組件質量中心的角動量的大小為81 ma²為
D.組件的質量中心以ω/5的角速度圍繞z軸旋轉

Grok 4 vs Claude 4:哪個更好?

Grok 4的回應

Grok 4考慮了兩個顏色m和4m圓盤的圓盤,由長度√24a附著的4m。它找到了質量的中心,傾斜的傾斜角度,並使用可靠的來源,Vedantu和Fiitjee驗證JEE Advanced 2016的問題。 GrooveDriuce groove將正確的答案推論為A和D,使用邏輯上的扣除和有效的確認,從現實世界上下文中的虛擬來源中獲得有效的確認

Grok 4 vs Claude 4:哪個更好?

克勞德4的響應

克勞德4通過逐步思考過程使用基於物理的分析指南。它發展了質量的中心,提出瞭如何滾動的方式,使用平行軸定理評估慣性的時刻,提供了更多的細節和解釋,比單獨的解決方案在一方面和理論上更適合教育目的。 Claude得出結論所有選項AD都是正確的,這是不正確的,因為Claude透支了結論,然後在其響應中得出準確性。

Grok 4 vs Claude 4:哪個更好?

比較分析

判決:如果您正在尋求對迭代的準確性和效率,那麼Grok的推理和現實是否可以使用更好的邏輯,而不是希望僅參考文學支持的答案。克勞德(Claude)在概念清晰度方面提供了更好的理論,但最終的準確性失敗了。

任務3:網絡中的關鍵連接

提示: “有n個服務器從0到n – 1編號,通過無向服務器到服務器連接形成一個網絡,其中連接[i] = [ai,bi]代表服務器AI和BI之間的連接。任何服務器都可以通過網絡直接或間接地到達其他服務器。

關鍵連接是一個連接,如果刪除,將使一些服務器無法到達其他服務器。

按任何順序返回網絡中的所有關鍵連接。

輸入:n = 4,連接= [[0,1],[1,2],[2,0],[1,3]]

輸出:[[1,3]]

說明:[[3,1]]也被接受。

示例2:輸入:n = 2,連接= [[0,1]]輸出:[[0,1]]”

Grok 4的回應

#包括<bits .h>
使用名稱空間性std;
類解決方案{
民眾:
   向量<vector> > crigity Connections(int n,向量<vector> >&Connections){
       向量<vector> > adj(n);
       for(自動和連接){
           adj [conn [0]]。 push_back(conn [1]);
           adj [conn [1]]。 push_back(conn [0]);
       }
       向量<int> 光盤(n,-1),低(n,-1),父(n,-1);
       向量<vector> >橋樑;
       int time = 0;
       功能<void> dfs = [&](int u){
           光盤[u] = low [u] =時間;
           for(int v:adj [u]){
               if(disc [v] == -1){//未訪問
                   父[v] = u;
                   dfs(v);
                   低[u] = min(低[u],low [v]);
                   if(low [v]> disc [u]){
                       bridges.push_back({u,v});
                   }
               } else if(v!= parent [u]){
                   低[u] = min(低[u],disc [v]);
               }
           }
       };
      
       for(int i = 0; i <n i if dfs><h4>克勞德4的響應</h4>
<pre class="brush:php;toolbar:false">類解決方案{
民眾:
   向量<vector> > crigity Connections(int n,向量<vector> >&Connections){
       //建立鄰接列表
       向量<vector> >圖(n);
       for(自動和連接){
           Graph [Conn [0]]。 push_back(conn [1]);
           Graph [Conn [1]]。 push_back(conn [0]);
       }
       //初始化Tarjan算法的陣列
       向量<int> 發現(n,-1); //發現時間
       向量<int> 低(n,-1); //低鏈接值
       向量<int> 父(n,-1); // DFS樹中的父母
       向量<vector> >橋樑; //商店橋樑
       int time = 0; //全球時間計數器
       //為所有未訪問的節點運行DFS
       for(int i = 0; i <n i if dfs void u> >&Graph,向量<int>&發現,
            向量<int>&Low,矢量<int>&父母,矢量<vector> >&橋接,int&time){
       //將訪問的電流節點標記
       發現[u] = low [u] =時間;
       //探索所有相鄰的頂點
       for(int v:graph [u]){
           if(discovery [v] == -1){//如果未訪問v
               父[v] = u;
               DFS(V,Graph,Discovery,Low,Parts,Bridges,Time);
               //更新低鏈接值
               低[u] = min(低[u],low [v]);
               //檢查邊緣紫外線是否是橋樑
               if(low [v]> discover [u]){
                   bridges.push_back({u,v});
               }
           }
           否則if(v!= parent [u]){// back edge(不是父)
               低[u] = min(低[u],發現[v]);
           }}}}};
int main(){
   溶液溶液;


   int n = 5;
   向量<vector> >連接= {
       {0,1},{1,2},{2,0},{1,3},{3,4}
   };


   向量<vector> >結果= sol.CriticalConnections(n,Connections);


   cout <h3>比較分析</h3>
<p>Grok 4和Claude 4在C中實現Tarjan Trunk-Query算法,但以不同的方式實現。 Claude 4使用了標準面向對象的方法。它將DFS邏輯進一步分為第二個輔助方法,該方法有助於模塊化,並最終使其更容易遵循。這種樣式非常適合教學目的,或者在調試或將解決方案擴展到其他圖形問題時。</p>
<p> Grok 4在主要方法內使用了lambda函數進行探索。這是最簡潔和現代的風格。它特別適合競爭編程或小型工具。它可以保持邏輯範圍的範圍並最大程度地降低全局副作用,但是閱讀可能會更難閱讀,尤其是對於那些新手編程的人來說。</p>
<p><strong>最終判決:</strong>當您嘗試編寫可讀和可維護的代碼時,您可以依靠Claude 4。另一方面,您可以依靠Grok 4在優先級更快且代碼較短時依靠Grok 4。</p>
<h2>總體分析</h2>
<p>Grok 4專注於所有三個任務中的準確性,速度和功能。無論是通過成功解決問題,它還高度精通現實世界的適用性。至於克勞德4,其優勢依賴於理論的深度,封閉和結構,使其更適合於教育或可維護的設計。也就是說,克勞德有時會在分析中過度角度,這也會影響準確性水平。</p>
<table>
<thead><tr>
<td><strong>方面</strong></td>
<td><strong>Grok 4</strong></td>
<td><strong>克勞德4</strong></td>
</tr></thead>
<tbody>
<tr>
<td> <strong>UI設計</strong>
</td>
<td>乾淨,移動優先,最小;學習和MVP的理想</td>
<td>豐富,動畫,多選ui;非常適合演示和拋光</td>
</tr>
<tr>
<td><strong>物理問題</strong></td>
<td>準確,邏輯,源驗證;正確答案A&D</td>
<td>從概念上強但是不正確(所有A標記)</td>
</tr>
<tr>
<td><strong>圖算法</strong></td>
<td>簡潔的基於lambda的代碼;最適合快速編碼方案</td>
<td>模塊化,可讀的代碼;更適合教育/調試</td>
</tr>
<tr>
<td><strong>準確性</strong></td>
<td>高的</td>
<td>中等(由於過度籠統)</td>
</tr>
<tr>
<td><strong>代碼清晰度</strong></td>
<td>中等效率但密集</td>
<td>高度易於閱讀和擴展</td>
</tr>
<tr>
<td><strong>現實世界的使用</strong></td>
<td>優秀(CP,快速工具,準確的答案)</td>
<td>好(但較慢,容易過度分析)</td>
</tr>
<tr>
<td><strong>最好的</strong></td>
<td>速度,準確性,緊湊的邏輯</td>
<td>教育,可讀性和可擴展性</td>
</tr>
</tbody>
</table>
<h2>Grok 4 vs Claude 4:基準比較</h2>
<p>在本節中,我們將在一些可用的公共基准上對比4和克勞德4。下表說明了它們的差異和一些重要的性能指標。包括推理,編碼,延遲和上下文窗口大小。這使我們能夠衡量哪些模型在特定任務(例如技術問題解決,軟件開發和實時互動)等特定任務中表現出色。</p>
<table>
<thead><tr>
<td><strong>公制/功能</strong></td>
<td><strong>Grok 4(xai)</strong></td>
<td><strong>克勞德4(十四行詩4和作品4)</strong></td>
</tr></thead>
<tbody>
<tr>
<td><strong>發布</strong></td>
<td>2025年7月</td>
<td>2025年5月(十四行詩4&Opus 4)</td>
</tr>
<tr>
<td> <strong>I/O模式</strong>
</td>
<td>文本,代碼,語音,圖像</td>
<td>文本,代碼,圖像(視覺);沒有內置的聲音</td>
</tr>
<tr>
<td><strong>HLE(人類的最後考試)</strong></td>
<td>
<em>使用工具:</em> 50.7%(新記錄)<em>無工具:</em> 26.9%</td>
<td>
<em>無工具:</em>約15–22%(GPT-4的典型範圍,Gemini,Claude Opus報導) <em>:(</em>未報導)</td>
</tr>
<tr>
<td> <strong>mmlu</strong>
</td>
<td> 86.6%</td>
<td>十四行詩:83.7%;作品:86.0%</td>
</tr>
<tr>
<td> <strong>SWE基礎(編碼)</strong>
</td>
<td> 72–75%(通過@1)</td>
<td>十四行詩:72.7%;作品:72.5%</td>
</tr>
<tr>
<td><strong>其他學者</strong></td>
<td>Aime(數學):100%; GPQA(物理):87%</td>
<td>可比較的基準未公開發布; Claude 4專注於編碼/代理任務</td>
</tr>
<tr>
<td><strong>潛伏期和速度</strong></td>
<td>75.3 tok/s; 〜5.7 s到先令牌</td>
<td>十四行詩:85.3 tok/s,1.68 s ttft; opus:64.9 tok/s,2.58 s ttft</td>
</tr>
<tr>
<td><strong>定價</strong></td>
<td>$ 30/mo(標準); $ 300/mo(重)</td>
<td>十四行詩:每100萬代幣(輸入/輸出)$ 3/$ 15(可用於十四行詩4);作品:每100萬美元$ 15/$ 75</td>
</tr>
<tr>
<td> <strong>API和平台</strong>
</td>
<td>xai api可通過x.com/grok應用訪問</td>
<td>人類API;同樣在AWS Bedrock和Google Vertex AI上</td>
</tr>
</tbody>
</table>
<h2>結論</h2>
<p>將Grok 4與Claude 4進行比較時,我看到了兩個為不同值構建的模型。 Grok 4是快速,精確的,並且與現實世界中的用例保持一致。因此,非常適合技術編程,快速原型製作以及解決問題的正確性和速度。它總是在UI設計,工程問題以及基於功能編程的算法等領域提供清晰,簡潔且高效的響應。</p>
<p>相比之下,克勞德4提供了清晰,結構和深度的強度。它以教育為中心和設計的可讀性編碼樣式使其更適合可維護的項目。幫助傳授概念理解,以及教學和調試目的。但是,我看到克勞德有時可能在分析中走得太遠,影響了對問題的回答的質量。</p>
<p>因此,如果您的優先級是原始性能和現實世界應用,則Grok 4是更好的選擇。如果您的優先級是乾淨的體系結構,概念清晰度和/或教學,那麼Claude 4是您最好的選擇。</p>
<h2>常見問題</h2>
<strong>Q1。總體而言,哪種型號更準確?</strong><p> A. Grok 4在執行的任務中具有更好的最終答案,尤其是在技術解決方案或現實世界中的物理問題中。</p> <strong>Q2。哪個對UI或前端編碼更好?</strong><p> A. Claude 4提供了動畫和多種方法的更豐富,拋光的UI輸出。 Grok 4更適合移動優先和快速原型。</p> <strong>Q3。誰應該使用Grok 4?</strong><p>答:在競爭性編程,數學或快速實用工具等任務中,開發人員,研究人員或學生對速度,簡潔和正確性有興趣或需求。</p> <strong>Q4。哪種模型在編碼基準測試方面表現更好?</strong><p>答:兩種模型在SWE基礎上(〜72-75%)的表現類似,並且Grok 4在某些推理基准上(略微)向前拉(略微),並且在任務完成範圍內的一致性,除了繪圖框。</p> <strong>Q5。兩種模型都可以通過API使用嗎?</strong><p>答:是的,Grok 4可通過XAI的API和Grok應用程序獲得。 Claude 4可通過擬人化的API獲得。</p></vector></vector></vector></int></int></int></n></vector></int></int></int></vector></vector></vector>

以上是Grok 4 vs Claude 4:哪個更好?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風險投資的投資者必須做出關鍵決定:購買,建立或合作夥伴才能獲得優勢?這是評估每個選項和PR的方法

AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 Jul 04, 2025 am 11:10 AM

讓我們來談談。 對創新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業的大量開源中國模型嗎?儘管DeepSeek佔據了大多數頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來預測從AI到AGI的道路上的大規模情報爆炸 未來預測從AI到AGI的道路上的大規模情報爆炸 Jul 02, 2025 am 11:19 AM

讓我們來談談。 對創新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。對於那些讀者

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設計理念和部署平台的相反端,但他們卻在

推理模型的思想鏈可能無法長期解決 推理模型的思想鏈可能無法長期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個問題,例如:“(x)人在(x)公司做什麼?”您可能會看到一個看起來像這樣的推理鏈,假設系統知道如何檢索必要的信息:找到有關CO的詳細信息

批處理處理與深度學習的迷你批次培訓 批處理處理與深度學習的迷你批次培訓 Jun 30, 2025 am 09:46 AM

深度學習通過允許機器在我們的數據中掌握更多深入的信息來徹底改變了AI領域。深度學習能夠通過複製我們的大腦通過神經元SYNA的邏輯來做到這一點

這家初創公司在印度建立了一家醫院來測試其AI軟件 這家初創公司在印度建立了一家醫院來測試其AI軟件 Jul 02, 2025 am 11:14 AM

臨床試驗是藥物開發中的巨大瓶頸,Kim和Reddy認為他們在PI Health建立的AI-Spainite軟件可以通過擴大潛在符合條件的患者的庫來更快,更便宜。但是

See all articles