Anthropic 宣布發布 Claude 3——一系列有可能顛覆 GPT-4 的人工智慧模型。它具有出色的潛力,但它準備好贏得 ChatGPT 的桂冠了嗎?
Claude 3 是 Anthropic 開發的三個多模態 AI 模型系列,用於取代其 Claude 2 系列 AI 模型。你可以說 Claude 3 是 Anthropic 對 Google Gemini 和 OpenAI GPT-4 的回應。 Claude 3 發布了三個版本:Haiku、Sonnet 和 Opus,其智能程度依次遞增,是 Anthropic 的第一個多模態 AI 模型,代表了 Claude 2 系列的重大飛躍。
現在,如果您從未聽說過 Claude AI 聊天機器人,這是可以理解的。 Claude 及其底層模型並不享有 ChatGPT 的超級巨星地位,也不享有 Google Gemini 的品牌號召力。然而,Claude 無疑是世界上最先進的人工智慧聊天機器人之一,在幾個關鍵領域的表現優於備受推崇的 ChatGPT。
要真正欣賞 Claude 3,回顧先前模型的失敗非常重要。
Claude 的早期版本因對人工智慧安全過於熱心而聞名。例如,Claude 2 的安全功能非常嚴格,以至於聊天機器人會迴避太多的話題,即使是那些沒有明顯安全問題的話題。 模型的上下文視窗也存在問題。當你要求人工智慧模型解釋某件事,或總結一篇長篇文章時,想像它一次只能閱讀文章的幾個段落。它一次可以考慮多少文本的限制稱為“上下文視窗”。 Claude 的早期版本帶有 200k token(相當於 150,000 個單字)上下文視窗。然而,該模型實際上無法一次處理那麼多文本而不忘記其中的大部分內容。 還有多模式的問題。幾乎每個主要的人工智慧模型都已經實現了多模式,這意味著它們可以處理圖像等其他形式的數據,並對這些數據做出回應(而不僅僅是文字輸入)。克勞德沒能做到這一點。隨著 Claude 3 的發布,所有三個問題現在都完全或至少部分解決。
但大多數 AI 模型已經擅長這些任務,那麼為什麼要使用 Claude 3呢?
答案很簡單; Claude 3 不僅僅是另一個擅長這些任務的 AI 模型,它還是您可以在網路上隨處獲得的最先進的免費多模式 AI 模型。是的,有 Gemini,Google大肆宣傳的、被認為是 GPT-4 殺手的產品,它在基準測試中表現出色。然而,Anthropic 聲稱 Claude 3 在多項任務上都比它表現出色。雖然我們應該對基準測試結果持保留態度,但我對這兩個 AI 模型進行了測試,結果發現 Claude 3 模型在幾個重要用例中的優越性非常明顯。
因此,Claude 3 可以讓您完成使用 Gemini 和 GPT-4 可以做的大部分事情(減去圖像生成),而無需支付 20 美元的 ChatGPT 高級訂閱費。
Claude 3 與 ChatGPT
Claude vs. ChatGPT:編碼技能
在最新版本中,Claude 3 在我們測試的所有三個實例中都產生了效能更好的待辦事項清單應用程式。以下是提示建立待辦事項清單應用程式時 GPT-4 的結果。
這是 Claude 3 當被要求做同樣的事情時的結果。
這兩個應用程式都在一定程度上發揮了作用,但很明顯 Claude 3 在這方面做得更好。
在嘗試了更複雜的程式測試後,Claude 在某些情況下是更好的模型,而 GPT-4 也取得了勝利。雖然我不能斷言 Claude 3 在程式邏輯方面更好,但如果兩個模型之間存在巨大差距,那麼這種差距幾乎肯定會縮小。
我繼續測試這兩個模型的常識推理。使用人工智慧聊天機器人是一個有趣的悖論。人工智慧聊天機器人可以輕鬆處理複雜的任務,但常常難以解決需要常識或邏輯的基本問題。因此,我們給這兩個模型提出了一系列看似簡單的問題,需要常識才能正確回答。
在五個這樣的問題中,兩個模型都邏輯地回答了所有五個問題。我們向兩個聊天機器人提出了一個問題:如果一艘來自火星的太空船分成兩部分,一部分墜入巴西附近的大西洋,另一部分墜入日本附近的太平洋,你會把倖存者埋在哪裡?
即使沒有 GPT-4,ChatGPT 也能正確回答。如果您想知道選擇問題的原因,那麼歷史上聊天機器人在此類提問方面都遭遇了慘敗。接下來輪到克勞德回答了。
克勞德的回答並不完全是一個確定的答案,但它能夠辨識出關鍵訊息;你不會埋葬倖存者。需要注意的是,上次我們向 Claude 2 提出同樣的問題時,它沒能看穿常識陷阱。
在現實世界中,AI 聊天機器人最受歡迎的用例之一是產生各種形式的創意文字:文章、信件、歌詞、您的命名它。因此,我測試了這兩種模型,以確定哪種模型可以創建更好的人類發音文字。
這個想法是,結果不應該只是「正確」或有創意(以機器人的方式),而且聽起來像是由人類編寫的。我讓兩位模特兒為一首饒舌歌曲創作歌詞,內容是種植黃瓜並透過黃瓜成為百萬富翁。誰寫了關於黃瓜的饒舌歌曲?這就是我們的想法——具有挑戰性的事情!
這是 ChatGPT 的看法:
這是 Claude 使用相同提示的回應。
這可能是主觀的,但克勞德似乎確實是更好的選擇。當這兩個工具的任務是起草關於不同主題的三篇文章時,克勞德在所有三個實例中提供了更好的選擇。它產生了更人性化的結果,並避免了通常與人工智慧生成的文本相關的模式,例如誇張、複雜單字的使用以及連接詞的零星使用。
為了測試影像辨識能力,我們為 ChatGPT 和 Claude 提供了幾張世界各地流行高層建築的圖像。 ChatGPT 正確識別了所有 20 座大樓,而 Claude 3 未能識別出其中一些,包括相當受歡迎的迪拜 Marina 101、首爾的樂天世界塔和馬來西亞吉隆坡的 Merdeka 118 大樓。
與 ChatGPT 不同,Claude 在識別建築物等方面遇到了困難,如果建築物不在美國或中國,失敗率就會增加。然而,它在識別艾菲爾鐵塔或帝國大廈的混淆版本方面沒有問題。
ChatGPT 顯然在這方面做得更好,但考慮到 Claude 3 是 Anthropic 建立多模式 AI 模型的首次嘗試,這並不是一次糟糕的嘗試。
雖然 Google 的 Palm 2 以及隨後的 Gemini 等大牌模型一直被吹捧為潛在的 GPT-4 殺手,但我們始終認為,鮮為人知的 Claude AI 自首次發布以來很可能會獲得這一榮譽。年3 月。如果您是聊天機器人的重度用戶,但還沒有嘗試過 Claude AI 聊天機器人,那麼您就錯過了一個具有巨大影響力的人工智慧工具,它可以提高您的工作效率。
以上是Claude 3 是什麼以及您可以用它做什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!