社群

學習

工具庫

AI工具

休閒

繁体中文

目錄

蘋果公司的研究顯示人工智慧的可靠性存在大問題

首頁

科技週邊

人工智慧

蘋果公司的一項新研究顯示人工智慧推理有嚴重缺陷

蘋果公司的一項新研究顯示人工智慧推理有嚴重缺陷

DDD

Oct 25, 2024 am 11:04 AM

人工智慧並不總是能把事情做好，這並不奇怪。有時候，甚至會產生幻覺。然而，蘋果研究人員最近的一項研究表明，人工智慧用於形式推理的數學模型存在更嚴重的缺陷。

✕ 刪除廣告

作為研究的一部分，蘋果科學家詢問了人工智慧大型語言模型（法學碩士）一個問題，以略有不同的方式多次提出，當他們發現法學碩士提供了意想不到的答案改變時，他們感到驚訝。當涉及到數字時，這些差異最為突出。

蘋果公司的研究顯示人工智慧的可靠性存在大問題

A New Apple Study Shows AI Reasoning Has Critical Flaws

這項由arxiv.org 發布的研究得出的結論是，「不同設備之間存在顯著的性能差異」。同一問題的不同實例，挑戰了目前依賴單點精確度指標的 GSM8K 結果的可靠性。」 GSM8K 是一個資料集，其中包含8000 多個不同的小學數學問題和答案。

✕ 刪除廣告

Apple 研究人員發現此性能的差異可能高達10%。即使提示中的微小變化也可能導致LLM 答案的可靠性出現巨大問題。起來像是在使用邏輯來為您的查詢提供答案，但邏輯並不是正在使用的內容。，即使改變幾個不重要的單字也會改變這種模式識別。實驗，然後添加了一些有關獼猴桃大小的無關緊要的信息。然後，儘管獼猴桃大小數據對問題的結果沒有實際影響，但他們還是從對照中改變了他們對問題的答案。 🎜>

由於LLM 在我們的文化中變得越來越重要，這一消息引發了我們是否可以信任AI 的巨大擔憂為我們的詢問提供準確的答案。也強調了在使用大型語言模型時準確驗證收到的訊息的必要性。

這意味著您需要進行一些批判性思考和盡職調查，而不是盲目依賴人工智慧。話又說回來，如果您是經常使用人工智慧的人，您可能已經知道這一點。

✕ 刪除廣告

以上是蘋果公司的一項新研究顯示人工智慧推理有嚴重缺陷的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

顯示更多

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前 By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前 By 尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前 By DDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

4 週前 By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

顯示更多

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

顯示更多

熱門話題

gmail信箱登陸入口在哪裡

7500

15

CakePHP 教程

1377

52

steam的賬戶名稱是什麼格式

78

11

win11激活密鑰永久

52

19

NYT連接提示和答案

19

52

顯示更多

Related knowledge

我嘗試了使用光標AI編碼的Vibe編碼，這太神奇了！

我嘗試了使用光標AI編碼的Vibe編碼，這太神奇了！ Mar 20, 2025 pm 03:34 PM

Vibe編碼通過讓我們使用自然語言而不是無盡的代碼行創建應用程序來重塑軟件開發的世界。受Andrej Karpathy等有遠見的人的啟發，這種創新的方法使Dev

2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！

2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！ Mar 22, 2025 am 10:58 AM

2025年2月，Generative AI又是一個改變遊戲規則的月份，為我們帶來了一些最令人期待的模型升級和開創性的新功能。從Xai的Grok 3和Anthropic的Claude 3.7十四行詩到Openai的G

如何使用Yolo V12進行對象檢測？

如何使用Yolo V12進行對象檢測？ Mar 22, 2025 am 11:07 AM

Yolo（您只看一次）一直是領先的實時對象檢測框架，每次迭代都在以前的版本上改善。最新版本Yolo V12引入了進步，可顯著提高準確性

Chatgpt 4 o可用嗎？

Chatgpt 4 o可用嗎？ Mar 28, 2025 pm 05:29 PM

Chatgpt 4當前可用並廣泛使用，與諸如ChatGpt 3.5（例如ChatGpt 3.5）相比，在理解上下文和產生連貫的響應方面取得了重大改進。未來的發展可能包括更多個性化的間

最佳AI藝術生成器（免費付款）創意項目

最佳AI藝術生成器（免費付款）創意項目 Apr 02, 2025 pm 06:10 PM

本文回顧了AI最高的藝術生成器，討論了他們的功能，對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值，並建議使用Dall-E 2進行高質量的可定製藝術。

Google的Gencast：Gencast Mini Demo的天氣預報

Google的Gencast：Gencast Mini Demo的天氣預報 Mar 16, 2025 pm 01:46 PM

Google DeepMind的Gencast：天氣預報的革命性AI 天氣預報經歷了巨大的轉變，從基本觀察到復雜的AI驅動預測。 Google DeepMind的Gencast，開創性

哪個AI比Chatgpt更好？

哪個AI比Chatgpt更好？ Mar 18, 2025 pm 06:05 PM

本文討論了AI模型超過Chatgpt，例如Lamda，Llama和Grok，突出了它們在準確性，理解和行業影響方面的優勢。（159個字符）

O1 vs GPT-4O：OpenAI的新型號比GPT-4O好嗎？

O1 vs GPT-4O：OpenAI的新型號比GPT-4O好嗎？ Mar 16, 2025 am 11:47 AM

Openai的O1：為期12天的禮物狂歡始於他們迄今為止最強大的模型 12月的到來帶來了全球放緩，世界某些地區的雪花放緩，但Openai才剛剛開始。山姆·奧特曼（Sam Altman）和他的團隊正在推出12天的禮物前

See all articles