蘋果公司的一項新研究顯示人工智慧推理有嚴重缺陷
人工智慧並不總是能把事情做好,這並不奇怪。有時候,甚至會產生幻覺。然而,蘋果研究人員最近的一項研究表明,人工智慧用於形式推理的數學模型存在更嚴重的缺陷。
✕ 刪除廣告作為研究的一部分,蘋果科學家詢問了人工智慧大型語言模型(法學碩士)一個問題,以略有不同的方式多次提出,當他們發現法學碩士提供了意想不到的答案改變時,他們感到驚訝。當涉及到數字時,這些差異最為突出。
蘋果公司的研究顯示人工智慧的可靠性存在大問題

這項由arxiv.org 發布的研究得出的結論是,「不同設備之間存在顯著的性能差異」。同一問題的不同實例,挑戰了目前依賴單點精確度指標的 GSM8K 結果的可靠性。 」 GSM8K 是一個資料集,其中包含8000 多個不同的小學數學問題和答案。
✕ 刪除廣告Apple 研究人員發現此性能的差異可能高達10%。即使提示中的微小變化也可能導致LLM 答案的可靠性出現巨大問題。起來像是在使用邏輯來為您的查詢提供答案,但邏輯並不是正在使用的內容。 ,即使改變幾個不重要的單字也會改變這種模式識別。實驗,然後添加了一些有關獼猴桃大小的無關緊要的信息。然後,儘管獼猴桃大小數據對問題的結果沒有實際影響,但他們還是從對照中改變了他們對問題的答案。 🎜>
由於LLM 在我們的文化中變得越來越重要,這一消息引發了我們是否可以信任AI 的巨大擔憂為我們的詢問提供準確的答案。也強調了在使用大型語言模型時準確驗證收到的訊息的必要性。這意味著您需要進行一些批判性思考和盡職調查,而不是盲目依賴人工智慧。話又說回來,如果您是經常使用人工智慧的人,您可能已經知道這一點。
✕ 刪除廣告以上是蘋果公司的一項新研究顯示人工智慧推理有嚴重缺陷的詳細內容。更多資訊請關注PHP中文網其他相關文章!
熱AI工具
Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片
AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。
Undress AI Tool
免費脫衣圖片
Clothoff.io
AI脫衣器
AI Hentai Generator
免費產生 AI 無盡。
熱門文章
熱工具
記事本++7.3.1
好用且免費的程式碼編輯器
SublimeText3漢化版
中文版,非常好用
禪工作室 13.0.1
強大的PHP整合開發環境
Dreamweaver CS6
視覺化網頁開發工具
SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)
熱門話題
我嘗試了使用光標AI編碼的Vibe編碼,這太神奇了!
Mar 20, 2025 pm 03:34 PM
Vibe編碼通過讓我們使用自然語言而不是無盡的代碼行創建應用程序來重塑軟件開發的世界。受Andrej Karpathy等有遠見的人的啟發,這種創新的方法使Dev
2025年2月的Genai推出前5名:GPT-4.5,Grok-3等!
Mar 22, 2025 am 10:58 AM
2025年2月,Generative AI又是一個改變遊戲規則的月份,為我們帶來了一些最令人期待的模型升級和開創性的新功能。從Xai的Grok 3和Anthropic的Claude 3.7十四行詩到Openai的G
如何使用Yolo V12進行對象檢測?
Mar 22, 2025 am 11:07 AM
Yolo(您只看一次)一直是領先的實時對象檢測框架,每次迭代都在以前的版本上改善。最新版本Yolo V12引入了進步,可顯著提高準確性
Chatgpt 4 o可用嗎?
Mar 28, 2025 pm 05:29 PM
Chatgpt 4當前可用並廣泛使用,與諸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和產生連貫的響應方面取得了重大改進。未來的發展可能包括更多個性化的間
最佳AI藝術生成器(免費付款)創意項目
Apr 02, 2025 pm 06:10 PM
本文回顧了AI最高的藝術生成器,討論了他們的功能,對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值,並建議使用Dall-E 2進行高質量的可定製藝術。
Google的Gencast:Gencast Mini Demo的天氣預報
Mar 16, 2025 pm 01:46 PM
Google DeepMind的Gencast:天氣預報的革命性AI 天氣預報經歷了巨大的轉變,從基本觀察到復雜的AI驅動預測。 Google DeepMind的Gencast,開創性
哪個AI比Chatgpt更好?
Mar 18, 2025 pm 06:05 PM
本文討論了AI模型超過Chatgpt,例如Lamda,Llama和Grok,突出了它們在準確性,理解和行業影響方面的優勢。(159個字符)
O1 vs GPT-4O:OpenAI的新型號比GPT-4O好嗎?
Mar 16, 2025 am 11:47 AM
Openai的O1:為期12天的禮物狂歡始於他們迄今為止最強大的模型 12月的到來帶來了全球放緩,世界某些地區的雪花放緩,但Openai才剛剛開始。 山姆·奧特曼(Sam Altman)和他的團隊正在推出12天的禮物前


