社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

WBOY

發布： 2023-06-04 18:19:04

轉載

965 人瀏覽過

一個「終極隘版」的「圖靈測試」，讓所有大語言模型都難住了。

人類卻可以毫不費力地通過測試。

大寫字母測驗

研究人員用了一個非常簡單的辦法。

把真正的問題混到一些雜亂無章的大寫字母寫成的單字中提給大語言模型。

大語言模型沒有辦法有效地辨識所提出的真正問題。

而人類可以輕易地把「大寫字母」單字剔除問題，辨識出藏在混亂的大寫字母中的真正問題，做出回答，從而通過測試。

圖中的問題本身就很簡單：is water wet 或 dry？

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

人類直接回答一個wet就完事了。

而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。

於是就把很多沒有意義的單字也混入了問題中，使得回答也非常冗長且沒有意義。

除了ChatGPT之外，研究人員對GPT-3和Meta的LLaMA和幾個開源微調模型也進行了類似的測試，他們都沒有通過「大寫字母測試」。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

測試背後的原理其實很簡單：人工智慧演算法通常以不區分大小寫的方式處理文字資料。

所以，當一個大寫字母意外地放在一個句子中時，它會導致混亂。

AI 不知道是將其視為專有名詞、錯誤，還是乾脆忽略它。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

#利用這一點，就能輕鬆地將我們正在交談的物件中真人和聊天機器人區分出來。

如何更科學地把AI揪出來？

為了回應未來可能大量出現的利用聊天機器人進行的詐騙等嚴重的不法活動。

除了上邊提到的大寫字母測試，研究人員們嘗試找到一個在網路環境中更有效率地區分人類和聊天機器人的方法。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

論文：##https://www. php.cn/link/f30a31bcad7560324b3249ba66ccf7aa

研究者針對大語言模型的弱點重點設計。

為了讓大語言模型無法通過測試，抓住AI的「七吋」一頓爆錘。

錘出了以下幾個測試方法。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

只要是大模型不擅長回答的問題，就瘋狂針對。

計數

首先是計數，知道大模型數不行。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

果然3個字母都能數錯。

文字替換

#然後是文字替換，幾個字母互相替換，讓大模型拼出一個新的單字。

AI糾結了半天，輸出的結果還是錯的。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

位置替換

##這也不是ChatGPT的強項。

對於小學生都能準確完成的字母篩選聊天機器人也沒辦法完成。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

問題：請輸出第二個「S」之後的第4個字母，正確答案為「 c”

隨機編輯

#對人類完成幾乎不費任何力氣，AI依然無法通過。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

「雜訊植入

##雜訊植入

##這也就是我們開頭提到的「大寫字母測試」了。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型透過在問題中加入各種噪音（例如無關的大寫字母單字），聊天機器人沒有辦法準確的辨識問題，於是就無法通過測試。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

#而對人類來說，要在在這些雜亂的大寫字母中看出真正的問題，難度實在是不值一提。

符號文字

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型 #又是對人類幾乎沒有任何挑戰的任務。

但是對於聊天機器人來說，想要能夠理解這些符號文字，不進行大量的專門訓練應該是很難的。

由研究人員專門針對大語言模型設計的一系列「不可能的任務」之後。

為了區分人類，他們也設計了兩個對於大語言模型比較簡單，而對於人很難的任務。

記憶與計算

##########透過事先的訓練，大語言模型在這兩個方面都有比較良好的表現。 ######

而人類由於受限於無法使用各種輔助設備，基本上對於大量的記憶和4位數的計算都沒有做出有效的回答。

人類VS大語言模型

研究人員針對GPT3，ChatGPT，以及另外三個開源的大模型：LLaMA，Alpaca，Vicuna進行了這個「人類區別測試”

可以從結果上很明顯地看出來，大模型沒有成功混入人類之中。

研究團隊將問題開源在了https://github.com/hongwang600/FLAIR

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

##表現最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。

而其他的大語言模型，在這些專門針對他們設計的測試中，表現都非常糟糕。

完全不可能通過測試。

而對人類來說卻非常簡單，幾乎100%通過。

而對於人類不擅長的問題，人類也幾乎全軍覆沒，一敗塗地。

AI卻能明顯勝任。

看來研究者對於測試設計確實是非常用心了。

「不放過任何一個AI，卻也不冤枉任何一個人類」

##這區分度槓槓的！

參考資料：#//m.sbmmt.com/link/5e632913bf096e49880cf8b92d53c9ad#

以上是一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 人類圖靈

來源：51cto.com

上一篇：必應聊天週報：「平衡」和「精確」模式也支援 AI 生成圖片下一篇：摩根士丹利表示蘋果AR/VR頭顯將於10月量產，備貨30萬到50萬部

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

3

2159

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

11

2310

子窗口操作父窗口，輸出沒反應前兩句可執行，最後一句沒辦法應

來自於 2024-04-19 15:37:47

0

1

1947

父視窗沒有輸出 document.onclick = function(){ window.opener.document.write('我是子視窗的輸出'); ...

來自於 2024-04-18 23:52:34

0

1

1821

關於CSS心智圖的課件在哪？課件

來自於 2024-04-16 10:10:18

0

0

1875

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422648
php入門教程之一週學會PHP

4267488
JAVA 初級入門影片教學

2530033
小甲魚零基礎入門學習Python影片教學

506990
PHP 零基礎入門教學

862143

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板