社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > Gary Marcus：文字生成圖像系統理解不了世界，離 AGI 還差得遠

Gary Marcus：文字生成圖像系統理解不了世界，離 AGI 還差得遠

WBOY

發布： 2023-04-09 09:31:03

轉載

1376 人瀏覽過

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

自從 DALL-E 2 問世以來，許多人都認為，能夠繪製逼真影像的 AI 是邁向通用人工智慧（AGI）的一大步。 OpenAI 的 CEO Sam Altman 曾在 DALL-E 2 發布的時候宣稱“AGI is going to be wild”，媒體也都在渲染這些系統對於通用智能進展的重大意義。

但真的是如此嗎？知名 AI 學者（給 AI 潑冷水愛好者） Gary Marcus 表示「持保留態度」。

最近，他提出，在評估AGI 的進展時，關鍵要看像Dall-E、Imagen、Midjourney 和Stable Diffusion 這樣的系統是否真正理解世界，從而能夠根據這些知識進行推理並進行決策。

在判斷這些系統之於AI （包括狹義和廣義的AI）的意義時，我們可以提出以下三個問題：

影像合成系統能否生成高品質的圖像？

它們能否將語言輸入與它們產生的圖像關聯起來？

它們了解它們所呈現的圖像背後的世界嗎？

1 AI 不懂語言與圖像的關聯

在第一個問題上，答案是肯定的。差別只在於，在用 AI 生成圖像這件事兒上，經過訓練的人類藝術家能做得更好。

在第二個問題上，答案就不一定了。在某些語言輸入上，這些系統能表現良好，例如下圖是DALL-E 2 生成的「騎著馬的太空人」：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但在其他在一些語言輸入上，這些AI 就表現欠佳、很容易被愚弄了。例如前段時間Marcus 在推特上指出，這些系統在面對「騎著太空人的馬」時，難以產生對應的準確圖像：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

儘管深度學習的擁護者對此進行了激烈的反擊，例如AI 研究員Joscha Bach 認為“Imagen 可能只是使用了錯誤的訓練集”，機器學習教授Luca Ambrogioni 反駁說，這正表明了“Imagen 已經具有一定程度的常識”，所以拒絕生成一些荒謬的東西。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

還有一位谷歌的科學家Behnam Neyshabur 提出，如果“以正確的方式提問”，Imagen 就可以畫出“騎著宇航員的馬”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但是，Marcus 認為，問題的關鍵不在於系統能否產生影像，聰明的人總是能找到辦法讓系統畫出特定的影像，但這些系統並沒有深刻理解語言與圖像之間的關聯，這才是關鍵。

2 不知道自行車輪是啥？怎麼能稱是AGI？

系統對語言的理解還只是一方面，Marcus 指出，最重要的是，判斷DALL-E 等系統對AGI 的貢獻最終要取決於第三個問題：如果系統所能做的只是以一種偶然但令人驚嘆的方式將許多句子轉換為圖像，它們可能會徹底改變人類藝術，但仍然不能真正與AGI 相提並論，也根本代表不了AGI。

讓Marcus 對這些系統理解世界的能力感到絕望的是最近的一些例子，例如平面設計師Irina Blok 用Imagen 生成的「帶有許多孔的咖啡杯」圖像：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

正常人看了這張圖都會覺得它違反常識，咖啡不可能不從洞裡漏出來。類似的還有：

「帶有方形輪子的自行車」

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文字生成圖像系統理解不了世界，離AGI 還差得遠

「佈滿仙人掌刺的衛生紙」

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文字生成圖像系統理解不了世界，離AGI 還差得遠

說「有」容易說「無」難，誰能知道一個不存在的事物該是什麼樣子？這也是讓 AI 繪製不可能事物的難題所在。

但又或許，系統只是「想」繪製一個超現實主義的圖像呢，正如DeepMind 研究教授Michael Bronstein 所說的，他並不認為那是個糟糕的結果，換做是他，也會這樣畫。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

那麼如何最終解決這個問題呢？ Gary Marcus 在最近與哲學家 Dave Chalmers 的一次交談中獲得了新的靈感。

為了了解系統對於部分和整體、以及功能的認識， Gary Marcus 提出了一項對系統性能是否正確有更清晰概念的任務，給出文本提示“Sketch a bicycle and label the parts that roll on the ground」（畫出一輛自行車並標記出在地面上滾動的部分），以及「Sketch a ladder and label one of the parts you stand on」（畫出一個梯子並標記出你站立的部分）。

這個測試的特別之處在於，並沒有直接給出「畫出一輛自行車並標記出輪子」、「畫出一個梯子並標記出踏板」這樣的提示，而是讓AI 從「地面上滾動的部分」、「站立的部分」這樣的描述中推理出對應的事物，這正是對AI 理解世界能力的考驗。

但Marcus 的測試結果表明，Craiyon（以前稱為DALL-E mini）在這種事情上做得一塌糊塗，它並不能理解自行車的輪子和梯子的踏板是什麼：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

#那麼這是不是DALL-E Mini 特有的問題呢？

Gary Marcus 發現並不是，在目前最火的文本生成圖像系統 Stable Diffusion 中也出現了同樣的結果。

例如，讓Stable Diffusion 「畫一個人，並把拿東西的部分變成紫色」（Sketch a person and make the parts that hold things purple），結果是：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

顯然，Stable Diffusion 並不理解人的雙手是什麼。

而在接下來的九次嘗試中，只有一次成功完成（在右上角），而且準確度還不高：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

下一個測試是，“畫出一輛白色自行車，並將用腳推動的部分變成橙色”，得到圖像結果是：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

所以它也不能理解什麼是自行車的腳踏板。

而在畫出「自行車的草圖，並標記在地面上滾動部分」的測試中，其表現得也沒有很好：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

如果文字提示帶有否定語，例如“畫一輛沒有輪子的白色自行車"，其結果如下：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

##這表示系統並不理解否定的邏輯關係。

即使是「畫一輛綠色輪子的白色自行車」這樣簡單的只專注於部分與整體關係提示，而且也沒有出現複雜的語法或功能等，其得到的結果仍存在問題：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

因此，Marcus 質問道，一個並不了解輪子是什麼、或它們的用途的系統，能稱得上是人工智慧的重大進步麼？

今天，Gary Marcus 也針對這個問題發出了一個投票調查，他提出的問題是，「Dall-E 和Stable Diffusion 等系統，對它們所描繪的世界到底了解有多少？」

其中，86.1% 的人認為系統對世界的理解並不多，只有13.9% 的人認為這些系統理解世界的程度很高。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

對此，Stability.AI 的執行長Emad Mostique 也回應稱，我投的是“並不多”，並承認“它們只是拼圖上的一小塊。」

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

來自科學機構New Science 的Alexey Guzey 也有與Marcus 類似的發現，他讓DALL-E 畫出一輛自行車，但結果只是將一堆自行車的元素堆在一起。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

所以他認為，並沒有任何能真正理解自行車是什麼以及自行車如何運作的模型，生成當前的ML 模型幾乎可以與人類媲美或取代人類是很荒謬的。

大家怎麼看？

以上是Gary Marcus：文字生成圖像系統理解不了世界，離 AGI 還差得遠的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

文字生成

來源：51cto.com

上一篇：探索企業MLOps落地之路，AISummit 全球人工智慧技術大會「MLOps最佳實踐」專場成功舉辦下一篇：人工智慧在遊戲產業的應用

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

透過新增 Width 屬性將內容向左移動我已經為主體提供了邊距。主要{左邊緣：200px;右邊距：200px；文本對齊：居中}由於我想以兩行而不是一行顯示文本，因此我在樣式中添加了width屬性。 .p{字體大小：12p...

來自於 2024-04-06 22:01:35

0

3

816

頁面突然無法拉動 css 或 bootstrap 所以我正在開發一個頁面，我昨天做了一部分，效果很好，今天我繼續做剩下的部分，一切都很好。當我嘗試將其作為普通html頁面打開時，CSS或BOOTSTRAP不起作用，僅顯示頁面文本，...

來自於 2024-04-06 21:58:04

0

1

800

有沒有辦法強制彈性框中的文字垂直居中，無論我們有什麼其他 CSS 程式碼？我有以下CSS程式碼，它是我正在開發的網站中使用的更大CSS程式碼的一部分：.cards-u{display:flex;flex-wrap:wrap;justify-content...

來自於 2024-04-06 20:41:51

0

1

518

使用opentbs產生odt檔案時遇到的問題：相同key的值顯示在同一行而不是單獨的欄位中。我正在使用一個名為OpenTbs的庫來使用PHP建立odt，我使用它是因為動態生成列和行。我知道如何建立行和列，但我不知道如何組織它們。讓我加入一個例子：所以首先我會將其添加到我的...

來自於 2024-04-06 20:18:18

0

1

483

MySQL：'從......中選擇文字作為<此處變數或子查詢>” 我有下表，其中包含以下數據：id文本語言1德語文本德語2英文文本英語我想要的是獲得以下格式的結果：german="deutschertext"english=&...

來自於 2024-04-06 19:25:54

0

2

529

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1423559
php入門教程之一週學會PHP

4269123
JAVA 初級入門影片教學

2539652
小甲魚零基礎入門學習Python影片教學

507703
PHP 零基礎入門教學

862975

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板