上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造-人工智慧-PHP中文網

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

王林

發布： 2023-04-12 19:19:26

轉載

1608 人瀏覽過

幾天前，Meta AI 聯合Papers with Code 發布了大型語言模型Galactica，該模型的一大特點就是解放你的雙手，代筆幫你寫論文，寫的論文有多完整呢？摘要、導論、公式、參考文獻等統統都有。

就像下面這樣，Galactica 產生的文字看起來就是一篇論文的配置：

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

不只產生論文，Galactica 也可以產生詞條的百科查詢、對所提問題作出知識性的回答，除了文本生成外，Galactica 還可以執行涉及化學公式和蛋白質序列的多模態任務。例如在化學反應中，要求Galactica 在化學方程式LaTeX 中預測反應的產物，模型僅根據反應物就能進行推理，結果如下：

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

##為了方便使用者體驗這項研究，團隊也專門上線了試用版。如下圖，幾天前介面還顯示輸入、生成等功能。

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

（先前版本）Galactica 試用版網址：https://galactica.org/

短短幾天，它的介面變成這樣，已經不能輸入。

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

根據 Papers with Code 說法，他們從社群收到一些回饋，已經暫停 Galactica 的 Demo 示範功能。前兩天還在推特發文稱讚的圖靈獎得主 Yann LeCun ，今天就很無奈的說了一句，再也不能從中獲得快樂了，開心嗎？

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

不過與極力推崇該研究的人相比，有網友提出一些反對意見，與其帶來的好處相比，Galactica 會帶來更多負面後果，想想這對學生寫論文會有什麼影響。

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

與學生用它來寫論文相比，下面這位網友發現的問題就更嚴重了。

「我問了Galactica 一些問題，它的回答都是錯誤或有偏見的，但聽起來是正確和權威的。」在一系列實驗後，推特用戶Michael Black 表示：「Galactica 產生的文字合乎語法，讓人感覺真實。其所產生的文章會變成真正的科學論文。這篇文章可能是正確的，但也可能是錯誤的或有偏見的，很難被發現，從而影響人們的思維方式。」

「它提供了聽起來是權威的科學，但沒有科學方法的基礎。Galactica 根據科學寫作的統計特性產生偽科學，很難區分真假。這可能會開啟一個深度科學造假的時代。這些被生成的論文將被其他人在真實的論文中引用。這將會是一團亂麻。我讚賞這個計畫的初衷，但提醒大家還是要注意，這不是科學的加速器，甚至不是科學寫作的有用工具。這對科學來說是潛在的扭曲和危險。」

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

Michael Black 回答部分截圖。連結：https://twitter.com/Michael_J_Black/status/1593133722316189696

##發現Galactica 存在不嚴謹、生成偽科學文章等問題的不只Michael Black，其他網友也發現了這個缺陷。下面我們來看看網友的其他評論。

引起爭議

Galactica 試用版上線後，許多學者卻對此提出了疑義。

一位名叫David Chapman 的AI 學者指出語言模型應該是整理合成語言的，而不是生成知識：

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

##這確實是一個非常值得思考的問題，如果AI 模型能產生「知識」，那麼如何判斷這些知識的正確與否呢？它們又會如何影響甚至誤導人類呢？

David Chapman 用自己的一篇論文為例說明了這個問題的嚴重性。 Galactica 模型提取了論文中「A logical farce」部分的關鍵術語，然後使用一些相關的維基百科文章，最後編輯合成出一篇錯漏百出的文章。

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

由於 Galactica 模型的試用版已下架，我們無法查看這篇文章與論文原意的差距有多大。但可以想像，初學者如果閱讀了 Galactica 模型合成的這篇文章，可能會被嚴重誤導。

知名AI 學者、Robust.AI 創始人Gary Marcus 也對Galactica 模型表達了強烈的質疑：「大型語言模型（LLM）混淆數學和科學知識有點可怕。高中生可能會喜歡它，並用它來愚弄他們的老師。這應該令我們感到擔憂。」

來自紐約大學計算機科學系的學者們也測試了Galactica 模型的生成結果，發現Galactica 答非所問：

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造

#圖源：https://cs.nyu.edu/~davise/papers/ ExperimentWithGalactica.html

首先，在這個實驗中，Galactica 模型的回答的確包含一些正確的訊息，例如：

然而，紐約大學學者提出的問題是：與確定引力常數的實驗相關的維基百科文章，而Galactica 模型回答的是「與檢驗廣義相對論有關的實驗的百科資訊」。這從根本上就出現了錯誤。

不僅如此，Galactica 模型的回答中還有一些細節出現了事實性錯誤：

Galactica 回答中強調不要混淆 GP-B 與重力探測器（Gravity Probe B）的實驗，但實際上「GP-B」就是指「重力探測器 - B」的實驗。
回答中提到的 Leonard Schiff 於 1937 年在麻省理工學院獲得博士學位。他曾多次在賓州大學和史丹佛大學任教，但從未在馬裡蘭大學任教。而 Francis Everitt 是在 1959 年於帝國學院獲得博士學位的。
引力探測器A（Gravity Probe A 在1966 年並沒有因為預算削減而被取消，也與陀螺儀（gyroscope）沒有任何關係。實際上，引力探測器A於1976 年發射，實驗涉及微波激射器（maser）。

紐約大學的這項實驗非常具體明確地說明了Galactica 模型的生成結果存在嚴重的錯誤，並且該研究進行了多個不同問題的實驗，每一次Galactica 的回答都是錯漏百出的。這說明Galactica 產生錯誤訊息的情況絕非偶然。

##紐約大學實驗報告：https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html

面對Galactica 的失敗，有網友將其歸因於深度學習的限制：「深度學習的本質是從資料中學習，這本來就不同於人類的智能，根本無法實現通用人工智慧（AGI）」。

上線僅兩天，AI大模型寫論文網站光速下架：不負責任的胡編亂造