作者 | JAMES VINCENT
譯者 | 朱先忠
自去年以來,生成式人工智慧越來越火爆。微軟、Adobe和GitHub等公司正在將該技術整合到他們的產品中;新創公司正在籌集數億美元,與之競爭;該軟體甚至具有文化影響力,文本到圖像的人工智慧模型催生了無數的模因文化。但是,仔細聽任何關於生成式人工智慧的行業討論,你會私下聽到,倡導者和批評者都以越來越擔憂的語氣低聲提出了一個問題:這些事實上是否合法?
問題的產生是因為生成式人工智慧系統的訓練方式。與大多數機器學習軟體一樣,它們透過識別和複製資料中的模式來運作。但由於這些程式用於生成程式碼、文字、音樂和藝術的訓練資料本身是由人類創建的,因此是從網路上「搜刮」來的,而且其中大部分資料本身以某種方式受到版權保護。
對於經歷過渺遠過去 (又稱「2010年代」)的人工智慧研究人員來說,這不是什麼大問題。當時,最先進的模型只能產生指甲大小的模糊黑白人臉圖像。這對人類沒有明顯的威脅。但在2022年,當一個單純的業餘愛好者可以在幾個小時內使用Stable Diffusion這樣的軟體複製一位藝術家的風格,或者當公司銷售人工智慧生成的印刷品和社交媒體過濾器,這些都是活生生的設計師的仿製品時,合法性和道德問題變得更加緊迫。
以迪士尼插畫家霍莉·蒙格特(Hollie Mengert)為例,她發現自己的藝術風格被加拿大的一名機械工程學生剋隆為人工智慧實驗。這位學生下載了蒙格特的32篇作品,並花了幾個小時訓練了一個可以重現她的風格的機器學習模型。正如蒙格特告訴技術專家Andy Baio(他報導了這起案件):「就我個人而言,這感覺就像有人在做我所做的工作,用我學到的東西——我從2011年藝術學校畢業以來一直是職業藝術家——並用它來創作我不同意也不允許的藝術。」
但這公平嗎?蒙格特能對此做些什麼嗎?
為了回答這些問題並了解生成式人工智慧的法律前景,the Verge公司採訪了一系列有關專家,包括律師、分析師和人工智慧新創公司的員工。有些人滿懷信心地表示,這些系統極有可能侵犯版權,並可能在不久的將來面臨嚴重的法律挑戰。其他人則持相反意見:目前在生成式人工智慧領域發生的一切都是合法的,任何訴訟都注定會失敗。
「我看到雙方的人都對自己的立場非常自信,但現實是沒有人知道,」一直密切關註生成式人工智慧場景的貝奧告訴the Verge採訪人員。 「任何人如果說他們自信地知道這件事在法庭上的結果,那就錯了。」
英國薩塞克斯大學(University of Sussex)專門研究人工智能和智慧財產權法的學者安德烈斯·瓜達木茲(Andres Guadamuz)表示,儘管有許多未知因素,但也有幾個關鍵問題,這一主題的諸多不確定性由此展開。首先,你能獲得生成式人工智慧模型的輸出的版權嗎?如果是,誰擁有它?第二,如果你擁有用於訓練人工智慧的輸入的版權,那麼你對模型或其創建的內容有任何法律要求嗎?一旦這些問題得到回答,一個更大的問題就出現了:你如何應對這項技術的影響?可以或應該對資料收集實施什麼樣的法律限制?建構這些系統的人和那些需要數據來創造這些系統的人之間能存在和平嗎?
讓我們逐一回答這些問題。
至少對於第一個問題,答案並不太難。在美國,僅由機器生成的作品沒有版權保護。然而,在創作者能夠證明有大量人力投入的情況下,版權似乎是可能被承認的。
#今年9月,美國版權局首次批准了一本漫畫書的註冊,這本漫畫書是藉助文本到圖像的AI Midstravel(一種類似於Open AI公司的DALL·E產品AI藝術作品生成器軟體)產生的。這部漫畫是一部完整的作品:18頁的敘述,有人物、對話和傳統的漫畫佈局。儘管有報導稱美國版權局正在審查其決定,但該漫畫的版權註冊實際上尚未被撤銷。看來,審查中的一個因素將是製作漫畫所涉及的人力投入程度。創作這部作品的藝術家克里斯蒂娜·卡什塔諾娃(Kristina Kashtanova)告訴ipwatchdog.com,美國版權局要求她「提供我的過程細節,以表明在這部平面小說的創作過程中有大量的人類參與。」(美國版權局本身不評論具體案例。)
根據瓜達木茲的說法,這將是一個持續存在的問題,涉及到為借助人工智能生成的作品授予版權。 “如果你只是鍵入‘cat by van Gogh’,我認為這不足以在美國獲得版權,”他說。 「但如果你開始嘗試使用提示,並製作幾個圖像,開始微調圖像,開始使用種子數據,並開始進行更多的工程,我完全可以看到這受到版權保護。」
#考慮到這一準則,生成式人工智慧模型的絕大多數輸出很可能無法受到版權保護。它們通常都是用幾個關鍵字作為提示而大批量製作出來的。但更多涉及的過程會產生更好的案例。這些可能包括有爭議的作品,例如人工智慧生成的印刷品贏得了國家藝術博覽會的比賽。在這種情況下,創作者表示,他花了數週時間磨練提示,並手動編輯完成的作品,這表明他有相當高的智力投入。
電腦科學家喬治·弗朗切切利(Giorgio Franceschelli)撰寫了有關人工智慧版權問題的文章,他表示,衡量人類輸入對於歐盟的案件判決「尤其正確」。而在英國——西方人工智慧新創公司關注的另一個主要司法管轄區——法律又不同。不同尋常的是,英國是少數幾個為僅由電腦生成的作品提供版權的國家之一,但它認為作者是「完成作品創作所需安排的人」。同樣,還有多個「讀者」的問題(這個「人」是模型的開發人員還是其操作員?),但它為授予某種版權保護提供了優先權。
不過,瓜達木茲警告說,最終,註冊版權只是第一步。 「美國版權局不是法院,」他說。 「如果你要起訴侵犯版權的人,你需要註冊,但最終將是法院來決定這是否具有法律效力。」
######### #####5、輸入問題:你可以使用受版權保護的資料來訓練人工智慧模型嗎? ############對大多數專家來說,關於人工智慧和版權的最大問題與用於訓練這些模型的資料有關。大多數系統都是根據從網路上獲取的大量內容進行訓練的;可以是文字、程式碼或圖像。例如,Stable Diffusion的訓練資料集——最大和最有影響力的文字轉繪畫技術之一——包含從數百個域中提取的數十億張圖像;從WordPress和Blogspot上的個人部落格到DeviantArt等藝術平台以及Shutterstock和Getty Images等股票圖像網站,應有盡有。事實上,生成式人工智慧的訓練資料集非常龐大,很有可能你已經身在其中。 ############人工智慧研究人員、新創公司和數十億美元的科技公司使用的理由是,使用這些圖像(至少在美國)受到公平使用原則的保護,該原則旨在鼓勵使用受版權保護的作品來促進表達自由。 ############范德比爾特法學院(Vanderbilt Law School)教授丹尼爾·熱爾維斯(Daniel Gervais)解釋說,在決定某種東西是否合理使用時,有很多考慮因素。熱爾維斯專門研究智慧財產權法,並撰寫了大量關於這一點與人工智慧如何交叉的文章。不過,他表示,有兩個因素「更加突出」。 「使用的目的或性質是什麼,對市場的影響是什麼。」換言之:用例是否以某種方式改變了材料的性質(通常被描述為「變革性」使用),以及它是否透過與原創作者的作品競爭而威脅他們的生計? ############6、在受版權保護的資料上訓練生成式人工智慧可能是合法的但你可能用非法的方式使用這個模型#########考慮到這些因素所承擔的責任,Gervais表示,版權資料訓練系統「很有可能」會被合理使用。但對於生成內容來說,這一點並不一定如此。換句話說:你可以用別人的資料訓練一個人工智慧模型,但是你用這個模型做的事情可能是侵權的。我們不妨把它想成為製造假幣去看電影和試圖用假幣買車的差別。
考慮在不同場景中部署的相同文字到圖像的AI模型,如果模型在數百萬張圖片上訓練並用於生成新的圖片,那麼這極不可能構成侵犯版權。在這個過程中,訓練資料已經被轉換,輸出不會威脅到原始藝術的市場。但是,如果你在一個特定藝術家的100張照片上微調模型,並產生與其風格相同的圖片,那麼一個不開心的藝術家就可能會對你提出有力的指控。
Gervais說,「如果你給人工智慧10本史蒂芬金的小說,然後說『製作一本史蒂芬金的小說',那麼你就是直接和史蒂芬金競爭了。這是對人工智慧的合理使用嗎?可能不是」。
然而至關重要的是,在公平和不公平使用的兩極之間,有無數種情況下,投入、目的和產出都以不同的方式平衡,並可能以某種方式影響任何法律裁決。
生成式人工智慧公司Wombo的參謀長Ryan Khurana表示,大多數銷售這些服務的公司都意識到了這些差異。他在電子郵件中告訴the Verge:“故意使用基於版權作品的提示來產生輸出……違反了每個主要玩家的服務條款。”但是,他補充道,“這執行起來很困難”,公司更感興趣的是「想出防止以侵犯版權的方式使用模型的方法…,而不是限制訓練資料」。這對於開源文字到圖像模型(如Stable Diffusion)尤其如此,它可以在零監督或過濾的情況下進行訓練和使用。該公司可能會掩護自己,但也可能為侵犯版權的使用提供便利。
判斷合理使用的另一個變數是訓練資料和模型是否由學術研究人員和非營利組織創建。這通常會加強合理使用防禦,新創公司也知道這一點。例如Stability AI沒有直接收集模型的訓練數據,也沒有在軟體背後訓練模型。相反,它資助並協調了學者的這項工作,而穩定擴散模型是由一所德國大學授權的。這使得Stability AI可以將模型轉化為商業服務(DreamStudio),同時與其發明者保持合法的距離。
拜奧將這種做法稱為「AI資料清洗」。他指出,這種方法以前在創建臉部辨識AI軟體時就已經使用過,並指出了MegaFace的例子,MegaFace是華盛頓大學的研究人員透過從Flickr上抓取照片彙編的資料集。貝奧說:「學術研究人員拿走了數據,清洗了數據,然後被商業公司使用。」他說,這些數據——包括數百萬張個人照片——掌握在「臉部辨識公司Clearview AI、執法部門和中國政府」手中。這種經過反覆測試和檢驗的清洗過程可能有助於保護生成型人工智慧模型的創造者免於承擔責任。
然而,這一切還有最後一個轉折點,正如熱爾韋指出的,由於最高法院涉及安迪·沃霍爾和普林斯的未決案件,當前對合理使用的解釋可能在未來幾個月內發生變化。該案涉及沃荷使用普林斯的照片創作藝術品。這是合理使用,還是侵害著作權?
Gervais說:「最高法院經常不正當使用,所以當他們這樣做的時候,他們通常會做一些重大的事情。我認為他們在這裡也會這樣做。 」。 「而且,在等待最高法院修改法律的同時,說任何事情都是既定法律的做法是有風險的。」
即使發現生成式人工智慧模型的訓練被合理使用所覆蓋,這也很難解決該領域的問題。這不會安撫藝術家們的憤怒,因為他們的作品被用來培育商業模型,也不一定適用於其他生成式人工智慧領域,例如程式碼和音樂。考慮到這一點,問題是:可以引入哪些補救措施,無論是技術上的還是其他方面的,以允許生成式人工智慧蓬勃發展,同時為那些工作使該領域成為可能的創造者提供信貸或補償?
#最明顯的建議是授權數據並向其創作者付費。不過,對某些人來說,這將扼殺該行業。 《公平學習》(Fair Learning)一書的作者布萊恩·凱西(Bryan Casey)和馬克·萊姆利(Mark Lemley)表示,訓練資料集太大,「沒有任何合理的選擇去授權所有底層照片、視訊、音訊檔案或文字用於新用途」。他們認為,允許任何版權主張,「相當於說,不是版權所有者會得到報酬,而是根本不允許使用」。允許“公平學習”,正如他們所說的,不僅鼓勵創新,還允許開發更好的人工智慧系統。
然而,其他人指出,我們已經解決了類似規模和複雜性的版權問題,並且可以再次這樣做。 The Verge採訪的幾位專家引用了一個比較,那就是音樂盜版時代,當時的文件共享程序建立在大規模侵犯版權的基礎上,並在出現法律挑戰而導致了尊重版權的新協議之前繁榮發展。
本月早些時候,馬修·巴特里克(Matthew Butterick)告訴the Verge:「所以,在21世紀初,你有Napster,大家都很喜歡它,但它完全是非法的。而今天,我們有Spotify和iTunes這樣的公司。」目前,馬修·布特里克是一名律師,他起訴公司為訓練人工智慧模型而收集數據。 「這些系統是如何產生的?透過公司進行授權交易並合法地引入內容。所有利益相關者都參與進來,並使其發揮作用。對我來說,人工智慧不可能發生類似事情的想法有是災難性的。」
#
無論我們在這些法律問題上落在何處,生成式人工智慧領域的各個參與者都已經在為一些事情做準備。從這項技術中獲利數百萬的公司正在鞏固自己的地位:一再宣稱他們所做的一切都是合法的(同時可能希望沒有人真正質疑這一說法)。在「無人區」的另一邊,版權持有者們在沒有完全承諾採取行動的情況下表明了自己的初步立場。蓋蒂圖片社(Getty Images)最近禁止了人工智慧內容,因為這會給客戶帶來潛在的法律風險(執行長克雷格彼得斯上個月告訴the Verge):「我不認為這是負責任的事情;相反,我認為這可能是非法的)。而音樂產業貿易組織RIAA宣稱,人工智慧驅動的音樂混音器和提取器侵犯了會員的版權(儘管他們沒有發起任何實際的法律挑戰)。
然而,隨著日前針對微軟、GitHub和OpenAI提起的集體訴訟,人工智慧版權戰爭的第一槍已經打響。該案指控上述三家公司在未獲得正當許可的情況下透過AI編碼助手Copilot故意複製開源代碼。在接受The Verge採訪時,訴訟方的律師表示,這可能會為整個生成式人工智慧領域開創先例。
##「不過,一旦有人揭發真相,我認為訴訟將開始橫飛遍地。 」 與此同時,瓜達木茲和拜奧都表示,他們對還沒有更多的相關法律挑戰感到驚訝。「老實說,我大吃一驚,」瓜達穆茲說。「但我認為這在一定程度上是因為這些行業害怕成為第一個(起訴)敗訴的行業。不過,一旦有人揭發真相,我認為訴訟將開始橫飛遍地。 」 拜奧表示,一個困難是,許多受這項技術影響最大的人——藝術家等——根本無法處於一個良好的狀態去發起法律挑戰。「他們沒有資源,」他說。「這類訴訟非常昂貴且耗時,只有在你知道自己會贏的情況下才會進行。這就是為什麼我一段時間以來一直認為,圍繞AI藝術的第一場訴訟將來自庫存圖像網站。他們似乎準備好從這項技術中損失重大,他們可以清楚地證明,他們的大量語料庫被用於訓練這些模型,而他們有資金將其告上法庭。 ” 瓜達木茲表示同意。他說,“每個人都知道它會有多麼昂貴”,“無論誰提起訴訟,都將在下級法院得到裁決,然後他們將上訴,然後再次上訴,最終,這可能會一直到最高法院。 」 原文連結:https://www.theverge.com/23444685/generative-ai-copyright-infringement-legal-fair-use-training-data #譯者介紹朱先忠,51CTO社群編輯,51CTO專家部落格、講師,濰坊一所高校電腦教師,自由程式設計界老兵一枚。以上是版權之爭:懸於AI造物之上的達摩克里斯之劍的詳細內容。更多資訊請關注PHP中文網其他相關文章!