生成式AI爆火的現在,其背後模型用以訓練的資訊資料的版權問題一直是人們關注的焦點-到底怎樣才算合法的訓練資料?是否會在無意間侵犯他人版權?
對此,有外媒稱,日本的政府人工智慧戰略委員會於5月26日提交了一份草案,表示不會強制人工智慧訓練中使用的數據符合版權法。而日本文部科學(相當於國內教育部)大臣永岡桂子在當地會議上證實了這一消息,稱日本的法律不保護AI訓練所用資料的版權。
永岡桂子 圖源日本「文部科學省」官網
具體在4月24日,日本眾議院定居點管理監督委員會第二小組委員會上,日本的一位名叫紀伊隆的議員與永岡桂子進行了直接討論。
根據紀伊隆在會後整理的問答可以看到,永岡桂子在談到日本關於使用AI進行資訊分析的法律制度(版權法)時,表示「在日本,無論使用何種方法,無論是出於營利或非營利目的,無論用於複製以外的行為,還是從非法網站獲得的內容,都可以使用資訊分析作品。」
對此,紀伊隆則認為,從權利保護的角度來看,「違背版權所有者意願使用」這一事實是有問題的,還是有必要製定保護版權所有者的新規定。
另外,他們討論了學校使用人工智慧聊天機器人(如ChatGPT)作為教育指導方針的問題。外媒通報稱,日本教育系統預計最快於2024年3月採用該技術或工具。對此,永岡桂子並沒有給出具體的時間,只是表示會「盡快」回覆。
此事引起了極為廣泛的討論。 Meta首席科學家楊立昆(Yann LeCun),AI三巨頭之一,在推特上發表了這樣一條推文:
日本已經成為機器學習的天堂。
但有網友指責他不應該將“能夠竊取知識版權而不受影響”稱之為“天堂”,楊立昆則在評論下方回復道:構成知識產權“財產”的本質是由政府定義和執行的。它也受到政府的限制。驅動原則是最大化公共利益,而不是最大化內容所有者的權利。
事實上,圍繞AI訓練資料是否應得到版權保護這一點,網友們展開了激烈的討論。有人同意日本大臣的這一立場,並提出,一批待訓練的圖像資料一定會經過層層處理,最後轉換成為AI模型或電腦能看懂的資料、程式碼或其他電子格式。也就是說,模型訓練所使用的資料基本上都高度有損,因此,即使在最壞的情況下也只是在用“派生作品”,這當然是合理使用。侵犯版權只有在模型複製受版權保護的程式碼、圖像或書籍並在最終輸出中分發時才會發生。
對此,馬上有人反對:無論是否有損,訓練資料都提供了價值。沒有各種人花時間製作最終用作訓練資料的內容,模型的訓練就無法實現。
還有網友提出,爭論版權問題沒有意義,人類總是透過研究已經存在、曾經發布過的東西來不斷學習進化,所以更重要的是從監管層面討論如何更便捷合理地使用、分享或組織控制這些「共享資訊」。
採寫:南都記者楊博雯
##以上是AI訓練資料不用擔心版權問題?日本政府表態引發熱議的詳細內容。更多資訊請關注PHP中文網其他相關文章!