美媒揭秘大模型訓練資料集：部分內容有些'髒'-人工智慧-PHP中文網

美媒揭秘大模型訓練資料集：部分內容有些髒

4月20日訊息，過去四個月，人工智慧聊天機器人變得越來越受歡迎，它們能夠完成各種任務，例如寫複雜的學術論文和進行緊張的對話，能力很令人驚嘆。

聊天機器人不像人類那樣思考，它們甚至不知道自己在說什麼。它們之所以能模仿人類的語言，是因為驅動它們的人工智慧已經吸收了大量的文本，其中大部分內容是從網路上抓取的。

這些文字是人工智慧在建構過程中獲取世界資訊的主要來源，它們會對人工智慧的回應方式產生深遠影響。如果人工智慧在司法考試中取得了優異成績，那可能是因為它的訓練資料中包含了數以千計的LSAT（Law School Admission Test，美國法學院入學申請考試）資料。

科技公司對他們向人工智慧提供了哪些資訊始終保密。因此，《華盛頓郵報》開始分析其中一個重要資料集，徹底揭示了用於訓練AI的專有、個人和常常具有攻擊性的網站類型。

為了探究人工智慧訓練資料的內部組成，《華盛頓郵報》與艾倫人工智慧研究所的研究人員合作，對Google的C4資料集進行了分析。這個資料集是一個包含1500多萬個網站的大量快照，這些網站內容被用來訓練許多備受關注的英語人工智慧，例如Google的T5和Facebook的LLaMA。而OpenAI並沒有透露他們使用了什麼樣的資料集來訓練支援聊天機器人ChatGPT的模型。

在這項調查中，研究人員使用網路分析公司Similarweb的資料對網站進行了分類。其中大約三分之一的網站無法進行分類而被排除，主要是因為它們已經不再存在於網路上。接著，研究人員根據資料集中每個網站出現的「token」數量，對剩下的1000萬個網站進行了排名。 token是處理訊息的小段文本，通常是一個單字或短語，用於訓練AI模型。

從維基百科到WoWhead

美媒揭秘大模型訓練資料集：部分內容有些髒

C4資料集的網站主要來自新聞、娛樂、軟體開發、醫療和內容創作等行業。這可以解釋為什麼這些領域可能受到新一波人工智慧的威脅。前三名的網站分別是：第一名是Google專利搜索，它包含世界各地發布的專利文本；第二名是維基百科；第三名是只接受付費訂閱的數位圖書館Scribd。此外，排名前幾名的其他網站還有盜版電子書市場Library（第190名），這個網站因非法行為被美國司法部查封。此外，資料集中還存在至少27個被美國政府認定為盜版和仿冒品市場的網站。

還有一些頂級網站也出現在其中，例如《魔獸世界》玩家論壇wowhead（第181位），以及阿里安娜·赫芬頓（Arianna Huffington）創立的用於幫助緩解職業倦怠的網站thriveglobal（第175位）。此外，還有至少10個出售垃圾箱的網站，包括dumpsteroid（第183位），但它似乎已經無法訪問。

雖然大部分網站都是安全的，但有些網站有嚴重的隱私問題。例如，有兩個排名進入前100名的網站，都私下承載了州選民登記資料庫的副本。雖然選民資料是公開的，但這些模型可能會以未知的方式使用這些個人資訊。

工商業網站佔了最大的類別（佔分類token的16%）。排名第一的是提供投資建議的The Motley Fool（第13名）。其次是允許使用者為創意專案進行群眾募資的Kickstarter網站（第25位）。而排名較後的Patreon則排名第2398，該網站幫助創作者從訂閱者那裡收取每月費用以獲得獨家內容。

然而，Kickstarter和Patreon可能會讓人工智慧取得藝術家的想法和行銷文案，人們擔憂AI可能會在向用戶提供建議時複製這些作品。目前，藝術家的作品被包括在人工智慧培訓數據中時，他們不會得到任何補償，他們已經向文本轉圖像生成器Stable Diffusion、MidJourney和DeviantArt提出了侵權索賠。

根據這次《華盛頓郵報》的分析，更多的法律挑戰可能即將到來：C4資料集中有超過2億次出現版權符號（表示註冊為智慧財產權的作品）。

技術網站是第二大類別，佔分類token的15%。這包括許多平台，它們幫助人們建立網站，例如Google協作平台（第85位），它的頁面涵蓋了從英格蘭雷丁柔道俱樂部到新澤西州幼兒園的各種內容。

C4資料集還包含了50萬多個個人博客，佔分類內容的3.8%。發布平台Medium排名第46位，是第五大科技網站，在其網域下擁有數萬個部落格。此外，還有在WordPress、Tumblr、Blogpot和Live Journal等平台上撰寫的部落格。

這些博客形式多樣，從職業到個人都有，比如一篇名為“Grumpy Rumblings”的博客，由兩位匿名的學者共同撰寫，其中一位最近寫到了他們的伴侶失業是如何影響了夫妻的稅。此外，C4資料集中還有一些專注於真人角色扮演遊戲的頂級部落格。

社交網路如Facebook和Twitter等（它們被視為現代網路的核心）的內容被禁止抓取，這意味著用於訓練人工智慧的大多數資料集都無法存取它們。 Facebook和Google等科技巨頭坐擁海量對話數據，但他們還不清楚如何使用個人用戶資訊來訓練內部使用或作為產品銷售的人工智慧模型。

新聞和媒體網站是所有類別中排名第三，而前十位網站中有半數是新聞媒體：《紐約時報》網站排名第四，《洛杉磯時報》網站排名第六，《衛報》網站排名第七，《富比士》網站則排在第八位，《赫芬頓郵報》網站排名第九，《華盛頓郵報》網站排名第11位。與藝術家和創作者一樣，多家新聞機構也批評科技公司在未經授權或提供補償的情況下使用他們的內容。

同時，《華盛頓郵報》也發現有幾家媒體在NewsGuard的獨立可信度評級中排位較低：例如俄羅斯RT（第65位）、極右翼新聞網站breitbart（第159位）以及與白人至上主義有關的反移民網站vdare（第993名）。

聊天機器人已經被證明可以分享錯誤訊息。不可信的訓練資料可能導致它們傳播偏見、宣傳錯誤訊息，而使用者卻無法追蹤到它們的原始來源。

社群網站約佔分類內容的5%，主要是宗教網站。

過濾器漏網之魚有哪些？

就像大多數公司一樣，Google在將資料提供給人工智慧之前，會對資料進行過濾和篩選。除了去除無意義和重複的文字外，該公司還使用了開源的“不良詞彙列表”，其中包括402個英文術語和一個表情符號。公司通常使用高品質的資料集來微調模型，從而屏蔽用戶不想看到的內容。

雖然這類清單旨在限制模型在接受培訓時受到種族誹謗和不良內容的影響，但很多東西都通過了過濾器的篩選。《華盛頓郵報》發現了數百個色情網站和超過7.2萬個「納粹」例子，它們都在禁用詞彙清單中。

與此同時，《華盛頓郵報》發現，這些過濾器未能刪除某些令人不安的內容，包括白人至上主義網站、反跨性別網站以及以組織針對個人騷擾活動而聞名的匿名留言板4chan。研究中也發現了宣傳陰謀論的網站。

你的網站有沒有用來訓練AI？

網頁抓取聽起來可能像是對整個互聯網進行複製，但實際上它只是收集快照，即對特定時刻的網頁樣本抓取內容。 C4資料集最初是由非營利組織CommonCrawl創建的，於2019年4月進行網路內容抓取，是人工智慧模型訓練的熱門資源。 CommonCrawl表示，該組織試圖優先考慮最重要和聲譽最好的網站，但沒有試圖避免授權或版權保護的內容。

《華盛頓郵報》認為，將資料的完整內容呈現在人工智慧模型中至關重要，這些模型有望管理人們現代生活的許多方面。然而，這個資料集中的許多網站包含高度攻擊性語言，即使模型訓練時盡量掩蓋這些字詞，令人反感的內容仍然可能會存在。

專家表示，儘管C4資料集很龐大，但大型語言模型可能會使用更大的資料集。例如，OpenAI在2020年發布了GPT-3訓練數據，其數據量是C4中網路抓取資料量的40倍。 GPT-3的培訓數據包括所有英文維基百科、大型科技公司經常使用的、未出版作家的免費小說集以及Reddit用戶高度評價的連結文本彙編。

專家表示，許多公司甚至沒有記錄培訓數據的內容（甚至是內部數據），因為擔心發現有關可識別身份的個人資訊、受版權保護的材料和其他未經同意被竊取的數據。隨著公司強調解釋聊天機器人如何做出決策的挑戰，這是高階主管需要給出透明答案的領域。

以上是美媒揭秘大模型訓練資料集：部分內容有些'髒'的詳細內容。更多資訊請關注PHP中文網其他相關文章！