數據管理是生成式人工智慧健康發展的關鍵-人工智慧-PHP中文網

2023年成為人工智慧時代的正式開端，幾乎每個人都在談論ChatGPT。

數據管理是生成式人工智慧健康發展的關鍵

像是ChatGPT這樣的生成式人工智慧語言模型吸引了我們的目光和興趣，因為我們第一次能夠看到人工智慧像真人一樣與我們對話，並產生我們認為有創意的文章、詩歌和其他新內容。生成型人工智慧解決方案似乎充滿了更快、更好的創新、生產力和價值實現的突破性潛力。然而，它們的局限性尚未得到廣泛關注，它們的資料隱私和資料管理最佳實踐也未被廣泛理解。

最近，由於對人工智慧技術的使用缺乏了解和足夠的監管，科技和安全界的許多人發出了警告。我們已經看到了對人工智慧工具輸出的可靠性、IP（智慧財產權）和敏感資料外洩以及侵犯隱私和安全的擔憂。

三星與ChatGPT的事件成為頭條新聞，此前這家科技巨頭無意中將自己的秘密洩露給了人工智慧。並非只有三星：Cyberhaven的一項研究發現，4%的員工將敏感的企業資料放入了大型語言模型中。許多人不知道，當他們用公司資料訓練模型時，人工智慧公司可能能夠在其他地方重複使用這些資料。

網路安全情報公司Recorded Future透露：「在ChatGPT發布的幾天內，我們在暗網和特殊訪問論壇上發現了許多威脅參與者，他們共享有缺陷但功能強大的惡意軟體、社會工程教程、賺錢計劃等，所有這些都是透過使用ChatGPT實現的。」

在隱私方面，當個人註冊像ChatGPT這樣的工具時，它可以像今天的搜尋引擎一樣存取IP位址、瀏覽器設定和瀏覽行為。但風險更高，因為「未經個人同意，它可能會披露政治信念或性取向，並可能意味著尷尬甚至毀掉職業生涯的資訊被發布。」私人網路接入公司的工程總監Jose Blaya說。

顯然，我們需要更好的法規和標準來實作這些新的人工智慧技術。但是，關於資料治理和資料管理的重要作用，卻缺乏討論——但這在企業採用和安全使用人工智慧方面發揮著關鍵作用。

一切都與資料有關

以下是我們應該關注的三個領域：

#資料治理和訓練資料的透明度：一個核心問題圍繞著專有的預訓練人工智慧模型或大型語言模型（LLM）。使用LLM的機器學習程式包含了來自許多不同來源的大量資料集。問題是，LLM是一個黑盒子，它對來源資料幾乎沒有透明度。我們不知道這些來源包含詐欺數據，是否包含PII（個人識別資訊），是否可信、無偏見、準確或合法。 LLM研發公司並不共享其來源資料。

《華盛頓郵報》分析了Google橫跨1500萬個網站的C4資料集，發現了數十個令人不快的網站，其中包含煽動性和PII資料以及其他可疑內容。我們需要資料治理，這需要所使用的資料來源的透明度以及這些來源所含知識的有效性/可信度。例如，你的人工智慧機器人可能正在對未經核實的來源或假新聞網站的數據進行培訓，從而對其知識產生偏見，而這些知識現在已成為你公司新政策或研發計劃的一部分。

資料隔離和資料域：目前，不同的人工智慧供應商在如何處理你提供的資料有不同的隱私權政策。無意中，員工可能會在他們的提示中向LLM提供數據，而不知道該模型可能會將數據納入其知識庫。公司可能會在不知情的情況下將商業機密、軟體程式碼和個人資料暴露給世界。

一些人工智慧解決方案提供了變通方法，例如採用API，透過將您的資料排除在預先訓練的模型之外來保護資料隱私，但這同時限制了人工智慧的功能價值。因為理想的用例是在保持資料隱私的同時，用你特定情況資料增強預先訓練的模型。

一個解決方案是讓經過預先訓練的人工智慧工具理解資料「領域」的概念。培訓資料的「通用」領域用於預先培訓，並在通用應用之間共享，而基於「專有資料」的培訓模型則安全地限制在組織的邊界內。資料管理可以確保建立和保留這些邊界。

人工智慧的衍生作品：資料管理的第三個領域涉及人工智慧流程及其最終所有者產生的資料。比方說，使用人工智慧機器人來解決程式設計問題。如果某件事做得不正確，導致出現錯誤或錯誤，通常我們會知道誰做了什麼來調查和修復。但有了人工智慧，組織很難界定人工智慧執行的任務所產生的任何錯誤或不良結果由誰負責——你不能責怪機器：在某種程度上，是人為造成了錯誤或糟糕的結果。

更複雜的問題是IP，你擁有用生成人工智慧工具創作的作品的IP嗎？你會在法庭上如何辯護？根據《哈佛商業評論》報道，藝術界已經開始對某些人工智慧應用提起索賠訴訟。

現在要考慮資料管理策略

在早期，我們不知道人工智慧在壞資料、隱私和安全、智慧財產權和其他敏感資料集的風險方面有什麼不知道的。人工智慧也是一個廣泛的領域，有許多方法，如LLM、基於業務流程邏輯的自動化，這些只是透過資料治理政策和資料管理實踐的結合來探索的一些主題：

#暫停產生人工智慧的實驗，直到你有了一個監督策略、政策、以及降低風險和驗證結果的程式。

納入資料管理指導原則，首先要對自己的資料有一個堅實的了解，無論資料駐留在哪裡。您的敏感PII和客戶資料在哪裡？你有多少IP數據，這些文件位於哪裡？你能監控使用情況，以確保這些資料類型不會被無意中輸入人工智慧工具，並防止安全或隱私外洩嗎？

不要向人工智慧應用程式提供超出所需的數據，也不要共享任何敏感的專有數據。鎖定/加密IP和客戶資料以防止其被共用。

了解人工智慧工具如何以及是否可以對資料來源透明。

供應商能否保護您的資料？谷歌在其部落格中分享了這一聲明，但「如何」尚不清楚：「無論一家公司是在Vertex AI中培訓模型，還是在Generative AI App Builder上建立客戶服務體驗，私人資料都是保密的，不會在更廣泛的基礎模型培訓語料庫中使用。」閱讀每個人工智慧工具的合約語言，以了解你提供給它的任何數據是否可以保密。

標記業主、委託專案的個人或部門衍生作品的資料。這很有幫助，因為你可能最終要對你公司製作的任何作品負責，你想知道人工智慧是如何融入這個過程的，以及是誰參與的。

確保域之間資料的可攜性。例如，一個團隊可能想要剝離其IP和識別特徵的數據，並將其輸入到通用訓練資料集中以供將來使用。這一過程的自動化和追蹤至關重要。

隨時了解正在製定的任何行業法規和指導方針，並與其他組織的同行交談，了解他們如何應對風險緩解和資料管理。

在開始任何生成式人工智慧專案之前，請諮詢法律專家，以了解資料外洩、隱私和IP侵犯、惡意行為者或虛假/錯誤結果時的風險和流程。

企業中人工智慧的實用方法

人工智慧發展迅速，前景廣闊，有可能以前所未有的速度加速創新、削減成本和改善用戶體驗。但與大多數強大的工具一樣，人工智慧需要在正確的背景下謹慎使用，並設定適當的資料治理和資料管理護欄。人工智慧的資料管理尚未出現明確的標準，這是一個需要進一步探索的領域。同時，企業在使用人工智慧應用程式之前，應謹慎行事，確保清楚了解資料外洩、資料外洩和潛在的資料安全風險。

以上是數據管理是生成式人工智慧健康發展的關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章！