實施穩健的AI治理以實現數據民主化-人工智慧-PHP中文網

實施穩健的AI治理以實現數據民主化

GenAI的出現加快了人們釋放資料潛力的步伐，為獲取新見解和更好決策提供了機會。然而，要實現更廣泛的數據訪問，需要一種完善的數據治理策略。那些能夠在數據民主化和嚴格數據治理之間取得平衡的企業，將透過釋放獨特的數據驅動洞察力而在市場上脫穎而出。

根據Gartner的數據，到2026年，超過80%的企業將使用GenAI API和模型，或在生產中部署啟用GenAI的應用程序，而去年這一比例不到5%。 GenAI的自然語言介面允許非技術用戶，從部門負責人到第一線工作人員，更輕鬆地存取和使用資料。這在獲取資訊和技能方面創造了公平的競爭環境，Gartner稱這是「本十年最具顛覆性的趨勢之一」。

如果公司要避免隱私、安全和資料品質方面的風險增加，以這種方式實現資料民主化就會使強有力的治理變得更加關鍵，這意味著準確地知道你擁有什麼數據、駐留在哪裡、誰有權存取這些數據以及每種類型的用戶被允許如何使用這些數據，但一個企業如何在不壓制創新的情況下實施全面控制？

在更高層級上，推崇的方法是將資料整合到一個綜合的儲存庫中，讓不同團隊和工作小組可以方便、安全地分享這個儲存庫。透過統一數據，企業能夠實現集中管理，並擴大對數據的存取範圍，同時最大程度地減少複雜性並優化成本。這種集中儲存資料的方法有助於確保資料的一致性和準確性，避免資料重複和不一致性所帶來的問題。此外，這也有助於提高資料的安全性和保護隱私，因為可以更容易實施存取控制和監控措施。因此，建立一個統一的資料儲存庫對企業來說是非常重要的，

在實際操作中，這可能會帶來一些挑戰，因為資料主權法規要求某些資料必須儲存在特定的國家或地區。面對這種情況，企業需要努力消除資料孤島，並在其資料平台上實施一致的治理架構。

此外，一些特定的方法和技術有助於確保企業能夠維持有效的治理，同時在GenAI擴大資料存取的同時保持安全。這些方法包括基本的治理實踐，適用於各種環境，但隨著GenAI推動資料存取進一步民主化，這些實踐變得特別關鍵。

針對隱私和法規遵循的精細控制

隨著員工對資料的存取量增加，資料外洩和個人識別資訊(PII)被未授權使用者存取的風險也在增加。因此，實施嚴格的存取控制策略以及使用匿名化和身分識別技術對於確保合規性和防止資料被不當存取至關重要。

在我們分析雪花資料雲趨勢的新《資料趨勢2024》報告中，我們注意到治理功能的使用顯著增加，這些功能在提供對資料的精細控制的同時，也適當地將其提供給更多的用戶，用於更多的用例，例如，在截至2024年1月31日的12個月中，應用的掩碼或行訪問策略的使用量與去年同期相比增加了98% ，同時，分配了遮罩策略的列數成長了97%。

然而，值得注意的是，針對受策略保護的物件執行的查詢總數上升了142%，這個數字意義重大，因為它表明良好的資料治理不是說「不」和限制資料使用。儘管看到越來越多的治理透過使用標籤和屏蔽政策，但報告指出，使用這些數據所做的工作量正在迅速上升。

在某些情況下，員工可能希望檢查他們不能被授予直接存取權限的資料集，在這種情況下，差異隱私是一項強大的技術，因為它允許使用者透過查看資料集內的模式來共享和探索資料集，而不會洩露任何個人用戶的PII。更進一步，數據淨化室允許多方在不向彼此披露原始數據的情況下就數據進行協作，數據淨化室通常用於在不同企業之間共享數據，但我們正在看到內部使用的技術來滿足日益增長的監管和隱私需求，它可以成為在GenAI介面環境中探索PII資料的有效技術。

一致、協調的安全性

安全應該建構在資料平台的結構中，而不是試圖稍後為個別資料集和使用者固定它，支援對話介面的技術不應該複製資料上的身份和其他核心權限，這將導致脆弱的設定。如果兩個或多個系統都在追蹤誰可以存取哪些數據，則出錯和未經授權存取的可能性會大大增加。

在保護GenAI用例的資料方面發揮關鍵作用的技術包括持續的風險監控和保護、基於角色的存取控制(RBAC)和細粒度授權策略。基於角色的標記和基於標記的遮罩策略允許你透過將遮罩策略指派給標記，然後在一個或多個資料庫物件上設定該標記，從而在列層級保護資料。

資料孤島是良好治理的敵人

將資料的副本或片段儲存在不同的系統中，使得追蹤誰可以存取哪些資訊以及保持存取和控制策略的一致性變得極其困難，這就是為什麼資料孤島是強大治理的敵人。

資料孤島也使得很難確保員工查詢的是最新、最準確的數據，這可能會導致代價高昂的錯誤。為了透過GenAI實現對資料的廣泛訪問，企業需要一個單一的真實來源，以確保所有員工都在查看相同的信息，並且可以在所有資料中全面應用和更新控制和策略。

確保資料品質以獲得準確的結果

即使你消除了孤島並擁有適當的權限，也不能保證員工存取的資訊是正確的，資料品質架構是基於應用於表中特定列或一組列的可配置資料品質規則，可以幫助檢測品質問題並確保準確的資訊。

此外，到目前為止，我們都知道，GenAI有時會產生幻覺，並產生實際上沒有根據的答案，這對於企業使用來說是不可接受的。企業可以透過將大型語言模型(LLM)與他們知道值得信任的資料來源結合來解決這個問題，例如內部客戶資料庫或來自可信任第三方提供者的經過審查的資料集。

這些受信任的資料來源可以使用需要LLM自訂(如微調)或不需要LLM自訂(如即時工程或檢索增強生成(RAG))的製程合併。無論是哪種情況，這些技術都有助於確保員工收到準確、高品質的結果，同時遵守內部雲端環境中內建的治理標準。

資料存取和通用搜尋的威力

GenAI治理的一個重要面向是讓員工很容易找到合適的資料集和資料產品來幫助他們進行分析，人工智慧如此強大的一個原因是，它允許員工在不通過中央團隊的情況下與數據交互，但這需要這些員工知道他們可以獲得什麼數據，以及如何找到這些數據。

搜尋功能提供了這一功能，允許用戶查找和查詢資料集和資料產品，這項搜尋功能本身可以由LLM提供支持，使資料搜尋更加直觀-這是我們在Snowflake開發的，作為我們通用搜尋的一部分。

治理是資料民主化的基礎

#商業使用者渴望更廣泛地利用他們組織的數據，而GenAI最終使這成為可能。多虧了LLMS和自然語言處理，財務、人力資源、銷售和營運等領域的員工現在可以針對自己的角色制定問題，並獲得他們做出更明智決策所需的答案。

但要滿足企業的安全和法規遵循需求，這只能在具有強大治理的環境中發生，治理越強，你的員工就越能自由地瀏覽數據，而不會給公司帶來額外的風險，GenAI為真正的數據民主化打開了大門，而良好的治理是使其成為可能的基礎。

以上是實施穩健的AI治理以實現數據民主化的詳細內容。更多資訊請關注PHP中文網其他相關文章！