GenAI時代的資料治理藍圖-人工智慧-PHP中文網

GenAI時代的資料治理藍圖

PHPz

發布： 2023-11-20 17:33:35

轉載

1379 人瀏覽過

GenAI時代的資料治理藍圖

隨著我們深入ML和GenAI領域，對資料品質的重視變得至關重要。 KMS Technology高級技術創新小組的技術長John Jeske深入研究了資料治理方法，如資料沿襲追蹤和聯合學習，以確保頂級模型的性能。

資料品質是模型永續性和利害關係人信任的關鍵。在建模過程中，資料品質使長期維護變得更容易，並使你能夠在利害關係人社群中建立使用者信心和信心。在包括大規模語言和生成性演算法在內的複雜模型中，『垃圾輸入，垃圾輸出』的影響會加劇。「Jeske說。

無論你為用例選擇哪種模型，糟糕的數據品質都不可避免地會導致GenAI模型的扭曲。陷阱通常來自培訓數據，這些數據錯誤地表示了公司的範圍、客戶基礎或應用程式範圍。

真正的財富在於數據本身，而不是短暫的模型或建模結構。在過去幾個月裡，隨著大量建模框架的湧現，數據作為可貨幣化資產的價值變得更加突顯

KMS Technology軟體服務高級副總裁Jeff Scott進一步解釋道：「當AI生成的內容與預期輸出有偏差時，並非演算法錯誤，而是培訓資料不足或扭曲的反映

#資料治理的最佳實踐包括元資料管理、資料管理和自動化品質檢查等活動。例如，確保資料來源的可靠性，在獲取用於培訓和建模的資料時使用經過認證的資料集，並考慮使用自動化資料品質工具。儘管這可能增加複雜性，但這些工具對於確保資料完整性非常有幫助

為了提高資料質量，我們使用了提供資料有效性、完整性檢查和時間一致性等屬性的工具，這促進了可靠、一致的數據，而這對健壯的AI模型來說是不可或缺的。

在每個人看來，數據都是一個問題。在公司內，分配資料治理的責任是一項重要任務

最重要的是確保功能按設計工作，並且從潛在客戶的角度來看，正在訓練的資料是合理的。回饋加強了學習，然後在下一次訓練模型時考慮到回饋，從而調用持續改進，直到信任點。

在我們的工作流程中，AI和ML模型在公開推出之前都要經過嚴格的內部測試。資料工程團隊不斷收到回饋，允許對模型進行迭代改進，以最大限度地減少偏差和其他異常情況

資料治理需要在相關的業務領域進行資料管理，並且需要有主題專家持續參與，以確保團隊和系統中的資料得到適當的整理和一致的負責任

必須了解與接收來自技術的不準確結果相關的風險，公司必須評估其透明度，從資料來源和處理智慧財產權到整體資料品質和完整性。

透明度對客戶的信任是不可或缺的，資料治理不僅僅是一項技術工作，由於風險從不準確的AI預測轉移到最終用戶，它還會影響公司的聲譽。

隨著GenAI的不斷發展，資料治理的掌握變得愈發重要。這不僅是為了保證資料質量，也是為了理解資料與AI模型之間的複雜關係。這種洞察力對於技術進步、業務健康以及維護利益相關者和更廣泛公眾的信任至關重要

以上是GenAI時代的資料治理藍圖的詳細內容。更多資訊請關注PHP中文網其他相關文章！