合成資料會推動 AI/ML 訓練的未來嗎？-人工智慧-PHP中文網

合成資料會推動 AI/ML 訓練的未來嗎？

王林

發布： 2023-04-14 09:52:07

轉載

1414 人瀏覽過

合成数据会推动 AI/ML 训练的未来吗？

毫無疑問，為訓練人工智慧或機器學習 (AI/ML) 收集真實資料既耗時又昂貴。而且，很多時候也充滿了風險，但更常見的問題是數據太少或有偏見的數據可能會使企業組織誤入歧途。但是，如果你可以產生新數據，也就是所謂的合成數據呢？

這聽起來不太可能，但這正是Synthesis AI計劃從468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和Kubera Venture Capital 等創投公司籌集的1700 萬美元的A 輪融資。

這是一個非常可靠的證據。該公司正計劃利用這這筆資金來擴大其在混合真實和合成數據領域的研發。

Synthesis AI 的執行長Yashar Behzadi 在聲明中表示：「合成數據正處於採用的拐點，我們的目標是進一步開發該技術並推動電腦視覺系統構建方式的範式變革。該產業很快就會在虛擬世界中全面設計和訓練電腦視覺模型，從而實現更先進和合乎道德的人工智慧。」

但什麼是合成資料？

合成資料是人工創建的，而不是從現實世界中收集的。目前，許多應用都專注於視覺數據，例如從電腦視覺系統收集的數據。儘管如此，沒有實際理由不能為其他用例建立合成數據，例如測試應用或改進用於檢測詐欺的演算法。它們有點像物理記錄的高度結構化的數位孿生。

透過大規模提供大量、真實的資料集，資料科學家和分析師理論上可以跳過資料收集過程，直接進入測試或訓練。

這是因為創建真實世界資料集的大部分成本不僅僅是收集原始資料。以電腦視覺和自動駕駛汽車為例，汽車製造商和研究人員可以將各種攝影機、雷達和光達感測器連接到車輛上進行收集，但原始數據對 AI/ML 演算法沒有任何意義。同樣艱鉅的挑戰是使用上下文資訊手動標記數據，以幫助系統做出更好的決策。

讓我們來看看這個挑戰的背景：想像一下，你經常開一段很短的車，所有的停車標誌、十字路口、停著的車、行人等等，然後想像一下，給每一個潛在的危險都貼上標籤是一項艱鉅的任務。

合成資料的核心優勢在於，理論上，它可以創建完美標記的資料集，其規模足以正確訓練AI/ML 應用，這意味著資料科學家可以在大量新地方突然測試他們的演算法，然後才能真正實現世界數據或在難以獲取的情況下。繼續自動駕駛汽車的例子，資料科學家可以創建合成資料來訓練汽車在惡劣條件下駕駛，例如積雪覆蓋的道路，而無需派司機向北或進入山區手動收集資料。

合成資料的核心優勢在於，從理論上講，它可以在適當訓練AI/ML應用所需的規模上創建完美標記的資料集，這意味著資料科學家可以在獲得真實資料之前，或在難以取得數據的情況下，突然在許多新的地方測試他們的演算法。還是自動駕駛汽車的例子，資料科學家可以創建合成資料來訓練汽車在不利條件下駕駛，例如白雪覆蓋的道路，而無需讓駕駛者一路向北或進入山區手動收集資料。

然而，合成資料存在先有雞還是先有蛋的問題，因為只能使用…更多資料和更多 AI/ML 演算法來創建它。從「種子」資料集開始，然後將其作為合成創作的基準，這意味著它們只會與您開始使用的資料一樣好。

（無形）利益

有哪些資料科學家或研究人員不會從看似無窮無盡的資料產生器中獲益?其核心好處－能夠避免手動收集真實世界的數據－只是合成資料可以加速AI/ML應用的方式之一。

由於分析師和數據科學家可以嚴格控制種子數據，甚至可以額外努力納入多樣性，或與外部顧問合作發現和解碼偏見，他們可以對自己提出更高的標準。例如，Synthesis AI正在開發一種監測司機狀態的系統，並仔細地將不同的面孔包含在他們的電腦生成的合成資料集中，以確保現實世界的應用適用於每個人。

隱私是另一個潛在的勝利。如果一家公司花費數百萬英里來為他們的自動駕駛汽車收集真實世界的數據，他們就會收集到許多人認為是個人隱私的大量數據——尤其是他們的臉。像谷歌和蘋果這樣的大公司已經找到了在他們的地圖軟體中避免這些類型問題的方法，但他們的路線對於想要測試他們的演算法的小型 AI/ML 團隊來說並不可行。

「企業還在努力解決與以人為本的產品中的模型偏見和消費者隱私相關的道德問題。很明顯，建立下一代電腦視覺需要一種新的範式，」該公司首席執行官兼創始人Yashar Behzadi對媒體表示。

雖然合成資料確實依賴種子才能開始，但可以對其進行調整和修改，以幫助在現實生活中難以或危險捕獲的邊緣情況下訓練 AI/ML 應用。自動駕駛汽車背後的公司希望擅長識別僅部分可見的物體或人，例如隱藏在卡車後面的停車標誌，或站在兩輛車之間的行人衝上馬路。

考慮到這些勝利，儘管有些人擔心將偏見編碼到合成數據中的先有雞還是先有蛋的問題，Gartner預測，到2024年，用於開發AI 和分析產品的數據的60% 將綜合生成。他們預測，大部分新數據將專注於在它們所基於的歷史數據失去相關性或基於過去經驗的假設失效的情況下修復預測模型。

但總是需要收集一些真實世界的數據，所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長的路要走。

以上是合成資料會推動 AI/ML 訓練的未來嗎？的詳細內容。更多資訊請關注PHP中文網其他相關文章！