AI產業應用:資料編織助力AI應用訓練突破

PHPz
發布: 2023-06-08 11:38:45
轉載
1124 人瀏覽過

#本文為人人都是產品經理《原創激勵計畫》出品。

儘管大型AI模型現在非常受歡迎,每個企業都想在其中分一杯羹,但實現這一過程所涉及的演算法和數據並不是易如反掌的。其中,資料的傳輸和管理是個大問題。本文圍繞著AI應用訓練的瓶頸展開敘述,對AI訓練困難進行總結並結合IDC分析報告,得出「數據」是最大瓶頸的結論,並針對該問題思考解決策略。

AI產業應用:資料編織助力AI應用訓練突破

一、產品背景

「最近身邊再次響起了討論AI的聲音,與前兩年對AI持觀望態度不同,很多人都說隨著ChatGPT應用,AI時代真的來了,產品、運營同學們都在忙著了解什麼是ChatGPT、什麼是Stable Diffusion等等,但是演算法工程師卻在瘋狂頭疼,瘋狂抱怨,領導要求他們盡快搞出大模型,盡快提升演算法模型指標,服務業務,路過演算法組聽到張工和胡工的以下的對話:

張工:胡哥,你的模型訓練的怎麼樣了啊?

胡工:哎,一言難盡,沒數據啊,好不容易跟業務部門提了數據,他們不是收集不上來,就是收集上來的數據各式各樣,沒法用啊?

張工:誰不是呢,我這邊也是,最近客戶的圖片,影片加起來10多個T,讓我們自己傳,光來回導資料就耽誤了我們組好長時間。

胡工表示,如果公司能建立一個數據平台,讓我們可以快速地獲取數據,並且能夠管理數據,這樣我們在日常工作中使用數據的時候會更加方便。 ”

聽到以上的對話,我靈機一動,最近基於數據編織想法給客戶做的數據管理平台不就剛好可以解決他們問題嘛,於是我趕緊給他們做了詳細的產品介紹,講述下如何通過「資料編織」的設計概念建構資料管理平台幫助使用者突破AI在應用訓練中的資料瓶頸。

二、AI訓練應用難點

除去人員主觀問題外,我們將AI應用訓練的客觀難點總結,可以歸納為以下三點:

AI產業應用:資料編織助力AI應用訓練突破

高品質數據:演算法訓練想取得好的效果,首要條件是高品質數據,但是如何取得高品質數據,存在如下困難:

  • 資料多樣性:資料存在結構化/非結構化數據,格式有多,不同系統提供的資料缺少統一標準。
  • 資料分佈:許多業務資料多是離散存儲,缺乏統一的資料管理平台,在應用訓練前,取得資料艱難。
  • 數據標註:即時取得到數據,但是大量業務數據在被應用前,都需要標註,標註耗時耗力。

高效算力:指訓練模型時,通常需要大量算力,同時如何將算力高效發揮成為困難

  • 隨時大模型逐步推廣,模型體量越來越大,對算力的需求也迅速遞增。
  • 當資料儲存離散時,對資料的存取將變慢,即時有叢集算力,當無法並行時,算力將無法有效率地應用。

成熟框架:指演算法應用需要成熟穩定,擴展性強的演算法框架

  • 應用架構:目前國內外深度學習演算法架構眾多,對於演算法研究(Pytorch)、工業應用(Tensorflow)需要選擇不同的架構。
  • 資料轉換:由於框架不同、使用語言不同,即時有準備好的高品質資料也需要快速適應不同語言和訓練框架。

小結:從AI應用訓練的3個難點分析,都與資料有關,所以如果能解決資料問題,可有效助力AI應用訓練突破瓶頸。

三、資料是否為AI應用的瓶頸?

雖然從應用程式側總結出資料是AI應用訓練的瓶頸,但是到底有多少使用者這麼認為呢?需要用一份數據來說明。

AI產業應用:資料編織助力AI應用訓練突破

人工智慧應用的主要挑戰排名

AI產業應用:資料編織助力AI應用訓練突破

人工智慧模型開發過程中,投入多少工作量用於資料準備

附註:資料來自IDC統計報告

從數據統計可以看出,其中有29%的用戶認為人工智慧的應用缺少訓練和測試數據,85%的用戶認為至少花費了一半以上的工作量用於準備數據。

小結:既然資料被證實確實是AI應用的瓶頸,那麼就可以考慮從資料尋找切入點,以提供統一標準、快速存取的大批量的高可用資料來源為定位進行產品規劃。

四、產品設計

在尋找到以資料為切入點後,思考如何建立資料類別的產品,根據上述的分析,可以發現要在我們的產品中解決3個資料類別問題:

  • 問題1:資料存儲,盡可能不改變來源資料的儲存位置,最大化降低資料儲存的成本。
  • 問題2:快速訪問,從早期的資料查詢最好變成資料推理,快速搜尋所需資料。
  • 問題3:統一標準,將複雜的資料進行統一規範,以便於應用。

我們在傳統資料管理平台的基礎上,採用「資料編織 知識圖譜」的理念進行變革設計,以因應上述問題。其中各問題的突破點如下:

  • 問題1:基於數據編織想法進行設計
  • 問題2:基於知識圖譜想法進行設計
  • 問題3:基於統一的資料平台對外提供服務

#接下來是產品的詳細設計,從產品定位、應用架構、差異化競爭力和建設路徑展開介紹。

1. 產品架構

1)產品定位

#以資料編織想法提供知識圖譜式的資料管理平台,服務需要高品質資料的客戶。

註:雖然主要目標是解決AI應用訓練的資料瓶頸,但是從產品規劃角度,我們將使用者場景擴大,但凡需要資料服務的都是該產品的目標使用者。

2)產品應用架構

#從資料層到產品應用層,我們設計如下的產品架構:

AI產業應用:資料編織助力AI應用訓練突破

資料層:支援存取不同種類資料類型,以及結構化資料和非結構化數據,AI訓練的資料類別較多,尤其是多模態應用更需要多種類型的資料。

儲存層:針對資料的離散性,要支援資料在不同位置的存儲,從雲端資料到本地資料都需要支援存取。

資料管理平台:本次需要設計的核心產品,主要包含四塊:

  1. 資料治理:傳統的資料管理平台均具備的通用模組,提供資料分析、清洗和規則定義等功能。
  2. 資料安全:同樣的屬於傳統模組,提供跟資料安全相關的功能,如資料脫敏、資料安全傳輸等。
  3. 資料虛擬化儲存&分散式快取:此處即是利用資料編織思想對來自不同平台的資料進行網格化編織形成一張資料視圖,同時僅虛擬化儲存資料的邏輯訊息,不做元數據的遷移和複製,降低存儲成本;但是為了能夠快速獲取數據,在設計中提供分佈式緩存,將訪問頻繁的數據做緩存,提高AI算法訓練對數據的I/O速度和並行性,最大化提高算力集群效率。
  4. 知識圖譜:將清洗好的數據,定義好規則好,按照知識圖譜三元組的形式進行存儲,對外以知識圖譜的形式提供查詢服務,知識圖譜有利於進行搜索的推理,可以通過某個實體數據關聯到另一個實體數據,例如查詢電影視訊數據,可以搜尋“人在囧途”,透過演員“王寶強”和“徐崢”就會關聯出“泰囧”,透過關聯推理查詢可以幫助用戶在平台中快速抽取到所需資料。

資料服務:在設計完平台後,需要預留對外服務的出口,從產品的定位出發,以toB客戶為主,所以既要考慮可視化服務、也要提供API類的服務。

  • API/SDK服務:針對有技術能力的公司或用戶,例如本文想解決的AI訓練應用瓶頸,就可以透過將AI平台直接整合資料平台的API服務,取得需要的數據,將清洗好的資料用於模型訓練。註:一般AI訓練平台需要標註後的數據,所以可以先將標註平台接入,再直接數據傳輸給AI訓練平台。
  • 視覺化查詢:除了考慮技術層面對接,當然還要考慮業務用戶在平台查詢數據,下載數據等行為,例如產品經理、營運經理,他們需要依賴平台自身提供的可視化查詢,檢索並下載數據後,導入其他業務平台進行加工生產,其中可視化查詢採用圖譜結構,以天眼查的樣式為參考,透過搜尋某個數據,同時將關聯數據呈現,便於用戶推理查詢。

AI產業應用:資料編織助力AI應用訓練突破

圖註:天眼查截圖只用於學習參考

2. 商業化

產品一旦落地,商業化是無法取得的,所以在產品規劃階段需要將商業化方向先考慮清楚,從以下3個關鍵面向考慮:

1)販賣內容

#針對B端客戶,我們提供兩類販賣內容,包括「資料管理平台」標品和「技術方案」。

  • 標品:針對無資料管理平台的用戶,用戶只需要買入我們的標品,將資料接入,即可在業務中應用,做到即開即用。
  • 技術方案:經過數位轉型大潮的影響,不少的B端企業客戶或多或少都會有自己的數據管理平台,所以toB的另一個售賣點就是售賣成熟的技術方案,對企業現有的產品進行改造升級,此時,我們需要基於「資料編織知識圖譜」設計思路對客戶產品從底層到服務層進行改造。

2)販賣方式

#B端產品常見的兩種販售模式“通路合作”和“直銷”,在本產品中也採用這些方式。

  • 通路合作:選中兩類通路合作,一類是地市的代理,由他們在地方進行推廣;一類是ISV模式,找到有技術能力的總集代理,將資料管理平台與他們的產品合作,可以優勢互補,對外一起推廣。
  • 直銷:透過舉辦產品發表會、廣告推廣、跑客戶等手段進行產品直接銷售。

3)差異化優勢

#既然是基於新的設計思維打造的資料管理平台,那麼在產品銷售過程中,就需要體現出與傳統資料管理平台的差異化優勢,才能後來居上,吸引用戶,我們可以概況為以下3個優勢點:

  • 資料編織:該產品是採用資料編織的思想進行資料管理,採用資料虛擬化存儲,降低資料實體儲存成本;同時 透過資料快取的方式降低AI應用訓練時取得資料的存取時延。
  • AI能力:與傳統資料平台透過各種條件檢索的方式不同,在本產品中直接透過知識圖譜視圖的形式呈現,使用者可以只輸入某個簡單條件,系統即可傳回相關的資料關係拓撲,實現「數據找人」。
  • 成熟標品:雖然可以賣技術方案,但是如果沒有成熟的標品終究不好打動客戶,所以與傳統廠商賣大而全的數據管理平台不同,我們賣「小而精」的一站式智慧資料管理平台。
3. 建造路徑

產品的成熟還需要有持續的建設路徑,在本產品建設過程中,立足“項目打磨產品”,分兩個2個大的階段進行建設。

  • 專案交付,技術沉澱:透過承接1/2個私有化的資料類項目,在專案中沉澱資料編織與知識圖譜的建設思路,實現技術沉澱。
  • 產品落地,品牌推廣:從實際專案中抽像出產品,並迭代落地,帶產品建置後,做品牌化,並對外推廣。
五、結論

本文圍繞著AI應用訓練的瓶頸展開敘述,對AI訓練難點進行總結並結合IDC分析報告,得出「數據」是最大瓶頸的結論,並針對該問題思考解決策略。

以資料編織與知識圖譜的概念進行產品變革設計,從產品定位、產品架構、應用場景等角度詳細介紹了一個「資料找人」的智慧化資料管理平台,同時也介紹了產品後續的商業推廣思路及建設路徑,對有數據應用場景的客戶,如AI訓練平台,數據標註平台,甚至是傳統數據管理產品需要改造升級的客戶可以提供幫助。

後續我們會進一步探索將資料編織的想法擴展到模型並行訓練的實際過程中,尋求更多的資料高效化的可行性。

專欄作家

Eric_d,人人都是產品經理專欄作家。我熱衷於專注於AI、大數據和其他領域,擁有出色的需求分析、產品流程和架構設計技能,同時喜歡健行。

本文為人人都是產品經理《原創激勵計畫》出品。

題圖來自 Unsplash,基於CC0協定。

以上是AI產業應用:資料編織助力AI應用訓練突破的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:sohu.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!