南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

PHPz
發布: 2024-02-01 14:24:26
轉載
1190 人瀏覽過

HuggingFace是最熱門的機器學習開源社區,擁有30萬個不同的機器學習模型和10萬個可用的應用程式。

如果HuggingFace上這30萬個模型,可以自由組合,共同完成新的學習任務,那會是什麼樣的畫面?

其實在HuggingFace問世的2016年,南京大學週志華教授就提出了「學件」(Learnware)概念,描繪了這樣的藍圖。

最近,南京大學週志華教授團隊推出了一個這樣的平台-北冥塢。

網址:https://bmwu.cloud/

#北冥塢不僅提供給科研人員和使用者上傳自己的模型,還能依使用者需求進行模式配對與協作融合,以有效率處理學習任務。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

論文地址:https://arxiv.org/abs/2401.14427

北冥塢系統倉庫:https://www.gitlink.org.cn/beimingwu/beimingwu

科學研究工具包倉庫:https://www.gitlink.org.cn/beimingwu/learnware

這個平台最大的特點就是引入了學件(Learnware)系統,從而突破性地實現了針對使用者需求的模型自適應匹配與協作能力。

學件由機器學習模型和描述模型的規約構成,即「學件 = 模型 規約」。

學件的規約由「語意規約」和「統計規約」兩部分組成:

  • 語意規約透過文本對模型的類型及功能進行描述;
  • 統計規則則透過各類機器學習技術,刻畫模型所蘊含的統計資料。

學件的規約刻畫了模型的能力,使得模型能夠在未來用戶事先對學件一無所知的情況下被充分識別並復用,以滿足用戶需求。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

規約是學件基座系統的核心元件,串連了系統中關於學件的全部流程,包括學件上傳、組織、查搜、部署與復用。

就像《天龍八部》中的燕子塢由許多小島組成一樣,北冥塢中的規約也像一個個的小島。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

來自不同特徵/標記空間的學件,構成眾多的規約島嶼,所有規約島嶼共同構成學件基座系統中的規約世界。在規約世界中,如果能夠發現並建立不同島嶼之間的聯繫,那麼相對應的規約島嶼將可以進行合併。

在學件範式下,世界各地的開發者可分享模型至學件基座系統,系統透過有效查搜和復用學件幫助使用者高效解決機器學習任務,而無需從零開始建立機器學習模型。

北冥塢是學件的第一個系統性開源實現,為學件相關研究提供了初步科研平台。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

有分享意願的開發者可自由提交模型,學件塢協助產生規約形成學件存放在學件塢中,開發者在這個過程中無需向學件塢洩漏自己的訓練資料。

未來的使用者可以透過向學件塢提交需求,在學件塢協助下查搜復用學件來完成自己的機器學習任務,且使用者可以不向學件塢洩漏自有資料。

而且以後,在學件塢擁有數以百萬計的學件後,將可能出現「湧現」行為:以往沒有專門開發過模型的機器學習任務,可能透過複用若干個現有學件而解決。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

學件基座系統

機器學習在許多領域取得了巨大成功,但依然面臨著諸多問題,例如需要大量的訓練資料和高超的訓練技巧、持續學習的困難、災難性遺忘的風險以及資料隱私/所有權的洩漏等。

雖然上述每一個問題都有相應的研究,但由於問題之間是相互耦合的,在解決其中一個問題時,可能會導致其他問題變得更加嚴重。

學件基座系統期望透過一個整體框架,同時解決上述諸多問題:

  • 缺乏訓練資料/技能:即使對於缺乏訓練技能或資料量較小的普通用戶,也可以獲得強大的機器學習模型,因為用戶可以從學件基座系統中獲取性能優良的學件,並進一步調整或改進,而不是自己從頭開始構建模型。
  • 持續學習:隨著在各種不同任務上訓練得到的、性能優良的學件被不斷提交,學件基座系統中的知識將不斷豐富,進而自然地實現持續和終身學習。
  • 災難性遺忘:一旦學件被接收,它將永遠被容納在學件基座系統中,除非其各方面功能都可以被其他學件所替代。因此,學件基座系統中的舊知識總是會被保留,而不會被遺忘。
  • 資料隱私/所有權:開發者只提交模型而不共享私有數據,因此資料隱私/所有權可以得到很好的保護。儘管無法完全排除對模型進行逆向工程的可能性,但與許多其它隱私保護方案相比,學件基座系統洩漏隱私的風險非常小。

學件基座系統的組成

如下圖所示,系統工作流程分為以下兩個階段:

  • 提交階段:開發者自發性地提交各式各樣的學件到學件基座系統,而係統會對這些學件進行品質檢查和進一步的組織。
  • 部署階段:當使用者提交任務需求後,學件基座系統會根據學件規約推薦對使用者任務有幫助的學件並指導使用者進行部署和重複使用。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

規約世界

#規約是學件基座系統的核心元件,串連了系統中關於學件的全部流程,包括學件上傳、組織、查搜、部署與重複使用。

來自不同特徵/標記空間的學件,構成眾多的規約島嶼,所有規約島嶼共同構成學件基座系統中的規約世界。在規約世界中,如果能夠發現並建立不同島嶼之間的聯繫,那麼相對應的規約島嶼將可以進行合併。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

學件基座系統在查搜時,首先透過使用者需求中的語意規約定位到具體的規約島嶼,再透過使用者需求中的統計規約對規約島上的學件進行精確識別。不同的規約島嶼合併,則意味著相應的學件可以被用於不同特徵/標記空間的任務上,即可以復用至超出其原始目的的任務中。

學件範式透過充分利用社群分享的機器學習模型的能力,建構統一的規約空間,以統一的方式高效地為新用戶解決機器學習任務。隨著學件數量增多,透過有效地組織學件結構,學件基座系統整體解決任務的能力將顯著增強。

北冥塢的架構

如下圖所示,北冥塢的系統架構包含四個層次,從學件儲存層至使用者互動層,首次自底向上系統性地實現了學件範式。四個層次的具體功能如下:

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

#
  • 學件儲存層:管理以zip套件格式儲存的學件,並透過學件資料庫提供相關資訊的取得方式;
  • 系統引擎層:囊括了學件範式中的所有流程,包括學件上傳、檢測、組織、查搜、部署和復用,並以learnware Python包的形式獨立於後端和前端運行,為學件相關任務和科研探索提供了豐富的演算法介面;
  • 系統後端層:實現了北冥塢的工業級部署,提供了穩定的系統線上服務,並透過提供豐富的後端API支撐了前端和客戶端的用戶互動;
  • 使用者互動層:實現了基於網頁的前端和基於命令列的客戶端,為使用者互動提供了豐富且便捷的方式。

實驗評估

在論文中,研究團隊也建立了各種類型的基礎實驗場景,評估表格、圖像和文字數據上進行規約產生、學件辨識和復用的基準演算法。

表格資料實驗

#在各種表格資料集上,團隊首先評估了從學件系統中辨識和重複使用與使用者任務具有相同特徵空間的學件的性能。

而且,由於表格任務通常來自不同的特徵空間,研究團隊也對來自不同特徵空間的學件的識別和復用進行了評估。

同質案例

#在同質案例中,PFS資料集中的53個商店充當53個獨立用戶。

每個商店利用自己的測試數據作為使用者任務數據,並採用統一的特徵工程方法。這些使用者隨後可以在基座系統上查搜與其任務具有相同特徵空間的同質學件。

當使用者沒有標註資料或標註資料量有限時,團隊對不同的基準演算法進行了比較,所有使用者的平均損失如下圖所示。左表顯示,無資料方法比從市場上隨機選擇和部署一個學件要好得多;右圖表明,當使用者的訓練資料有限時,識別並重複使用單一或多個學件比使用者自訓練的模型性能更優。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

左表顯示,無資料方法比從市場上隨機選擇和部署一個學件要好得多;右圖表明,當使用者的訓練資料有限時,辨識並重複使用單一或多個學件比使用者自訓練的模型表現更優。

異質案例

#根據市場上學件與使用者任務的相似性,異質案例可進一步分為不同的特徵工程和不同的任務場景。

不同的特徵工程場景:

下圖左顯示的結果表明,即使使用者缺乏標註數據,系統中的學件也能表現出很強的性能,尤其是複用多個學件的AverageEnsemble方法。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

不同的任務場景:

上圖右顯示了使用者自訓練模型和幾種學件復用方法的損失曲線。

很明顯,異質學件在使用者標註資料量有限的情況下實驗驗證是有益的,有助於更好地與使用者的特徵空間進行對齊。

圖像和文字資料實驗

#此外,研究團隊在圖像資料集上對系統進行了基礎的評估。

下圖顯示,當使用者面臨標註資料稀缺或僅擁有有限數量的資料(少於 2000 個實例)時,利用學件基座系統可以產生良好的效能。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

團隊也在基準的文字資料集上對系統進行了基礎評估。透過統一的特徵提取器進行特徵空間對齊。

如下圖所示,即使在沒有提供標註資料的情況下,透過學件辨識和重複使用所獲得的效能也能與系統中最好的學件相媲美。

此外,與從頭開始訓練模型相比,利用學件基座系統可以減少約2000個樣本。

南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式

#

以上是南大周志華團隊8年力! 「學件」系統解決機器學習複用難題,「模型融合」湧現科研新範式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!