南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式-人工智慧-PHP中文網

HuggingFace是最熱門的機器學習開源社區，擁有30萬個不同的機器學習模型和10萬個可用的應用程式。

如果HuggingFace上這30萬個模型，可以自由組合，共同完成新的學習任務，那會是什麼樣的畫面？

其實在HuggingFace問世的2016年，南京大學週志華教授就提出了「學件」（Learnware）概念，描繪了這樣的藍圖。

最近，南京大學週志華教授團隊推出了一個這樣的平台－北冥塢。

網址：https://bmwu.cloud/

#北冥塢不僅提供給科研人員和使用者上傳自己的模型，還能依使用者需求進行模式配對與協作融合，以有效率處理學習任務。

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

論文地址：https://arxiv.org/abs/2401.14427

北冥塢系統倉庫：https://www.gitlink.org.cn/beimingwu/beimingwu

科學研究工具包倉庫：https://www.gitlink.org.cn/beimingwu/learnware

這個平台最大的特點就是引入了學件（Learnware）系統，從而突破性地實現了針對使用者需求的模型自適應匹配與協作能力。

學件由機器學習模型和描述模型的規約構成，即「學件 = 模型規約」。

學件的規約由「語意規約」和「統計規約」兩部分組成：

學件的規約刻畫了模型的能力，使得模型能夠在未來用戶事先對學件一無所知的情況下被充分識別並復用，以滿足用戶需求。

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

規約是學件基座系統的核心元件，串連了系統中關於學件的全部流程，包括學件上傳、組織、查搜、部署與復用。

就像《天龍八部》中的燕子塢由許多小島組成一樣，北冥塢中的規約也像一個個的小島。

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

來自不同特徵/標記空間的學件，構成眾多的規約島嶼，所有規約島嶼共同構成學件基座系統中的規約世界。在規約世界中，如果能夠發現並建立不同島嶼之間的聯繫，那麼相對應的規約島嶼將可以進行合併。

在學件範式下，世界各地的開發者可分享模型至學件基座系統，系統透過有效查搜和復用學件幫助使用者高效解決機器學習任務，而無需從零開始建立機器學習模型。

北冥塢是學件的第一個系統性開源實現，為學件相關研究提供了初步科研平台。

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

有分享意願的開發者可自由提交模型，學件塢協助產生規約形成學件存放在學件塢中，開發者在這個過程中無需向學件塢洩漏自己的訓練資料。

未來的使用者可以透過向學件塢提交需求，在學件塢協助下查搜復用學件來完成自己的機器學習任務，且使用者可以不向學件塢洩漏自有資料。

而且以後，在學件塢擁有數以百萬計的學件後，將可能出現「湧現」行為：以往沒有專門開發過模型的機器學習任務，可能透過複用若干個現有學件而解決。

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

機器學習在許多領域取得了巨大成功，但依然面臨著諸多問題，例如需要大量的訓練資料和高超的訓練技巧、持續學習的困難、災難性遺忘的風險以及資料隱私/所有權的洩漏等。

雖然上述每一個問題都有相應的研究，但由於問題之間是相互耦合的，在解決其中一個問題時，可能會導致其他問題變得更加嚴重。

學件基座系統期望透過一個整體框架，同時解決上述諸多問題：

缺乏訓練資料/技能：即使對於缺乏訓練技能或資料量較小的普通用戶，也可以獲得強大的機器學習模型，因為用戶可以從學件基座系統中獲取性能優良的學件，並進一步調整或改進，而不是自己從頭開始構建模型。
持續學習：隨著在各種不同任務上訓練得到的、性能優良的學件被不斷提交，學件基座系統中的知識將不斷豐富，進而自然地實現持續和終身學習。
災難性遺忘：一旦學件被接收，它將永遠被容納在學件基座系統中，除非其各方面功能都可以被其他學件所替代。因此，學件基座系統中的舊知識總是會被保留，而不會被遺忘。
資料隱私/所有權：開發者只提交模型而不共享私有數據，因此資料隱私/所有權可以得到很好的保護。儘管無法完全排除對模型進行逆向工程的可能性，但與許多其它隱私保護方案相比，學件基座系統洩漏隱私的風險非常小。

如下圖所示，系統工作流程分為以下兩個階段：

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

#規約是學件基座系統的核心元件，串連了系統中關於學件的全部流程，包括學件上傳、組織、查搜、部署與重複使用。

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

學件基座系統在查搜時，首先透過使用者需求中的語意規約定位到具體的規約島嶼，再透過使用者需求中的統計規約對規約島上的學件進行精確識別。不同的規約島嶼合併，則意味著相應的學件可以被用於不同特徵/標記空間的任務上，即可以復用至超出其原始目的的任務中。

學件範式透過充分利用社群分享的機器學習模型的能力，建構統一的規約空間，以統一的方式高效地為新用戶解決機器學習任務。隨著學件數量增多，透過有效地組織學件結構，學件基座系統整體解決任務的能力將顯著增強。

如下圖所示，北冥塢的系統架構包含四個層次，從學件儲存層至使用者互動層，首次自底向上系統性地實現了學件範式。四個層次的具體功能如下：

南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

學件儲存層：管理以zip套件格式儲存的學件，並透過學件資料庫提供相關資訊的取得方式；
系統引擎層：囊括了學件範式中的所有流程，包括學件上傳、檢測、組織、查搜、部署和復用，並以learnware Python包的形式獨立於後端和前端運行，為學件相關任務和科研探索提供了豐富的演算法介面；
系統後端層：實現了北冥塢的工業級部署，提供了穩定的系統線上服務，並透過提供豐富的後端API支撐了前端和客戶端的用戶互動；
使用者互動層：實現了基於網頁的前端和基於命令列的客戶端，為使用者互動提供了豐富且便捷的方式。