NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる-AI-php.cn

HuggingFace は、300,000 の異なる機械学習モデルと 100,000 の利用可能なアプリケーションを備えた、最も人気のある機械学習オープンソースコミュニティです。

HuggingFace 上の 300,000 のモデルを自由に組み合わせて、新しい学習タスクを一緒に完了できたらどうなるでしょうか?

実は、HuggingFace が登場した 2016 年に、南京大学の周志華教授が「Learnware」という概念を提案し、このような青写真を描きました。

最近、南京大学の周志華教授のチームがそのようなプラットフォーム「Beimingwu」を立ち上げました。

アドレス: https://bmwu.cloud/

Beimingwu は、研究者やユーザーに独自のモデルをアップロードする機会を提供するだけでなく、ユーザーのニーズに応じてモデルマッチングや協調融合を実行し、学習タスクを効率的に処理することもできます。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

紙のアドレス: https://arxiv.org/abs/2401.14427

北明武システムウェアハウス: https://www.gitlink.org.cn/beimingwu/beimingwu

科学研究ツールキットウェアハウス: https://www.gitlink.org.cn/beimingwu/learnware

このプラットフォームの最大の特徴は、Learnware システムの導入であり、ユーザーのニーズに基づいたモデルの適応マッチングとコラボレーション機能で画期的な進歩を実現しました。

ラーニングウェアは、機械学習モデルとそれを記述する仕様、つまり「ラーニングウェア = モデル仕様」で構成されます。

学習ソフトウェアの仕様は、「セマンティック仕様」と「統計的仕様」の 2 つの部分で構成されます。

セマンティック仕様は、テキストと関数を通じてモデルのタイプが説明されます。
統計ルールは、さまざまな機械学習テクノロジを使用して、モデルに含まれる統計情報を記述します。

学習ウェアの仕様には、ユーザーが事前に学習ウェアについて何も知らなくても、モデルを完全に認識して再利用できるようにモデルの機能が記述されており、ユーザーのニーズを満たすことができます。 . .

#プロトコルは、ラーニングウェアベースシステムのコアコンポーネントであり、ラーニングウェアのアップロード、編成、検索など、システム内のすべてのラーニングウェアプロセスを接続します。、展開して再利用します。

「ドラゴンバブ」の燕子烏がたくさんの小さな島で構成されているように、北明呉の条例も小さな島のようなものです。

# さまざまな機能/マーカースペースからのラーニングウェアは多数のプロトコルアイランドを構成し、すべてのプロトコルアイランドが一緒になってラーニングウェアベースシステムの世界のプロトコルを構成します。プロトコルの世界では、異なるアイランド間の接続を発見して確立できれば、対応するプロトコルアイランドをマージできるようになります。

ラーニングウェアパラダイムの下では、世界中の開発者がモデルをラーニングウェアベースシステムに共有できます。このシステムは、ユーザーがラーニングウェアを効果的に検索して再利用することで、機械学習タスクを効率的に解決するのに役立ちます。構築する必要はありません。機械学習モデルをゼロから作成します。

Beimingwu は、アカデミックウェアの初の体系的なオープンソース実装であり、アカデミックウェア関連の研究のための予備的な科学研究プラットフォームを提供します。

共有したい開発者は自由にモデルを送信でき、ラーニングウェアハウスは学習ソフトウェアを形成してラーニングウェアハウスに保存するための仕様の生成を支援します。ウェアハウス: このプロセスでは、トレーニングデータをラーニングドックに開示する必要はありません。

将来のユーザーは、ラーニングウェアハウスに要件を送信でき、ラーニングウェアハウスの支援を受けて、学習教材を検索して再利用して独自の機械学習タスクを完了できます。 Learning Warehouse に提出する必要はありません。ドックが独自のデータを漏洩しました。

そして将来、学習ドックに何百万もの学習ソフトウェアが存在するようになると、過去に特別に開発されたモデルがない機械学習タスクという「創発」動作が発生する可能性があります。いくつかの既存の学習ソフトウェアを再利用することで、「解決済み」を通じて解決できる可能性があります。

ラーニングウェアベースシステム

機械学習は多くの分野で大きな成功を収めていますが、大量のデータが必要になるなど、依然として多くの問題に直面しています。トレーニングデータと優れたトレーニング技術、継続的な学習の難しさ、壊滅的な忘れのリスク、データのプライバシー/所有権の漏洩など。

上記の問題にはそれぞれ対応する研究がありますが、問題は相互に結合しているため、1 つの問題を解決すると他の問題がより深刻になる可能性があります。

学習ベースシステムは、全体的なフレームワークを通じて上記の問題の多くを同時に解決することを目指しています:

トレーニングデータの不足/スキル: トレーニングスキルやデータ量が少ない一般ユーザーであっても、強力な機械学習モデルを取得できます。これは、ユーザーがラーニングウェアベースシステムからモデルを構築するのではなく、ラーニングウェアベースシステムから高性能のラーニングウェアを入手して、それをさらに調整または改善できるためです。傷自体もございます。
継続学習: さまざまな課題で訓練された優れた性能の学習ソフトウェアが継続的に提出されることで、学習ソフトウェアのベースシステムの知識が充実し続け、継続的かつ生涯にわたる学習が自然に実現されます。
壊滅的な忘却: 学習要素を受け取ると、その機能のすべての側面を他の学習要素で置き換えることができない限り、学習要素は常に学習ベースシステムに収容されます。したがって、学習ベースシステム内の古い知識は常に保持され、忘れられることはありません。
データのプライバシー/所有権: 開発者はプライベートデータを共有せずにモデルのみを送信するため、データのプライバシー/所有権は十分に保護されます。モデルのリバースエンジニアリングの可能性を完全に排除することはできませんが、学習ベースシステムによるプライバシー漏洩のリスクは、他の多くのプライバシー保護スキームと比較して非常に小さいです。

#学習基盤システムの構成

下図に示すように、システムのワークフローは次の 2 つの段階に分かれています。

## 提出段階: 開発者はさまざまな学習ソフトウェアを自発的に学習ソフトウェアベースシステムに提出し、システムはこれらの学習ソフトウェアの品質検査とさらなる整理を実行します。

導入段階: ユーザーがタスク要件を送信すると、ラーニングウェア基本システムは、ラーニングウェアの仕様に従ってユーザーのタスクに役立つラーニングウェアを推奨し、ユーザーがそれを導入して再利用できるようにガイドします。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる #プロトコルの世界

プロトコルは、学習ベースシステムのコアコンポーネントであり、システムを接続します。シリーズ学習ソフトウェアのアップロード、整理、検索、展開、再利用など、学習ソフトウェアの全プロセスについて。

さまざまな機能/マーカースペースからの学習教材は多数のプロトコルアイランドを構成し、すべてのプロトコルアイランドが一緒になって学習コンポーネントベースシステムのプロトコルワールドを構成します。プロトコルの世界では、異なるアイランド間の接続を発見して確立できれば、対応するプロトコルアイランドをマージできるようになります。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる学習ベースシステムが検索するとき、まずユーザー要件のセマンティック仕様を通じて特定のプロトコルアイランドを見つけてから、ユーザー要件を使用します。プロトコル内の統計プロトコルは、プロトコルアイランド上の学習アーティファクトを正確に識別します。異なるプロトコルアイランドのマージは、対応する学習ソフトウェアを異なる特徴/マーカー空間のタスクに使用できること、つまり、本来の目的を超えたタスクに再利用できることを意味します。

Learningware Paradigm は、コミュニティで共有される機械学習モデルの機能を最大限に活用して統一された仕様空間を構築し、新規ユーザーの機械学習タスクを統一された方法で効率的に解決します。学習ピースの数が増加するにつれて、学習ピース構造を効果的に編成することにより、タスクを解決する学習ピース基本システムの全体的な能力が大幅に向上します。

北明呉のアーキテクチャ

以下の図に示すように、北明呉のシステムアーキテクチャは学習ソフトウェアのストレージ層から 4 つのレベルで構成されています。ユーザーインタラクション層に関しては、ラーニングウェアのパラダイムが初めてボトムアップで体系的に実装されています。 4 つのレベルの具体的な機能は次のとおりです。

ラーニングウェアストレージ層: zip パッケージ形式で保存されたラーニングウェアを管理し、ラーニングウェアデータベースを通じて関連情報へのアクセスを提供します;
システムエンジン層: ラーニングウェアパラダイムが含まれますラーニングウェアのアップロードを含むすべてのプロセス検出、編成、検索、展開、再利用は、ラーニングウェア Python パッケージの形式でバックエンドとフロントエンドから独立して実行され、ラーニングウェア関連のタスクや科学研究の探索のための豊富なアルゴリズムインターフェイスを提供します。 -エンド層: Beimingwu の産業グレードの展開を実現し、安定したシステムオンラインサービスを提供し、豊富なバックエンド API を提供することでフロントエンドとクライアント間のユーザーインタラクションをサポートします。
ユーザーインタラクション層: Web ベースのフロントエンドとコマンドラインベースのクライアントを実装し、ユーザー対話のための豊富で便利な方法を提供します。

実験評価

論文では、研究チームは表、画像、テキストデータを評価するためのさまざまな種類の基本的な実験シナリオも構築しました。仕様の生成、学習アーティファクトの識別および再利用のためのベンチマークアルゴリズム。

表形式データ実験

さまざまな表形式データセットで、チームはまず学習ソフトウェアシステムの識別パフォーマンスを評価しました。ユーザータスクと同じ特徴空間を共有する学習成果物を再利用します。

さらに、フォームタスクは通常、異なる特徴空間から取得されるため、研究チームは、異なる特徴空間からの学習部分の認識と再利用も評価しました。

均一なケース

均一なケースでは、PFS データセット内の 53 のストアが 53 の独立したユーザーとして機能します。

各ストアは独自のテストデータをユーザータスクデータとして利用し、統一された特徴エンジニアリングアプローチを採用しています。これらのユーザーは、タスクと同じ特徴空間を共有する同種の学習項目をベースシステムで検索できます。

ユーザーがラベル付きデータを持たないか、ラベル付きデータの量が限られている場合、チームはさまざまなベンチマークアルゴリズムを比較し、全ユーザーの平均損失を次の図に示します。左の表は、市場から学習ウェアをランダムに選択して導入するよりも、データフリーのアプローチの方がはるかに優れていることを示しています。右のグラフは、ユーザーのトレーニングデータが限られている場合、単一または複数の学習ウェアを特定して再利用する方が、ユーザーがトレーニングしたものよりも優れていることを示しています。モデルのパフォーマンスが向上しました。

#左の表は、データフリーのアプローチが、市場から得た知識をランダムに選択して導入するよりもはるかに優れていることを示しています。右の表は、表は、ユーザーのトレーニングデータが限られている場合、単一または複数の学習ピースを特定して再利用する方が、ユーザーがトレーニングしたモデルよりも優れたパフォーマンスを発揮することを示しています。

異種のケース

異種のケースは、さまざまな機能エンジニアリングおよびさまざまなタスクシナリオに応じてさらに分類できます。

さまざまな特徴量エンジニアリングシナリオ:

下図の左側に示されている結果は、ユーザーにアノテーションデータがない場合でも、システム内の学習ソフトウェア特に複数の学習ピースを再利用する AverageEnsemble メソッドで優れたパフォーマンスを発揮できます。

さまざまなタスクシナリオ:

上の右の図は、ユーザーの自己トレーニングモデルといくつかのシナリオを示しています。学習ウェアの再利用方法の損失曲線。

ユーザーの注釈付きデータの量が限られている場合、異種の学習部分を実験的に検証することは明らかに有益であり、ユーザーの特徴空間との整合性を高めるのに役立ちます。

画像データとテキストデータの実験

さらに、研究チームは画像データに関するシステムの基本テストを実施しました。評価を設定します。

下の図は、ユーザーが注釈付きデータの不足に直面している場合、または限られた量のデータしか持っていない場合 (インスタンスが 2000 未満) に、学習ベースシステムを活用すると良好なパフォーマンスが得られることを示しています。

チームは、ベンチマークテキストデータセットでシステムの基本評価も実施しました。統合された特徴抽出機能による特徴空間の調整。

次の図に示すように、アノテーションデータが提供されない場合でも、学習ウェアの識別と再利用によって得られるパフォーマンスは、システム内の最高の学習ウェアと同等です。

さらに、学習ベースシステムを使用すると、モデルを最初からトレーニングする場合と比較して、約 2,000 個のサンプルを削減できます。

以上がNTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

ラーニングウェア ベース システム

#学習基盤システムの構成

プロトコルは、学習ベース システムのコア コンポーネントであり、システムを接続します。シリーズ 学習ソフトウェアのアップロード、整理、検索、展開、再利用など、学習ソフトウェアの全プロセスについて。

ラーニングウェアベースシステム

プロトコルは、学習ベースシステムのコアコンポーネントであり、システムを接続します。シリーズ学習ソフトウェアのアップロード、整理、検索、展開、再利用など、学習ソフトウェアの全プロセスについて。