ホームページ > テクノロジー周辺機器 > AI > NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

PHPz
リリース: 2024-02-01 14:24:26
転載
1278 人が閲覧しました

HuggingFace は、300,000 の異なる機械学習モデルと 100,000 の利用可能なアプリケーションを備えた、最も人気のある機械学習オープン ソース コミュニティです。

HuggingFace 上の 300,000 のモデルを自由に組み合わせて、新しい学習タスクを一緒に完了できたらどうなるでしょうか?

実は、HuggingFace が登場した 2016 年に、南京大学の周志華教授が「Learnware」という概念を提案し、このような青写真を描きました。

最近、南京大学の周志華教授のチームがそのようなプラットフォーム「Beimingwu」を立ち上げました。

アドレス: https://bmwu.cloud/

Beimingwu は、研究者やユーザーに独自のモデルをアップロードする機会を提供するだけでなく、ユーザーのニーズに応じてモデルマッチングや協調融合を実行し、学習タスクを効率的に処理することもできます。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

紙のアドレス: https://arxiv.org/abs/2401.14427

北明武システム ウェアハウス: https://www.gitlink.org.cn/beimingwu/beimingwu

科学研究ツールキット ウェアハウス: https://www.gitlink.org.cn/beimingwu/learnware

このプラットフォームの最大の特徴は、Learnware システムの導入であり、ユーザーのニーズに基づいたモデルの適応マッチングとコラボレーション機能で画期的な進歩を実現しました。

ラーニングウェアは、機械学習モデルとそれを記述する仕様、つまり「ラーニングウェア = モデル仕様」で構成されます。

学習ソフトウェアの仕様は、「セマンティック仕様」と「統計的仕様」の 2 つの部分で構成されます。

  • セマンティック仕様は、テキストと関数を通じてモデルのタイプが説明されます。
  • 統計ルールは、さまざまな機械学習テクノロジを使用して、モデルに含まれる統計情報を記述します。

学習ウェアの仕様には、ユーザーが事前に学習ウェアについて何も知らなくても、モデルを完全に認識して再利用できるようにモデルの機能が記述されており、ユーザーのニーズを満たすことができます。 . .

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

#プロトコルは、ラーニングウェア ベース システムのコア コンポーネントであり、ラーニングウェアのアップロード、編成、検索など、システム内のすべてのラーニングウェア プロセスを接続します。 、展開して再利用します。

「ドラゴンバブ」の燕子烏がたくさんの小さな島で構成されているように、北明呉の条例も小さな島のようなものです。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

# さまざまな機能/マーカー スペースからのラーニングウェアは多数のプロトコル アイランドを構成し、すべてのプロトコル アイランドが一緒になってラーニングウェア ベース システムの世界のプロトコルを構成します。プロトコルの世界では、異なるアイランド間の接続を発見して確立できれば、対応するプロトコル アイランドをマージできるようになります。

ラーニングウェア パラダイムの下では、世界中の開発者がモデルをラーニングウェア ベース システムに共有できます。このシステムは、ユーザーがラーニングウェアを効果的に検索して再利用することで、機械学習タスクを効率的に解決するのに役立ちます。構築する必要はありません。機械学習モデルをゼロから作成します。

Beimingwu は、アカデミックウェアの初の体系的なオープンソース実装であり、アカデミックウェア関連の研究のための予備的な科学研究プラットフォームを提供します。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

共有したい開発者は自由にモデルを送信でき、ラーニング ウェアハウスは学習ソフトウェアを形成してラーニング ウェアハウスに保存するための仕様の生成を支援します。ウェアハウス: このプロセスでは、トレーニング データをラーニング ドックに開示する必要はありません。

将来のユーザーは、ラーニング ウェアハウスに要件を送信でき、ラーニング ウェアハウスの支援を受けて、学習教材を検索して再利用して独自の機械学習タスクを完了できます。 Learning Warehouse に提出する必要はありません。ドックが独自のデータを漏洩しました。

そして将来、学習ドックに何百万もの学習ソフトウェアが存在するようになると、過去に特別に開発されたモデルがない機械学習タスクという「創発」動作が発生する可能性があります。いくつかの既存の学習ソフトウェアを再利用することで、「解決済み」を通じて解決できる可能性があります。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

ラーニングウェア ベース システム

機械学習は多くの分野で大きな成功を収めていますが、大量のデータが必要になるなど、依然として多くの問題に直面しています。トレーニングデータと優れたトレーニング技術、継続的な学習の難しさ、壊滅的な忘れのリスク、データのプライバシー/所有権の漏洩など。

上記の問題にはそれぞれ対応する研究がありますが、問題は相互に結合しているため、1 つの問題を解決すると他の問題がより深刻になる可能性があります。

学習ベース システムは、全体的なフレームワークを通じて上記の問題の多くを同時に解決することを目指しています:

  • トレーニング データの不足/スキル: トレーニング スキルやデータ量が少ない一般ユーザーであっても、強力な機械学習モデルを取得できます。これは、ユーザーがラーニングウェア ベース システムからモデルを構築するのではなく、ラーニングウェア ベース システムから高性能のラーニングウェアを入手して、それをさらに調整または改善できるためです。傷自体もございます。
  • 継続学習: さまざまな課題で訓練された優れた性能の学習ソフトウェアが継続的に提出されることで、学習ソフトウェアのベースシステムの知識が充実し続け、継続的かつ生涯にわたる学習が自然に実現されます。
  • 壊滅的な忘却: 学習要素を受け取ると、その機能のすべての側面を他の学習要素で置き換えることができない限り、学習要素は常に学習ベース システムに収容されます。したがって、学習ベース システム内の古い知識は常に保持され、忘れられることはありません。
  • データのプライバシー/所有権: 開発者はプライベート データを共有せずにモデルのみを送信するため、データのプライバシー/所有権は十分に保護されます。モデルのリバース エンジニアリングの可能性を完全に排除することはできませんが、学習ベース システムによるプライバシー漏洩のリスクは、他の多くのプライバシー保護スキームと比較して非常に小さいです。

#学習基盤システムの構成

下図に示すように、システムのワークフローは次の 2 つの段階に分かれています。

## 提出段階: 開発者はさまざまな学習ソフトウェアを自発的に学習ソフトウェア ベース システムに提出し、システムはこれらの学習ソフトウェアの品質検査とさらなる整理を実行します。
  • 導入段階: ユーザーがタスク要件を送信すると、ラーニングウェア基本システムは、ラーニングウェアの仕様に従ってユーザーのタスクに役立つラーニングウェアを推奨し、ユーザーがそれを導入して再利用できるようにガイドします。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる#プロトコルの世界

プロトコルは、学習ベース システムのコア コンポーネントであり、システムを接続します。シリーズ 学習ソフトウェアのアップロード、整理、検索、展開、再利用など、学習ソフトウェアの全プロセスについて。

さまざまな機能/マーカー スペースからの学習教材は多数のプロトコル アイランドを構成し、すべてのプロトコル アイランドが一緒になって学習コンポーネント ベース システムのプロトコル ワールドを構成します。プロトコルの世界では、異なるアイランド間の接続を発見して確立できれば、対応するプロトコル アイランドをマージできるようになります。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる学習ベース システムが検索するとき、まずユーザー要件のセマンティック仕様を通じて特定のプロトコル アイランドを見つけてから、ユーザー要件を使用します。プロトコル内の統計プロトコルは、プロトコル アイランド上の学習アーティファクトを正確に識別します。異なるプロトコル アイランドのマージは、対応する学習ソフトウェアを異なる特徴/マーカー空間のタスクに使用できること、つまり、本来の目的を超えたタスクに再利用できることを意味します。

Learningware Paradigm は、コミュニティで共有される機械学習モデルの機能を最大限に活用して統一された仕様空間を構築し、新規ユーザーの機械学習タスクを統一された方法で効率的に解決します。学習ピースの数が増加するにつれて、学習ピース構造を効果的に編成することにより、タスクを解決する学習ピース基本システムの全体的な能力が大幅に向上します。

北明呉のアーキテクチャ

以下の図に示すように、北明呉のシステム アーキテクチャは学習ソフトウェアのストレージ層から 4 つのレベルで構成されています。ユーザーインタラクション層に関しては、ラーニングウェアのパラダイムが初めてボトムアップで体系的に実装されています。 4 つのレベルの具体的な機能は次のとおりです。

  • ラーニングウェア ストレージ層: zip パッケージ形式で保存されたラーニングウェアを管理し、ラーニングウェア データベースを通じて関連情報へのアクセスを提供します;
  • システム エンジン層: ラーニングウェア パラダイムが含まれますラーニングウェアのアップロードを含むすべてのプロセス検出、編成、検索、展開、再利用は、ラーニングウェア Python パッケージの形式でバックエンドとフロントエンドから独立して実行され、ラーニングウェア関連のタスクや科学研究の探索のための豊富なアルゴリズム インターフェイスを提供します。 -エンド層: Beimingwu の産業グレードの展開を実現し、安定したシステム オンライン サービスを提供し、豊富なバックエンド API を提供することでフロントエンドとクライアント間のユーザー インタラクションをサポートします。
  • ユーザー インタラクション 層: Web ベースのフロントエンドとコマンドライン ベースのクライアントを実装し、ユーザー対話のための豊富で便利な方法を提供します。
実験評価

論文では、研究チームは表、画像、テキストデータを評価するためのさまざまな種類の基本的な実験シナリオも構築しました。仕様の生成、学習アーティファクトの識別および再利用のためのベンチマーク アルゴリズム。

表形式データ実験

さまざまな表形式データセットで、チームはまず学習ソフトウェアシステムの識別パフォーマンスを評価しました。ユーザータスクと同じ特徴空間を共有する学習成果物を再利用します。

さらに、フォーム タスクは通常、異なる特徴空間から取得されるため、研究チームは、異なる特徴空間からの学習部分の認識と再利用も評価しました。

均一なケース

均一なケースでは、PFS データセット内の 53 のストアが 53 の独立したユーザーとして機能します。

各ストアは独自のテスト データをユーザー タスク データとして利用し、統一された特徴エンジニアリング アプローチを採用しています。これらのユーザーは、タスクと同じ特徴空間を共有する同種の学習項目をベース システムで検索できます。

ユーザーがラベル付きデータを持たないか、ラベル付きデータの量が限られている場合、チームはさまざまなベンチマーク アルゴリズムを比較し、全ユーザーの平均損失を次の図に示します。左の表は、市場から学習ウェアをランダムに選択して導入するよりも、データフリーのアプローチの方がはるかに優れていることを示しています。右のグラフは、ユーザーのトレーニング データが限られている場合、単一または複数の学習ウェアを特定して再利用する方が、ユーザーがトレーニングしたものよりも優れていることを示しています。モデルのパフォーマンスが向上しました。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

#左の表は、データフリーのアプローチが、市場から得た知識をランダムに選択して導入するよりもはるかに優れていることを示しています。右の表は、表は、ユーザーのトレーニング データが限られている場合、単一または複数の学習ピースを特定して再利用する方が、ユーザーがトレーニングしたモデルよりも優れたパフォーマンスを発揮することを示しています。

異種のケース

異種のケースは、さまざまな機能エンジニアリングおよびさまざまなタスク シナリオに応じてさらに分類できます。

さまざまな特徴量エンジニアリング シナリオ:

下図の左側に示されている結果は、ユーザーにアノテーション データがない場合でも、システム内の学習ソフトウェア 特に複数の学習ピースを再利用する AverageEnsemble メソッドで優れたパフォーマンスを発揮できます。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

さまざまなタスク シナリオ:

上の右の図は、ユーザーの自己トレーニング モデルといくつかのシナリオを示しています。学習ウェアの再利用方法の損失曲線。

ユーザーの注釈付きデータの量が限られている場合、異種の学習部分を実験的に検証することは明らかに有益であり、ユーザーの特徴空間との整合性を高めるのに役立ちます。

画像データとテキストデータの実験

さらに、研究チームは画像データに関するシステムの基本テストを実施しました。評価を設定します。

下の図は、ユーザーが注釈付きデータの不足に直面している場合、または限られた量のデータしか持っていない場合 (インスタンスが 2000 未満) に、学習ベース システムを活用すると良好なパフォーマンスが得られることを示しています。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

チームは、ベンチマーク テキスト データセットでシステムの基本評価も実施しました。統合された特徴抽出機能による特徴空間の調整。

次の図に示すように、アノテーション データが提供されない場合でも、学習ウェアの識別と再利用によって得られるパフォーマンスは、システム内の最高の学習ウェアと同等です。

さらに、学習ベース システムを使用すると、モデルを最初からトレーニングする場合と比較して、約 2,000 個のサンプルを削減できます。

NTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させる

以上がNTU Zhou Zhihua チームの 8 年間の傑作! 「ラーニングウェア」システムが機械学習の再利用の問題を解決し、「モデル融合」が科学研究の新たなパラダイムを出現させるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート