NTU Zhou Zhihua팀의 8년간의 걸작! '러닝웨어' 시스템은 머신러닝 재사용 문제를 해결하고, '모델 융합'은 과학 연구의 새로운 패러다임을 제시합니다.-일체 포함-php.cn

HuggingFace는 300,000개의 다양한 기계 학습 모델과 100,000개의 사용 가능한 애플리케이션을 갖춘 가장 인기 있는 오픈 소스 기계 학습 커뮤니티입니다.

HuggingFace의 30만 모델이 자유롭게 결합되어 새로운 학습 작업을 함께 완료할 수 있다면 어떤 모습일까요?

실제로 2016년 허깅페이스(HuggingFace)가 나왔을 때 난징대학교 저우즈화(Zhou Zhihua) 교수가 '런웨어(Learnware)' 개념을 제안하고 이런 청사진을 그렸습니다.

최근 난징대학교 Zhou Zhihua 교수팀이 Beimingwu라는 플랫폼을 출시했습니다.

주소: https://bmwu.cloud/

Beimingwu는 연구원과 사용자에게 자신의 모델을 업로드할 수 있는 기능을 제공할 뿐만 아니라 사용자의 요구에 따라 모델 매칭 및 협업 융합을 수행하여 학습을 효율적으로 처리합니다. 작업.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

논문 주소: https://arxiv.org/abs/2401.14427

Beimingwu 시스템 창고: https://www.gitlink.org.cn/beimingwu/beimingwu

과학 연구 툴킷 웨어하우스: https://www.gitlink.org.cn/beimingwu/learnware

이 플랫폼의 가장 큰 특징은 런웨어 시스템을 도입하여 사용자 요구에 따른 모델을 실현하는 데 획기적인 발전을 이룬 것입니다. 적응형 매칭 및 협업 기능.

러닝웨어는 머신러닝 모델과 모델을 설명하는 사양, 즉 "러닝웨어 = 모델 + 사양"으로 구성됩니다.

학습 소프트웨어의 사양은 "의미론적 사양"과 "통계적 사양"의 두 부분으로 구성됩니다.

의미론적 사양은 텍스트를 통해 모델의 유형과 기능을 설명합니다.
통계 사양은 다양한 기계 학습을 사용합니다. 기술, 모델에 포함된 통계 정보를 나타냅니다.

학습웨어의 사양은 모델의 기능을 설명하므로 사용자 요구 사항을 충족하기 위해 사용자가 학습웨어에 대해 미리 알지 않고도 향후 모델을 완전히 인식하고 재사용할 수 있습니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

프로토콜은 러닝웨어 업로드, 구성, 검색, 배포 및 재사용을 포함하여 시스템의 모든 러닝웨어 프로세스를 연결하는 러닝웨어 기반 시스템의 핵심 구성 요소입니다.

'드래곤'의 연자우가 많은 작은 섬으로 이루어진 것처럼, 북명우의 규정도 작은 섬과 같습니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

다양한 기능/마커 공간의 학습웨어는 수많은 프로토콜 섬을 구성하며, 모든 프로토콜 섬은 함께 학습웨어 기반 시스템의 프로토콜 세계를 구성합니다. 프로토콜 세계에서 서로 다른 섬 간의 연결을 발견하고 설정할 수 있다면 해당 프로토콜 섬을 병합할 수 있습니다.

러닝웨어 패러다임 하에서 전 세계 개발자는 러닝웨어 기반 시스템에 모델을 공유할 수 있습니다. 이 시스템은 사용자가 처음부터 머신러닝 모델을 구축하지 않고도 러닝웨어를 효과적으로 검색하고 재사용하여 머신러닝 작업을 효율적으로 해결할 수 있도록 도와줍니다.

Beimingwu는 학술 소프트웨어의 최초의 체계적인 오픈 소스 구현으로 학술 소프트웨어 관련 연구를 위한 예비 과학 연구 플랫폼을 제공합니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

공유하려는 개발자는 자유롭게 모델을 제출할 수 있으며 학습 창고는 학습 소프트웨어를 구성하고 학습 창고에 저장하기 위한 사양을 생성하는 데 도움을 줍니다. 이 과정에서 개발자는 자신의 교육 내용을 공개할 필요가 없습니다. 학습 창고에 데이터를 보냅니다.

향후 사용자는 학습 창고에 요구 사항을 제출하고 학습 창고의 도움으로 재사용 학습 자료를 검색하여 기계 학습 작업을 완료할 수 있으며 사용자는 자신의 데이터를 학습 창고에 공개할 필요가 없습니다.

그리고 미래에는 학습 도크에 수백만 개의 학습 조각이 있으면 "긴급" 동작이 발생할 가능성이 높습니다. 과거에 특별히 개발된 모델이 없는 기계 학습 작업은 여러 기존 학습 조각을 재사용하여 재사용될 수 있습니다. .그리고 해결하세요.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

러닝웨어 기반 시스템

머신러닝은 여러 분야에서 큰 성공을 거두었지만, 여전히 많은 양의 훈련 데이터와 뛰어난 훈련 기술의 필요성, 지속적인 학습의 어려움, 치명적인 망각. 데이터 프라이버시/소유권 등의 위험 및 유출.

위의 각 문제에는 상응하는 연구가 있지만 문제가 서로 결합되어 있기 때문에 하나의 문제를 해결하면 다른 문제가 더 심각해질 수 있습니다.

학습 기반 시스템은 전반적인 프레임워크를 통해 위의 많은 문제를 동시에 해결하기를 희망합니다.

훈련 데이터/기술 부족: 훈련 기술이 부족하거나 적은 양의 일반 사용자에게도 적용됩니다. 사용자가 처음부터 모델을 직접 구축하는 대신 학습웨어 기반 시스템에서 고성능 학습웨어를 가져와 추가로 조정하거나 개선할 수 있기 때문에 강력한 기계 학습 모델을 얻을 수 있습니다.
지속학습: 다양한 업무에 대해 훈련된 성능이 뛰어난 학습 소프트웨어가 지속적으로 제출되면서 학습 소프트웨어 기반 시스템의 지식이 계속 풍부해지면서 자연스럽게 지속적이고 평생학습을 실현하게 된다.
재앙적인 망각: 일단 학습 작품을 받으면 해당 기능의 모든 측면을 다른 학습 작품으로 대체할 수 없는 한 학습 작품 기반 시스템에 항상 수용됩니다. 따라서 학습 기반 시스템의 오래된 지식은 항상 유지되고 결코 잊혀지지 않습니다.
데이터 개인 정보 보호/소유권: 개발자는 개인 데이터를 공유하지 않고 모델만 제출하므로 데이터 개인 정보 보호/소유권이 잘 보호될 수 있습니다. 모델의 리버스 엔지니어링 가능성을 완전히 배제할 수는 없지만, 학습 기반 시스템의 개인정보 유출 위험은 다른 많은 개인정보 보호 방식에 비해 매우 적습니다.

러닝웨어 기반 시스템 구성

아래 그림과 같이 시스템 워크플로는 다음 두 단계로 구분됩니다.

제출 단계: 개발자가 다양한 러닝웨어를 A 기반 시스템에 자발적으로 제출 품질 검사 및 추가 구성을 수행하는 학습 자료입니다.
배포 단계: 사용자가 작업 요구 사항을 제출하면 러닝웨어 기반 시스템은 러닝웨어 사양에 따라 사용자의 작업에 도움이 되는 러닝웨어를 추천하고 사용자가 이를 배포하고 재사용하도록 안내합니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

프로토콜 월드

다양한 기능/마커 공간의 학습웨어는 수많은 프로토콜 아일랜드를 구성하며, 모든 프로토콜 아일랜드는 함께 학습웨어 기반 시스템의 프로토콜 세계를 구성합니다. 프로토콜 세계에서 서로 다른 섬 간의 연결을 발견하고 설정할 수 있다면 해당 프로토콜 섬을 병합할 수 있습니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

검색 시 학습 기반 시스템은 먼저 사용자 요구 사항의 의미 사양을 통해 특정 프로토콜 아일랜드를 찾은 다음 사용자 요구 사항의 통계 사양을 통해 프로토콜 아일랜드의 학습 자료를 정확하게 식별합니다. 서로 다른 프로토콜 아일랜드를 병합한다는 것은 해당 학습 소프트웨어가 서로 다른 기능/마커 공간의 작업에 사용될 수 있음을 의미합니다. 즉, 원래 목적을 넘어서는 작업에 재사용될 수 있습니다.

러닝웨어 패러다임은 커뮤니티에서 공유하는 머신러닝 모델의 기능을 최대한 활용하여 통일된 사양 공간을 구축하고, 신규 사용자의 머신러닝 작업을 통일된 방식으로 효율적으로 해결합니다. 학습 조각의 수가 증가함에 따라 학습 조각 구조를 효과적으로 구성함으로써 학습 조각 기반 시스템의 전반적인 과제 해결 능력이 크게 향상됩니다.

Beimingwu의 아키텍처

아래 그림과 같이 Beimingwu의 시스템 아키텍처는 러닝웨어 저장 계층부터 사용자 상호 작용 계층까지 4단계로 구성됩니다. 상향식. 네 가지 레벨의 구체적인 기능은 다음과 같습니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

학습웨어 저장 계층: zip 패키지 형식으로 저장된 학습웨어를 관리하고, 학습웨어 데이터베이스를 통해 관련 정보에 대한 액세스를 제공합니다.
시스템 엔진 계층: 학습웨어 업로드, 감지, 구성, 검색, 배포를 포함한 학습웨어 패러다임의 모든 프로세스를 포함합니다. 재사용하고, 런웨어 Python 패키지 형태로 백엔드 및 프런트엔드와 독립적으로 실행하여 런웨어 관련 작업 및 과학 연구 탐색을 위한 풍부한 알고리즘 인터페이스를 제공합니다.
시스템 백엔드 계층: 구현 Beimingwu의 산업급 배포는 안정적인 시스템 온라인 서비스를 제공하고 풍부한 백엔드 API를 제공하여 프런트엔드와 클라이언트 간의 사용자 상호 작용을 지원합니다.
사용자 상호 작용 레이어: 웹 기반 프런트 엔드 및 명령을 구현합니다. 라인 기반 클라이언트는 사용자 상호 작용을 위한 풍부하고 편리한 방법을 제공합니다.

실험 평가

논문에서 연구팀은 프로토콜 생성, 아티팩트 인식 학습 및 테이블, 이미지 및 텍스트 데이터에 대한 재사용을 위한 벤치마크 알고리즘을 평가하기 위해 다양한 유형의 기본 실험 시나리오도 구성했습니다.

테이블 형식 데이터 실험

다양한 테이블 형식 데이터 세트에서 팀은 먼저 사용자 작업과 동일한 기능 공간을 갖는 러닝웨어 시스템에서 러닝웨어를 식별하고 재사용하는 성능을 평가했습니다.

또한 양식 작업은 일반적으로 다양한 기능 공간에서 발생하므로 연구팀은 다양한 기능 공간에서 학습 조각의 식별 및 재사용도 평가했습니다.

동질적 사례

동질적 사례에서 PFS 데이터세트의 53개 매장은 53명의 독립 사용자 역할을 합니다.

각 매장은 자체 테스트 데이터를 사용자 작업 데이터로 활용하고 통합된 기능 엔지니어링 접근 방식을 채택합니다. 그러면 이러한 사용자는 자신의 작업과 동일한 기능 공간을 공유하는 동종 학습 항목에 대한 기본 시스템을 검색할 수 있습니다.

사용자에게 레이블이 지정된 데이터가 없거나 레이블이 지정된 데이터의 양이 제한되어 있는 경우 팀에서는 다양한 벤치마크 알고리즘을 비교했으며 모든 사용자의 평균 손실은 아래 그림과 같습니다. 왼쪽 표는 시장에서 런웨어를 무작위로 선택하고 배포하는 것보다 데이터 없는 접근 방식이 훨씬 낫다는 것을 보여줍니다. 오른쪽 차트는 사용자가 제한된 훈련 데이터를 가지고 있는 경우 단일 또는 다중 런웨어를 식별하고 재사용하는 것이 사용자가 훈련한 것보다 낫다는 것을 보여줍니다. 모델. 더 나은 성능.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

왼쪽 표는 시장에서 학습웨어를 무작위로 선택하고 배포하는 것보다 데이터 없는 접근 방식이 훨씬 낫다는 것을 보여줍니다. 오른쪽 그림은 사용자가 제한된 훈련 데이터를 가지고 있을 때 단일 또는 다중을 식별하고 재사용한다는 것을 보여줍니다. learnware 소프트웨어는 사용자 교육 모델보다 성능이 뛰어납니다.

이기종 사례

시장 소프트웨어와 사용자 작업 간의 유사성을 기반으로 이기종 사례는 다양한 기능 엔지니어링과 다양한 작업 시나리오로 더 나눌 수 있습니다.

다양한 기능 엔지니어링 시나리오:

아래 그림의 왼쪽에 표시된 결과는 사용자에게 주석 데이터가 부족하더라도 시스템의 학습 소프트웨어가 특히 다중 학습 소프트웨어인 경우 여전히 강력한 성능을 보여줄 수 있음을 보여줍니다. AverageEnsemble 메서드를 재사용합니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

다양한 작업 시나리오:

위 그림의 오른쪽은 사용자 자가 훈련 모델의 손실 곡선과 여러 런웨어 재사용 방법을 보여줍니다.

분명히 이질적인 학습 구성 요소에 대한 실험적 검증은 사용자가 주석을 추가한 데이터의 양이 제한되어 있을 때 유익하고 사용자의 기능 공간에 더 잘 맞추는 데 도움이 됩니다.

이미지 및 텍스트 데이터 실험

또한 연구팀은 이미지 데이터 세트에 대한 시스템 기본 평가를 수행했습니다.

아래 그림은 사용자가 주석이 달린 데이터가 부족하거나 데이터 양이 제한적(인스턴스 2000개 미만)인 경우 학습 기반 시스템을 활용하면 좋은 성능을 얻을 수 있음을 보여줍니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

팀은 또한 벤치마크 텍스트 데이터 세트에 대한 시스템 기본 평가를 수행했습니다. 통합 특징 추출기를 통한 특징 공간 정렬.

아래 그림과 같이 주석 데이터가 제공되지 않더라도 러닝웨어 식별 및 재사용을 통해 얻은 성능은 시스템 내 최고의 러닝웨어와 맞먹습니다.

또한, 학습 기반 시스템을 사용하면 모델을 처음부터 학습시키는 것에 비해 약 2000개의 샘플을 줄일 수 있습니다.

NTU Zhou Zhihua팀의 8년간의 걸작! 러닝웨어 시스템은 머신러닝 재사용 문제를 해결하고, 모델 융합은 과학 연구의 새로운 패러다임을 제시합니다.

위 내용은 NTU Zhou Zhihua팀의 8년간의 걸작! '러닝웨어' 시스템은 머신러닝 재사용 문제를 해결하고, '모델 융합'은 과학 연구의 새로운 패러다임을 제시합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!