대규모 모델을 훈련하기 위한 고품질 데이터가 부족합니까? 우리는 새로운 해결책을 찾았습니다-일체 포함-php.cn

머신러닝 모델의 성능을 결정하는 3대 요소 중 하나인 데이터는 대형 모델 개발을 제약하는 병목 현상이 되고 있습니다. "Garbage in, Garbage out"[1]이라는 속담처럼 알고리즘이 아무리 좋고 컴퓨팅 리소스가 아무리 강력하더라도 모델의 품질은 모델을 훈련하는 데 사용하는 데이터에 직접적으로 좌우됩니다.

다양한 오픈소스 대형 모델이 등장하면서 데이터, 특히 고품질 산업 데이터의 중요성이 더욱 부각되고 있습니다. Bloomberg는 오픈 소스 GPT-3 프레임워크를 기반으로 대규모 금융 모델 BloombergGPT를 구축하며, 이는 오픈 소스 대형 모델 프레임워크를 기반으로 수직 산업을 위한 대형 모델 개발의 타당성을 입증합니다. 실제로 수직 산업을 위한 비공개 소스 경량 대형 모델을 구축하거나 사용자 정의하는 것은 중국의 대부분의 대형 모델 스타트업이 선택하는 경로입니다.

이 트랙에서는 고품질의 수직 산업 데이터, 전문 지식을 바탕으로 한 미세 조정 및 정렬 능력이 중요합니다. BloombergGPT는 Bloomberg가 40년 이상 축적한 재무 문서를 기반으로 하며, 교육 코퍼스에는 더 많은 내용이 포함되어 있습니다. 7천억 개 이상의 토큰[2].

그러나 고품질의 데이터를 얻는 것은 쉽지 않습니다. 일부 연구에서는 현재 대형 모델이 데이터를 삼키는 속도로 보면 서적, 뉴스 보도, 과학 논문, 위키피디아 등 고품질 공개 도메인 언어 데이터가 2026년쯤 고갈될 것이라고 지적했습니다[3].

중국에서는 공개적으로 이용 가능한 고품질 데이터 자원이 상대적으로 적고, 국내 전문 데이터 서비스는 아직 초기 단계에 있으며, 데이터 수집, 정리, 라벨링 및 검증에는 많은 인력과 물적 자원이 필요합니다. 국내 대학의 대규모 모델팀을 대상으로 3TB의 고품질 중국 데이터를 수집하고 정리하는 데 데이터 대역폭, 데이터 저장 자원(정리되지 않은 원본 데이터는 약 100TB 정도), 정리를 위한 CPU 자원 비용 등이 포함된 것으로 알려졌다. 데이터는 총 수십만 위안에 달합니다.

대형 모델 개발이 심화됨에 따라 업계 요구 사항을 충족하고 정확도가 매우 높은 수직 산업 모델을 교육하려면 더 많은 업계 전문 지식과 상업적 기밀 개인 도메인 데이터도 필요합니다. 그러나 개인정보 보호 요구 사항과 권리 확인 및 이익 분배의 어려움으로 인해 기업은 데이터 공유를 꺼리거나, 할 수 없거나, 두려워하는 경우가 많습니다.

데이터 개방성과 공유의 이점을 누릴 수 있을 뿐만 아니라 데이터의 보안과 개인정보를 보호할 수 있는 솔루션이 있을까요?

프라이버시 컴퓨팅이 딜레마를 해결할 수 있을까요?

개인 정보 보호 컴퓨팅은 데이터 제공자가 원본 데이터를 공개하지 않도록 데이터를 분석, 처리 및 사용할 수 있습니다. 이는 데이터 요소의 순환 및 거래를 촉진하는 핵심 기술로 간주됩니다. 대형 모델의 데이터 보안을 보호하기 위해 개인 정보 보호 컴퓨팅을 사용하는 것은 자연스러운 선택인 것 같습니다.

대규모 모델을 훈련하기 위한 고품질 데이터가 부족합니까? 우리는 새로운 해결책을 찾았습니다

프라이버시 컴퓨팅은 기술이 아니라 기술적 시스템입니다. 구체적인 구현에 따르면, 프라이버시 컴퓨팅은 주로 다자간 보안 컴퓨팅으로 대표되는 암호화 경로, 신뢰할 수 있는 실행 환경으로 대표되는 기밀 컴퓨팅 경로, 연합 학습으로 대표되는 인공 지능 경로로 구분됩니다[5].

그러나 실제 응용 분야에서 개인 정보 보호 컴퓨팅에는 몇 가지 제한 사항이 있습니다. 예를 들어, 프라이버시 컴퓨팅 SDK의 도입은 일반적으로 원래 비즈니스 시스템에 대한 코드 수준 수정으로 이어집니다[6]. 암호학을 기반으로 구현하면 암호화 및 복호화 작업으로 인해 계산량이 기하급수적으로 증가하게 되고, 암호문 계산을 위해서는 더 많은 컴퓨팅 및 저장 자원과 통신 부하가 필요하게 된다[7].

또한 기존 개인 정보 보호 컴퓨팅 솔루션은 매우 많은 양의 데이터가 포함된 대규모 모델 교육 시나리오에서 몇 가지 새로운 문제에 직면하게 됩니다.

연합 학습 기반 체계

먼저 연합 학습의 어려움을 살펴보겠습니다. 연합 학습의 핵심 아이디어는 "데이터는 이동하지 않지만 모델은 이동한다"는 것입니다. 이러한 분산형 접근 방식은 민감한 데이터가 로컬에 유지되고 노출되거나 전송될 필요가 없도록 보장합니다. 각 장치 또는 서버는 모델 업데이트를 중앙 서버에 전송하여 훈련 프로세스에 참여합니다. 중앙 서버는 이러한 업데이트를 집계하고 융합하여 글로벌 모델을 개선합니다[8].

그러나 대형 모델의 중앙 집중식 학습은 이미 매우 어려우며 분산 학습 방법으로 인해 시스템이 크게 복잡해집니다. 또한 모델이 다양한 장치에서 훈련될 때 데이터의 이질성과 모든 장치에서 학습 가중치를 안전하게 집계하는 방법을 고려해야 합니다. 대규모 모델 훈련의 경우 모델 가중치 자체가 중요한 자산입니다. 또한 공격자가 단일 모델 업데이트에서 개인 데이터를 유추하는 것을 방지해야 하며 해당 방어는 교육 오버헤드를 더욱 증가시킵니다.

암호화 기반 솔루션

동형암호는 암호화된 데이터를 직접 계산하여 데이터를 "사용 가능하고 보이지 않게" 만들 수 있습니다[9]. 동형암호는 중요한 데이터를 처리 또는 분석하고 기밀성이 보장되는 시나리오에서 개인 정보를 보호하기 위한 강력한 도구입니다. 이 기법은 대규모 모델의 학습뿐만 아니라 사용자 입력(프롬프트)의 기밀성을 보호하면서 추론에도 적용할 수 있습니다.

그러나 암호화된 데이터를 사용하는 것은 대규모 모델의 학습 및 추론을 위해 암호화되지 않은 데이터를 사용하는 것보다 훨씬 어렵습니다. 동시에 암호화된 데이터를 처리하려면 더 많은 계산이 필요하므로 처리 시간이 기하급수적으로 늘어나고 대형 모델을 훈련하는 데 필요한 컴퓨팅 성능 요구 사항도 더욱 늘어납니다.

Trusted Execution Environment 기반 솔루션

TEE(Trusted Execution Environment) 기반 솔루션에 대해 이야기해 보겠습니다. 대부분의 TEE 솔루션 또는 제품은 다자간 보안 컴퓨팅 노드, 신뢰할 수 있는 실행 환경 장비, 암호화 가속기 카드 등과 같은 추가 전문 장비를 구매해야 하며 기존 컴퓨팅 및 스토리지 리소스에 적응할 수 없기 때문에 이 솔루션은 많은 사람들에게 적합하지 않습니다. 중소기업에게는 현실적이지 않습니다. 또한 현재 TEE 솔루션은 주로 CPU를 기반으로 하는 반면, 대규모 모델 훈련은 GPU에 크게 의존합니다. 이 단계에서 프라이버시 컴퓨팅을 지원하는 GPU 솔루션은 아직 성숙하지 않았으며 대신 추가적인 위험을 야기합니다[10].

일반적으로 다자간 협업 컴퓨팅 시나리오에서 원시 데이터를 물리적 의미에서 "보이지 않게" 요구하는 것은 종종 비합리적입니다. 또한 암호화 프로세스는 데이터에 노이즈를 추가하므로 암호화된 데이터에 대한 교육이나 추론도 모델 성능 손실을 초래하고 모델 정확도를 떨어뜨립니다. 기존 프라이버시 컴퓨팅 솔루션은 성능 및 GPU 지원 측면에서 대규모 모델 훈련 시나리오에 적합하지 않으며, 고품질 데이터 리소스를 보유한 기업과 기관이 정보를 공개하고 공유하며 대규모 모델 산업에 참여하는 데 방해가 됩니다.

프라이버시 컴퓨팅의 새로운 패러다임, 제어 가능한 컴퓨팅

"대형 모델 산업을 데이터에서 애플리케이션까지의 체인으로 보면 이 체인이 실제로 다양한 데이터(원시 데이터 포함)라는 것을 알 수 있습니다. , 모델에 매개변수 형태로 존재하는 데이터의 서로 다른 개체 간 순환 체인도 포함하며, 이 순환하는 데이터(또는 모델)가 거래될 수 있는 자산이라는 점을 기반으로 이 산업의 비즈니스 모델이 구축되어야 합니다. "라고 YiZhi Technology의 CEO인 Tang Zaiyang 박사는 말했습니다.

"데이터 요소의 유통에는 여러 주체가 포함되며 산업 체인의 소스는 데이터 제공자여야 합니다. 즉, 모든 비즈니스는 실제로 데이터 제공자에 의해 시작됩니다. 데이터 제공자의 승인이 있어야만 가능합니다. 거래가 완료될 수 있으므로 데이터 제공자의 권리와 이익을 보장하는 것이 우선되어야 합니다.”

다자간 보안 컴퓨팅, 신뢰할 수 있는 실행 환경 등 현재 시장에 나와 있는 주류 개인 정보 보호 솔루션입니다. Tang Zaiyang은 데이터 제공자의 관점에서 문제를 살펴봐야 한다고 믿습니다.

Yizhi Technology는 2019년에 설립되어 데이터 협력을 위한 개인정보 보호 솔루션 제공업체로 자리매김하고 있습니다. 2021년에 이 회사는 중국정보통신기술원이 시작한 '데이터 보안 이니셔티브(DSI)'의 첫 번째 참여 단위 중 하나로 선정되었으며 DSI의 9개 대표적인 개인정보 보호 컴퓨팅 중 하나로 인증을 받았습니다. 기업 벤더. 2022년 YiZhi Technology는 공식적으로 중국 최초의 국제적으로 독립적이고 제어 가능한 개인 정보 보호 컴퓨팅 오픈 소스 커뮤니티인 Open Islands 오픈 소스 커뮤니티의 회원이 되어 데이터 요소 순환을 위한 핵심 인프라 구축을 공동으로 추진했습니다.

대규모 모델 훈련의 현재 데이터 딜레마와 데이터 요소의 광범위한 순환에 대응하여 Yizhi Technology는 실습을 기반으로 하는 새로운 개인 정보 보호 컴퓨팅 솔루션인 제어 가능한 컴퓨팅을 제안했습니다.

"제어 가능한 컴퓨팅의 핵심 초점은 개인 정보를 보호하는 방식으로 정보를 발견하고 공유하는 것입니다. 우리가 해결하는 문제는 훈련 과정에서 사용되는 데이터의 보안을 보장하고 훈련된 모델이 악의적으로 도난당했어요 " Tang Zaiyang이 말했습니다.

특히 제어 가능한 컴퓨팅에서는 데이터 사용자가 데이터 공급자가 정의한 보안 도메인에서 데이터를 처리하고 처리해야 합니다.

대규모 모델을 훈련하기 위한 고품질 데이터가 부족합니까? 우리는 새로운 해결책을 찾았습니다

데이터 유통 시나리오의 보안 도메인 예시

보안 도메인은 해당 키와 암호화 알고리즘으로 보호되는 저장소 및 컴퓨팅 장치를 가리키는 논리적 개념입니다. 보안 영역은 데이터 제공자가 정의하고 제한하지만 해당 스토리지 및 컴퓨팅 리소스는 데이터 제공자가 제공하지 않습니다. 물리적으로 보안 도메인은 데이터 사용자 측에 있지만 데이터 공급자가 제어합니다. 원시 데이터 외에 처리 및 처리된 중간 데이터, 결과 데이터도 동일한 보안 영역에 속합니다.

보안 영역에서 데이터는 암호문(보이지 않음) 또는 일반 텍스트(가시)일 수 있습니다. 일반 텍스트의 경우 데이터의 가시 범위가 제어되므로 안전하게 사용하는 것이 보장됩니다. .

복잡한 암호문 계산으로 인한 성능 저하는 프라이버시 컴퓨팅의 적용 범위를 제한하는 중요한 요소입니다. 무작위로 비가시성을 추구하는 대신 데이터의 제어 가능성을 강조함으로써 제어 가능한 컴퓨팅은 기존 프라이버시 컴퓨팅 솔루션의 문제를 해결합니다. 비즈니스에 방해가 되기 때문에 매우 큰 규모의 데이터를 처리해야 하는 대규모 모델 교육 시나리오에 매우 적합합니다.

기업은 데이터를 여러 보안 도메인에 저장하도록 선택하고 이러한 보안 도메인에 대해 다양한 보안 수준, 사용 권한 또는 화이트리스트를 설정할 수 있습니다. 분산 애플리케이션의 경우 보안 도메인을 여러 컴퓨터 노드나 칩에 설정할 수도 있습니다.

"보안 도메인은 서로 연결될 수 있습니다. 데이터 순환의 각 링크에서 데이터 공급자는 데이터가 이러한 보안 도메인 사이에서만 흐를 수 있도록 여러 개의 서로 다른 보안 도메인을 정의할 수 있습니다. 결국 이러한 직렬화된 보안 도메인은 보안 도메인을 구축합니다. 데이터 네트워크에서는 데이터를 제어할 수 있고, 데이터의 흐름, 분석, 처리도 측정 및 모니터링할 수 있으며, 이에 따라 데이터 순환도 수익화될 수 있습니다.

YiZhi Technology는 제어 가능한 컴퓨팅이라는 아이디어를 바탕으로 "DataVault"를 출시했습니다.

대규모 모델을 훈련하기 위한 고품질 데이터가 부족합니까? 우리는 새로운 해결책을 찾았습니다

DataVault 원칙: Linux 메트릭 시작과 Linux 전체 디스크 암호화 기술을 결합하여 보안 도메인 내에서 데이터 제어 및 보호를 달성합니다.

DataVault는 Linux 보안 모듈 LSM( Linux 보안 모듈, Linux 보안 도메인의 데이터가 제어 가능한 한도 내에서만 사용될 수 있도록 개별 보안 구현과 무관한 다양한 컴퓨터 보안 모델을 지원하기 위해 커널에서 사용되는 프레임워크입니다.

이를 바탕으로 DataVault는 Linux에서 제공하는 전체 디스크 암호화 기술을 사용하여 데이터를 안전한 도메인에 배치합니다. YiZhi Technology는 키 배포 및 서명 인증과 같은 완전한 암호화 프로토콜을 자체 개발하여 많은 성과를 거두었습니다. 엔지니어링 최적화를 통해 데이터 제어 가능성을 더욱 보장합니다.

DataVault는 다양한 CPU, GPU, FPGA 및 기타 하드웨어를 포함한 다양한 전용 가속기 카드를 지원하며 여러 데이터 처리 프레임워크 및 모델 교육 프레임워크도 지원하며 바이너리와 호환됩니다.

더 중요한 것은 다른 개인 정보 보호 컴퓨팅 솔루션보다 성능 손실이 훨씬 낮다는 것입니다. 대부분의 응용 프로그램에서 기본 시스템(즉, 개인 정보 보호 컴퓨팅 기술이 없는 시스템)과 비교하여 전체 성능 손실은 5%를 초과하지 않습니다. .

대규모 모델을 훈련하기 위한 고품질 데이터가 부족합니까? 우리는 새로운 해결책을 찾았습니다

DataVault 배포 후 LLaMA-65B 기반 평가(Evaluation) 및 프롬프트 평가(Prompt Evaluation)에서 성능 손실은 1‰ 미만입니다.

데이터 순환 및 모델 자산을 보호하기 위한 DataVault 케이스

이제 YiZhi Technology는 국립 슈퍼컴퓨팅 센터(National Supercomputing Center)와 협력하여 슈퍼컴퓨팅 플랫폼에 AI 애플리케이션용 개인 정보 보호 고성능 컴퓨팅 플랫폼을 배포했습니다. DataVault를 기반으로 컴퓨팅 파워 사용자는 컴퓨팅 플랫폼에서 보안 도메인을 설정하여 스토리지 노드에서 컴퓨팅 노드로의 전체 데이터 전송 프로세스가 보안 도메인 사이에서만 이동할 수 있고 설정된 범위를 벗어나지 않도록 할 수 있습니다.

DataVault 솔루션을 기반으로 모델 학습 중에 데이터를 제어할 수 있을 뿐만 아니라 학습된 대형 모델 자체도 데이터 자산으로 보호하고 안전하게 거래할 수 있습니다.

현재 금융, 의료 및 기타 매우 민감한 데이터 기관과 같이 대규모 모델을 로컬에 배포하려는 기업은 대규모 훈련을 위한 고비용, 고성능 하드웨어를 포함하여 대규모 모델을 로컬에서 실행할 인프라가 부족하다는 문제를 겪고 있습니다. 모델의 후속 운영 및 유지 관리 경험. 대규모 산업 모델을 구축하는 기업의 경우 모델이 고객에게 직접 전달되면 모델 자체와 모델 매개변수 뒤에 축적된 산업 데이터와 전문 지식이 재판매될 수 있다는 우려가 있습니다.

수직 산업에서 대형 모델 구현을 모색하기 위해 YiZhi Technology는 광둥-홍콩-마카오 대만 지역 디지털 경제 연구소(IDEA 연구소)와도 협력하고 있습니다. 모델 보안 보호 기능을 갖춘 대형 모델. 이 올인원 기계에는 수직 산업을 위한 여러 개의 대형 모델이 내장되어 있으며 대형 모델 교육 및 홍보에 필요한 기본 컴퓨팅 리소스가 장착되어 있어 즉시 고객의 요구 사항을 충족할 수 있습니다. 그중 YiZhi의 제어 가능 기능은 다음과 같습니다. 컴퓨팅 구성 요소인 DataVault는 이러한 내장 모델만 승인을 받아 사용할 경우 모델과 모든 중간 데이터가 외부 환경에 의해 도난당할 수 없도록 보장합니다.

YiZhi Technology는 새로운 개인 정보 보호 컴퓨팅 패러다임으로 제어 가능한 컴퓨팅이 대형 모델 산업과 데이터 요소의 순환에 변화를 가져올 수 있기를 바라고 있습니다.

「DataVault는 단순한 경량 구현 솔루션입니다. 기술과 요구 사항이 변화함에 따라 데이터 요소 유통 시장에서 계속 업데이트하고 더 많은 시도와 기여를 할 것입니다. 컴퓨팅 커뮤니티가 함께합니다.”라고 Tang Zaiyang은 말했습니다.

위 내용은 대규모 모델을 훈련하기 위한 고품질 데이터가 부족합니까? 우리는 새로운 해결책을 찾았습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!