개인 정보 보호 컴퓨팅의 연합 학습-일체 포함-php.cn

데이터 자산은 제품 및 서비스 설계의 핵심 도구가 되었지만, 사용자 데이터를 중앙 집중식으로 수집하면 개인 정보가 위험에 빠지고 결과적으로 조직이 법적 위험에 노출됩니다. 2016년부터 사람들은 사용자 개인 정보 보호 하에 데이터의 소유권과 출처를 사용하는 방법을 모색하기 시작했으며, 이로 인해 연합 학습과 연합 분석이 뜨거운 관심 대상이 되었습니다. 연구 범위가 지속적으로 확대되면서 연합 학습은 사물 인터넷 등 더 넓은 분야에 적용되기 시작했습니다.

개인 정보 보호 컴퓨팅의 연합 학습

그럼 연합 학습이란 무엇일까요?

연합 학습은 중앙 서버 또는 서비스 제공업체의 조정 하에 여러 엔터티가 협력하여 기계 학습 문제를 해결하는 기계 학습 설정입니다. 원시 데이터는 각 클라이언트에 대해 로컬로 저장되며 교환되거나 전송되지 않습니다. 대신 학습 목표를 달성하기 위해 집중된 데이터 업데이트가 즉각적인 집계에 사용됩니다.

마찬가지로, 분산된 데이터 세트의 결합된 정보에서 분석 통찰력을 생성하는 것을 연합 분석이라고 합니다. 연합 학습에서 접하는 시나리오는 연합 분석에도 적용됩니다.

이 글에서는 개인 정보 보호 기술을 실제 시스템과 통합하는 방법과 이러한 기술을 사용하여 새로운 영역에서 집계된 통계를 통해 사회적 혜택을 달성하고, 개인 및 데이터 관리자를 통합하면 최소화됩니다.

개인 정보 보호 컴퓨팅의 연합 학습

1. 개인 정보 보호 및 연합 학습

개인 정보 보호는 본질적으로 투명성과 사용자 권한 및 데이터 익명화라는 세 가지 주요 구성 요소로 구성된 다각적인 개념입니다.

투명성과 사용자 동의는 개인정보 보호의 기초입니다. 이는 사용자가 자신의 데이터 사용을 이해하고 인정하는 방식입니다. 개인정보 보호 기술은 투명성과 사용자 동의를 대체할 수는 없지만 어떤 유형의 데이터가 사용될 수 있거나 설계상 제외되는지 추론하기가 더 쉬워지고 개인정보 보호정책을 더 쉽게 이해하고 확인하고 시행할 수 있습니다. 데이터 사용의 주요 목표는 연합 학습 모델을 생성하고 메트릭 또는 사용자 데이터의 기타 집계 통계(예: 연합 분석)를 계산하는 것입니다.

집계에 적용되는 데이터 최소화에는 특정 계산에 필요한 데이터만 수집하고, 모든 단계에서 해당 데이터에 대한 액세스를 제한하고, 개인 데이터를 최대한 빨리 처리하고, 데이터를 최소한으로 유지하는 것이 포함됩니다. 즉, 데이터 최소화는 일반적으로 암호화, 액세스 제어, 안전한 다자간 계산 및 신뢰할 수 있는 실행 환경과 같은 보안 메커니즘을 통해 모든 데이터에 대한 액세스를 가능한 가장 작은 그룹으로 제한하는 것을 의미합니다.

데이터 익명화는 계산의 최종 결과가 개인의 고유한 정보를 드러내지 않는다는 것을 의미합니다. 익명 집계에 사용되는 경우 개별 사용자가 계산에 제공한 데이터는 최종 집계 결과에 거의 영향을 미치지 않습니다. 예를 들어, 집계통계를 대중에게 공개하는 경우, 특정 사용자의 데이터가 집계에 포함되는지 여부에 따라 모델 매개변수를 포함한 집계통계가 크게 달라지지 않아야 합니다.

즉, 데이터 최소화에는 계산 실행 및 데이터 처리가 포함되는 반면, 데이터 익명화에는 계산 및 게시되는 내용이 포함됩니다.

연합학습은 데이터 최소화를 구조적으로 구현합니다. 연합 접근 방식에서는 데이터 수집과 집계가 분리될 수 없으며, 클라이언트 데이터는 즉각적인 집계를 위해 변환 및 수집되며, 분석가는 각 클라이언트의 메시지에 액세스할 수 없다는 점에 유의하는 것이 중요합니다. 연합 학습 및 연합 분석은 데이터 최소화 관행을 구현하는 일반적인 연합 컴퓨팅 패턴의 예입니다. 전통적인 접근 방식은 장치의 전처리 및 집계를 데이터 수집으로 대체하는 중앙 집중식 처리입니다. 로그 데이터를 처리하는 동안 서버에서 데이터 최소화가 발생합니다.

연합 학습 및 연합 분석의 목표는 익명 집계의 목표와 일치합니다. 머신러닝의 목표는 과적합 없이 모든 사용자를 정확하게 예측하는 모델을 훈련하는 것입니다. 마찬가지로, 통계 쿼리의 경우 목표는 통계를 추정하는 것이며 이는 특정 사용자의 데이터에 크게 영향을 받지 않아야 합니다.

차등 개인 정보 보호와 같은 개인 정보 보호 기술과 결합된 연합 학습을 통해 게시된 집계가 충분한 익명성을 보장할 수 있습니다. 많은 경우 데이터 익명성이 적용되지 않을 수 있으며 서비스 제공업체가 개인의 민감한 데이터에 직접 액세스하는 것은 불가피합니다. 그러나 이러한 상호 작용에서 서비스 제공업체는 의도된 목적으로만 데이터를 사용해야 합니다.

2. 연합 학습의 핵심

연합 학습의 특징은 원본 데이터의 탈중앙화를 유지하면서 집합을 통해 학습한다는 것입니다. 로컬에서 생성된 데이터는 분포와 양이 이질적이어서 기존 데이터 센터 기반 분산 학습 환경과 구별됩니다. 후자의 데이터는 임의로 분산 및 정리가 가능하며 계산에 포함된 모든 노드에 어떤 데이터에도 접근할 수 있습니다. 실제로 제어 센터의 역할은 중요하며 고정 IP 주소가 부족하고 통신을 위해 중앙 서버가 필요한 모바일 장치의 경우 필요한 경우가 많습니다.

2.1 일반적인 시나리오 및 애플리케이션

두 가지 연합 시나리오가 특별한 관심을 받았습니다.

클라이언트가 다수의 모바일 장치 또는 IoT 장치인 교차 장치 연합 학습.

조직 간 연합 학습의 경우 클라이언트는 일반적으로 소규모 조직, 기관 또는 기타 데이터 섬입니다.

Kairouz 등10이 수정한 표 1에는 FL 설정의 주요 특징이 요약되어 있으며 장치 간 설정과 사일로 간 설정 간의 몇 가지 주요 차이점은 물론 데이터 센터의 분산 학습과의 비교도 강조되어 있습니다.

교차 기기 연합 학습은 키보드 예측과 같은 다양한 애플리케이션을 위해 Android 및 iOS 휴대폰에서 각각 사용되었습니다. 조직 전체의 연합 학습은 건강 연구와 같은 문제에 사용됩니다. 또 다른 증가하는 애플리케이션은 WeBank, Credit Suisse, Intel 등의 투자를 통해 금융 분야입니다.

일반적인 연합 학습 시나리오의 특징은 다음 표에서 비교됩니다.

프로젝트	데이터 센터 분산 학습	조직 간 연합 학습	장치의 교차 연합 학습
구성	대형 플랫 데이터 세트에서 모델을 학습합니다. 클라이언트는 클러스터 또는 데이터 센터의 노드입니다.	데이터 사일로 전체에서 모델을 학습합니다. 클라이언트는 다릅니다. 다른 지역의 조직 또는 데이터 센터	클라이언트는 대규모 모바일 장치 또는 IoT 장치입니다.
데이터 배포	데이터는 중앙에 저장되며 클라이언트 간에 정리되고 균형을 이룰 수 있습니다. 모든 클라이언트는 데이터 세트의 모든 부분에 액세스할 수 있습니다.	데이터는 분산화를 유지하면서 로컬에서 생성 및 저장됩니다. 각 클라이언트는 다른 클라이언트의 데이터에 접근할 수 없으며, 데이터는 독립적이거나 동질적으로 분산되지 않습니다.	데이터는 로컬에서 생성 및 저장되어 분산화를 유지합니다. 각 클라이언트는 다른 클라이언트의 데이터에 접근할 수 없으며, 데이터는 독립적이거나 동질적으로 분산되어 있지 않습니다
오케스트레이션	중앙 집중식 오케스트레이션	중앙 집중식 오케스트레이션 서비스이지만 원본 데이터가 보이지 않음	중앙 집중식 오케스트레이션 서비스이지만 원본 데이터가 보이지 않음
유통 규모	1~ 1000	2~100	수천만
클라이언트 속성	클라이언트는 신뢰할 수 있고 항상 계산에 참여하며 계산 상태를 유지합니다. .	클라이언트는 진정성 있고 신뢰할 수 있으며 항상 계산에 참여하고 계산 상태를 유지합니다.	모든 클라이언트에 사용할 수는 없으며 일반적으로 사용 가능한 장치에서 무작위로 샘플링됩니다. 많은 수의 클라이언트가 계산에 한 번만 참여합니다.

2.2 연합 학습 알고리즘

머신 러닝, 특히 딥 러닝은 일반적으로 데이터를 많이 사용하고 계산 집약적이므로 품질 모델을 공동으로 교육하는 타당성은 미리 결정된 결론에 도달하기 어렵습니다. 연합 학습 알고리즘은 전통적인 환경에서 기계 학습 모델을 훈련하는 데 널리 사용되는 고전적인 확률적 경사하강법 알고리즘을 기반으로 합니다. 모델은 훈련 샘플에서 예측까지의 함수로, 모델 가중치 벡터로 매개변수화되며, 예측과 실제 출력 사이의 오류를 측정하는 손실 함수입니다. 훈련 샘플 배치(보통 수십에서 수천)를 샘플링하여 모델 가중치에 대한 손실 함수의 평균 기울기를 계산한 다음 기울기의 반대 방향으로 모델 가중치를 조정합니다. 각 반복의 단계 크기를 적절하게 조정하면 볼록하지 않은 함수에 대해서도 만족스러운 수렴을 얻을 수 있습니다.

연합 학습으로 확장되어 현재 모델 가중치를 임의의 클라이언트 그룹에 브로드캐스트하여 각 클라이언트가 로컬 데이터의 손실 기울기를 계산하고 서버의 클라이언트 전체에서 이러한 기울기의 평균을 낸 다음 전역 모델 가중치를 업데이트할 수 있습니다. 그러나 매우 정확한 모델을 생성하려면 일반적으로 더 많은 반복이 필요합니다. 대략적인 계산에 따르면 연합 학습 환경에서는 반복하는 데 몇 분이 걸릴 수 있습니다. 즉, 연합 학습은 실용 범위를 벗어나 한 달에서 1년까지 걸릴 수 있습니다.

연합 학습의 핵심 아이디어는 직관적입니다. 각 기기에서 로컬로 확률적 경사하강법의 여러 단계를 수행하여 평균 모델 업데이트 횟수를 줄임으로써 통신 및 시작 비용을 절감합니다. 모델이 각 로컬 단계 후에 평균을 구하면 속도가 너무 느려질 수 있습니다. 모델의 평균이 너무 적으면 발산할 수 있으며 평균을 구하면 더 나쁜 모델이 생성될 수 있습니다.

모델 훈련은 연합 집계, 즉 모델 그라디언트 또는 업데이트의 평균을 적용하여 단순화할 수 있습니다.

2.3 일반적인 작업 흐름

작동하는 연합 알고리즘을 갖는 것이 필요한 시작점이지만, 교차 장치 연합 학습이 제품 팀을 이끄는 효과적인 방법이 되려면 더 많은 것이 필요합니다. 교차 장치 연합 학습의 경우 일반적인 워크플로는 일반적으로 다음과 같습니다.

(1) 문제 식별

일반적으로 이는 장치에서 사용할 수 있는 중간 크기(1-50MB) 모델이 필요함을 의미합니다. 장치 데이터가 데이터 센터에서 사용할 수 있는 것보다 더 풍부하거나 더 대표적입니다. 데이터를 중앙 집중화하지 않는 것을 선호하는 기타 이유가 있는 경우 모델을 훈련하는 데 필요한 피드백 신호를 장치에서 쉽게 사용할 수 있습니다.

(2) 모델 개발 및 평가

모든 기계 학습 작업과 마찬가지로 올바른 모델 구조와 하이퍼 매개변수(학습률, 배치 크기, 정규화)를 선택하는 것은 기계 학습의 성공에 매우 중요합니다. 연합 학습에서는 각 라운드에 참여하는 클라이언트 수, 수행해야 하는 로컬 단계 수 등과 같은 많은 새로운 하이퍼 매개변수가 도입되므로 과제가 더 커질 수 있습니다. 일반적인 시작점은 대략적인 모델 선택 및 조정과 함께 데이터 센터에서 사용 가능한 에이전트 데이터를 기반으로 하는 연합 학습을 사용하는 시뮬레이션입니다. 최종 튜닝 및 평가는 실제 장비에 대한 연합 교육을 통해 수행되어야 합니다. 평가는 연합 방식으로도 수행되어야 합니다. 훈련 프로세스와는 별도로 후보 글로벌 모델이 장치로 전송되어 해당 장치의 로컬 데이터세트에서 정확도 측정항목을 계산하고 서버에서 집계할 수 있습니다. 각 클라이언트의 성능과 히스토그램이 모두 중요합니다. 이러한 요구로 인해 두 가지 주요 인프라 요구 사항이 발생합니다. (1) 실제 장치에서 원활하게 전환할 수 있는 고성능 연합 학습 시뮬레이션 인프라를 제공합니다. (2) 여러 개의 동시 교육 및 평가를 쉽게 관리할 수 있는 교차 장치 인프라입니다. 수행된 작업.

(3) 배포

2단계에서 고품질 후보 모델이 선택되면 모델 배포는 일반적으로 추가 검증 및 테스트(수동 품질이 포함될 수 있음)를 포함하여 데이터 센터 학습 모델과 동일한 절차를 따릅니다. 보장), 이전 생산 모델에 대한 실시간 A/B 테스트, 전체 장치에 대한 단계적 출시(모델 교육에 실제로 참여한 것보다 훨씬 더 많은 장치일 수 있음).

2단계의 모든 작업은 훈련 및 평가와 관련된 장치의 사용자 경험에 영향을 미치지 않는다는 점에 주목할 가치가 있습니다. 연합 학습을 사용하여 훈련된 모델은 사용자가 배포 단계를 완료하지 않으면 예측을 볼 수 없습니다. 이러한 처리가 장비에 부정적인 영향을 미치지 않도록 하는 것이 핵심 인프라 과제입니다. 예를 들어, 집중적인 계산은 장치가 유휴 상태이고 네트워크가 유휴 상태인 경우에만 수행될 수 있습니다.

이러한 워크플로는 확장 가능한 인프라와 API를 구축하는 데 중요한 과제를 제시합니다.

3. 연합 컴퓨팅의 개인 정보 보호

연합 학습은 기본적으로 다양한 개인 정보 보호 이점을 제공합니다. 데이터 최소화 원칙에 따라 원시 데이터는 장치에 남아 있으며 서버로 전송된 업데이트는 특정 대상에 초점을 맞추고 최대한 빨리 집계됩니다. 특히, 집계되지 않은 데이터는 서버에 저장되지 않으며, 엔드투엔드 암호화는 전송 중인 데이터를 보호하며, 복호화 키와 복호화된 값은 모두 RAM에 일시적으로만 저장됩니다. 시스템과 상호 작용하는 기계 학습 엔지니어 및 분석가는 집계된 데이터에만 액세스할 수 있습니다. 집계는 연합 접근 방식의 기본 역할이므로 단일 클라이언트가 출력에 미치는 영향을 자연스럽게 제한할 수 있습니다. 그러나 목표가 차등 개인 정보 보호와 같은 보다 공식적인 보장을 제공하는 것이라면 알고리즘을 신중하게 설계해야 합니다.

기본적인 연합 학습 방법은 효과가 입증되어 널리 채택되고 있지만 여전히 기본적으로 사용되지는 않으며 공정성, 정확성, 개발 속도 및 계산 비용 간의 내재된 긴장으로 인해 데이터 최소화 및 익명화 방법이 방해될 수 있습니다. 따라서 구성 가능한 개인 정보 보호 강화 기술이 필요합니다. 궁극적으로 개인 정보 보호 기술 배포에 대한 결정은 제품 또는 서비스 팀이 특정 영역의 개인 정보 보호, 정책 및 법률 전문가와 협의하여 내립니다. 제품은 사용 가능한 연합 학습 시스템을 통해 더 많은 개인 정보 보호 기능을 제공할 수 있으며, 아마도 더 중요한 것은 정책 전문가가 시간이 지남에 따라 개인 정보 보호 정의 및 요구 사항을 강화하는 데 도움이 될 수 있다는 것입니다.

페더레이션 시스템의 개인 정보 보호 기능을 고려할 때 액세스 포인트와 위협 모델을 고려하는 것이 유용합니다. 참가자가 물리적 장치나 네트워크에 액세스할 수 있습니까? FL을 서비스하는 서버에 대한 루트 또는 물리적 액세스를 통해? 머신러닝 엔지니어에게 모델과 측정항목을 공개하시겠습니까? 최종 배포 모델? 정보가 이 시스템을 통해 흐르면서 잠재적으로 악의적인 당사자의 수는 크게 달라집니다. 따라서 개인정보 보호정책은 완전한 엔드투엔드 시스템으로 평가되어야 합니다. 장치의 원시 데이터 또는 전송 중인 중간 계산 상태를 보호하기 위해 적절한 보안 조치를 취하지 않으면 최종적으로 배포된 모델이 사용자 데이터를 저장하는지 여부에 대한 보장이 중요하지 않을 수 있습니다.

데이터 최소화는 보안을 강화하고 데이터 및 중간 결과 보존을 최소화하여 장치, 네트워크 및 서버에 대한 잠재적인 위협을 해결합니다. 모델과 지표가 모델 엔지니어에게 게시되거나 프로덕션 환경에 배포되면 익명 집계를 통해 이러한 게시된 출력에 액세스하는 당사자로부터 개인 데이터를 보호합니다.

3.1 집계된 데이터 최소화

연합 컴퓨팅의 여러 지점에서 참가자는 서로가 적절한 조치를 취하고 그러한 조치만 취하기를 기대합니다. 예를 들어, 서버는 클라이언트가 사전 처리 단계를 정확하게 수행할 것으로 기대하며, 클라이언트는 서버가 개별 업데이트를 집계할 때까지 비공개로 유지하기를 기대합니다. .

개인 정보 보호 기술은 이러한 구성 요소의 구조적 실행을 지원하고 참가자의 이탈을 방지합니다. 실제로 페더레이션 시스템 자체는 서버가 클라이언트가 제출한 업데이트에 포함되지 않은 클라이언트 데이터에 액세스하는 것을 구조적으로 방지하는 개인 정보 보호 기술로 볼 수 있습니다.

집계 단계를 예로 들어 보겠습니다. 이상적인 시스템은 완전히 신뢰할 수 있는 제3자가 클라이언트의 업데이트를 집계하고 최종 집계만 서버에 표시하는 것을 상상합니다. 실제로 상호 신뢰하는 제3자는 일반적으로 이러한 역할을 수행하기 위해 존재하지 않지만, 다양한 기술을 통해 연합 학습 시스템은 다양한 조건에서 이러한 제3자를 시뮬레이션할 수 있습니다.

예를 들어, 서버는 보안 엔클레이브 내에서 집계 프로세스를 실행할 수 있습니다. 보안 엔클레이브는 실행 중인 코드를 클라이언트에게 증명할 뿐만 아니라 누구도 이를 관찰하거나 변조할 수 없도록 보장하는 특별히 구성된 하드웨어입니다. 코드 실행. 그러나 현재 클라우드에서든 소비자 장치에서든 보안 환경의 가용성은 제한되어 있으며 사용 가능한 보안 환경은 지정된 몇 가지 속성 도메인만 구현할 수 있습니다. 또한 사용 가능하고 완벽하게 작동하는 경우에도 보안 환경은 매우 제한된 메모리 또는 속도를 포함하여 추가 제약을 가할 수 있습니다. 제조업체가 제공하는 서비스(예: 주요 기밀 유지) 등

다자간 보안 계산을 위한 분산 암호화 프로토콜을 공동으로 사용하여 참가자가 충분히 정직하다면 특수 하드웨어 없이도 신뢰할 수 있는 제3자를 시뮬레이션할 수 있습니다. 임의 함수의 다자간 보안 계산은 대부분의 경우 계산상의 장애물로 남아 있지만, 연합 환경에서 벡터 합산을 위한 특수 집계 알고리즘이 개발되어 서버를 관찰하고 대다수 클라이언트를 제어하는 적에 대해서도 개인정보를 보호합니다. 클라이언트 종료 계산에 강력함:

통신 효율성 – 클라이언트당 O(log n + l) 통신, 여기서 n은 사용자 수를 나타내고 l은 벡터 길이를 나타냅니다. 광범위한 응용 프로그램에서 작은 상수 생성된 트래픽은 두 배 미만입니다. 총 트래픽

컴퓨팅 효율성 – 클라이언트당 O(log2n + lllogn) 계산

암호화로 안전한 집계 프로토콜은 상용 연합 컴퓨팅 시스템에 광범위하게 배포되었습니다. 개인 집합 외에도 개인 정보 보호 기술을 사용하여 페더레이션 시스템의 다른 부분을 보호할 수 있습니다. 예를 들어, 보안 환경이나 암호화 기술(예: 영지식 증명)을 통해 서버는 클라이언트가 전처리를 진실하게 수행했음을 신뢰할 수 있습니다. 모델 브로드캐스트 단계에서도 이점을 얻을 수 있습니다. 많은 학습 작업의 경우 단일 클라이언트는 모델의 작은 부분과 관련된 데이터만 가질 수 있습니다. 이 경우 클라이언트는 훈련을 위해 모델의 해당 부분을 개인적으로 다시 검색할 수 있습니다. 보안 환경을 사용합니다. 또는 서버가 클라이언트와 관련된 훈련 데이터가 있는 모델의 어떤 부분도 학습하지 못하도록 하는 암호화 기술.

3.2 계산되고 검증된 익명 집계

보안 환경과 개인 정보 집계 기술은 데이터 최소화를 향상시킬 수 있지만 익명 집계를 생성하도록 특별히 설계되지는 않았습니다. 예를 들어 훈련 중인 모델에 대한 사용자 영향을 제한합니다. 실제로 학습된 모델은 경우에 따라 민감한 정보를 유출할 수 있습니다.

데이터 익명성의 표준 방법은 차등 개인 정보 보호입니다. 데이터베이스의 레코드를 집계하는 일반적인 프로세스의 경우 차등 개인 정보 보호를 위해서는 집계에 대한 레코드의 기여를 제한한 다음 적절하게 비례하는 무작위 섭동을 추가해야 합니다. 예를 들어 차등 개인 확률적 경사하강법 알고리즘에서는 경사의 표준이 잘리고, 잘린 경사가 집계되며, 각 훈련 에포크에 가우스 노이즈가 추가됩니다.

차등 프라이버시 알고리즘은 반드시 확률론적이므로 특정 데이터 세트에 대한 알고리즘에 의해 생성된 모델의 분포를 고려할 수 있습니다. 직관적으로 모델 간의 이러한 분포는 차등 비공개 알고리즘이 서로 다른 레코드가 있는 단일 입력 데이터 세트에서 실행될 때 유사합니다. 공식적으로 차등 프라이버시는 프라이버시 손실 매개변수(ε, δ)로 정량화됩니다. 여기서 (ε, δ)가 작을수록 프라이버시가 향상됩니다. 이는 단순히 각 레코드에 대한 모델의 민감도를 제한하는 것 이상으로, 레코드의 영향에 비례하여 노이즈를 추가함으로써 출력에 대한 단일 레코드의 기여도를 마스킹할 수 있는 충분한 무작위성을 보장합니다.

교차 장치 연합 학습 시나리오에서 기록은 단일 사용자/클라이언트의 모든 교육 인스턴스로 정의됩니다. 차등 개인 정보 보호는 사용자 수준 또는 비례적일 수 있습니다. 중앙 집중식 구성에서도 연합 학습 알고리즘은 사용자의 모든 데이터에서 단일 모델 업데이트를 계산하여 각 사용자의 기여를 모델 업데이트에 더 쉽게 결합할 수 있기 때문에 사용자 수준 개인 정보 보호가 보장되는 교육에 적합합니다.

교차 기기 연합 학습 시스템의 맥락에서 공식(ε, δ) 보장을 제공하는 것은 특히 어려울 수 있습니다. 모든 적격 사용자 집합은 동적이며 사전에 알려지지 않고 참여 사용자는 행사 기간 중 언제든지 존재할 수 있기 때문입니다. 교육 단계에서 생산 연합 학습 시스템에 적합한 엔드투엔드 프로토콜을 구축하는 것은 해결해야 할 중요한 문제로 남아 있습니다.

조직 간 연합 학습 시나리오에서 개인정보 보호 단위는 다양한 의미를 가질 수 있습니다. 예를 들어, 참여 기관이 모델 반복에 대한 액세스를 보장하기를 원하거나 최종 모델이 특정 기관의 데이터 세트가 모델 교육에 사용되었는지 여부를 확인할 수 없는 경우 데이터 사일로의 모든 사례로 레코드를 정의할 수 있습니다. 사용자 수준 차등 개인 정보 보호는 조직 간 설정에서 여전히 의미가 있습니다. 그러나 여러 기관이 동일한 사용자의 기록을 보유하고 있는 경우 사용자 수준의 개인 정보 보호를 시행하는 것이 더 어려울 수 있습니다.

과거의 차등 개인 정보 보호 데이터 분석은 차등 개인 정보 보호 알고리즘을 구현하는 신뢰할 수 있는 서비스 제공업체가 원시 데이터를 수집하는 중앙 또는 신뢰할 수 있는 수집자에 주로 사용되었습니다. 로컬 차등 개인 정보 보호를 사용하면 완전히 신뢰할 수 있는 집계자가 필요하지 않지만 결과적으로 정확성이 크게 떨어집니다.

완전히 신뢰할 수 있는 중앙 서버에 의존하지 않고도 중앙 집중식 차등 개인 정보 보호의 유용성을 복원하려면 종종 분산 차등 개인 정보 보호라고 불리는 몇 가지 새로운 방법을 사용할 수 있습니다. 목표는 서버가 출력을 보기 전에(일반 텍스트로) 출력을 다르게 비공개로 만드는 것입니다. 분산 차등 개인 정보 보호 하에서 클라이언트는 먼저 애플리케이션별 최소 데이터를 계산하고 이러한 데이터를 임의의 노이즈로 약간 교란한 다음 개인 정보 수집 프로토콜을 실행합니다. 그러면 서버는 개인 정보 수집 프로토콜의 출력에만 액세스할 수 있습니다. 단일 고객이 추가하는 소음은 일반적으로 지역적 차별화를 위한 의미 있는 보장을 제공하기에 충분하지 않습니다. 그러나 개인정보 수집 후 개인정보 수집 프로토콜의 출력은 모든 클라이언트의 노이즈 합계를 기반으로 더 강력한 DP 보장을 제공합니다. 개인 정보 수집 프로토콜에서 요구하는 보안 가정에 따라 이는 서버 액세스 권한이 있는 사람에게도 적용됩니다.

공식적인 사용자 수준의 개인 정보 보호를 보장하는 알고리즘을 위해서는 모델의 민감도가 각 사용자의 데이터와 연결되어야 할 뿐만 아니라 해당 민감도에 비례하는 노이즈도 추가되어야 합니다. 차등 프라이버시 정의가 강력한 보장을 제공할 만큼 충분히 작은 ε을 갖도록 충분한 랜덤 노이즈를 추가해야 하지만, 작은 노이즈로도 민감도를 제한하면 해독을 크게 줄일 수 있습니다. 차등 개인 정보 보호는 양측의 정보에 대한 무제한 계산 및 액세스가 가능한 "최악의 적"을 가정하기 때문입니다. 이러한 가정은 실제로는 비현실적인 경우가 많습니다. 따라서 각 사용자의 영향력을 제한하는 차등 비공개 알고리즘을 사용한 교육에는 상당한 이점이 있습니다. 그러나 작은 ε 보장을 달성하기 위해 실용적인 연합 학습 및 연합 분석 알고리즘을 설계하는 것은 중요한 연구 영역입니다.

모델 감사 기술을 사용하면 차등 개인 정보 보호를 통한 교육의 이점을 더욱 정량화할 수 있습니다. 여기에는 모델이 과도하게 학습하거나 드문 훈련 사례의 정도를 정량화하고 사용자가 훈련 중에 해당 기술을 사용했는지 여부를 추론할 수 있는 정도를 정량화하는 것이 포함됩니다. 이러한 감사 기술은 큰 ε을 사용하는 경우에도 유용하며 차등적으로 개인적인 최악의 적과 제한된 계산 능력과 부가 정보를 가진 현실적인 적 사이의 격차를 정량화할 수 있습니다. 이는 또한 스트레스 테스트에 대한 보완 기술로도 사용될 수 있습니다. 차등 개인 정보 보호에 대한 공식적인 수학적 주장과 달리 이러한 감사 기술은 완전한 엔드 투 엔드 시스템에 적용되어 잠재적으로 소프트웨어 버그나 잘못된 매개 변수 선택을 포착할 수 있습니다.

4. 연합 분석

데이터 분석가는 기계 학습 모델을 학습하는 것 외에도 데이터 과학 방법을 적용하여 로컬 사용자 장치의 원시 데이터를 분석하는 데 관심이 있는 경우가 많습니다. 예를 들어 분석가는 집계된 모델 측정항목, 인기 동향 및 활동, 지리공간 위치 열 지도에 관심이 있을 수 있습니다. 이 모든 것은 연합 분석을 사용하여 수행할 수 있습니다. 연합 학습과 마찬가지로 연합 분석은 각 장치의 데이터에 대해 로컬 계산을 실행하고 집계된 결과만 제공하는 방식으로 작동합니다. 그러나 연합 학습과 달리 연합 분석은 개수, 평균, 히스토그램, 분위수 및 기타 SQL과 유사한 쿼리와 같은 기본적인 데이터 과학 요구 사항을 지원하도록 설계되었습니다.

분석가가 연합 분석을 사용하여 많은 사용자가 공유하는 음악 라이브러리에서 가장 많이 재생된 상위 10곡을 알아보려는 애플리케이션의 경우. 이 작업은 위에서 설명한 페더레이션 및 개인 정보 보호 기술을 사용하여 수행할 수 있습니다. 예를 들어, 클라이언트는 자신이 들었던 노래를 라이브러리 크기와 동일한 길이의 이진 벡터로 인코딩하고 분산 차등 개인 정보 보호를 사용하여 재생한 사용자 수에 따라 서버가 이러한 벡터 중 하나의 값만 볼 수 있도록 할 수 있습니다. 각 노래의 차등 프라이버시 히스토그램.

그러나 연합 분석 작업은 여러 측면에서 연합 학습 작업과 다릅니다.

연합 분석 알고리즘은 일반적으로 비대화형이며 많은 수의 클라이언트를 포함합니다. 즉, 연합 학습 애플리케이션과 달리 한 라운드에 더 많은 클라이언트를 확보해도 수익이 감소하지 않습니다. 따라서 각 라운드에 더 많은 수의 클라이언트가 포함될 수 있고 더 적은 라운드가 필요하므로 연합 분석에 차등 개인 정보 보호를 적용하는 것이 덜 어렵습니다.

다음 라운드에 동일한 고객이 다시 참여할 필요는 없습니다. 실제로 고객의 재참여를 유도하면 알고리즘 결과가 편향될 수도 있습니다. 따라서 연합 분석 작업은 개인이 참여할 수 있는 횟수를 제한하는 인프라에서 가장 잘 수행됩니다.

연합 분석 작업은 종종 드물기 때문에 효율적인 개인정보 희소 집계가 특히 중요한 주제가 됩니다.

제한된 클라이언트 참여 및 희소 집계가 특히 연합 분석과 관련이 있지만 연합 학습 문제에도 적용될 수 있다는 점은 주목할 가치가 있습니다.

5. 요약

연합 학습은 점점 더 많은 유형의 데이터와 문제 영역에 적용되고 있으며 개인 정보 보호 컴퓨팅의 중요한 방법, 즉 AI의 개인 정보 보호 방법으로 간주되기까지 했습니다. 기사에는 개인화, 견고성, 공정성 및 시스템 구현에 대한 연합 학습 과제가 포함되어 있지 않습니다. 연합 학습 실행과 관련하여 TensorFlow Federated가 좋은 출발점이 될 수 있습니다.

위 내용은 개인 정보 보호 컴퓨팅의 연합 학습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!