AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.-일체 포함-php.cn

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

WBOY

풀어 주다： 2023-04-12 22:16:01

앞으로

1850명이 탐색했습니다.

본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.

AI 그림 침해가 확인되었습니다!

최근 연구에 따르면 확산 모델은 훈련 세트의 샘플을 염두에 두고 샘플을 생성할 때 "모방"합니다.

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

즉, Stable Diffusion으로 생성된 AI 그림에는 모든 스트로크 뒤에 침해 사고가 있을 수 있습니다.

그뿐만 아니라, 연구 및 비교 후에 확산 모델의 훈련 샘플에서 "표절"하는 능력은 GAN의 두 배이며, 확산 모델이 더 잘 생성될수록 훈련 샘플을 기억하는 능력이 더 강해집니다.

이 연구는 Google, DeepMind 및 UC Berkeley로 구성된 팀에서 수행되었습니다.

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

논문에는 또 다른 나쁜 소식이 있습니다. 즉, 이러한 현상에 대응하여

기존의 모든 개인 정보 보호 방법이 무효입니다.

해당 소식이 나오자마자 네티즌들은 폭발했고, 해당 논문의 작성자 관련 트윗은 천 개가 넘게 리트윗될 뻔했습니다.

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

어떤 사람들은 다음과 같이 한탄했습니다. 다른 사람의 저작권이 있는 결과를 훔쳤다고 말하는 것이 타당하다는 것이 밝혀졌습니다!

소송을 지지해주세요! 고소해라!

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

누군가 확산 모델의 편에 서서 다음과 같이 말했습니다:

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

일부 네티즌들은 또한 논문의 결과를 가장 인기 있는 ChatGPT로 확장했습니다:

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

기존의 모든 개인 정보 보호 방법은 유효하지 않습니다

확산 모델 원리는 노이즈를 제거한 다음 이를 복원하는 것이므로 연구자들이 실제로 연구하고 싶은 것은 다음과 같습니다.

그들이

훈련에 사용된 이미지를 기억하고 최종적으로 생성 중에 "표절"합니까 ?

트레이닝 세트의 이미지는 인터넷에서 가져온 경우가 많으며 저작권, 상표권이 있으며 일부는 개인 의료용 엑스레이와 같은 개인용 이미지입니다.

확산 모델이 개별 훈련 샘플을

기억하고 재생성할 수 있는지 알아보기 위해 연구자들은 먼저 '기억'에 대한 새로운 정의를 제안했습니다.

일반적으로 메모리의 정의는 텍스트 언어 모델에 중점을 둡니다. 모델이 훈련 세트에서 단어별 시퀀스를 복구하라는 메시지를 표시할 수 있다면 이는 시퀀스가 추출되고 기억되었음을 의미합니다.

반대로 연구팀은 이미지 유사성을 기준으로 '기억'을

정의했습니다. 그러나 '기억'의 정의가 보수적이라는 점 역시 팀에서도 솔직히 인정합니다.

예를 들어 왼쪽 이미지는 Stable Diffusion을 사용하여 생성된 "오바마 사진"입니다. 이 사진은 오른쪽의 특정 훈련 이미지와 유사하지 않으므로 이 이미지는 메모리에서 생성된 것으로 간주할 수 없습니다.

그러나 이것이 새로운 식별 가능한 이미지를 생성하는 Stable Difusion의 기능이 저작권 및 개인 정보 보호를 위반하지 않는다는 의미는 아닙니다. AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

다음으로 개인 사진과 회사 입찰을 포함하여 1,000개 이상의 교육 샘플을 추출한 후

2단계

데이터 추출

(데이터 추출 공격) 을 설계했습니다. 구체적인 작업은 표준 방법을 사용하여 이미지를 생성한 다음 인간의 추론 점수 기준을 초과하는 이미지에 레이블을 지정하는 것입니다.

Stable Diffusion 및 Imagen에 이 접근 방식을 적용하여 팀은 100개 이상의 대략적이거나 동일한 훈련 이미지 복사본을 추출했습니다.

식별 가능한 개인 사진과 상표 로고가 모두 있으며, 검사 후 대부분 저작권이 있습니다.

그런 다음, "기억"이 어떻게 발생하는지 더 잘 이해하기 위해 연구원들은 모델에서 100만 번 샘플링하고 CIFAR-10에서 수백 개의 확산 모델을 훈련했습니다.

목적은 모델 정확도, 하이퍼파라미터, 향상 및 중복 제거의 어떤 동작이 개인 정보 보호에 영향을 미치는지 분석하는 것입니다.

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

결국 다음과 같은 결론에 이르렀습니다.

우선 확산 모델이 GAN보다 더 많은 메모리를 가지고 있습니다.

그러나 확산 모델은 평가된 이미지 모델 중 가장 개인 정보 보호가 가장 어려운 그룹이기도 하며 GAN보다 두 배 이상 많은 훈련 데이터를 유출합니다.

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.

또한 더 큰 모델은 더 많은 데이터를 기억할 수 있습니다.

이 결론에 따라 연구원들은 20억 개의 매개변수 텍스트-이미지 확산 모델 Imagen을 연구하여 분포 외부에서 가장 높은 점수를 가진 500개의 이미지를 추출하려고 시도했으며 이를 훈련 데이터 세트의 샘플로 사용했다는 사실을 발견했습니다. 모두 기억되었습니다.

반면, Stable Difusion에도 동일한 방법을 적용하여 메모리 동작이 확인되지 않았습니다.

따라서 Imagen은 복사된 이미지와 복사되지 않은 이미지 모두에서 Stable Difusion보다 프라이버시가 더 나쁩니다. 연구원들은 Imagen이 사용하는 모델이 Stable Difusion보다 용량이 커서 더 많은 이미지를 기억하기 때문이라고 생각합니다.

또한 더 나은 생성 모델(더 낮은 FID 값) 더 많은 데이터를 저장합니다.

메모리 적중을 완전히 해결하기에는 충분하지 않습니다.

AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다. 따라서 개인 정보 보호 강화 기술은 허용 가능한 개인 정보 보호 유틸리티 균형을 제공하지 않습니다.
궁극적으로 팀은 이러한 교육 확산 모델에 대해 네 가지 권장 사항을 제시했습니다.

교육 데이터 세트를 중복 제거하고 과도한 교육을 최소화하는 것이 좋습니다. 교육된 모델 개인 정보 보호를 평가하기 위해 데이터 추출 또는 기타 감사 기술을 사용하는 것이 좋습니다. 더 실용적인 개인정보 보호 기술이 있다면 최대한 활용하는 것이 좋습니다.

AI가 생성한 사진이 사용자에게 개인정보 관련 부분을 무료로 제공하지 않기를 바랍니다.

연구 결과가 나오면 진행 중인 소송에 영향을 미칠 수 있습니다.
1월 말, 갤러리의 큰형인 Getty Images

ΔStability AI

Stable Difussion의 훈련 데이터 중 일부는 오픈 소스입니다. 워터마크를 분석하고 조사한 결과, Getty를 포함한 많은 사진 대행사가 자신도 모르게 Stable Difussion의 훈련 세트에 많은 양의 자료를 제공한 것으로 나타났습니다. 하지만 처음부터 끝까지 안정 AI

는 사진 대행사 AI 그림 침해 사실이 확인됐다! 확산 모델은 귀하의 사진을 기억할 수 있으며 기존의 모든 개인 정보 보호 방법은 효과적이지 않습니다.