딥러닝 기반 딥페이크 탐지 개요-일체 포함-php.cn

딥러닝 기반 딥페이크 탐지 개요

WBOY

풀어 주다： 2023-04-12 18:04:10

앞으로

1796명이 탐색했습니다.

딥러닝(DL)은 컴퓨터 과학에서 가장 영향력 있는 분야 중 하나로 오늘날 인간의 삶과 사회에 직접적인 영향을 미치고 있습니다. 역사상 다른 모든 기술 혁신과 마찬가지로 딥 러닝도 일부 불법적인 목적으로 사용되었습니다. Deepfake는 이러한 딥 러닝 애플리케이션입니다. 지난 몇 년 동안 AI를 사용하여 다양한 Deepfake 탐지를 발명하고 최적화하기 위해 수백 건의 연구가 수행되었습니다. 이 기사에서는 주로 Deepfake를 탐지하는 방법에 대해 설명합니다.

딥러닝 기반 딥페이크 탐지 개요

딥페이크를 처리하기 위해 딥러닝 방법과 머신러닝(비딥러닝) 방법이 개발되어 딥페이크를 탐지하고 있습니다. 딥러닝 모델은 많은 수의 매개변수를 고려해야 하므로 이러한 모델을 훈련하려면 많은 양의 데이터가 필요합니다. 이것이 바로 DL 방법이 비DL 방법에 비해 더 높은 성능과 정확한 결과를 제공하는 이유입니다.

딥페이크 탐지란 무엇입니까

대부분의 딥페이크 생성기는 딥페이크 프로세스 중에 약간의 흔적을 남깁니다. 딥페이크 동영상의 이러한 변화는 공간적 불일치(비디오의 개별 프레임 내에서 발생하는 비호환성)와 시간적 불일치(비디오 프레임 시퀀스에 나타나는 비호환 기능)로 분류될 수 있습니다.

공간 불일치에는 비디오 프레임의 배경과 호환되지 않는 얼굴 영역, 해상도 변경, 부분적으로 렌더링된 기관 및 피부 질감(얼굴의 모든 인간 특징이 올바르게 렌더링되지 않을 수 있음)이 포함됩니다. 대부분의 일반적인 딥페이크 생성기는 깜박임이나 치아와 같은 기능을 렌더링할 수 없습니다. 그리고 때로는 스틸 프레임(아래)에서 육안으로도 볼 수 있는 치아를 교체하기 위해 흰색 스트립이 사용되기도 합니다.

시간적 불일치에는 비정상적인 눈 깜빡임, 머리 자세, 얼굴 움직임, 비디오 프레임 시퀀스의 밝기 변화 등이 포함됩니다.

딥페이크 생성기가 남긴 공간적, 시간적 흔적은 심층신경망(DNN)으로 만든 딥페이크 탐지기로 식별할 수 있습니다. 딥페이크 생성기에서 친숙한 GAN(생성적 적대 네트워크)이 널리 사용되면서 가짜 탐지와 생성 간의 균형이 어려워졌습니다.

Deepfake 감지

Deepfake 감지기는 입력된 디지털 미디어가 진짜인지 가짜인지를 결정하는 이진 분류 시스템입니다. 딥페이크 탐지는 블랙박스 같은 단일 모듈로 수행되는 것이 아니라 탐지 결과를 제공하기 위해 함께 작동하는 여러 다른 모듈과 단계로 구성됩니다. Deepfake 탐지의 일반적인 단계는 다음과 같습니다[2].

디지털 미디어의 딥페이크 입력.
전처리에는 얼굴 감지 및 향상이 포함됩니다.
처리된 프레임의 기능 추출.
분류/탐지.
출력 이미지의 진위성.

일반적인 DL 기반 딥페이크 탐지기에는 위 작업을 수행하는 3가지 주요 구성 요소가 포함되어 있습니다.

전처리 모듈.
특징 추출 모듈.
평가자 모듈(딥 러닝 분류 모델).

다음에는 주요 단계인 데이터 전처리, 특징 추출, 감지/분류 프로세스에 대해 자세히 설명합니다.

데이터 전처리

데이터 수집 단계 이후 딥페이크 탐지를 위한 훈련 및 테스트 단계 전에 데이터를 전처리해야 합니다. 데이터 전처리는 OpenCV Python, MTCNN, YOLO 등과 같은 사용 가능한 라이브러리를 사용하여 자동으로 수행됩니다.

데이터 증강은 딥페이크 탐지기의 성능을 향상시키는 데에도 중요한 역할을 합니다. 데이터세트의 일반화를 높이기 위해 크기 조정(스트레칭), 전단 매핑, 크기 조정 확대, 회전, 밝기 변경, 수평/수직 뒤집기와 같은 확대 기술을 적용할 수 있습니다[3].

데이터 전처리의 첫 번째 단계는 비디오 클립에서 개별 프레임을 추출하는 것입니다. 프레임을 추출한 후에는 추출된 비디오 프레임에서 얼굴을 감지해야 합니다. 얼굴 영역은 종종 이상 현상으로 나타나기 때문에 얼굴 영역만 선택하면 특징 추출 모델이 관심 영역(ROI)에만 집중하는 데 도움이 되므로 풀프레임 스캐닝의 계산 비용이 절약됩니다. 얼굴 영역이 감지되면 프레임의 나머지 배경에서 잘라내어 모델 훈련 및 테스트에 사용할 수 있도록 일련의 단계를 따릅니다. 얼굴 영역을 자르는 또 다른 이유는 모델에 대한 모든 입력 이미지를 동일한 크기로 만들기 위해서입니다.

특징 추출

이전 단계에서 전처리된 프레임이 특징 추출기로 전송됩니다. 대부분의 특징 추출기는 CNN(컨벌루션 신경망)을 기반으로 합니다. 최근 일부 연구에서는 특징 추출 과정에서 캡슐 네트워크의 효과성과 효율성 향상이 입증되었으며 이는 새로운 추세입니다.

특징 추출기는 전처리된 비디오 프레임에서 사용할 수 있는 공간 특징을 추출합니다. 특징 추출은 눈, 코, 입의 위치, 입 모양의 역학, 깜박임 및 기타 생물학적 특징과 같은 시각적 특징, 국소 특징/얼굴 랜드마크를 추출할 수 있습니다. 추출된 특징 벡터는 결정을 출력하기 위해 분류기 네트워크로 전송됩니다.

분류

분류에 사용되는 딥러닝 모델은 흔히 딥페이크 탐지기의 백본이라고 불립니다. 이름에서 알 수 있듯이 분류 네트워크는 딥페이크 탐지 파이프라인에서 가장 중요한 작업, 즉 입력 비디오가 딥페이크인지 여부를 분류하고 결정하는 작업을 담당합니다. 대부분의 분류기는 딥페이크 출력이 (0)이고 원본 프레임 출력이 (1)인 이진 분류기입니다.

분류자는 또 다른 CNN(컨볼루션 계층)이거나 LSTM 또는 ViT와 같은 유사한 딥 러닝 아키텍처입니다. 분류 모델의 실제 기능은 사용된 DNN에 따라 다릅니다. 예를 들어, 특징 추출 모듈에서 추출된 깜박임 특징은 분류 모듈의 LSTM 모듈에서 프레임 깜박임 패턴의 시간적 불일치를 판단하고 이를 기반으로 입력이 Deepfake인지 여부를 판단하는 데 사용될 수 있습니다[3]. 대부분의 경우 딥페이크 감지기의 마지막 레이어는 완전 연결 레이어입니다. 컨벌루션 레이어의 출력은 데이터의 상위 수준 기능을 나타내기 때문에 이러한 출력은 평면화되고 단일 출력 레이어로 연결되어 최종 결정을 내립니다.

요약

지난 몇 년 동안 딥페이크 생성 및 탐지 측면에서 상당한 발전이 있었습니다. 딥러닝 기술을 활용한 딥페이크 탐지 관련 연구 역시 비딥러닝 방식에 비해 결과의 정확성이 높아 큰 진전을 이루었습니다. CNN, RNN, ViT 및 캡슐 네트워크와 같은 심층 신경망 아키텍처는 딥페이크 탐지기 구현에 널리 사용됩니다. 일반적인 딥페이크 탐지 파이프라인은 데이터 전처리 모듈, CNN 기반 특징 추출기, 분류 모듈로 구성됩니다.

또한 딥페이크 탐지는 딥페이크 생성기가 딥페이크에 남긴 흔적에 크게 의존합니다. 현재 GAN 기반 딥페이크 생성기는 불일치를 최소화하면서 더욱 사실적인 딥페이크를 합성할 수 있으므로 딥페이크 탐지를 최적화하려면 새로운 방법을 개발해야 합니다. 딥 앙상블 학습 기술을 기반으로 한 딥페이크 탐지 방법은 딥페이크에 맞서기 위한 현대적이고 포괄적인 방법으로 간주될 수 있습니다[4]. 그럼에도 불구하고 효과적이고 효율적인 딥페이크 탐지기에는 여전히 격차가 존재합니다.

위 내용은 딥러닝 기반 딥페이크 탐지 개요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!