基於深度學習的Deepfake檢測綜述-人工智慧-PHP中文網

深度學習 (DL) 已成為電腦科學中最具影響力的領域之一，直接影響著當今人類生活和社會。與歷史上所有其他技術創新一樣，深度學習也被用於一些違法的行為。 Deepfakes 就是這樣一種深度學習應用，在過去的幾年裡已經進行了數百項研究，發明和優化各種使用 AI 的 Deepfake 檢測，本文主要是討論如何對 Deepfake 進行檢測。

基於深度學習的Deepfake檢測綜述

為了回應Deepfake，已經開發出了深度學習方法以及機器學習（非深度學習）方法來偵測。深度學習模型需要考慮大量參數，因此需要大量資料來訓練此類模型。這正是 DL 方法與非 DL 方法相比具有更高效能和準確結果的原因。

什麼是 Deepfake 偵測

大多數 Deepfake 產生器都會在 Deepfake 的過程中留下一些痕跡。 Deepfake 影片中的這些變化可以歸類為空間不一致：影片的各個影格內發生的不相容和時間不一致：影片畫面序列中出現的不相容特徵。

空間不一致包括臉部區域與視訊畫面的背景不相容、解析度變化以及部分渲染的器官和皮膚紋理（可能無法正確渲染臉部的所有人類特徵）。大多數常見的 Deepfake 生成器無法渲染眨眼和牙齒等特徵。並且有事會使用白色條帶代替靜止幀上肉眼甚至可以看到的牙齒（下圖）。

時間不一致包括異常眨眼、頭部姿勢、臉部動作以及視訊畫面序列中的亮度變化。

deepfake 生成器留下的空間和時間這些痕跡都可以透過由深度神經網路 (DNN) 製成的 deepfake 偵測器來識別。我們熟悉的生成對抗網路(GANs)在deepfake 的生成器中的廣泛應用挑戰了造假偵測和生成之間的平衡。

Deepfake偵測

Deepfake 偵測器是二元分類系統，可判斷輸入數位媒體是真是假。 Deepfake 檢測不是由單一類似黑盒的模組執行的，而是由幾個其他模組和步驟組成，它們共同作用以提供檢測結果。 Deepfake檢測中常見的步驟如下[2]。

Deepfake 數位媒體的輸入。
預處理包括人臉偵測和增強。
處理後的幀的特徵提取。
分類/偵測。
輸出影像的真實性。

典型的基於 DL 的 Deepfake 偵測器包含 3 個主要元件來執行上述任務。

預處理模組。
特徵提取模組。
評估器模組（深度學習分類器模型）。

接下來將詳細解釋主要步驟：資料預處理、特徵提取和偵測/分類過程。

資料預處理

在資料收集階段之後，資料應該在用於 Deepfake 偵測的訓練和測試步驟之前進行預處理。資料預處理是使用可用的程式庫自動完成的，例如 OpenCV python 、MTCNN 和YOLO 等。

資料增強在提高練 Deepfake 偵測器的效能中也扮演著至關重要的角色。可以應用諸如重新縮放（拉伸）、剪切映射、縮放增強、旋轉、亮度變化和水平/垂直翻轉等增強技術以增加資料集的泛化性 [3]。

資料預處理的第一步是從影片剪輯中提取單一影格。提取幀後需要從提取的視訊幀中檢測人臉。由於臉部區域經常出現異常，因此僅選擇臉部區域有助於特徵提取模型僅關注感興趣區域（ROI），從而節省了用於全幀掃描的計算成本。一旦偵測到臉部區域，就會從幀的其餘背景中裁剪它們，並按照一系列步驟使它們可用於模型訓練和測試。裁剪臉部區域的另一個原因是使模型的所有輸入影像都具有相同的大小。

特徵提取

上一步預處理的訊框將會傳送到特徵提取器。大多數的特徵提取器都是基於卷積神經網路（CNN）。最近的一些研究證明了膠囊網路在特徵提取過程中應用的有效性和效率的提高，這是一個新趨勢。

特徵提取器提取預處理視訊框上可用的空間特徵。特徵提取能夠提取視覺特徵、局部特徵/臉部標誌，如眼睛、鼻子、嘴巴的位置、嘴形的動態、眨眼等生物特徵。然後將擷取的特徵向量傳送到分類器網路輸出決策。

分類

用於分類的深度學習模型通常被稱為Deepfake偵測器的骨幹。顧名思義，分類網路負責Deepfake偵測管道中最重要的任務:即分類並確定輸入影片是否為Deepfake的機率。大多數分類器都是二元分類器，其中Deepfakes輸出為(0)，原始幀輸出為(1)。

分類器又是另一個卷積層(CNN)或類似的深度學習架構，如LSTM或ViT。分類模型的實際功能會根據所使用的DNN而異。例如在特徵提取器模組中提取的眨眼特徵可以被分類模組中的LSTM模組使用，以確定幀眨眼模式的時間不一致性，並據此判斷輸入是否為Deepfake[3]。在大多數情況下， Deepfake 偵測器中最後一層為全連接層。由於卷積層的輸出表示資料的高級特徵，這些輸出被展平並連接到單一輸出層以產生最終決策。

總結

在過去的幾年裡，Deepfake 的創建和偵測都出現了顯著發展。與非深度學習方法相比，由於結果的準確性，使用深度學習技術進行 Deepfake 檢測的相關研究也有很大的進展。 CNN、RNN、ViT 和膠囊網路等深度神經網路架構廣泛用於 Deepfake 偵測器的實現。常見的 Deepfake 偵測管道由資料預處理模組、基於 CNN 的特徵提取器和分類模組組成。

此外，Deepfake 偵測對 Deepfake 生成器在 Deepfake 上留下的痕跡有很大的依賴性。由於目前基於 GAN 的 Deepfake 生成器能夠以最小的不一致性合成更真實的 Deepfake，因此必須開發新的方法來最佳化 Deepfake 檢測。基於深度整合學習技術的 Deepfake 檢測方法可以被認為是對抗 Deepfake 的現代和綜合方法 [4]。儘管如此，有效且高效的 Deepfake 檢測器的空缺仍然存在。

以上是基於深度學習的Deepfake檢測綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章！