引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來-人工智慧-PHP中文網

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

PHPz

發布： 2023-12-14 21:49:27

轉載

1223 人瀏覽過

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

論文連結：https://browse.arxiv.org/pdf/2211.13976.pdf
GitHub：https://github.com/Vanint/DatasetExpansion

#眾所周知，深度神經網路的效能很大程度上依賴訓練數據的數量和質量，這使得深度學習難以廣泛地應用於小數據任務。例如，在醫療等領域的小數據應用場景中，人力收集和標註大規模的資料集往往費時費力。為了解決這個數據稀缺問題並最小化數據收集成本，該論文探索了一個數據集擴增新範式，旨在自動生成新數據從而將目標任務的小數據集擴充為更大且更具信息量的大數據集。這些擴增後的資料集致力於提升模型的效能和泛化能力，並能夠用於訓練不同的網路結構

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

該工作發現只是利用現存方法無法很好地擴充資料集。（1）隨機資料增強主要改變圖片的表面視覺特徵，但不能創造具有新物體內容的圖片（如下圖的荷花依然是同一個，沒有新荷花的生成），因此所引入的資訊量有限。更嚴重的是，隨機資料增強可能會裁剪醫學影像的病灶（變）位置，導致樣本的重要資訊減少，甚至產生雜訊資料。（2）直接利用預訓練的生成（擴散）模型進行資料集擴增也無法很好地提升模型在目標任務上的表現。這是因為這些生成模型的預訓練資料往往與目標資料有較大的分佈差異，這導致它們所產生的資料與目標任務有一定的分佈和類別差距，無法確保所產生的樣本帶有正確的類別標籤且對模型訓練有益。

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

為了更有效地進行資料集擴增，研究人員探索了人類的聯想學習。當人類擁有物體的先驗知識時，可以輕鬆地想像出該物體的不同變體，例如下圖中狗子在不同種類、不同顏色、不同形狀或不同背景下的變體。這種想像學習的過程對於資料集擴增非常有啟發性，因為它不僅僅是簡單地擾動圖片中動物體的外觀，而是應用了豐富的先驗知識來創建具有新資訊量的變體圖片

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

然而，我們無法直接建模人類作為先驗模型來進行資料想像。但幸運地是，近期的生成模型（如 Stable Diffusion，DALL-E2）已經展現了強大的擬合大規模資料集分佈的能力，能夠產生內容豐富且逼真的圖片。這啟發了該論文使用預先訓練的生成模型作為先驗模型，利用它們強大的先驗知識來對小數據集進行高效地數據聯想和擴增。

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

基於上述想法，這項工作提出了一個新的指導式想像擴增框架（Guided Imagination Framework, GIF）。此方法能夠有效提升深度神經網路在自然和醫療圖片任務上的分類效能和泛化能力，並大幅減少因人工資料收集和標註所帶來的巨大成本。同時，所擴增的資料集也有助於促進模型的遷移學習，並緩解長尾問題。

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

接下來讓我們來看看，這資料集擴增新範式是怎麼設計的。

方法

資料集擴增的挑戰與指導標準## 設計資料集擴增法會有兩個關鍵挑戰：（1）如何讓產生的樣本帶有正確的類別標籤？（2）如何確保產生的樣本帶有新的資訊量，從而促進模型訓練？為了解決這兩個挑戰，這項工作透過大量的實驗發現了兩個擴增指導標準：（1）類別一致的資訊增強；（2）樣本多樣性提升。

引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來

方法框架# 基於所發現擴增指導標準，該工作提出了指導式想像擴增框架（GIF）。對於每個輸入的種子樣本 x，GIF 首先利用先驗生成模型的特徵提取器提取樣本特徵 f，並對該特徵進行噪音擾動: 引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來。設定噪音(z,b)最簡單的方式是採用高斯隨機噪聲，但是它無法確保所產生的樣本具有正確的類別標籤並帶來更多的資訊量。因此，為了進行有效的資料集擴增，GIF 基於其發現的擴增指導標準對雜訊擾動進行最佳化，即引進全新的GIF框架：以人類為榜樣，資料集擴增的新典範已經到來。