史丹佛、Meta AI研究：實現AGI之路，資料剪枝比我們想像得更重要-人工智慧-PHP中文網

在視覺、語言和語音在內的機器學習諸多領域中，神經標度律表明，測試誤差通常隨著訓練資料、模型大小或計算數量而下降。這種成比例提升已經推動深度學習實現了實質的表現成長。然而，這些僅透過縮放實現的提昇在計算和能源方面帶來了相當高的成本。

這種成比例的縮放是不可持續的。例如，想要誤差從 3% 下降到 2% 所需的資料、計算或能量會呈指數級增長。先前的一些研究表明，在大型 Transformer 的語言建模中，交叉熵損失從 3.4 下降到 2.8 需要 10 倍以上的訓練資料。此外，對於大型視覺 Transformer，額外的 20 億預訓練資料點 (從 10 億開始) 在 ImageNet 上僅能帶來幾個百分點的準確率成長。

所有這些結果都揭示了深度學習中資料的本質，同時表明收集巨大資料集的實踐可能是很低效的。這裡要討論的是，我們是否可以做得更好。例如，我們是否可以用一個選擇訓練樣本的良好策略來實現指數縮放呢？

在最近的一篇文章中，研究者發現，只增加一些精心選擇的訓練樣本，可以將誤差從3% 降到2% ，而無需收集10 倍以上的隨機樣本。簡而言之，「Sale is not all you need」。

史丹佛、Meta AI研究：實現AGI之路，資料剪枝比我們想像得更重要

論文連結：https://arxiv.org/pdf/2206.14486.pdf

整體來說，這項研究的貢獻在於：

1. 利用統計力學，發展了一種新的資料剪枝分析理論，在師生感知機學習環境中，樣本根據其教師邊際進行剪枝，大(小) 邊際各對應於簡單(困難) 樣本。該理論在數量上與數值實驗相符，並揭示了兩個驚人的預測:

a.最佳剪枝策略會因初始數據的數量而改變；如果初始數據豐富(稀缺) ，則應只保留困難(容易) 的樣本。

b.如果選擇一個遞增的帕累托最適剪枝分數作為初始資料集大小的函數，那麼對於剪枝後的資料集大小，指數縮放是可能的。

史丹佛、Meta AI研究：實現AGI之路，資料剪枝比我們想像得更重要

2. 研究表明，這兩個預測在更多通用設定的實踐中依舊成立。他們驗證了在 SVHN、CIFAR-10 和 ImageNet 上從頭訓練的 ResNets，以及在 CIFAR-10 上進行微調的視覺 Transformer 的與剪枝資料集大小有關的誤差指數縮放特徵。

3. 在 ImageNet 上對 10 個不同的資料剪枝度量進行了大規模基準測試研究，發現除了計算密集度最高的度量之外，大多數度量表現不佳。

4. 利用自監督學習開發了一種新的低成本無監督剪枝度量，不同於先前的度量，它不需要標籤。研究者證明了這種無監督度量與最好的監督剪枝度量相媲美，而後者需要標籤和更多的計算。這個結果揭示了一種可能性：利用預訓練基礎模型來修剪新資料集。

Is scale all you need？

研究者的感知器資料剪枝理論提出了三個驚人的預測，可以在更通用的環境下進行測試，例如在benchmark 上訓練的深度神經網路：

( 1) 相對於隨機資料剪枝，當初始資料集比較大時，只保留最難的樣本是有收益的，但當初始資料集比較小時，這樣反而有害；

(2) 隨著初始資料集大小的增加，透過保留最難樣本的固定分數f 進行的資料剪枝應該產生冪律縮放，指數等於隨機剪枝；

(3) 在初始資料集大小和所保留資料的分數上優化的測試誤差，可以透過在更大初始資料集上進行更積極的剪枝，追蹤出一個帕累托最優下包絡線，打破了測試誤差和剪枝資料集大小之間的冪律縮放函數關係。

史丹佛、Meta AI研究：實現AGI之路，資料剪枝比我們想像得更重要

研究者以不同數量的初始資料集大小和資料剪枝下保存的資料分數(圖3A 中的理論對比圖3BCD 中的深度學習實驗) ，在SVHN、CIFAR-10 和ImageNet 上訓練的ResNets 驗證了上述三個預測。在每個實驗設定中，可以看到，較大的初始資料集大小和更積極的剪枝比冪律縮放表現更好。此外，更大的初始資料集可能會看到更好的縮放（如圖 3A）。

此外，研究者發現資料剪枝可以提升遷移學習的表現。他們首先分析了在 ImageNet21K 上預先訓練的 ViT，然後在 CIFAR-10 的不同剪枝子集上進行了微調。有趣的是，預先訓練的模型允許更積極的資料剪枝；只有 10% 的 CIFAR-10 的微調可以媲美或超過所有 CIFAR-10 的微調所獲得的性能 (圖 4A)。此外，圖 4A 提供了一個在微調設定中打破冪律縮放的樣本。

史丹佛、Meta AI研究：實現AGI之路，資料剪枝比我們想像得更重要

透過在ImageNet1K 的不同剪枝子集(如圖3D 所示) 上預訓練ResNet50，研究者檢查了剪枝預訓練資料的功效，然後在CIFAR -10 上對它們進行微調。如圖 4B 所示，在最少 50% 的 ImageNet 上進行的預訓練能夠達到或超過在所有 ImageNet 上進行的預訓練所獲得的 CIFAR-10 性能。

因此，對上游任務的訓練前資料進行剪枝仍然可以在不同的下游任務上保持高效能。總體來說，這些結果顯示了剪枝在預訓練和微調階段的遷移學習中的前景。