位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA-人工智慧-PHP中文網

影像重採樣 (Image Rescaling，LR) 任務聯合優化影像下取樣和上取樣操作，透過對影像解析度的下降和還原，可以用於節省儲存空間或傳輸頻寬。在實際應用中，例如圖集服務的多檔位分發，下採樣得到的低解析度影像往往會進行有損壓縮，而有損壓縮往往導致現有演算法的效能大幅下降。

近期，位元組跳動- 火山引擎多媒體實驗室#首次嘗試了有損壓縮下的影像重採樣性能優化，設計了一種非對稱可逆重採樣框架，基於此框架下的兩點觀察，進一步提出了抗壓縮影像重採樣模型SAIN。該研究將一組可逆網路模組解耦成重採樣和壓縮模擬兩個部分，使用混合高斯分佈建模分辨率下降和壓縮失真造成的聯合資訊損失，結合可微的JPEG 算子進行端到端訓練，大幅提升了對於常見壓縮演算法的穩健性。

目前對於影像重採樣的研究，SOTA 方法是基於可逆網路(Invertible Network) 建構一個雙射函數(bijective function)，其正運算將高解析度(HR)影像轉換為低解析度(LR) 影像和一系列服從標準常態分佈的隱變量，逆運算則隨機取樣隱變量，結合LR 影像進行上取樣還原。

由於可逆網路的特性，下取樣和上取樣算子保持高度的對稱性(symmetry)，這就導致受壓縮的LR 影像難以透過原本學得的上取樣算子進行還原。為了增強對於有損壓縮的穩健性，研究提出了一個基於非對稱可逆框架的抗壓縮影像重採樣模型SAIN (Self-Asymmetric I nvertible Network)。

SAIN 模型的核心創新點如下：

#提出了非對稱(asymmetric) 式的可逆影像重採樣框架，解決了先前方法中由於嚴格對稱性導致的性能下降問題；提出了增強可逆模組(E-InvBlock)，在共享大量參數和運算的前提下，增強模型擬合能力，同時建模壓縮前和壓縮後的兩組LR 影像，使模型能夠透過逆運算進行壓縮恢復和上取樣。
建構可學習的混合高斯分佈，建模解析度下降和有損壓縮造成的聯合資訊損失，透過重參數化技巧直接優化分佈參數，更符合隱變量的實際分佈。

SAIN 模型進行了 JPEG 和 WebP 壓縮下的效能驗證，在多個公開資料集上的表現大幅領先 SOTA 模型，相關研究已經入選 AAAI 2023 Oral。

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

#論文網址：https://arxiv.org/abs/2303.02353
程式碼連結：https://github.com/yang-jin-hai/SAIN

非對稱重採樣框架

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

#圖1 Dual-IRN 模型圖。

為了提升抗壓縮性能，研究首先設計了一個非對稱式的可逆影像重採樣框架，提出了baseline 方案Dual-IRN 模型，深入分析了此方案的不足之處後，進一步優化提出了SAIN 模型。如上圖所示，Dual-IRN 模型包含兩個分支，其中 D-IRN 和 U-IRN 為兩組可逆網絡，分別學習 HR 影像與壓縮前 / 壓縮後 LR 影像之間的雙射。

在訓練階段，Dual-IRN 模型透過可微的 JPEG 算子傳遞兩個分支之間的梯度。而在測試階段，模型透過 D-IRN 進行下採樣獲得高品質的 LR 影像，經過現實環境中的真實壓縮後，再透過具有壓縮感知 (compression-aware) 的 U-IRN 完成壓縮恢復和上採樣。

這樣的非對稱框架，使得上取樣和下取樣的算符避免了嚴格的可逆關係，從根源解決了壓縮演算法破壞上下取樣過程對稱性帶來的問題，相對於SOTA 的對稱方案大幅提升了抗壓縮性能。

隨後，研究者對Dual-IRN 模型展開進一步的分析，觀察到以下兩個現象：

第一，衡量D-IRN 和U-IRN 兩個分支中間層特徵的CKA 相似性。如上圖(b) 所示，D-IRN 最後一層的輸出特徵（即網路產生的高品質LR 影像）與U-IRN 淺層的輸出特徵具有高度的相似性，顯示U-IRN 的淺層行為更貼近取樣損失的模擬，而深層行為更貼近壓縮損失的模擬。
第二，統計 D-IRN 和 U-IRN 兩個分支中間層隱變數的真實分佈。如上圖(c)(d) 所示，不具壓縮感知的D-IRN 的隱變量整體上滿足單峰的正態分佈假設，而具有壓縮感知的U-IRN 的隱變量則呈現了多峰的形態，顯示有損壓縮帶來的資訊損失形式更加複雜。

基於上述分析，研究人員從多個方面對模型進行最佳化，最終得到的SAIN 模型不僅網路參數量下降了將近一半，並且還取得了進一步的性能提升。

SAIN 模型細節

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

#圖 2 SAIN 模型圖。

SAIN 模型的架構如上圖所示，主要進行了以下四個面向的改進：

1. 整體框架方面。基於中間層特徵的相似性，將一組可逆網路模組解耦成重採樣和壓縮模擬兩個部分，形成自非對稱 (self-asymmetric) 架構，避免使用兩組完整的可逆網絡。在測試階段，使用正變換

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

取得高品質的LR 影像，先使用逆變換

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

進行壓縮恢復，再使用逆變換

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

#進行上取樣。

2. 網路結構方面。基於壓縮損失能夠借助高頻資訊恢復的假設提出 E-InvBlock，在模組中增加一個加性變換，使得共享大量運算的前提下可以高效地建模壓縮前 / 壓縮後的兩組 LR 圖像。

3. 資訊損失建模方面。基於隱變量的真實分佈，提出使用可學習的混合高斯分佈建模下採樣和有損壓縮帶來的聯合資訊損失，透過重參數化技巧端到端優化分佈參數。

4. 目標函數方面。設計了多個損失函數，用於約束網路的可逆性、提高重建精度，同時在損失函數中引入真實壓縮操作以增強對真實壓縮方案的穩健性。

實驗與效果評估

評估資料集為 DIV2K 驗證集和 Set5、Set14、BSD100 和 Urban100 四個標準測試集。

量化評估指標為：

PSNR：Peak Signal-to-Noise Ratio，峰值訊號雜訊比，反映重建影像與原始影像的均方誤差，越高越好；
SSIM：Structural Similarity Image Measurement，衡量重建影像與原始影像的結構相似度，越高越好。

在表 1 和圖 3 的比較實驗中，SAIN 在所有資料集上的 PSNR 和 SSIM 分數都大幅領先 SOTA 的影像重採樣模型。在比較低的 QF 下，現有方法普遍出現嚴重的表現下降，而 SAIN 模型仍保持最佳表現。

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

表1 比較實驗，在DIV2K 資料集上比較不同JPEG 壓縮品質(QF) 下的重建品質(PSNR / SSIM)。

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

#圖3 比較實驗，在四個標準測試集上比較不同JPEG QF 下的重建品質(PSNR)。

在圖 4 的視覺化結果中，可以明顯看出 SAIN 還原的 HR 影像更清晰、準確。

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

圖 4 不同方法在 JPEG 壓縮下的視覺化結果比較 (×4 倍率)。

在表 2 的消融實驗中，研究人員也比較了其他幾種結合真實壓縮進行訓練的候選方案。這些候選方案相較於完全對稱的現有模型 (IRN) 具有更高的抗壓縮性能，但在參數量和準確率上仍不如 SAIN 模型。

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

表 2 針對整體框架和訓練策略的消融實驗。

在圖 5 的視覺化結果中，研究人員比較了 WebP 壓縮失真下不同影像重採樣模型的重建結果。可以發現，SAIN 模型在 WebP 壓縮方案下同樣表現出了最高的重建分數，能夠清晰且準確地還原影像細節，證明了 SAIN 對於不同壓縮方案的兼容性。

位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA

圖 5 不同方法在 WebP 壓縮下的定性和定量對比 (×2 倍率)。

除此之外，該研究還針對混合高斯分佈、E-InvBlock 和損失函數等部分進行了消融實驗，證明了這些改進對於結果的正向貢獻。

總結與展望

火山引擎多媒體實驗室針對抗壓縮影像重採樣提出了一個基於非對稱可逆框架的模型：SAIN。模型包含重採樣和壓縮模擬兩個部分，使用混合高斯分佈建模分辨率下降和壓縮失真造成的聯合資訊損失，結合可微的JPEG 算子進行端到端訓練，提出E-InvBlock 來增強模型擬合能力，大幅提升了對於常見壓縮演算法的穩健性。

火山引擎多媒體實驗室是位元組跳動旗下的研究團隊，致力於探索多媒體領域的前沿技術，參與國際標準化工作，其眾多創新演算法及軟硬體解決方案已廣泛應用於抖音、西瓜影片等產品的多媒體業務，並向火山引擎的企業級客戶提供技術服務。實驗室成立以來，多篇論文入選國際頂會及旗艦期刊，並獲得數項國際級技術賽事冠軍、產業創新獎及最佳論文獎。

未來，研究團隊將繼續優化影像重採樣模型在有損壓縮下的性能，並且進一步探索抗壓縮視訊重採樣、任意倍率重採樣等更複雜的應用情景。

以上是位元組提出非對稱影像重採樣模型，JPEG、WebP上抗壓縮效能領先SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章！