港科大&MSRA研究：關於圖片到圖片轉換，Finetuning is all you need-人工智慧-PHP中文網

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

許多內容製作項目需要將簡單的草圖轉換為逼真的圖片，這涉及圖像到圖像的轉換（image-to-image translation），它使用深度生成模型學習給定輸入的自然圖片的條件分佈。

影像到影像轉換的基本概念是利用預先訓練的神經網路來捕捉自然圖片流形（manifold）。影像轉換類似於遍歷流形並定位可行的輸入語義點。系統使用許多圖片對合成網路進行預訓練，以從其潛在空間的任何採樣中提供可靠的輸出。透過預先訓練的合成網絡，下游訓練將使用者輸入調整為模型的潛在表徵。

多年來，我們已經看到許多特定於任務的方法達到了 SOTA 水平，但目前的解決方案還是難以創建用於實際使用的高保真圖片。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

在最近的一篇論文中，香港科技大學和微軟亞洲研究院的研究者認為，對於圖像到圖像的轉換，預訓練才是All you need 。以往方法需要專門的架構設計，並從頭開始訓練單一轉換模型，因而難以高品質地產生複雜場景，尤其是在配對訓練資料不充足的情況下。

因此，研究者將每個影像到影像的轉換問題視為下游任務，並引入了一個簡單通用框架，該框架採用預訓練的擴散模型來適應各種影像到影像的轉換。他們將提出的預訓練影像到影像轉換模型稱為 PITI（pretraining-based image-to-image translation）。此外，研究者也提出以對抗訓練來增強擴散模型訓練中的紋理合成，並與歸一化指導採樣結合以提升生成品質。

最後，研究者在ADE20K、COCO-Stuff 和DIODE 等具有挑戰性的基準上對各種任務進行了廣泛的實證比較，表明PITI 合成的圖像顯示出了前所未有的真實感和忠實度。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

論文連結：https://arxiv.org/pdf/2205.12952.pdf
專案首頁：https://tengfei-wang .github.io/PITI/index.html

GAN 已死，擴散模型永存

作者沒有使用在特定領域表現最佳的GAN，而是使用了擴散模型，合成了廣泛多樣的圖片。其次，它應該從兩種類型的潛在代碼中產生圖片：一種描述視覺語義，另一種針對圖像波動進行調整。語意、低維度潛在對於下游任務至關重要。否則，就不可能將模態輸入轉換為複雜的潛在空間。有鑑於此，他們使用 GLIDE 作為預訓練的生成先驗，這是一種可以產生不同圖片的資料驅動模型。由於 GLIDE 使用了潛在的文本，它允許語義潛在空間。

擴散和基於分數的方法表現出跨基準的生成品質。在類別條件 ImageNet 上，這些模型在視覺品質和取樣多樣性方面與基於 GAN 的方法相媲美。最近，用大規模文字圖像配對訓練的擴散模型顯示出驚人的能力。訓練有素的擴散模型可以為合成提供一個通用的生成先驗。

港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need