ICLR 2024 Spotlight | NoiseDiffusion: 矯正擴散模型噪聲，提高插值圖片質量-人工智慧-PHP中文網

作者 | Pengfei Zheng

#單位 | USTC, HKBU TMLR Group

#近年來，生成AI的迅猛發展為文字到圖像生成、視訊生成等令人矚目的領域注入了強大的動力。這些技術的核心在於擴散模型的應用。擴散模型首先透過定義一個不斷加噪聲的前向過程來將圖片逐步變為高斯噪聲，然後通過逆向過程將高斯噪聲逐步去噪，變為清晰圖片以得到真實樣本。其中擴散常微分模型被用於生成的圖片的插值數值，這在生成影片以及一些廣告創意上有著極大的應用潛力。然而，我們注意到，當這種方法應用於自然圖片時，插值的圖片效果往往很難如人意。

在一般情況下，擴散模型會對高斯雜訊進行取樣，然後逐步去噪以產生高品質的圖片。插值圖片的低品質意味著其潛在的變數不再遵循我們所期望的高斯分佈。為了提高插值圖片的質量，我們需要確保潛在的變數更接近從高斯分佈中取樣。直接對潛在的變數進行縮放和偏移會嚴重破壞生成的圖片，並且為了保留原始圖片的訊息，我們不能過度修改潛在的變數。因此，在盡可能不破壞潛在的變數下提高插值圖片的品質成為一個難題。

我們首先改變潛在變數的雜訊水平來分析什麼樣的潛在變數能夠被擴散模型還原成高質量的圖片，並結合SDEdit方法引入高斯雜訊來提高插值圖片的質量，而高斯雜訊的引入會帶來額外的資訊。此外我們也分析了高維空間中潛在的正交性，這為我們方法奠定了基礎。我們結合球面線性插值法和直接引入雜訊的方法，提出了一個全新的插值方法：對潛在的極值進行約束，並結合微小的高斯雜訊使其更接近預期的分佈，並引入了原始圖片來緩解資訊遺失的問題。利用這種插值方法，我們能夠在保留原圖資訊的同時，顯著提高自然圖片的插值結果。

接下來，我將簡單向大家分享我們的研究結果。

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

論文標題：NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation

論文連結：https:/ /m.sbmmt.com/link/68310dc294a1c38c7ba636380151daca

#代碼連結：//m.sbmmt.com/link/fc9e5c39356354a//m.sbmmt.com/link/fc9e5c39356354a60d915949

##Introduction

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

圖1：球面線性內插法在人臉圖片上的運用

擴散模型最常用的圖片內插法是球面線性內插法[1,2]：

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

#我們將這個方法運用在自然圖片上。從圖2可以觀察到，當在自然圖片上應用球面線性內插法時，內插效果會顯著下降。

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

圖2：自然圖片與產生的圖片插值效果比較

Analysis

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量 ##圖3：不同雜訊等級的高斯雜訊去噪的效果

我們首先研究雜訊等級對產生圖片的影響。觀察到只有當高斯雜訊的水平與去雜訊的水平匹配時（中間的圖片），才能得到品質較高的圖片。如果雜訊水準低於去雜訊水準（右圖），或高於去雜訊水準（左圖），都會降低產生圖片的品質。我們使用定理一來解釋這個現象：

定理一阐述了在高维空间中，标准高斯噪声的分布特性：它们主要集中在一个超球面上。在这个超球面的内侧，尽管点的概率密度相对较高，但由于其占据的体积较小，其整体贡献并不显著；而在超球面的外侧，虽然点的体积较大，但由于概率密度随着距离的增大而迅速衰减，因此外侧点的贡献同样可以忽略不计。因此，在训练扩散模型时，我们主要观察到的潜在变量集中在超球面上，而超球面内侧和外侧的潜在变量由于这些原因难以有效进行去噪。

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图4：自然图片插值失败的原因

自然图片通常具有扩散模型在训练过程中未曾见过的复杂特征，这使得扩散模型在尝试将自然图片转换为标准高斯噪声时遇到困难。具体而言，这些图片的潜在变量可能包含高于或低于模型去噪能力范围的高斯噪声。然而，扩散模型的能力主要局限于还原定理一中所描述的超球面上的高斯噪声。对于超出这一范围的噪声，模型往往无法有效处理。因此，在进行图片插值时，通常会产生质量较低的插值图片。

Introducing noise

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图5：直接引入噪声插值

为了改善图片的质量，使潜在变量更接近超球面，我们采用了结合 SDEdit[3] 的方法。具体而言，我们直接向图片添加标准高斯噪声，然后进行插值，最后进行去噪处理。通过图5可以清晰地看出，这种方法显著提升了插值图片的质量。然而，需要注意的是，如图中所示，这种处理方法同时也会引入一些额外的信息。

Method

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图6：NoiseDiffusion的整体设计

为了提高图片质量并尽可能减少信息丢失，我们创新地结合了球面线性插值法与直接引入噪声的插值方法，提出了全新的NoiseDiffusion方法。如图6所示，NoiseDiffusion的整体设计既考虑了插值过程中的信息保留，又通过引入噪声提升了图片质量，实现了两者之间的有效平衡。接下来，我们将详细阐述NoiseDiffusion的设计思路。

Design 1：

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图7：对潜在变量的极值进行约束

根据统计学的，超出一定范围的噪声分量可以被视为异常值。且结合图3，我们发现高于去噪水平的高斯噪声会产生明显的噪点，而这与自然图片的插值结果上的异常色块非常相近，因此我们有理由认为是潜在变量的极值导致了这些异常色块的产生。基于这些分析，我们对潜在变量的极值施加了约束，以控制这些异常噪声的影响。从图7可以看出，通过对潜在变量极值的约束，我们大幅提升了图片的质量。

Design 2：

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图8：引入原图信息

在对潜在变量施加约束时，我们可能会不小心影响到一些正常的分量，从而导致信息的损失。为了弥补这一潜在的信息损失，我们引入了原图信息作为补充。如图8所示，引入原图信息后，插值图片的质量得到了明显的提升。这表明原图信息在弥补信息损失方面发挥了重要作用。通过结合潜在变量的约束和原图信息的补充，我们能够在保证图片质量的同时，减少信息损失，实现更为准确和自然的插值效果。

Design 3：

球面线性插值法是一种依赖于计算两个潜在变量之间角度的插值方法。然而，在实际应用中，我们观察到这些潜在变量之间往往呈现出近乎正交的状态。为了解释这一现象，我们引入了定理二作为理论支撑。

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图9：引入不同大小的高斯噪声

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图10：结合Design 1减少引入的高斯噪声的量

从图9可以看出，随着我们逐步增加引入的高斯噪声量，插值图片的质量得到了显著提升。然而，这一改进并非没有代价，因为随着噪声量的增加，引入的额外信息也在逐渐增多。在实际插值过程中，为了在满足质量要求的同时尽量减少额外信息的引入，我们结合了前面提到的策略来有效地降低所需引入的高斯噪声的量（图10），从而更好地保留原始图像的信息。

Experiment

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图11：和球面线性插值法的比较

我们将所提出的方法与球面线性插值法的结果进行了比较（如图11所示）。从插值结果来看，我们的方法在显著提高插值图片质量的同时，几乎不丢失信息。这充分展示了我们方法在保持信息完整性和提升图像质量方面的优越性能。

我们还在Stable Diffusion[4]上做了实验，由于Stable Diffusion的高度非结构化的潜在空间，在处插值很难得到平滑的插值（图12）。因此我们考虑在更小的时间步上进行插值（），这可以更多的保留原图的特征以让插值结果更加平滑，但是却导致了图片质量的降低（图13）。为了解决这个问题，我们运用了我们的方法NoiseDiffusion来修正潜在变量（图14）。从实验结果可以看出，我们的方法在较少改变信息的情况下，显著提高了图片的质量。

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图12：在时使用球面线性插值法

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声，提高插值图片质量

图13:在时使用球面线性插值法

图14：在时使用NoiseDiffusion插值

Reference

[1] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR,2021.

[2] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR,2021.

[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon.

Sdedit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.

[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. Highresolution image synthesis with latent diffusion models. In CVPR, 2022.

[5] Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, and Ming-Hsuan Yang. Gan

inversion: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.

课题组介绍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成，课题组隶属于理学院计算机系。课题组专攻可信表征学习、基于因果推理的可信学习、可信基础模型等相关的算法，理论和系统设计以及在自然科学上的应用，具体研究方向和相关成果详见本组Github (https://github.com/tmlr-group)。课题组由政府科研基金以及工业界科研基金资助，如香港研究资助局杰出青年学者计划，国家自然科学基金面上项目和青年项目，以及微软、英伟达、百度、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带，GPU计算资源充足，长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外，本组也欢迎自费的访问博士后研究员、博士生和研究助理申请，访问至少3-6个月，支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 (bhanml@comp.hkbu.edu.hk)。

以上是ICLR 2024 Spotlight | NoiseDiffusion: 矯正擴散模型噪聲，提高插值圖片質量的詳細內容。更多資訊請關注PHP中文網其他相關文章！