ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

WBOY
WBOY 转载
2023-09-03 08:05:10 520浏览

盲人脸恢复(Blind Face Restoration, BFR)的目标是从低质量的人脸图像中恢复高质量的人脸图像。这是计算机视觉和图形学领域的一项重要任务,在监控图像修复、老照片修复和人脸图像超分辨率等多种场景中得到广泛应用

然而,这个任务非常具有挑战性,因为不确定性的退化会损害图像的质量,甚至会导致图像信息的丢失,比如模糊、噪声、下采样和压缩伪影等问题。以前的BFR方法通常依赖于生成对抗网络(GAN),通过设计各种特定于人脸的先验来解决这些问题,包括生成先验、参考先验和几何先验。尽管这些方法已经达到了最先进的水平,但仍然无法完全实现在恢复细节的同时获得逼真纹理的目标

在图像修复过程中,人脸图像的数据集通常分散在高维空间中,并且分布的特征维度呈现长尾分布形式。与图像分类任务的长尾分布不同,图像修复中的长尾区域特征指的是对身份影响较小,而对视觉效果影响很大的属性,比如痣、皱纹和色调等等

根据图1所示的简单为了不改变原始含义,需要将实验结果重写为中文,我们可以发现过去基于GAN的方法在同时处理长尾分布头部和尾部样本时存在明显的问题,修复图像时会出现过度平滑和细节消失的情况。而基于扩散概率模型(Diffusion Probistic Models, DPM)的方法则能够更好地拟合长尾分布,并在拟合真实数据分布的同时保留尾部特征

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要进行重写的内容是:在长尾问题上进行的GAN-based和DPM-based的测试

美图影像研究院(MT Lab)与中国科学院大学的研究者合作提出了一种新的盲人脸图像修复方法DiffBFR,该方法基于DPM技术,成功实现了盲人脸图像的恢复,将低质量(LQ)的人脸图像修复为高质量(HQ)的清晰图像

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要重新写作的内容是:论文链接:https://arxiv.org/abs/2305.04517

这项研究探索了生成对抗网络(GAN)和深度部分模型(DPM)两种生成式模型在处理长尾问题时的适应性。通过设计适当的人脸修复模块,可以获取更准确的细节信息,从而减少生成式方法中可能出现的脸部过度平滑现象,提高修复的精度和准确性。该研究论文已被 ACM MM 2023 接收

基于 DPM 的盲人脸图像修复方法 - DiffBFR

研究发现,扩散模型在避免训练模式崩溃和拟合生成长尾分布方面优于 GAN 方法。因此,DiffBFR选择利用扩散概率模型来增强人脸先验信息的嵌入,并以此为基本框架选择DPM作为解决方案。这是因为扩散模型具有在任意分布范围内产生高质量图像的强大能力

为了解决论文中发现的人脸数据集上的特征长尾分布以及过去基于 GAN 方法的过平滑问题,该研究探索了一种合理的设计来更好地拟合近似长尾分布,并克服修复过程中的过平滑问题。通过在 MNIST 数据集上进行了相同参数大小的 GAN 和 DPM 的简单实验(如图 1),研究发现 DPM 方法能够合理地拟合长尾分布,而 GAN 则过度关注头部特征而忽略尾部特征,导致尾部特征无法生成。因此,选择 DPM 作为 BFR 的一种解决方案

通过引入两个中间变量,DiffBFR 提出了两个具体的修复模块。该设计采用两阶段的方式,首先从LQ图像中恢复身份信息,然后根据真实人脸的分布增强纹理细节。这个设计由两个关键部分组成:

(1)身份恢复模块(Identity Restoration Module, IRM):

这个模块的目的是保留结果中的人脸细节。同时,提出了一种截断采样方法,通过向低质量图像中加入部分噪声,取代了在反向过程中使用纯高斯随机分布去噪的方法。论文从理论上证明了这种改变缩小了DPM的理论证据下界(ELBO),从而恢复了更多原始细节。基于理论证明,引入了两个级联条件扩散模型,这些模型具有不同的输入大小,以增强采样效果,并降低直接生成高分辨率图像的训练难度。同时进一步证明,条件输入的质量越高,越接近真实数据分布,恢复的图像越准确。这也是DiffBFR首先恢复低分辨率图像的原因

(2)纹理增强模块(Texture Enhancement Module, TEM):

用于纹理打磨图像的方法是引入一个无条件扩散模型。这个模型与低质量图像完全无关,进一步使得恢复的结果更接近真实图像数据。论文从理论上证明了在纯高质量图像上训练的无条件扩散模型有助于在像素级空间中输出图像的正确分布。也就是说,使用这个模型后,修复图像的分布的 FID 比使用之前的 FID 更低,整体上与高质量图像的分布更相似。具体来说,就是通过时间步长截断采样来保留身份信息,并对像素级纹理进行打磨

DiffBFR的采样推理步骤如图2所示,采样推理过程示意图如图3所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要进行改写的内容是:图2展示了DiffBFR方法的采样推理步骤

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要进行改写的内容是:图 3 展示了 DiffBFR 方法的采样推理过程示意图

为了不改变原始含义,需要将实验结果重写为中文

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

对比了基于GAN的BFR方法和基于DPM的方法的可视化效果,如图4所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

对于图 5,对于 BFR 的 SOTA 方法的性能进行了比较

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

BFR方法的可视化效果比较如图6所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

在模型中,我们可以通过可视化来比较IRM和TEM的性能

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

在模型中,对IRM和TEM进行了性能比较,如图8所示

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要进行改写的内容是:比较不同参数下的图9的IRM性能

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

对于图 10,我们需要比较不同参数的性能

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

需要重新写的内容是:图11显示了DiffBFR各个模块的参数设置

总结是将信息或观点以简洁明了的方式重新表达的过程。它不改变原始意思,而是通过使用不同的词汇和句子结构来呈现相同的思想。总结的目的是提供更清晰、更简洁的表达方式,使读者能够更容易地理解和消化所传达的信息。总结在各种场合都有用处,无论是在学术论文中、商业报告中还是日常交流中,都可以通过总结来传达重要的观点和结论。总之,总结是一种重要的沟通工具,能够帮助我们更有效地传达和理解信息

本论文提出了一种基于扩散模型的盲退化人脸图像恢复模型DiffBFR,以解决以往基于GAN方法的训练模式崩溃和长尾消失问题。通过将先验知识嵌入到扩散模型中,能够从随机严重退化的人脸图像中生成高质量、清晰的恢复图像。具体来说,本研究提出了IRM和TEM两个模块,分别用于恢复真实感和细节还原。通过理论推导和实验图像演示,证明了该模型的优越性,并与现有的最先进方法进行了定性和定量比较

需要重写的内容是:研究团队

这篇论文是由美图影像研究院(MT Lab)和中国科学院大学的研究者们共同提出的。美图影像研究院(MT Lab)成立于2010年,是美图公司专注于计算机视觉、深度学习、增强现实等领域算法研究、工程开发和产品化落地的团队。自成立以来,该团队一直致力于计算机视觉领域的探索研究,并于2013年开始布局深度学习,为美图旗下的软硬件产品提供技术支持。同时,他们还为影像行业内的多个垂直领域提供针对性的SaaS服务,通过前沿的影像技术推动美图的人工智能产品生态发展。他们曾参与过CVPR、ICCV、ECCV等国际顶级赛事,并获得了十余项冠军和亚军,发表了超过48篇国际顶级学术会议论文。美图影像研究院(MT Lab)长期致力于影像领域的研发,已经积累了丰富的技术储备,在图片、视频、设计和数字人领域具有丰富的技术落地经验

以上就是ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法的详细内容,更多请关注php中文网其它相关文章!

声明:本文转载于:机器之心,如有侵犯,请联系admin@php.cn删除