1. 论文动机：

以往的Inapinting论文主要分为两大类，一类是基于传统方法的图像修复（效果并不理想），另一类是基于深度学习的补全方法。现在比较先进的算法、模型大多都是基于深度学习的，但是处理多缺失部分的补全、大面积缺失部分的补全，效果并不是很理想，会出现模糊、伪影、语义不符等影响补全效果的问题。那么，如果我们能够构造基于这些结构（纹理、语义等重要结构信息）的损失函数对其加以训练，那么效果很可能会提升很多。

2. 论文创新

本文使用的前一种模型，生成器由编码器和解码器组成，编码器全局共享，解码器多样化，可以学习多种特征。编码器使用两次下采样，解码器使用两次上采样。在之前的模型的基础上，本文提出了两个新的模块。

一、结构创新

（1）多任务学习框架（结构嵌入）

结构嵌入层首先学习和预测结构特征，然后通过级联恢复特征。该操作为特征提取提供了结构优先级，减少了不利因素的影响。

（2） Attention层

作者团队受到非局部均值思想的启发（此技术在超分辨率等领域极为常见，常用于去噪等操作），利用非局部均值将其他区域的相似特征传递到缺失区域，这样可以使模型学到细节的语义、纹理等结构信息，以达到出色的补全效果，可以实现去除伪影，增强细节等效果。首先应计算图像每对patch之间的余弦相似度，公式如下：

注意分数公布如下：

然后计算每个特征图的特征加权和作为每个位置的响应，因为我们想要计算具有特征相似性的注意力分数。权重公式如下：

我们以卷积的形式表示它，因为我们想将它作为残差块嵌入到我们的模型框架中。

Ⅱ．损失函数创新

（1）金字塔损失函数

金字塔损失函数主要包含两个部分，一个是预测的梯度图与真实梯度图的差距的损失，另外一个是边缘结构的L1正则化项，公式如下：

传统的对边缘补全都是直接计算梯度，而这篇论文对此进行了创新，使用了sobel滤波器，没有直接预测梯度，而是预测梯度图，因为梯度图可以很好的反应梯度的特征。

作者进一步解释了为什么这种间接方法更适合当前的多任务框架。一方面，由于图像的边缘结构通常是稀疏的，只包含图像的二值轮廓信息，因此在生成过程的最后几个阶段，这种边缘结构的生成几乎与图像生成任务。因此，有必要为边缘生成任务设计特定的网络层，这会引入更多的参数。另一方面，梯度图本身不仅传达了可能的边缘信息，还代表了纹理信息或高频细节，这对于精细纹理合成非常重要。

（2）混杂损失图像：

该损失项与现有基于深度学习模型的修复方法类似。主要包括像素重建损失(reconstruction loss)、感知损失(perception loss)、风格损失(style loss)和对抗性损失(adversarial loss)。

3. 数据集：

(1) CelebA

(2) Places2

(3) Facade

4. 指标与结果对比：

（1）PSNR

（2）SSIM

（3）UQI

（4）VIF

（5）FID

5. 总结：

本文的创新之处在于探索如何将图像中的先验知识融入图像修复的过程中。对这些先验知识的挖掘和利用将是图像修复研究的一个新方向。这种多任务学习方法可以扩展到构造其他有助于图像修复的任务，例如语义分割任务，它可以提供图像中对象的语义信息。此外，本文提出的金字塔结构损失易于扩展，例如为其他结构（如物体轮廓、语义分割后的结果等）设计正则项，从而学习相关的图像结构信息。同时，损失也可以转移到其他图像生成任务，如图像超分、去噪等。
参考链接：https://blog.csdn.net/dearyangjie/article/details/104194717

文章出处登录后可见！

已经登录？立即刷新

2020 – AAAI – Image Inpainting论文导读《Learning to Incorporate Structure Knowledge for Image Inpainting》