图像超分辨重建领域文献调研（SRCNN SRGAN ESRGAN）

社会演员多

3 年前

本文介绍了三篇深度学习用于图像超分辨率重建的论文

Table of Contents

一、SRCNN

1. 解决问题

在CNN出现之前，传统超分方法是最临近插值、双线性或双三次插值等上采样方法。图像超分技术本质上是一种不适定的（ill-posed）问题，因为任意的低分辨率图像都有无数种生成高分辨率图像的解。本文直接学习低分辨率/高分辨率图像之间的端到端映射。进一步表明，传统的基于稀疏编码的SR方法也可以看作是一个深卷积网络。CNN网络结构轻巧、实现快速在线应用。本文是基于深度学习的单图像超分辨率重建技术的鼻祖。

本文贡献：

提出了一种用于图像超分辨率的全卷积神经网络。该网络直接学习低分辨率和高分辨率图像之间的端到端映射，除了优化之外，几乎不进行任何前/后处理。

在基于深度学习的SR方法和传统的基于稀疏编码的SR方法之间建立了联系。这种关系为网络结构的设计提供了指导。

证明了深度学习在超分辨率经典计算机视觉问题中很有用，并且可以实现良好的质量和速度。

2. 核心前述论文

2.1 Image Super-Resolution

基于稀疏编码的方法是具有代表性的基于示例的SR方法之一。首先，从输入图像中密集裁剪重叠的patches 并进行预处理。然后，这些patches 由低分辨率字典编码。稀疏系数被传递到高分辨率字典中，用于重建高分辨率patches 。将重叠的重新构建的面片聚合（例如，通过加权平均）以产生最终输出。大多数基于实例的外部方法都共享这个管道，这些方法特别注意学习和优化字典或构建高效的映射函数。然而，管道中的其余步骤很少得到优化，或者在统一的优化框架中得到考虑。

大多数SR算法侧重于灰度或单通道图像超分辨率。对于彩色图像，上述方法首先将问题转换到不同的颜色空间（YCbCr或YUV），并且SR仅应用于亮度通道。还有一些工作试图同时超级解析所有通道。例如，Kim和Kwon以及Dai等人将他们的模型应用于每个RGB通道，并将它们组合起来以产生最终结果。然而，他们都没有分析不同信道的SR性能，以及恢复所有三个信道的必要性。

2.1 Image Super-Resolution

2.3 Deep Learning for Image Restoration

多层感知器（MLP），用于自然图像去噪和去模糊后去噪。与我们的工作更密切相关的是，卷积神经网络用于自然图像去噪和去除噪声模式。这些恢复问题或多或少是由去噪驱动的。深度模型并不是专门设计为端到端的解决方案，因为级联的每一层都需要对自相似搜索过程和自动编码器进行独立优化。相反，提出的SRCNN优化了端到端映射。此外，SRCNN的速度更快。它不仅在数量上是一种优越的方法，而且是一种实用的方法。

3. Method

3.1 Formulation

首先，图像预处理：将LR图像进行双三次插值将其提升到所需的大小。
definition:
插值后的图像：Y
HR图像：X
SR图像：F(Y)，F为CNN所学习的映射
它分三个部分运作：

3.1.1 Patch extraction and representation （patch的提取和表示）

W1和B1代表卷积核和偏置，卷积核大小为c×f1×f1，c为图像通道数

3.1.2 Non-linear mapping（非线性映射）

在第一层patch提取层，将每个patch表示为n1维特征向量。在第二层操作中，将这些n1维向量映射为n2维向量。

W2包含大小为n1×f2×f2的n2过滤器，B2是n2维的。每个输出的n2维向量在概念上是用于重建的高分辨率patch的表示。可以添加更多卷积层以增加非线性。

3.1.3 Reconstruction（重建）

W3对应于大小为n2×f3×f3的c滤波器，B3是c维向量。

3.3 Training

使用均方误差（MSE）作为损失函数：

其中n是训练样本的数量。使用MSE作为损失函数有利于获得较高的峰值信噪比。峰值信噪比（PSNR）是一种广泛用于定量评估图像恢复质量的指标，至少与感知质量部分相关。

4. 实验细节与结果

4.1 Training Data

将只有91张图像的训练集和ImageNet训练分区大数据集进行对比，使用Set5作为验证集。
使用不同训练集的测试收敛曲线如图4所示。

4.3 Model and Performance Trade-offs

5. 未来展望

该结构具有简单性和鲁棒性的优点，可以应用于其他低层视觉问题，如图像去模糊或同步SR+去噪。人们还可以调查一个网络，以应对不同的升级因素。

二、SRGAN （SRResNet）

1. 解决问题：

针对单图像输入的图像超分辨率重建（SISR）问题，提出SRGAN和一种新的感知损失函数，解决之前工作的问题，如：双三次插值、SRCNN、SRResNet网络的目标函数主要集中在最小化均方（MSE）重建误差，由此产生的估计值具有较高的峰值信噪比（PSNR），但它们通常缺乏高频细节，在感知上不令人满意。

MSE（和PSNR）捕捉感知相关差异（如高纹理细节）的能力非常有限，因为它们是基于像素级图像差异定义的。有时最高的PSNR不一定反映出感知上更好的SR结果，如下图所示。

三个主要贡献：

通过优化MSE的16个deep ResNet (SRResNet)来实现（4×）的图像超分
提出SRGAN网络，定义一个新的优化感知损失作为目标函数
提出新的评价方法MOS，广泛平均意见评分

2. 核心前述论文

2.1. Image super-resolution

Prediction-based methods: 基于预测的方法。线性、双三次或Lanczos过滤，可以非常快，但过度简化了SISR问题，产生过于光滑的纹理的结果。同时也提出特别关注边缘的方法。
基于学习的方法：通过训练高/低质量图像对得到之间的复杂映射。
邻域嵌入：邻域方法倾向于过拟合
基于神经网络：

我们的论文特别相关的是Johnson等人[33]和Bruna等人[5]的作品，他们依赖于更接近感知相似性的损失函数来恢复视觉上更令人信服的HR图像。

2.2.Design of convolutional neural networks

2.3.Loss functions

最小化MSE处理像素级平均值，这些解决方案通常过于平滑，因此具有较差的感知质量。

3. Method

LR为低分辨率图像，HR为高分辨率图像，SR为生成器G 生成的超分图像。LR是HR通过高斯滤波下采样因子r操作得到的。LR的tensor尺寸：W×H×C；SR和HR的tensor尺寸：rW×rH×rC。
生成器G的CNN前向反馈网络参数为：

W为权重，b为偏置，通过优化感知损失函数得到。

3.1.SRGAN网络结构

定义鉴别器D，和生成器G交替训练优化，解决对抗式最大最小问题。

采用了 SRResNet 的结构，激活函数采用了PReLU，加入了 BN（Batch Normalization）层。

3.2.感知损失函数 Perceptual loss function

定义感知损失 = 内容损失 + 对抗损失

内容损失表示认为给定的 VGG19 网络内第i 个最大池层之前的第 j次卷积（激活后）所获得的特征映射（Feature map）。

Wij、Hij 描述VGG网络各自特征层的维度。

对抗损失：

是生成的图像是真实图像的概率

4. 实验细节与结果

测试数据集：
Set5、Set14、BSD100和BSD300的测试集，均在宽高4倍因子测试。
训练细节和参数：
使用ImageNet中的35万张图片随机样本，在NVIDIA Tesla M40 GPU上训练所有网络。
使用降采样因子r = 4的双三次核对HR图像(BGR, C = 3)进行降采样，得到LR图像。对于每个batch，随机裁剪16个96 × 96 HR子图像的不同训练图像。
优化器Adam参数β1 = 0.9。
SRResNet训练时，学习率10−4， 106个iterations。
交替训练G和D，相当于GAN中的G训练次数k = 1。
G：16个相同的residual blocks
平均意见评分（MOS）测试
26名评分者对超分辨率图像从1到5评分。评价者在Set5、Set14和BSD100上对每个图像的12个版本进行评价。
评价结果在table 1、table 2和figure 5
内容丢失调查
对没有对抗网络的生成网络的2种损失函数进行性能评估，分别是和，在table1中可以看到，虽然MSE损失函数得到的PSNR值较高，但是感知上比较平滑，不令人信服。
发现用层级更高的VGG特征层可以产生个号的纹理细节。
最终结果如figure 6 所示。

5. 总结与未来展望

本文通过MOS测试证实了SRGAN优越的感知性能。标准的定量测量方法，如PSNR和SSIM，无法捕获和准确评估与人类视觉系统相关的图像质量。存在的问题：本文提出的模型没有针对视频SR进行实时优化。由于高频伪影的出现，更深层次网络的SRGAN变体越来越难以训练。产生更精细细节的方法可能不太适合医疗应用或监测。在未来：对文本或结构化场景进行感性的令人信服的重建是具有挑战性的，也是未来工作的一部分。内容丢失函数的发展，描述图像空间内容，但更不变的像素空间的变化，将进一步提高真实感图像的SR结果。

三、ESRGAN

1. 解决问题

如图1所示，SRGAN结果与地面真实（GT）图像之间仍存在明显差距。为解决SRGAN方法的细节产生伪影问题，进一步提高视觉质量，在本研究中，我们重新审视了SRGAN的关键组件，并从三个方面对模型进行了改进。

第一，通过引入残差密集块（RDDB）来改进网络结构，RDDB具有更高的容量和更易于训练的特点。移除了Batch Normalization（BN）层，并使用剩余缩放和较小的初始化，以便于训练非常深入的网络。
第二，使用Relativistic average GAN（RaGAN）改进了鉴别器，它学习判断“一幅图像是否比另一幅图像更真实”，而不是“一幅图像是否真实”。我们的实验表明，这种改进有助于生成器恢复更逼真的纹理细节。
第三，提出了一种改进的感知损失方法，即在激活前使用VGG特征，而不是像SRGAN那样在激活后使用VGG特征。我们实验发现，调整后的知觉损失提供了更锐利的边缘和更令人愉悦的视觉效果，在清晰度和细节方面始终优于SOTA。
以最佳感知指数赢得了PIRM-SR挑战赛（区域3）的第一名。

2. 核心前述论文

2.1 SR相关工作

Dong等人建议SRCNN以端到端的方式学习从LR图像到HR图像的映射，与以前的工作相比，实现了优异的性能。
Lim等人提出了EDSR模型，通过去除剩余块中不必要的BN层并扩大模型尺寸，实现了显著的改进。
Zhang等人出在SR中使用有效的剩余密集块，他们进一步探索了更深层的信道关注网络，实现了最先进的PSNR性能。
感知驱动的方法也被提出来提高SR结果的视觉质量。基于更接近感知相似性的思想[29,14]，提出了感知损失。
Ledig等人提出了SRGAN模型，该模型使用感知损失和敌对损失来支持自然图像流形上的输出。
Relativistic discriminator不仅增加生成的数据是真实的概率，同时降低真实数据是真实的概率。在这项工作中，本文通过采用更有效的相对论平均GAN来增强SRGAN。

2.2 评价SR指标和损失函数

SR算法通常通过PSNR和SSIM来作为评价指标。然而，这些指标从根本上与人类观察者的主观评价不一致（SRGAN提到）。非参考测量用于感知质量评估，包括Ma的分数[23]和NIQE[24]，这两项都用于计算PIRM-SR挑战[3]中的感知指数。在最近的一项研究中，Blau等人[22]发现失真和感知质量相互矛盾。

3. Method

3.1 Network Architecture（对Generator的改进）

为了进一步提高SRGAN的恢复图像质量，主要对发生器G的结构进行了两个修改：1）去除所有BN层；2）将原始基本块替换为建议的剩余密集块中的剩余密集块（RRDB），其结合了多级剩余网络和密集连接，如图4所示。

去除BN层：
去除BN层已被证明可以提高性能并降低计算复杂度。BN层在训练期间使用一批中的均值和方差对特征进行标准化，并在测试期间使用整个训练数据集的估计均值和方差。当训练和测试数据集的统计数据差异很大时，BN层往往会引入令人不快的伪影，并限制泛化能力。我们在经验上观察到，当网络更深，并且在GAN框架下训练时，BN层更有可能带来伪影。因此，我们移除BN层，以获得稳定的训练和一致的表现。此外，去除BN层有助于提高泛化能力，降低计算复杂度和内存使用。

保留了SRGAN的高层架构设计（见图3），并使用了一个新的基本块，即RRDB，如图4所示。根据观察，更多的层和连接总是可以提高性能，提出的RRDB采用了比SRGAN中原始剩余块更深、更复杂的结构。如图4所示，所提议的RRDB具有残差中的残差结构，其中残差学习在不同级别中使用。除了改进的体系结构之外，我们还利用了几种技术来帮助训练一个非常深的网络：1）残余缩放，在将残余乘以0和1之间的常数之前，将其添加到主路径中以防止不稳定；2）较小的初始化，因为我们经验发现，当初始参数方差变小时，剩余架构更容易训练。

3.2 Relativistic Discriminator

与SRGAN中的标准鉴别器D不同，它估计一个输入图像x是真实和自然的概率，相对鉴别器尝试预测真实图像xr比假图像xf更真实的概率，如图5所示

将相对鉴别器称为RaD

SRGAN中的标准鉴别器可以表示为：其中σ是sigmoid函数，C（x）是非变换鉴别器输出。
而RaD鉴别器表示为：其中Exf[·]表示对小批量中所有虚假数据进行平均的操作。
RaD的损失函数：
G的损失函数的对抗损失项

3.3 Perceptual Loss

提出了更有效的感知损失Lpercep。在激活前对特征进行约束，而不是像在SRGAN中那样在激活后进行约束。与常规相反，我们建议在激活层之前使用功能，这将克服原始设计的两个缺点。首先，激活的特征非常稀疏，尤其是在非常深的网络之后，如图6所示。

Generator的感知损失函数为：

L1是内容损失
λ, η 是平衡不同损失项的系数。

3.4 Network Interpolation（网络插值）

在保持良好的感知质量的同时，消除基于GAN的方法中令人不快的噪声，提出了一种灵活有效的策略——网络插值。具体地说，我们首先训练面向PSNR的网络GPSNR，然后通过微调获得基于GAN的网络GGAN。我们对这两个网络的所有相应参数进行插值，得出一个插值模型GINTERP，其参数为：

4. 实验细节与结果

4.1 Training Details

训练过程分为两个阶段。

首先，我们训练了一个具有L1损耗的面向PSNR的模型。学习率初始化为2×10−4，每2×105次小批量更新，衰减系数为2。
然后，我们使用经过训练的面向PSNR的模型作为生成器的初始化。使用公式（3）中的损失函数对生成器进行训练，λ=5×10−3和η=1×10−2.学习率设置为1×10−4，并在[50k、100k、200k、300k]迭代时减半。
我们使用Adam，β1=0.9，β2=0.999。交替地更新生成器和鉴别器网络，直到模型收敛。
我们的生成器使用了两种设置——其中一种包含16个剩余块，其容量类似于SRGAN，另一种是具有23个RRDB块的更深层模型。
我们使用PyTorch框架实现我们的模型，并使用NVIDIA Titan Xp GPU对它们进行培训。

4.2 Data

使用包含800张图像的DIV2K、Flickr2K、OST作为训练数据集。在RGB通道中训练我们的模型，并通过随机水平翻转和90度旋转来增强训练数据集。
Set、Set14、BSD100、Urban100和PIRM-SR挑战中提供的PIRM验证数据集。

4.3 Qualitative Results（定性结果）

将几个公共基准数据集上的最终模型与包括SRCNN[4]、EDSR[20]和RCAN[12]在内的最先进的面向峰值信噪比的方法进行比较。与包括SRGAN[1]和EnhanceNet在内的感知驱动方法进行比较。

4.4 Ablation Study

BN移除：它不会降低性能，但节省了计算资源和内存使用。当网络更深、更复杂时，带有BN层的模型更有可能引入令人不快的伪影。
在激发层之前使用感知损失。：使用激活前的特征可以使重建图像的亮度更加准确。
RaGAN：RaGAN使用了一种改进的相对论鉴别器，这有助于学习更清晰的边缘和更详细的纹理。
Deeper network with RRDB：使用建议的RRDB的深层模型可以进一步改善恢复的纹理，尤其屋顶这样的规则结构，因为深层模型具有捕获语义信息的强大表示能力。此外，我们发现更深的模型可以减少令人不快的噪声。

文章出处登录后可见！

已经登录？立即刷新

目录

一、SRCNN

1. 解决问题

2. 核心前述论文

2.1 Image Super-Resolution

2.1 Image Super-Resolution

2.3 Deep Learning for Image Restoration

3. Method

3.1 Formulation

3.1.1 Patch extraction and representation （patch的提取和表示）

3.1.2 Non-linear mapping（非线性映射）

3.1.3 Reconstruction（重建）

3.3 Training

4. 实验细节与结果

4.1 Training Data

4.3 Model and Performance Trade-offs

5. 未来展望

二、SRGAN （SRResNet）

1. 解决问题：

2. 核心前述论文

2.1. Image super-resolution

2.2.Design of convolutional neural networks

2.3.Loss functions

3. Method

3.1.SRGAN网络结构

3.2.感知损失函数 Perceptual loss function

4. 实验细节与结果

5. 总结与未来展望

三、ESRGAN

1. 解决问题

2. 核心前述论文

2.1 SR相关工作

2.2 评价SR指标和损失函数

3. Method

3.1 Network Architecture（对Generator的改进）

3.2 Relativistic Discriminator

3.3 Perceptual Loss

3.4 Network Interpolation（网络插值）

4. 实验细节与结果

4.1 Training Details

4.2 Data

4.3 Qualitative Results（定性结果）

4.4 Ablation Study