InsetGAN：全身图像生成

1 引言

该论文是出自于CVPR2022关于GAN的最新文章。要知道虽然目前GAN可以在某些领域的理想条件下能够生成逼真的图像，但由于发型、服装和姿势的多样性，生成全身人体图像仍然很困难，之前的方法一般是用单个GAN对这个复杂域进行建模。作者提出了一种组合多个预训练的GAN新的方法，其中一个GAN生成一个全局人体图像和一组专门生成特定人体部分的GAN，然后将部分人体图像无缝插入到全体人体图像中。论文中大量的实验结果也表明该方法的有效性。

论文链接：https://arxiv.org/abs/2203.07293
视频链接：https://www.youtube.com/watch?v=YKFYEt5hvOo

2 论文方法概述

在本文中，作者提出了一种无条件生成方法，通过使用一个或多个预训练生成器网络来生成人的全身图像。该方法的示意图如下所示。给定两个潜在向量和，将它们分别输入到预训练的生成器和，生成对应的图像和。作者使用一组损失和来描述我们希望在优化过程中最小化的条件。不同条件下生成的图像如右图所示。可以发现，人脸图像的复制粘贴操作一开始会有粗略的痕迹，优化过程中生成的全身图像的人脸部位和身体部位会无缝衔接。

3 Full-Body GAN

在该论文中作者采用了当前最先进的StyleGAN2的网络结构，以前大多数全身人体图像生成或编辑工作都是在或分辨率尺度下进行的，而作者首次尝试以的分辨率进行无条件生成工作。由于目标域的复杂性，单个生成器产生的结果有时会产生形状怪异的身体部位和非照片真实感的外观等瑕疵，再加之人类姿势和外观的巨大多样性以及相关的对齐困难，使得单个生成器更难学习。因此，需要多个生成器相互配合去生成全身人体图像。

4 Multi-GAN优化

为了提高Full-body GAN生成能力，作者先使用特定的生成器去生成身体特定部分区域的图像，然后再将生成结果插入粘贴到Full-body GAN的生成结果中，这样可以更好地模拟人体的复杂外观和可塑性。
作者证明了使用从全身训练图像中裁剪的面部区域训练的Face GAN可以用于改善Full-body GAN结果的外观，所以可以利用在其他数据集上训练过的人脸生成器来进行人脸增强。类似地，也可以使用专门的手或脚生成器来改善身体的其他区域。如下图所示，作者表明在多重优化过程中可以同时使用多部分生成器。

在该论文中作者最主要的面对的挑战是如何协调多个无条件GAN来产生彼此一致的像素。在该论文中，用于生成全身人体图像且有，用于生成人体子区域图像且有。为了协调部分GAN和全局GAN的关系，作者用到一个边界检测器来识别图像，通过使用检测到的边界框裁剪，并将裁剪后的像素表示为。在图像中插入单独生成的部分图像的问题相当于找到一个隐向量对，这样相应的图像和可以在和的边界区域可以在没有明显接缝的情况下进行组合。为了生成最终结果，作者直接用生成的像素替换边界框内的原始像素，具体的公式如下所示：其中，主要用于测量和缝接处的损失。
在优化潜在向量和时，作者考虑了以下多个目标：

面部GAN和身体GAN生成的面部区域应具有大致比例的相似外观，以便当将由面部GAN生成的像素粘贴到身体GAN图像上时，相应的属性要匹配上，比如面部的肤色要匹配颈部的肤色。
作物周围的边界像素相互匹配，使肢体图像可以无缝集成到全身图像中。
合成图像结果需要看起来逼真。为了匹配人脸的外观，作者对人脸区域进行了下采样，计算了的组合损失和感知损失，其中和，表示将图像下采样到。

图像边界匹配损失如下图所示
其中是的边界区域，宽度为像素。为了在优化过程中保持真实性，作者还添加了两个正则化项：第一项防止优化后的潜在向量与平均潜在向量偏离太远。作者通过在空间中随机抽取大量潜在向量，映射到空间，并计算平均值，得到。第二项是对潜在空间中的潜在向量进行正则化。
给定一个随机生成的全身人体图像，通过固定参数对参数进行优化，使图像看起来与相似，那么优化目标是为了进一步改善边界不连续的问题，作者还可以选择同时优化和，以便两个生成器可以相互协调以产生连贯的图像而不会混合伪影。为了在优化过程中保持身体轮廓的外观不变，作者引入了一个额外的损失项：，其中是生成的全身人体图像以供参考，表示人脸边界框之外的身体区域。作者还使用了一个平均的隐式正则化项来防止伪影，最终的目标函数是：是从用于训练身体生成器的相同数据中裁剪出来的。

给定一张真实的人脸或随机生成的人脸图像，作者固定参数，然后优化参数，使得生成的人体图像在姿势、肤色、性别、发型等方面与输入人脸兼容等。为了在优化过程中保持人脸身份，作者使用了额外的人脸重建损失：其中定义了人脸裁剪的内部区域，表示参考输入人脸。为了更精确的控制，可以使用人脸分割代替bounding box，其中作者的目标函数是：如下图所示，通过的不同初始化，可以为每个人脸生成多个结果。

在本文中，作者可以将任何真实或生成的人脸与任何生成的身体相结合，以生成复合身体。对于一张真实的人脸，作者首先需要使用现成的编码器将其编码到的潜在空间中为。同样，也可以将真实的人体图像编码到潜在空间中，但由于人体身高的差异，很难实现低重建误差，因此作者使用以下目标函数：
下图显示了用预训练FFHQ模型生成的人脸（顶行）与论文中方法生成器生成的身体（最左列）相结合的结果。通过对人脸和身体隐向量的轻微调整，作者实现了保持身份一致的合成结果。

4 实验结果

如下表所示作者使用了两种不同的截断设置分别是和，并对全身图像和图像裁剪进行评估。FID分数的越小越好。由下表可以发现使用联合优化的人脸细化不会修改无条件生成器学习的分布，因此不会降低结果的多样性。

由下图可知，论文的方法InsetGAN（右上）与CoModGAN（右下）相比，在人脸对齐的精确度和生成的细致度上，InsetGAN的生成效果更好一些。

下图显示了通过对每个输入人脸使用多个随机初始化获得的两个最佳结果。

文章出处登录后可见！

已经登录？立即刷新