探索【Stable-Diffusion WEBUI】的附加功能:图片缩放&抠图

文章目录

  • (零)前言
  • (一)附加功能(图片处理)
    • (1.1)处理对象(Source)
    • (1.2)缩放(Scale)
      • (1.2.1)缩放设置
      • (1.2.2)缩放模型(Upscaler)
      • (1.2.3)GFPGAN和CodeFormer
    • (1.3)抠图(Remove background)

(零)前言

本篇单独讲解了WEBUI内置的附加功能:图片缩放——主要是默认4x的放大图片;还有同一页的抠图插件。
更多不断丰富的内容参考:🔗《继续Stable-Diffusion WEBUI方方面面研究(内容索引)》

(一)附加功能(图片处理)

附加功能就是在文生图,图生图以外,对图片的其它处理。
在没有安装更多插件的时候,附加功能只有图片缩放。

(1.1)处理对象(Source)

  • 单张处理:相应的选项卡里,拖入单张图片。
  • 批量处理:相应的选项卡里,拖入多张图片。
  • 从目录批量处理:不打开图片,选择目录所在位置,处理目录下的全部图片。
    如果从目录批量处理,则可以在设置中选择保留原来的文件名,很方便(可惜文件Tag不能保留)。

(1.2)缩放(Scale)

等比/指定分辨率缩放,不需要解释。

前面提到过,AI生成图片分辨率需要在一定范围,否则非常容易乱。
而且生成大图开销太大,不如生成完了正常尺寸,再用算法放大。

现在的各种算法很厉害了,基本上都是人工智能,效果很真实(觉得效果不够好,就自己调参数)。
比如生成的原图是800×600,如下:

放大4倍后的局部截图,仅作参考。
因为不同算法可能这个眼睛清楚,那个头发清楚,另一个嘴唇清楚。






最后两个加入,纯粹是为了对比有参照物。

(1.2.1)缩放设置

不同的模型(算法)有不同的效果。

如果需要新的算法,比如上图的🔗4x-UltraSharp:
🌟需要下载对应模型。(手动下载放入目录也行)
下载完成的文件4x-UltraSharp.pth需要放入你的SD-WEBUI目录\models\ESRGAN\里面。

具体可以自己对比不同算法的效果,感觉上面这样比较真实。
可以选择首要算法(Upscaler 1),和附加算法(Upscaler 2)和它的权重(当然也可不选2)。

(1.2.2)缩放模型(Upscaler)

我们用作图软件时可以看到缩放算法,比如临近像素,两次线性,两次立方。
用这些缩放算法如果放大4倍人像,应该惨不忍睹,当然后来算法越来越强大。

  • Lanczos:将对称矩阵通过正交相似变换变成对称三对角矩阵的算法(它是个算法,写出来作为对比,通常不选它)。

  • ESRGANEnhanced Super-Resolution Generative Adversarial Networks (增强超分生成对抗网络)
    是对SRGAN关键部分网络结构、对抗损失、感知损失的增强。《论文》,从这里开始就不是单纯的图像算法,进入人工智能的领域了。实测确实增加了很多看上去很真实的纹理,但是有时又会把一张图片弄得全是锯齿或怪异的纹理。可能对待处理的图片类型有要求。
    模型:ESRGSN_4X在WEBUI中可选。
    模型:4x-UltraSharp在WEBUI中本不可选,可以自己下载模型(上面有地址)。基于ESRGAN,适合JPEG格式(大家都说好)。

  • Real ESRGAN:完全使用纯合成数据去尽量贴近真实数据,然后去对现实生活中数据进行超分的一个方法。《论文》,腾讯的耶。
    模型:R-ESRGAN 4x+在WEBUI中可选,模型可自动下载?我忘了,针对照片效果不错。
    模型:R-ESRGAN 4x+ Anime6B在WEBUI中可选(需配置),模型可自动下载,针对二次元动漫效果不错,明显比Waifu_2X强。
    模型:R-ESRGAN General 4xV3在WEBUI中可选(需配置),模型可自动下载,主要是小(但效果不好)可不用。

  • SwinIR:使用Swin Transformer思想,采用一个长距离连接,将低频信息直接传输给重建模块,可以帮助深度特征提取模块专注于高频信息,稳定训练。《论文》。
    模型:SwinIR_4x在WEBUI中可选。

  • LDSRLatent Diffusion Super Resolution(潜在扩散超分辨率模型)
    最初与Stable Diffusion1.4同时发布,是一个经过训练以执行超分辨率任务的潜在扩散模型。
    照片表现非常好。但模型体积巨大+速度超级慢。别人10秒vs它1000秒,还是模型已下载之后。
    模型:LDSR在WEBUI中可选,模型可自动下载。

  • waifu2x:好像不在这里面,反正我这没有也没下载,主要用于二次元图片放大,顾名思义”你的老婆变2倍大“。

算法或者模型最终的判断,来自人的感觉,你觉得放大的图画到底”好不好“。
所以自己测试并选择最合适的参数吧。

(1.2.3)GFPGAN和CodeFormer

缩放模型选择下面还有这两个选项,你可能还记得它们是关于面部修复的东西。

  • GFPGAN:对眼睛和嘴巴的还原度非常高,且对大多数人像都能进行一定程度的还原,《论文》。

  • CodeFormer:基于Transformer+VQGAN的人脸重建方案CodeFormer,它可以对低质人脸的组成与上下文信息进行建模,促进自然人脸挖掘以生成与目标人脸更相近的结果。《论文》。

这两个修复如果选了,根据权重会有点改变图像,可自己尝试,也可以不开。

以上,其实我都不懂,如果发现介绍或引用错误,烦请指正。

(1.3)抠图(Remove background)

作用是移除背景。
它是个插件,安装好后界面位置出现在附加功能中,就在图片缩放的下面。
正常情况下移除背景,就不要再启用缩放功能了嘛。

⭐需要在WEBUI中安装插件。
WEBUI中可以查找rembg安装,参考:stable-diffusion-webui-rembg

🌟需要下载多个不同模型。(手动下载放入目录也行)
有好些个模型,比如:silueta.onnx,通用,人物,衣服,等等……

例子:
PS:这台电脑报错了,另一台才可以,不太懂,得等等放例子:

RuntimeError: D:\a\_work\1\s\onnxruntime\core\session\provider_bridge_ort.cc:1106 
onnxruntime::ProviderLibrary::Get [ONNXRuntimeError] : 1 : FAIL : 
LoadLibrary failed with error 126 "" 
when trying to load "D:\Download\AIDraw\py310\lib\site-packages\onnxruntime\capi\onnxruntime_providers_tensorrt.dll"

另一台电脑(环境一模一样,硬件也差不多)。
如果你想要透明背景,则需要存为png,而不是jpg文件。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2023年12月20日
下一篇 2023年12月20日

相关推荐