AI数字人主播技术实现Wav2Lip【详细记录】

前言

近期很多童鞋私信,想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测,后续还会有其他的相关技术实现与评测。

本文主要实现图片说话(如下图的蒙娜丽莎)、视频融合语音(这里的核心都是人物口型与音频中的语音唇形同步)。主要通过将两个不相关的人的视频、音频,采用Wav2Lip技术,最终得到一个完整的视频文件,且视频的人物口型与音频内容一致。举例:小红的语音、加上小花的自拍视频,融合为一个最终的视频;那么小红在发出“啊”声音的时候,小花的嘴应该是张开的,以下是一张效果图),本文第四部分有完整的效果评测视频

本文主要通过以下五个部分展开:

第一部分:深度伪造技术概述

第二部分:Wav2lip技术概述

第三部分:使用Wav2Lip进行AI主播虚拟人的深度实践

第四部分:效果评测

第五部分:Wav2Lip完整版教程的下载
注:本案例涉及到所有内容,包括教程、图片、视频、Wav2Lip等均集中打包分享给大家,可自行复现。

以下是正文

第一部分:深度伪造技术概述

深度伪造一词译自英文“Deepfake”(“deep learning”和“fake”的组合)。它是一种利用机器学习的子领域——深度学习创建合成媒体的技术。
深度伪造Deepfake 可以根据媒体的关注点分为 3 个方向进行更改,即伪造视觉(例如伪造图片或者视频)、伪造音频(例如伪造语音内容等)、伪造视觉及音频(即前两者的结合了,完全都是伪造)。

深度伪造Deepfake很重要的一个技术是表情重现,让目标身份的表情模仿源身份的表情(极端一致,很自然与原始目标人物能够表情自然一致)。这在电影和视频游戏行业中具有极大的应用价值,如对演员的表情表演进行后期调整。本文图片、视频均是自己生成的,如有需要自己生成,可以参考:【震撼来袭】AI视频动画制作《狼来了》全揭秘!【附完整教程】,声音是采用剪映生成的(所有素材均已放在教程中了)。

第二部分:Wav2lip技术概述

Wav2Lip技术是一个基于GAN的唇形动作迁移算法,实现生成的视频人物口型与输入语音同步。Wav2Lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与输入语音匹配的视频,俗称「对口型」。该技术的主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。
如果您要使用哪个模型文件,github库中的 readme.md 会指出每个模型的关键属性,如下面的屏幕截图所示。

项目地址:https://github.com/baoxueyuan/DeepFake

ModelDescription
Wav2Lip高度精确的唇同步
Wav2Lip + GAN嘴唇同步稍差,但视觉质量更好
Expert Discriminator专家鉴别器的权重
Visual Quality Discriminator在GAN设置中训练的视盘重量

本文着重演示:Wav2Lip与Wav2Lip + GAN
Wav2Lip与Wav2Lip + GAN模型最终的效果对比,可见第四部分。

第三部分使用Wav2Lip进行AI主播虚拟人的深度实践

直接下载教程(或点击下方飞书文档链接即可),完整详细,为了保证文章的结构性与可阅读性,这里仅部分截图展示:
Docsicon-default.png?t=N4P3https://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg

第四部分:效果评测

测评不易,记得点赞

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

第五部分:Wav2Lip完整版教程的下载

关注公众号【饱学猿】,回复数字”5301″,即可获取下载链接。
本案例涉及到所有内容,包括教程、图片、视频、Wav2Lip等均集中打包分享给大家,可自行复现。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
上一篇 2023年9月12日 上午9:23
下一篇 2023年9月12日 上午9:25

相关推荐