感谢B站UP羽毛布团

羽毛布団的个人空间_哔哩哔哩_bilibilihttps://space.bilibili.com/3493141443250876/?spm_id_from=333.999.0.0

演示视频

稻香——东雪莲

稻香——冬雪莲

虚拟——东雪莲

虚拟——冬雪莲

反方向的钟——东雪莲

反方向的钟——冬雪莲

晴天+龙卷风——东雪莲

晴天+龙卷风——冬雪莲

ZOOD——东雪莲

ZOOD—–东雪莲

DDSP-SVC 3.0 (D3SP) 是什么？

DDSP-SVC 是一个相对年轻的音声转换项目，相较于常用的So-VITS和更早的Diff-SVC，DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目，一般来说只要有一张2G以上显存的N卡，花上一两个小时就可以训练完成，大大降低了AI变声的门槛。当然，带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本，在原有的基础上加入了浅扩散机制，将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理，输出梅尔谱图并通过声码器转换为高质量音频，使得转换效果大幅提升，在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP（DDSP with Diffusion, DDDSP, 带带大涩批）。DDSP-SVC 是一个相对年轻的音声转换项目，相较于常用的So-VITS和更早的Diff-SVC，DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目，一般来说只要有一张2G以上显存的N卡，花上一两个小时就可以训练完成，大大降低了AI变声的门槛。当然，带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本，在原有的基础上加入了浅扩散机制，将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理，输出梅尔谱图并通过声码器转换为高质量音频，使得转换效果大幅提升，在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP（DDSP with Diffusion, DDDSP, 带带大涩批）。

下载资源：

提取码：g8n4

百度网盘请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固，支持教育网加速，支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/share/init?surl=2u_LDyb5KSOfvjJ9LVwCIQ&pwd=g8n4

解压整合包

将整合包解压到电脑硬盘中（路径中尽量不要包含中文），整合包内已经搭建好了运行所需的所有环境依赖，你无需自己手动搭建环境。

准备数据集

转化数据格式为wav

用uvr5获得原声，去除杂音和背景音效

智能音频切片

音频长度时间最好在30~60min左右

数据集准备

将切片后的数据集放置在data/train/audio文件夹下，在数据集中按训练集：验证集=100:1的比例挑选验证集音频放置到data/val/audio文件夹中
单说话人模型，直接将所有wav文件放置到对应的audio文件夹下即可。如果是训练多说话人模型，需要在训练集和验证集的”audio”文件夹下新建不同说话人的目录，只能以纯数字命名，以1开始
如果你不想手动挑选验证集，在数据集放置到data/train/audio后也可以点击下面的一键划分数据集完成操作。
验证集的条数最好不要超过10条，否则训练验证会变得很慢。验证集的音频质量越高越好。

确认训练集和验证集正确放置后请选择训练编码器和f0提取算法
编码器：hubertsoft: 咬字较为清晰 | contentvec(768l12): 音色更为还原
f0算法：crepe: 抗噪能力较强但预处理速度慢 | parselmouth: 抗噪能力较弱但预处理速度快
注意，不同编码器训练出来的模型不通用，并且对应不同的配置文件，在推理时选择不匹配的配置文件会导致错误

填写训练设置和超参数

D3SP的完整推理过程需要训练2个模型，分别是DDSP模型和扩散模型。因此你需要在下面设置2份配置文件的超参数。

开始训练

D3SP的完整推理过程需要训练2个模型。
首先选择训练进度，从头开始训练将会将exp文件夹中的对应模型进度保存备份至models_backup文件夹，如果是训练扩散模型，会自动装载对应编码器的预训练底模。
两个模型的训练是独立的，你可以以任意顺序训练两个模型。训练前请先在上方选择预处理对应的编码器。

推理模型

文章出处登录后可见！

已经登录？立即刷新

AI孙燕姿 ？AI东雪莲 ！—— 本地部署DDSP-SVC一键包，智能音频切片，本地训练，模型推理，为你喜欢的角色训练AI语音模型小教程