小白也能听懂的ai音声制作入门教程了！！！

Table of Contents

小白也能听懂的ai音声制作：低配置，易入门

最近看到网上有很多懒羊羊唱歌的视频，略感兴趣，于是就学习了一番，并选出来一个配置最低和最容易入门的项目教给大家，…(以后有空会写其他的)

当当！！！
音声转换项目DDSP的介绍和使用

ddsp-3.0是一款ai合成音频的开源项目，与之前的sovits，rvc，diff-svc不同，DDSP在训练推理速度和配置要求上都可以说是全面优于前面几个项目，并且训练效果有sovits4.0的80~90%，效果还是很不错的，只需要一张2G以上显存的N卡，花上一两个小时就可以训练完成，大大降低了ai变声门槛。

虽然ddsp4.0更新了，但实际体验和3.0并未太大差别，而且由于网上还没有大佬制作一键包，不利于小白入门，所以以3.0为首选项。

下面就介绍ddsp-3.0的用法，首先下载b站up主[羽毛布団]的整合包DDSP-SVC 3.0 一站式整合包使用教程 (qq.com)，该整合包使用图形化界面进行训练和推理，以及配备了urv5，au，自动切片工具等，老少皆宜，让我们先感谢赛博佛祖！

下载完毕后解压至电脑文件夹，先解压urv5，按照提示，把urv5模型解压到models文件夹，为以后处理数据集做准备

然后进入ddsp文件夹

下拉，点击

启动项目（注意，启动时最好不要开梯子，不然以后可能会打不开）

预处理

进入这样的界面，由于第一次进入需要先进行模型训练，你需要事先准备半小时到2小时的干净人声（可以到b站搜原神任务语音数据集，有很多）拿来练手，点击智能音频切片，将你人声所在文件夹目录复制到第一个空位：

点击文件夹目录ctrl+c就能复制，选定自己想要输出到的目录，再点击切片就可以自动把半小时的语音切成10~15秒的短音频

训练

接下来就可以开始训练工作了

将你切好的音频全部复制到ddsp的data/train/audio下

并挑出几条效果较好的语音片段复制到

下，数据集中按训练集：验证集=100:1的比例挑选，经测试，前者较少时，后者比例大些也可以，但不能超出太多，下一步，预处理配置可以自己选择，都有提示

训练设置和超参数尽量都不改，可以根据电脑配置适当更改批大小：

最后的fp32，fp16，bf16可以按下边的来：

FP32/BF16/FP16 有什么差别

1. FP32（单精度浮点数）：它使用 32 位来表示一个浮点数，其中 1 位用于符号位，8 位用于
   指数部分，23 位用于尾数部分。FP32 提供了较高的精度和动态范围，适用于大多数深度学
   习任务和一般计算需求。(除了慢一些没啥不好的)
   2.BF16（BFloat16）：它使用 16 位来表示一个浮点数，其中 1 位用于符号位，8 位用于指数
   部分，7 位用于尾数部分。BF16 可以看作是 FP32 的一种截断形式，减少了存储空间和内存
   带宽的消耗，同时仍具备较高的动态范围，适用于训练和推理任务。(only Nvidia 30/40
   series)(相比 FP16 没那么容易 NaN，同时又比 FP32 快，但是损失精度)
2. FP16（半精度浮点数）：它使用 16 位来表示一个浮点数，其中 1 位用于符号位，5 位用于
   指数部分，10 位用于尾数部分。FP16 相比于 FP32 和 BF16，减少了存储空间和内存带宽的
   需求，但牺牲了精度和动态范围。因此，FP16 通常用于对模型进行加速或压缩时，例如在
   移动设备或低功耗设备上的推理过程中。(相比 FP32/BF16 更容易 NaN，但是精度比 BF16
   高，对比 FP32 也损失不多，理论上来说，30/40 系跑 BF16/FP16 运算速度一样)
   PS:显卡属于哪一系列:
   A 开头的属于 Ampere 架构，与 30 系同架构，理解成 30 系就好，例:A5000,A100,A10。
   T 开头的属于 Turing 架构，与 20 系同架构，常见的就是 T4，理解成 20 系就好。
   V 开头(或含 V)的属于 Volta 架构，仅出现在商用领域，接近 20 系，理解成不支持 int4 运算
   的 20 系就好，包含 V100,Titan V。
   P 开头(或含 P)的属于 pascal 架构，与 10 系同架构，常见的就是 P100,Titan Xp
   PS: 30/40 系建议优先 BF16，尤其是 A100，尽量不要选 FP32
   20 系建议降低一点点 learningrate 然后选 FP16，因为比 FP32 快上不少(
   16 系选 FP32，因为 FP16 大概率炸（玄学
   10 系随意，看心情

不想看没关系，显存小的默认就行，显存大的选后两个，

（测试3060-6g选后两个在训练时会卡主，自行选择）