AIGC音乐生成#riff + diffusion 以生成频谱图图像来转换为音乐 | 无界日报 第2期

317dbb453318f810edc26e1938a9e805.gif

d924ecc0ba2e6b1d294a169c95070cb6.png

小杜

无界日报第2期,本期头条 – stable diffusion 微调模型 riff + diffusion 以生成频谱图图像来转换为音乐。

无界日报

2022.12.16

第02期

头条 

riff + diffusion

#AIGC# #工具#

180844cfc200474232c7f61fbafc7b5d.png

riff + diffusion 是 stable diffusion 的微调模型,以生成频谱图图像来转换为音乐。开发团队制作了一个交互式网络应用程序来输入提示并实时无限生成音频内容,同时以 3D 方式可视化频谱图时间线。

当用户输入新提示时,音频会平滑地过渡到新提示风格。如果没有新提示,应用程序将在同一提示的不同种子值之间进行音频生成。频谱图被可视化为沿时间线的 3D 波纹图,带有半透明的播放条提示播放进度。

-音频频谱图:如图所示,是一种表示声音片段频率内容的可视化方式。x 轴代表时间,y 轴代表频率。每个像素的颜色给出了音频在其行和列给定的频率和时间的振幅。

4c97351fa67a5640bab620f8b715f186.jpeg

除了用文本生成/修改生成音频,riffuion 也支持用图像-图像生成/修改音乐,并且能保留原始频谱图图像的结构,不改变音频走势框架的同时对音频进行定向的微调修改。

846a8b8ffb5823faddb3f36c2f0413cb.png

1.带有爵士乐萨克斯管独奏的放克低音
– 微调后 –
 2.放克钢琴


项目官网给出了详细的提示语建议与微调操作指南,感兴趣的朋友可以前往项目页体验一番~

7ebdfcd5e1aa80bd7e4dc8fab0292796.png
……

项目官网:
www.riffusion.com/
项目解读:
www.riffusion.com/about

 More 

# 02

#AIGC##工具#

Whisper to Stable Diffusion

用母语说话(或唱歌)来生成图形,任何语言都将自动翻译为英文,由 Sylvain @fffiloni 制作 -Whisper:是一种通用的语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

374b374aaf6ccfdcf82364b9f4e24f56.png

demo地址:
huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

更多

# 03

#智能产品# #插件#

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年12月28日
下一篇 2023年12月28日

相关推荐