中文语音识别数据集总结

社会演员多 • 2023年3月28日上午11:26 • Python • 阅读 562

目录

OpenSLR国内镜像
1.Free ST Chinese Mandarin Corpus
2.Primewords Chinese Corpus Set 1
3.爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）
4.THCHS30
5.ST-CMDS
6.MAGICDATA Mandarin Chinese Read Speech Corpus
7.AISHELL
8.Aidatatang
- 8.1 aidatatang_1505zh（完整的1505小时中文普通话语音数据集）
- 8.2 Aidatatang_200zh（基于完整数据集精选的200小时中文普通话语音数据集）
9.hkust
10.Speechocean 10小时中文普通话语音识别语料库
11.cn-celeb
12.HI-MIA
13.MobvoiHotwords
14.zhvoice: Chinese voice corpus

OpenSLR国内镜像

http://openslr.magicdatatech.com/

1.Free ST Chinese Mandarin Corpus

1）基本信息：
参与者：855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度

语料库包含：
1音频文件；
2转录；
3元数据；

下载：（8.2G）

http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

2.Primewords Chinese Corpus Set 1

1）基本信息
参与人数：296人
时长：178小时

这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%，置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。

下载：（9.0G）

http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

3.爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）

1）基本信息

时长：755小时

参与人数：1000人

音频格式：PCM

MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据，其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景，包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音，涵盖多种类型的安卓手机；录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发，免费发布供非商业使用。

https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

下载地址

http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

4.THCHS30

1）基本信息

时长:40余小时

THCHS30是一个经典的中文语音数据集，包含了1万余条语音文件，通过单个碳粒麦克风录取，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声。它是由清华大学语音与语言技术中心（CSLT）出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行，原名“TCMSD”，代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起，并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库，因此，数据库对学术用户完全免费。

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

国外镜像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

5.ST-CMDS

1）基本信息：

时长:100余小时

参与人数：855人

ST-CMDS是由一个AI数据公司发布的中文语音数据集，包含10万余条语音文件，大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主，855个不同说话者，同时有男声和女声，适合多种场景下使用。

下载地址：

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国外镜像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

6.MAGICDATA Mandarin Chinese Read Speech Corpus

1）基本信息

时长：755小时

参与人数：1080人

应用：语音识别，机器翻译，说话人识别和其他语音相关领域

Magic Data技术有限公司的语料库，语料库包含755小时的语音数据，其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98％。录音在安静的室内环境中进行。数据库分为训练集，验证集和测试集，比例为51：1：2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化，包括互动问答，音乐搜索，SNS信息，家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别，机器翻译，说话人识别和其他语音相关领域的研究人员。因此，语料库完全免费用于学术用途。

下载地址见参考：
https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像：
http://www.openslr.org/68/

7.AISHELL

7.1 AISHELL开源版1

1）基本信息

时长：178小时

参与人数：400人

采样：44.1kHz & 16kHz 16bit

AISHELL是由北京希尔公司发布的一个中文语音数据集，其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。进行录音，并采样降至16kHz，用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查，手动转录准确率达到95％以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。

下载地址：

http://www.aishelltech.com/kysjcp

7.2 AISHELL-2 开源中文语音数据库

1）基本信息

时长：1000小时

参与人数：1991人

希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时，其中718小时来自AISHELL-ASR0009-[ZH-CN]，282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16bit）；Android系统手机（16kHz，16bit）；iOS系统手机（16kHz，16bit）。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在96%以上。（支持学术研究，未经允许禁止商用。）

下载地址：

http://www.aishelltech.com/aishell_2

7.3 AISHELL-翻译机录制语音数据库

1）基本信息

时长：31.2小时

参与人数：12人

采样： 44.1kHz & 16kHz 16bit

来自AISHELL的开源语音数据产品：翻译机录制语音数据库

下载地址：

http://www.aishelltech.com/aishell_2019C_eval

7.4 AISHELL-家居环境近远讲同步语音数据库

1）基本信息

时长：24.3小时

参与人数：50人

采样： 44.1kHz & 16kHz 16bit

AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz，16bit)与位置 F(Android 系统手机 16kHz，16bit)中，各选取 232 句到 237 句。
此数据库经过专业语音校对人员转写标注，并通过严格质量检验，文本正确率 100%。

AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库，共 24.3 小时。

下载地址：

http://www.aishelltech.com/aishell_2019A_eval

7.5 AISHELL-语音唤醒词数据库

1）基本信息

时长：437．67小时

参与人数：86人

采样： 44.1kHz & 16kHz 16bit

来自希尔贝壳的语音唤醒词数据库

下载地址：

http://www.aishelltech.com/aishell_2019B_eval

7.6 AISHELL-3 语音合成数据集

1）基本信息
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句，可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注，并通过严格质量检验，此数据库音字确率在98%以上。（支持学术研究，未经允许禁止商用。）
2）下载链接
国内镜像： https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz
国外镜像：https://www.openslr.org/resources/93/data_aishell3.tgz

8.Aidatatang

8.1 aidatatang_1505zh（完整的1505小时中文普通话语音数据集）

1）基本信息

参与人数：6408人

时长：1505小时

包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注，并通过严格质量检验，句标注准确率达98%以上，是行业内句准确率的最高标准。
中文语音识别数据集总结
2）使用效果：
请添加图片描述
3）链接

数据申请：

https://www.datatang.com/webfront/opensource.html

8.2 Aidatatang_200zh（基于完整数据集精选的200小时中文普通话语音数据集）

1）基本信息
时长：200小时

参与人数：600人

采样： 16kHz 16bit

Aidatatang_200zh是由北京数据科技有限公司（数据堂）提供的开放式中文普通话电话语音库。语料库长达200小时，由Android系统手机（16kHz，16位）和iOS系统手机（16kHz，16位）记录。邀请来自中国不同重点区域的600名演讲者参加录音，录音是在安静的室内环境或环境中进行，其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98％。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。

该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此，该语料库完全免费供学术使用。

数据堂精选了200小时中文普通话语音数据在OpenSLR发布，并在Kaldi平台提供了训练代码，对应的训练方法也在github平台发布。

https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

国外镜像：https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

9.hkust

基本信息
200h，16khz，16bit。中文电话数据集，电话对话，espnet，kaldi里面都有egs。
2）链接
下载链接：http://catalog.ldc.upenn.edu/LDC2005S15

10.Speechocean 10小时中文普通话语音识别语料库

1）基本信息
这是一个10.33小时的语料库，它同时通过4个不同的麦克风收集。在安静的办公室中，由20位说话者（10位男性和10位女性）录制了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98％。它完全免费用于学术目的。
2）下载链接
百度云盘(提取码：sktk)：https://pan.baidu.com/share/init?surl=1glZHlKIXjlPOOht6_yQXQ

11.cn-celeb

1)基本信息
此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音，涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道，并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。
2）下载链接

12.HI-MIA

1）基本信息
内容为中文和英文的唤醒词“嗨，米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车（254人），开发（42人）和测试（44人）子集。测试子集提供了成对的目标/非目标答案，以评估验证结果。
2）下载链接
国内镜像(train) ：http://openslr.magicdatatech.com/resources/85/train.tar.gz
国内镜像(dev) ：http://openslr.magicdatatech.com/resources/85/dev.tar.gz
国内镜像(test) ：http://openslr.magicdatatech.com/resources/85/test_v2.tar.gz
国内镜像(filename_mapping)：http://openslr.magicdatatech.com/resources/85/filename_mapping.tar.gz

13.MobvoiHotwords

1）基本信息
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据，将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字，大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者，这些受试者与智能扬声器的距离（1、3和5米）不同。在采集过程中，具有不同声压级的不同噪声（例如音乐和电视等典型的家庭环境噪声）会在后台播放。

2）下载链接
国内镜像：http://openslr.magicdatatech.com/resources/87/mobvoi_hotword_dataset.tgz
国外镜像：http://www.openslr.org/resources/87/mobvoi_hotword_dataset.tgz

14.zhvoice: Chinese voice corpus

1）基本信息
zhvoice语料由8个开源数据集，经过降噪和去除静音处理而成，说话人约3200个，音频约900小时，文本约113万条，共有约1300万字。

zhvoice语料比较原始数据而言，更加清晰和自然，减少了噪声的干扰，减少了因说话人说话不连贯造成的不自然。

zhvoice语料包含文本、语音和说话人3个方面的信息，可适用于多种语音相关的任务。

zhvoice语料由智浪淘沙清洗和处理。
2）下载链接
 https://github.com/fighting41love/zhvoice

文章出处登录后可见！

已经登录？立即刷新

人工智能自然语言处理

赞 (0)

社会演员多普通用户

0

部署运行ai智障写作记录【ChatRWKV】

上一篇 2023年3月28日

模型调参常见问题及Aadm优化器调参记录

下一篇 2023年3月28日

人工智能(Pytorch)搭建模型6-使用Pytorch搭建卷积神经网络ResNet模型 2023年6月25日
【论文】基于AI边缘计算的铁路行车视频监控智能识别研究 2023年2月26日
AI实战，用Python玩个自动驾驶！ 2023年12月7日
ChatGPT4和python完美融合，快速完成数据分析与可视化、人工智能建模及论文高效撰写 2024年1月6日
Koala：加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到 2024年1月11日
深度学习数据增强方法-内含（亮度增强，对比度增强，旋转图图像，翻转图像，仿射变化扩充图像，错切变化扩充图像，HSV数据增强）七种方式进行增强-每种扩充一张实现7倍扩）+ 图像缩放代码-批量 2022年4月3日
AI 绘画 | Stable Diffusion 去除照片马赛克 2023年12月22日
数学建模学习（102）：成分数据分析之中心对数比转换 2023年3月1日
全网最详细中英文ChatGPT接口文档（五）30分钟快速入门ChatGPT——手把手示例教程：如何建立一个人工智能回答关于您的网站问题，小白也可学 2023年5月8日
2023年！自然语言处理（NLP）10 大预训练模型 2023年8月3日
YOLOV7改进–添加CBAM注意力机制 2023年2月5日
【目标检测】YOLOv5模型从大变小，发生了什么？ 2023年3月4日
掌握AI图像篡改检测工具，轻松识别图片造假 2023年7月15日
推荐算法之–矩阵分解(Matrix Factorization) 2022年3月11日
LSTM从入门到精通（形象的图解，详细的代码和注释，完美的数学推导过程） 2023年9月6日
（1）VisDrone无人机目标检测数据集介绍 2023年7月11日