1. 数据集
中文全部开源语音数据集收录合集:几个最新免费开源的中文语音数据集
包含了数据集规格说明介绍,以及下载地址
ASRT语音识别系统默认使用下列全部数据集。
数据集 | 时长 | 大小 | 国内下载 | 国外下载 | 其他下载方式 |
---|---|---|---|---|---|
THCHS30 | 40h | 6.01G | data_thchs30.tgz | data_thchs30.tgz | 百度网盘 (提取码:5szx) |
ST-CMDS | 100h | 7.67G | ST-CMDS-20170001_1-OS.tar.gz | ST-CMDS-20170001_1-OS.tar.gz | 百度网盘 (提取码:wlcy) |
AIShell-1 | 178h | 14.51G | data_aishell.tgz | data_aishell.tgz | 百度网盘 (提取码:q05t) |
Primewords | 100h | 8.44G | primewords_md_2018_set1.tar.gz | primewords_md_2018_set1.tar.gz | 百度网盘 (提取码:2ng3) |
MagicData | 755h | 52G/1.0G/2.2G | train_set.tar.gz / dev_set.tar.gz / test_set.tar.gz | train_set.tar.gz / dev_set.tar.gz / test_set.tar.gz | 百度网盘 (提取码:s61o) |
1.1 清华大学THCHS30中文语音数据集
- data_thchs30.tgz
OpenSLR国内镜像 | OpenSLR国外镜像 | 百度网盘 (提取码:5szx)
test-noise.tgz
OpenSLR国内镜像 | OpenSLR国外镜像resource.tgz
OpenSLR国内镜像 | OpenSLR国外镜像
1.2 Free ST Chinese Mandarin Corpus
- ST-CMDS-20170001_1-OS.tar.gz
OpenSLR国内镜像 | OpenSLR国外镜像 | 百度网盘 (提取码:wlcy)
1.3 AIShell 开源版数据集
data_aishell.tgz
OpenSLR国内镜像 | OpenSLR国外镜像 | 百度网盘 (提取码:q05t)注:数据集解压方法
$ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
1.4 Primewords Chinese Corpus Set 1
- primewords_md_2018_set1.tar.gz
OpenSLR国内镜像 | OpenSLR国外镜像 | 百度网盘 (提取码:2ng3)
1.5 MagicData
百度网盘 (提取码:s61o)
train_set.tar.gz
OpenSLR国内镜像 | OpenSLR国外镜像dev_set.tar.gz
OpenSLR国内镜像 | OpenSLR国外镜像test_set.tar.gz
OpenSLR国内镜像 | OpenSLR国外镜像metadata.tar.gz
OpenSLR国内镜像 | OpenSLR国外镜像
1.6 其他数据集
其他公开开源数据集还有诸如 Speechocean 、 AISHELL-4 、 Mozilla Common Voice 、 TAL_ASR 、 WeNetSpeech 等,ASRT暂未使用,也没有对应的datalist文件,欢迎大家志愿参与贡献开源。
特别鸣谢!感谢前辈们的公开语音数据集
如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR
2. 说明
注:通过运行下载datalist的脚本后,在datalist/
目录下的文件为AI柠檬整理好的数据集的列表和标签,对应的数据集仍需另外下载。如果由于源数据集更新导致datalist里面的列表文件不适用,可酌情移除该数据集的使用,在AI柠檬有空能够重新处理完之前,请先自行处理,也可以发布出来贡献开源,为社区贡献一份力。
关于数据集文件的路径树,可以直接参考datalist目录下的.lst和.txt文件中的内容进行排放
下载后的文件解压,目录对应如下:
/data/speech_data/data_thchs30/train/*.wav
/data/speech_data/data_thchs30/dev/*.wav
/data/speech_data/data_thchs30/test/*.wav
/data/speech_data/ST-CMDS-20170001_1-OS/*.wav
最后编辑:AI柠檬 更新时间:2024-11-06 22:17