1. 数据集

中文全部开源语音数据集收录合集:几个最新免费开源的中文语音数据集
包含了数据集规格说明介绍,以及下载地址

ASRT语音识别系统默认使用下列全部数据集。

数据集 时长 大小 国内下载 国外下载 其他下载方式
THCHS30 40h 6.01G data_thchs30.tgz data_thchs30.tgz 百度网盘 (提取码:5szx)
ST-CMDS 100h 7.67G ST-CMDS-20170001_1-OS.tar.gz ST-CMDS-20170001_1-OS.tar.gz 百度网盘 (提取码:wlcy)
AIShell-1 178h 14.51G data_aishell.tgz data_aishell.tgz 百度网盘 (提取码:q05t)
Primewords 100h 8.44G primewords_md_2018_set1.tar.gz primewords_md_2018_set1.tar.gz 百度网盘 (提取码:2ng3)
MagicData 755h 52G/1.0G/2.2G train_set.tar.gz / dev_set.tar.gz / test_set.tar.gz train_set.tar.gz / dev_set.tar.gz / test_set.tar.gz 百度网盘 (提取码:s61o)

1.1 清华大学THCHS30中文语音数据集

1.2 Free ST Chinese Mandarin Corpus

1.3 AIShell 开源版数据集

1.4 Primewords Chinese Corpus Set 1

1.5 MagicData

百度网盘 (提取码:s61o)

1.6 其他数据集

其他公开开源数据集还有诸如 SpeechoceanAISHELL-4Mozilla Common VoiceTAL_ASRWeNetSpeech 等,ASRT暂未使用,也没有对应的datalist文件,欢迎大家志愿参与贡献开源。

特别鸣谢!感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR

2. 说明

注:通过运行下载datalist的脚本后,在datalist/目录下的文件为AI柠檬整理好的数据集的列表和标签,对应的数据集仍需另外下载。如果由于源数据集更新导致datalist里面的列表文件不适用,可酌情移除该数据集的使用,在AI柠檬有空能够重新处理完之前,请先自行处理,也可以发布出来贡献开源,为社区贡献一份力。

关于数据集文件的路径树,可以直接参考datalist目录下的.lst和.txt文件中的内容进行排放

下载后的文件解压,目录对应如下:

/data/speech_data/data_thchs30/train/*.wav
/data/speech_data/data_thchs30/dev/*.wav
/data/speech_data/data_thchs30/test/*.wav
/data/speech_data/ST-CMDS-20170001_1-OS/*.wav
作者:AI柠檬  创建时间:2021-11-26 17:26
最后编辑:AI柠檬  更新时间:2024-05-19 20:49