1. 数据格式

1.1 语音数据文件

wav格式 diff文件头 采样频率16 kHz, 采样位数16 bits, 256 samples, 2 bytes 长度 (是不是raw格式都可以,只要能够正确读取内容即可)

1.2 标签数据文件

参照datalist/目录下文件

2. 数据集

中文全部开源语音数据集收录合集:几个最新免费开源的中文语音数据集
包含了数据集规格说明介绍,以及下载地址

ASRT语音识别系统默认使用下列全部数据集。

数据集 时长 大小 国内下载 国外下载 其他下载方式
THCHS30 40h 6.01G data_thchs30.tgz data_thchs30.tgz 百度网盘 (提取码:5szx)
ST-CMDS 100h 7.67G ST-CMDS-20170001_1-OS.tar.gz ST-CMDS-20170001_1-OS.tar.gz 百度网盘 (提取码:wlcy)
AIShell-1 178h 14.51G data_aishell.tgz data_aishell.tgz 百度网盘 (提取码:q05t)
Primewords 100h 8.44G primewords_md_2018_set1.tar.gz primewords_md_2018_set1.tar.gz 百度网盘 (提取码:2ng3)
aidatatang200zh 200h 17.47G aidatatang_200zh.tgz aidatatang_200zh.tgz 百度网盘 (提取码:tmyg)
MagicData 755h 52G/1.0G/2.2G train_set.tar.gz / dev_set.tar.gz / test_set.tar.gz train_set.tar.gz / dev_set.tar.gz / test_set.tar.gz

2.1 清华大学THCHS30中文语音数据集

2.2 Free ST Chinese Mandarin Corpus

2.3 AIShell 开源版数据集

2.4 Primewords Chinese Corpus Set 1

2.5 aidatatang_200zh

aidatatang_200zh.tgz
OpenSLR国内镜像 | OpenSLR国外镜像 | 百度网盘 (提取码:tmyg)

2.6 MagicData

百度网盘 (提取码:s61o)

2.7 其他数据集

其他公开开源数据集还有诸如 SpeechoceanAISHELL-4Mozilla Common VoiceTAL_ASRWeNetSpeech 等,ASRT暂未使用,也没有对应的datalist文件,欢迎大家志愿参与贡献开源。

特别鸣谢!感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR

3. 说明

注:通过运行下载datalist的脚本后,在datalist/目录下的文件为AI柠檬整理好的数据集的列表和标签,对应的数据集仍需另外下载。如果由于源数据集更新导致datalist里面的列表文件不适用,可酌情移除该数据集的使用,在AI柠檬有空能够重新处理完之前,请先自行处理,也可以发布出来贡献开源,为社区贡献一份力。

关于数据集文件的路径树,可以直接参考datalist目录下的.lst和.txt文件中的内容进行排放

下载后的文件解压,目录对应如下:

/data/speech_data/data_thchs30/train/*.wav
/data/speech_data/data_thchs30/dev/*.wav
/data/speech_data/data_thchs30/test/*.wav
/data/speech_data/ST-CMDS-20170001_1-OS/*.wav
文档更新时间: 2022-06-28 01:34   作者:AI柠檬