ASRT语音识别工具文档

Welcome to the ASRT SpeechRecognition wiki document!
欢迎来到自动语音识别工具Wiki文档!

ASRT是AI柠檬博主(西安电子科技大学 · 西安市大数据与视觉智能重点实验室)从2016年起做的开源语音识别项目,相关的多个平台的客户端SDK也已经开源在GitHub和Gitee上。其中,ASRT语音识别API已经为AI柠檬站内搜索引擎提供了语音识别服务,用于该站语音搜索功能的实现。

本文档使用MarkDown编写。

快捷链接

ASRT项目主页 | ASRT在线语音识别体验Demo | 作者及交流群联系方式

快速开始

$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
$ cd ASRT_SpeechRecognition

$ python download_default_datalist.py
$ mkdir /data/speech_data/
# 然后下载默认的6个语音数据集放到 /data/speech_data/ 目录下并解压
# 请注意是 /data/speech_data/ 而不是 data/speech_data/,如果不懂有什么区别请先去学习Linux基础知识
# 训练
$ python3 train_speech_model.py
# 评估
$ python3 evaluate_speech_model.py
# 开启API服务
$ python3 asrserver.py

更多详细步骤请查看文档:从零开始上手教程

关于“预训练模型”问题:

本项目自身不采用“预训练模型”这一说法,因为并不需要迁移学习,由于ASRT项目的持续发展,模型配置不断迭代,不同时期版本的模型参数文件在数据维度和含义表示上是互不兼容的,不可交叉使用。但是可以下载ASRT项目作者(AI柠檬博主)已经训练并打包好的发布版成品,运行后提供API服务。
ASRT服务端下载页面中,可下载到完整可用的,可直接运行提供语音识别API服务的打包后的文件,如果打算直接使用,可以直接下载部署使用,无需再训练

如果有需要迁移学习的任务,请在相同的发布版本下进行相关工作。

Docker部署

仅CPU运行推理识别,不作训练

$ docker pull ailemondocker/asrt_service:1.1.0
$ docker run --rm -it -p 20000:20000 --name asrt-server -d ailemondocker/asrt_service:1.1.0

Star趋势

仓库地址:https://github.com/nl8590687/ASRT_SpeechRecognition

Stargazers over time

ASRT相关资源

ASRT的原理请查看本文:ASRT:一个中文语音识别系统

关于经常被问到的统计语言模型原理的问题,请看:
统计N元语言模型生成算法:简单中文词频统计

统计语言模型:从中文拼音到文本

使用ASRT训练和部署语音识别的原版完整教程:

教你如何使用ASRT训练中文语音识别模型

教你如何使用ASRT部署中文语音识别API服务器

关于ASRT语音识别演示和测试API:

ASRT语音识别网页版体验Demo 由于网络可能存在延时,请耐心等待识别结果,不需要连续不停地点“上传识别”,会导致服务器CPU负载过重

ASRT免费测试版API服务器地址:https://api.ailemon.net/asrt/v1/,可以在Windows客户端Demo里填写并运行识别,也可以用于使用客户端SDK进行应用开发。

参考引用本项目

DOI: 10.5281/zenodo.5808435

联系作者及交流讨论

联系方式请查阅 联系作者及交流讨论 页面

有关AI柠檬ASRT语音项目的相关信息亦可使用AI柠檬站内搜索引擎进行相关信息的搜索。


西安电子科技大学 · 西安市大数据与视觉智能重点实验室

文档更新时间: 2022-01-09 16:43   作者:AI柠檬