目录搜索展开

暂无相关搜索结果！

阅读次数：5356

本文档使用 MinDoc 发布

标准术语规范约定

引言
ASRT项目及作者相关术语
语音技术相关术语
机器学习相关术语
计算机科学与技术相关术语
其他术语

引言

本页面用于约定一个与业界通用的统一的标准术语规范，方便大家讨论交流，不要凭自己的臆想使用，更不要自己随意简写、缩写和“造词”，否则容易误导他人和产生歧义，影响交流效率。

ASRT项目及作者相关术语

ASRT
一个基于深度学习的中文语音识别系统，来源于“Automatic Speech Recognition Tool”的首字母缩写，现专指由ASRT项目作者(AI柠檬博主)开发的这一套语音识别系统。
注意：区别于 ASR
ASRT客户端
使用ASRT中文语音识别系统的客户端程序，接入了ASRT客户端SDK或者调用了ASRT服务端的API接口。
注意：区别于 AI柠檬客户端
AI柠檬客户端
浏览AI柠檬网的客户端，以AI柠檬博客上的内容为主，具有站内搜索功能。
注意：区别于 ASRT客户端

语音技术相关术语

ASR
意为：“自动语音识别”，是英文全名“Automatic Speech Recognition”的缩写，现泛指所有语音识别技术相关的科研和工程领域。
语音数据集
特指由包含人声的语音的数据集，可用于语音识别、语音合成、说话人识别(验证)、唤醒词等领域的相关算法和技术开发。也可称之为“语料库”，语音数据集是语料库中的一种数据集，广义的语料库还包括自然语言处理NLP方面的数据集。在“港澳台”及海外等地区，有部分人会称“语音数据集”为“语音资料集”。
注意：
1.区别于“声音数据集”。
2.不可简写为“语音集”等。
3.不可称之为“语音数据库”，“数据库”有其特定使用场景和意义，这里并没有数据库技术的应用。

机器学习相关术语

数据集 (训练集、验证集、开发集、测试集)
用于机器学习的数据的集合，根据需要可划分为训练集、验证集(开发集)、测试集，分别用于训练，正确率的开发验证，和最终识别效果的检测(评估最终的泛化性能、识别率等)。
详细介绍可参考AI柠檬博主的文章：机器学习：数据集的划分 | AI柠檬
注意：
1.不可称之为“数据库”，“数据库”有其特定使用场景和意义，这里并没有数据库技术的应用。
2.不可称之为“训练库”等自己造的词，请使用标准术语。
3.注意“数据集”与“训练集”的区分，不要混淆概念，并且，“训练数据集”与“训练集”含义相同。
预训练
指将大量低成本收集的训练数据放在一起，经过某种预训方法去学习其中的共性，然后将其中的共性“移植”到特定任务的模型中，再使用相关特定领域的少量标注数据进行“微调”，这样的话，模型只需要从”共性“出发，去“学习”该特定任务的“特殊”部分即可，属于迁移学习范畴。

计算机科学与技术相关术语

其他术语

作者：AI柠檬创建时间：2021-12-07 15:34
最后编辑：AI柠檬更新时间：2026-04-10 01:42