引言

本页面用于约定一个与业界通用的统一的标准术语规范,方便大家讨论交流,不要凭自己的臆想使用,更不要自己随意简写、缩写和“造词”,否则容易误导他人和产生歧义,影响交流效率。

ASRT项目及作者相关术语

  • ASRT
    一个基于深度学习的中文语音识别系统,来源于“Automatic Speech Recognition Tool”的首字母缩写,现专指由ASRT项目作者(AI柠檬博主)开发的这一套语音识别系统。
    注意:区别于 ASR

  • ASRT客户端
    使用ASRT中文语音识别系统的客户端程序,接入了ASRT客户端SDK或者调用了ASRT服务端的API接口。
    注意:区别于 AI柠檬客户端

  • AI柠檬客户端
    浏览AI柠檬网的客户端,以AI柠檬博客上的内容为主,具有站内搜索功能。
    注意:区别于 ASRT客户端

语音技术相关术语

  • ASR
    意为:“自动语音识别”,是英文全名“Automatic Speech Recognition”的缩写,现泛指所有语音识别技术相关的科研和工程领域。
  • 语音数据集
    特指由包含人声的语音的数据集,可用于语音识别、语音合成、说话人识别(验证)、唤醒词等领域的相关算法和技术开发。也可称之为“语料库”,语音数据集是语料库中的一种数据集,广义的语料库还包括自然语言处理NLP方面的数据集。在“港澳台”及海外等地区,有部分人会称“语音数据集”为“语音资料集”。
    注意:
    1.区别于“声音数据集”。
    2.不可简写为“语音集”等。
    3.不可称之为“语音数据库”,“数据库”有其特定使用场景和意义,这里并没有数据库技术的应用。

机器学习相关术语

  • 数据集 (训练集、验证集、开发集、测试集)
    用于机器学习的数据的集合,根据需要可划分为训练集、验证集(开发集)、测试集,分别用于训练,正确率的开发验证,和最终识别效果的检测(评估最终的泛化性能、识别率等)。
    详细介绍可参考AI柠檬博主的文章:机器学习:数据集的划分 | AI柠檬
    注意:
    1.不可称之为“数据库”,“数据库”有其特定使用场景和意义,这里并没有数据库技术的应用。
    2.不可称之为“训练库”等自己造的词,请使用标准术语。
    3.注意“数据集”与“训练集”的区分,不要混淆概念,并且,“训练数据集”与“训练集”含义相同。

  • 预训练
    指将大量低成本收集的训练数据放在一起,经过某种预训方法去学习其中的共性,然后将其中的共性“移植”到特定任务的模型中,再使用相关特定领域的少量标注数据进行“微调”,这样的话,模型只需要从”共性“出发,去“学习”该特定任务的“特殊”部分即可,属于迁移学习范畴。

计算机科学与技术相关术语

其他术语

作者:AI柠檬  创建时间:2021-12-07 15:34
 更新时间:2023-07-16 01:49