人工智能技术基础系列之:语音识别与语音处理

作者:禅与计算机程序设计艺术

1.简介

语音识别(英语:Speech recognition)是一个广义上的概念,泛指在不同场景、不同的条件下通过语言或口头获取信息并转换成文字的能力。具体来说,语音识别就是把人类的声音或者说话转化成计算机可以理解的文字、数字信号。语音识别技术应用于很多领域,如自动驾驶、智能助手、虚拟个人助理等。

相对于图片识别、文本识别、对象检测等任务,语音识别的特点是环境复杂、模糊、噪声、音量小、变化多,而且需要对音频进行特征提取、分类、建模、计算,才能最终实现“听到即识别”的效果。而对于语音识别技术本身,它是一门十分重要的学科,涉及统计学、数学、工程技术、语音学、语言学等多个学科,它的技术发展历史也非常悠久。因此,掌握语音识别技术对各行各业都至关重要。

随着人类社会的不断发展,智能设备越来越普及,人的生活越来越富裕。由于人们的日益聪明,他们更加关注自己的生活,希望可以通过自己携带的各种语音输入信息。因此,语音识别技术的研究和应用日渐成为热点。语音识别技术主要由以下几个部分组成:

1.语音处理单元:包括语音采集、音频预处理、信号变换、加窗、分帧、编码、解码等过程。 2.信号分析算法:包括特征提取、频谱聚类、DNN、HMM等。 3.语言模型及相关工具:包括语言模型、词性标注、解码器、评测工具等。

基于以上三个部分,总体上可将语音识别技术分为如下几个阶段:

  1. 发音识别:通过分隔音素(又称音素),将发出声音的音素识别出来。
  2. 语言模型识别:利用统计模型将已知的语言文档中的语言片段识别出来。
  3. 混合模型:综合发音识别和语言模型识别技术,实现

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年11月13日
下一篇 2023年11月13日

相关推荐