人工智能技术基础系列之：语音识别与语音处理

xiaoxingxing • 2023年11月13日下午8:20 • Python • 阅读 37

作者：禅与计算机程序设计艺术

1.简介

语音识别（英语：Speech recognition）是一个广义上的概念，泛指在不同场景、不同的条件下通过语言或口头获取信息并转换成文字的能力。具体来说，语音识别就是把人类的声音或者说话转化成计算机可以理解的文字、数字信号。语音识别技术应用于很多领域，如自动驾驶、智能助手、虚拟个人助理等。

相对于图片识别、文本识别、对象检测等任务，语音识别的特点是环境复杂、模糊、噪声、音量小、变化多，而且需要对音频进行特征提取、分类、建模、计算，才能最终实现“听到即识别”的效果。而对于语音识别技术本身，它是一门十分重要的学科，涉及统计学、数学、工程技术、语音学、语言学等多个学科，它的技术发展历史也非常悠久。因此，掌握语音识别技术对各行各业都至关重要。

随着人类社会的不断发展，智能设备越来越普及，人的生活越来越富裕。由于人们的日益聪明，他们更加关注自己的生活，希望可以通过自己携带的各种语音输入信息。因此，语音识别技术的研究和应用日渐成为热点。语音识别技术主要由以下几个部分组成：

1.语音处理单元：包括语音采集、音频预处理、信号变换、加窗、分帧、编码、解码等过程。 2.信号分析算法：包括特征提取、频谱聚类、DNN、HMM等。 3.语言模型及相关工具：包括语言模型、词性标注、解码器、评测工具等。

基于以上三个部分，总体上可将语音识别技术分为如下几个阶段：

发音识别：通过分隔音素（又称音素），将发出声音的音素识别出来。
语言模型识别：利用统计模型将已知的语言文档中的语言片段识别出来。
混合模型：综合发音识别和语言模型识别技术，实现

文章出处登录后可见！

已经登录？立即刷新

人工智能技术基础系列之：语音识别与语音处理

1.简介

相关推荐