语音识别是人机交互的入口,是指机器/程序接收、解释声音,或理解和执行口头命令 的能力。在智能时代,越来越多的场景在设计个性化的交互界面时,采用以对话为主的交互 形式。一个完整的对话交互是由“听懂——理解——回答”三个步骤完成的闭环,其中, “听懂”需要语音识别(Automatic Speech Recognition, ASR)技术;“理解”需要自然语 言处理(Natural Language Processing, NLP)技术;“回答”需要语音合成(Text To Speech, TTS)技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话 交互高效准确进行的基础。
语音识别技术自 20 世纪 50 年代开始步入萌芽阶段,发展至今,主流算法模型已经经 历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的 深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音 识别准确率可高达 98%以上。
… …