语音认别—唤醒技术KWS介绍

语音认别—唤醒技术KWS介绍

由于目前终端(如手机)上的CPU还不足够强劲,不能让语音识别的各种算法跑在终端上,尤其现在语音识别都是基于深度学习来做了,更加不能跑在终端上,所以目前主流的语音识别方案是声音采集和前处理在终端上做,语音识别算法则放在服务器(即云端)上跑。虽然这种方案有泄漏隐私(把终端上的语音数据发给服务器)和没有网络不能使用等缺点,但也是不得已而为之的,相信在不久的将来等终端上的CPU足够强劲了会把语音识别的所有实现都放在终端上的。

是不是意味着终端上做不了语音识别相关的算法了?其实也不是,语音唤醒功能是需要在终端上实现的。语音唤醒是指设定一个唤醒词,如Siri的”Hi Siri”,只有用户说了唤醒词后终端上的语音识别功能才会处于工作状态,否则处于休眠状态。这样做主要是为了降功耗,增加续航时间。目前很多终端都是靠电池供电的,对功耗很敏感,是不允许让语音识别功能一直处于工作状态的。

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

语音认别---唤醒技术KWS介绍

G oogle 基于CNN实现的算法,属于Deep KWS方案

评判标准:FRR (False Reject Rate), “漏警率”, CNN的FRR比DNN的FRR提升了27%~44%.

它限制了乘法运算和参数的数量。

[En]

It limits the operation of multiplication and the number of parameters.

很早以前大家使用HMM,后来2014年,Google使用了DNN的方案SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS – 2014 IEEE,然后2014年有人使用CNN进行语音识别Deep Convolutional Neural Networks for large-scale speech tasks, 但是这种CNN架构对计算量要求比较大,而KWS方案对计算量要求有一定的限制,所以本论文中他们提出了优化了版本的CNN方案。

Baidu基于CRNN实现的算法KWS方案

又一个Deep KWS方案

CRNN (Convolutional Recurrent Neural Networks): CNN+RNN,

流程:PCEN -> CNN -> BRNN -> DNN -> SoftMax

RNN对信噪比大的场景很有帮助

Apple基于DNN实现的算法KWS方案

没找到Apple发的相关论文,只找到两篇Apple官方提供的文档,Apple对音频的识别是基于DNN模型实现的,但是他有2个DNN模型,首先会用一个计算量较小的模型进行预检,然后再用更加精确的Large DNN进行计算,语音识别后,在通过HMM Scorer计算得分,如果分数满足阈值要求,会触发Siri。但是如果不满足要求,系统也会进入几秒的敏感期,这个敏感期内,如果用户再次重复这个主题,那么会快速识别,这样降低了漏报率。
手表中使用的DNN模型只有一个,是介于Small DNN和Large DNN之间的模型。

语音认别---唤醒技术KWS介绍

Original: https://blog.csdn.net/baiyibin0530/article/details/113933435
Author: 宁静以致墨
Title: 语音认别—唤醒技术KWS介绍

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524769/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球