一种不太聪明的电话语音识别方案

现如今ASR(语音识别技术)发展到什么阶段我不清楚,但识别率肯定是达不到100%的,识别率跟你所采用的识别模型,声音样本丰富程度,和语音文件的音质有关。 如果普通话标准,且语音文件质量可以的情况下,主流的几大厂商识别结果还是比较准确的,比如手机的语音输入法,语音控制,基本上可以达到97%的准确率。 但电话的语音识别比较尴尬,基本上现在运营商的通话线路都是压缩为8000Hz的采样率,再加上现场环境噪音,网络波动影响,口音问题等等,导致电话中的语音识别准确率普遍不高。

这才是真正的问题,那么有没有办法提高手机识别的准确率呢?我有一个不太聪明的主意。

[En]

This is the real problem, so is there any way to improve the accuracy of recognition on the phone? I have a not-so-clever idea.

现在普遍的电话语音识别,基本上都是根据识别结果,来匹配预设的关键词。(那些所谓标榜智能电话,用到NLP技术的,我就纳闷你连基本的识别准确度都还没解决呢,谈什么NLP。)

然而,电话中的许多因素导致识别准确率较低。例如:

[En]

However, many factors in the telephone lead to low recognition accuracy. For example:

  1. “您好”, “你好” 这种的还算一个意思。
  2. “我在仁和”,”我在人和”,这就完全是两个地方了,但这种的发音还是一样的。
  3. “我要几家”,”我要寄件”,这两个既不是同一个意思,发音也不一样了,但总归发音还是有接近之处。

针对这三种情况,我不太聪明的做法是:

[En]

In view of these three situations, my not-so-clever way is:

第一种,做同义词库

第二种,转拼音来匹配

第三,转换为拼音后,计算拼音相似度,根据最终的多个词相似度的比较,以及不同关键词个数的设置阈值,计算出最一致的结果。

[En]

Third, after converting to Pinyin, calculate the Pinyin similarity, according to the comparison of the final similarity of multiple words, as well as different number of keywords to set the threshold to calculate the most consistent result.

把三种方法结合后:
例如语音说: “你好,我在人和,我想要联系快递点,有很多货要寄件”。
语音识别结果: 您好,我在仁和,我想要练习,快点,有很多活,要几家

关键词: 你好,人和,快递点,寄件,

1,先根据关键词的同义词库,来匹配一遍,得出命中关键词,你好。
2,把识别结果和关键词用中文分词库来分词(有一些开源的可选),将分词后的词都转为拼音。
3,用每一个关键词去匹配识别结果的分词,根据相似度计算出一个分数。由于字数多少的关键词匹配度不尽相同,例如 “很多家” 和”恒大” 这样的三个字和两个字我们要区别对待,一般来说,如果两个关键词匹配度一样,往往字数多的那一个更加贴合实际,所以我们要给不同字数来设定一个”系数”和”阈值”,系数用来参与计算最终符合的那个词,阈值用于决定达到多少相似度才算命中关键词。 例如我们给两个字的关键词设置阈值为85, 如果最终匹配的相似度不足85,则表示没有命中该关键词,具体不同字数的关键词的阈值,需要一些样本数据来统计。
4,实际场景中,由于关键词也有优先度,例如”寄件”属于业务词,可能重要级高于”几家”,再比如”不是的”肯定比”是的”更优先,虽然”不是的”包含了”是的”,但说话的意思是前一个。所以根据词的属性,例如 疑问词,肯定词,否定词,或者按照行业特性来分类的价格词,方案词,服务词。 我们给这些不同的词配一个权重值。

最后,关键字的得分是匹配度的得分系数权重,最后从命中的关键字中选出得分最高的一个或多个单词,即最符合实际含义的一个或多个单词。

[En]

Then in the end, the score of a keyword is the score * coefficient * weight of the matching degree, and finally the one or more words with the highest score are selected from the hit keywords, that is, the word or words that most accord with the actual meaning.

好吧..。不,不,不。今天,总体感受是:

[En]

Well… no, no, no. Today, the overall feeling is as follows:

一种不太聪明的电话语音识别方案

Original: https://blog.csdn.net/a645993095/article/details/121506279
Author: 小熊xs
Title: 一种不太聪明的电话语音识别方案

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/512197/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球