语音识别功能集成总结

2023年5月27日下午12:43 • 人工智能 • 阅读 95

一、场景

业务需求，需要集成语音识别功能，用于移动使用。

[En]

Business requirements, the need to integrate speech recognition function for mobile use.

二、调研

在初步了解后，决定整合国内三大主流厂商，iFLYTEK、百度、腾讯。不用说，在语音识别之前，iFLYTEK被评为全球最聪明的50家公司之一，紧随其后的是两家传统的大公司。

[En]

After a preliminary understanding, decided to integrate the three mainstream domestic manufacturers, iFLYTEK, Baidu, Tencent. Needless to say, iFLYTEK was ranked as one of the 50 smartest companies in the world before voice recognition, followed by two traditional big companies.

三、基本技术概念

VAD Voice Activity Detection，语音端点检测技术。

这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，因为语音中含有很长的静音，也就是把静音和实际语音分离开来，因为是语音数据的原始处理，所以VAD是语音信号处理过程的关键技术之一。它的好坏，直接影响成败，由于技术本身的特殊性，所以在涉及语音信号处理的领域，端点检测技术的应用非常广泛。语音识别系统在识别或者声学模型训练阶段所遇到的第一个技术就是端点检测，把静音和噪声作为干扰信号从原始数据中去除，并且端点检测对于语音识别系统的性能至关重要。

四、集成

1、科大讯飞

账号注册地址：https://www.xfyun.cn/doc/platform/quickguide.html

集成文档说明地址：语音听写 Android SDK 文档 | 讯飞开放平台文档中心

其移动端的说明为语音转写，没有区分长语音和短语音，也就是所谓的实时语音转写，集成还算方便，使用过程中系统会根据VAD检测自动结束识别。

回调事件：

开始

onBeginOfSpeech

结束

onEndOfSpeech

文本结束

onResult 中有isLast 自动判断

参数设置说明：https://www.xfyun.cn/doc/asr/voicedictation/Android-SDK.html#_2%E3%80%81sdk%E9%9B%86%E6%88%90%E6%8C%87%E5%8D%97

2、百度

账号注册地址： https://cloud.baidu.com/doc/UserGuide/s/Fkiprudwp

集成文档说明地址：https://ai.baidu.com/ai-doc/SPEECH/5khq3i39w

实时语音识别中分长语音和短语音两种模式，后者即开启静音检测，但是不支持设置超时时间，实际上不使用其自训练模型，只支持设置语言pid。

回调事件，苹果平台：

正常短语音识别结束的回调流程：

[En]

Callback process for the end of normal short speech recognition:

EVoiceRecognitionClientWorkStatusEnd

EVoiceRecognitionClientWorkStatusFinish

EVoiceRecognitionClientWorkStatusChunkEnd

用户在没有声音时检测到的过程：

[En]

The process detected by the user when there is no voice:

EVoiceRecognitionClientWorkStatusError

长语音识别，检测无语音的用户

[En]

Long speech recognition, detection of users without voice

EVoiceRecognitionClientWorkStatusStart

EVoiceRecognitionClientWorkStatusChunkEnd

EVoiceRecognitionClientWorkStatusLongSpeechEnd

百度在整合过程中遇到了参数设置不生效的问题。调试了很长时间，才知道官网上列出的很多参数都需要它的自训模式。这一点不清楚，需要抱怨。

[En]

Baidu encountered the problem that the parameter setting did not take effect in the process of integration. After debugging for a long time, I only knew that many of the parameters listed on the official website needed its self-training model. This point is not clear and needs to complain.

百度开发者的账号只能有半年的免费试用期。如果过期，则会报告如下错误：

[En]

Baidu developers can only have a half-year free trial period for an account. If it expires, an error will be reported as follows:

2021-11-08 14:08:34.985 15556-16225/com.org.BaseWebviewApp E/ASREngine: EVoiceRecognitionClientWorkStatusError errorDomain : 33 errorCode : -3004 desc : Server app name unknown.[(-3004)4: Open api request limit reached] mLastRecognitionResult:

3、腾讯

账号注册地址： https://cloud.tencent.com/document/product/378/17985

集成文档说明地址：语音识别实时语音识别 – SDK 文档 – 文档中心 – 腾讯云

实时语音识别也分为两种模式：长语音和短语音。启用静音检测时，可以设置超时。

[En]

Real-time speech recognition is also divided into two modes: long and short speech. When mute detection is enabled, the timeout can be set.

回调事件, SDK 安卓平台还有缺陷：

3.1 目前的回调在开启静音检测后，超时后语音识别成功，不会回到onSuccess，所以暂时将语音识别文本返回放在了状态回调 onStopRecord 中。

3.2 另外就是在demo中的识别分片间隔设置太大，如果没注意的话，可能会导致自己设置的静音超时时间不生效的假象。

final AudioRecognizeConfiguration audioRecognizeConfiguration = new AudioRecognizeConfiguration.Builder()

.setSilentDetectTimeOut(true)// 是否使能静音检测，true表示不检查静音部分

.audioFlowSilenceTimeOut(3000) // 静音检测超时停止录音

. minAudioFlowSilenceTime(2000) // 语音流识别时的间隔时间

.minVolumeCallbackTime(80) // 音量回调时间

.sensitive(2.5f)

.build();

3.3 在多次重复调用开启语音识别时，可能是由于前一次任务没有结束，接口不支持并发，会导致第二次启动报错，然后终止整个识别任务。

2021-02-24 12:11:40.652 5332-5389/com.tencent.iot.speech.app I/WebsocketTaskManager: WebSocketListener onMessage String{“code”:4008,”message”:”客户端数据上传超时”}

2021-02-24 12:11:40.654 5332-5389/com.tencent.iot.speech.app I/MainActivity: onFailure..:code=4008, message=客户端数据上传超时

以上就是三个厂商在集成过程中总结的基本特性，总体来说，科大讯飞是老玩家了，这个比较成熟，SDK也应该好久没有更新了，在识别准确度和语音以及方言支持方面，确认无人能及。

百度的官方文档说明不够清晰，在一些参数的调试方面会让开发者比较疑惑。腾讯也行在大力开发这方面的功能，所以更新比较频繁，就在我集成的过程中，其SDK都有了版本更新，所以对于、

一体化用户多少有点像老鼠，但他们对工单的反馈非常正面，可能是因为有了最新的考核机制，就连开发者也像当年的淘宝卖家一样，屡次乞求五星好评。

[En]

Integrated users are more or less like mice, but their feedback on work orders is very positive, perhaps because of the latest assessment mechanism, and even developers, like Taobao sellers at that time, have repeatedly begged for five-star praise.

五、各个厂商接口统一

由于移动端提供的native功能对于前段调用来说要磨平厂商差异，所以对于接口需要进行统一处理，最终基于折中，将使用方式都改为了默认使用长语音识别，一次识别控制在60秒以内。当然科大讯飞没有

在该模型中，只能将超时设置得尽可能大，以减少体验中的不一致。

[En]

In this model, the timeout can only be set as large as possible to reduce inconsistencies in the experience.

Original: https://blog.csdn.net/yangwubolwg/article/details/114286661
Author: 杨武博
Title: 语音识别功能集成总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526180/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习中正样本、负样本、简单样本、困难样本的区别（简单易懂）

在读论文或者看一些博客的时候，经常会出现这种名词：正样本、负样本、简单样本以及困难样本，最近自己为了加深这方面的理解，参考网上的一些资料，整理了下这几者之间的区别，方便自己查看也方…

人工智能 2023年6月16日
0062
C++之Hello World

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0058
【WY】数据处理 — Python 阶段一：基础语法九 —— 分类分析：聚类分析

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、基础理论 * 1.1 聚类分析 – 1.1.1 介绍 1.1.2 分类 1.2 矩阵分解 &#821…

人工智能 2023年7月2日
0086
Pytorch搭建CNN进行图像分类

PyTorch是一个开源的Python机器学习库，2017年1月，由Facebook人工智能研究院（FAIR）基于Torch推出。最近抽出时间来亲身实践一下用PyTorch搭建一个…

人工智能 2023年7月6日
0067
岭回归-回归实操

python 岭回归算法之回归实操基本概念正则化正则化是指对模型做显式约束，以避免过拟合。本文用到的岭回归就是L2正则化。（从数学的观点来看，岭回归惩罚了系数的L2范数或w的…

人工智能 2023年6月18日
0051
时空预测2-GCN_LSTM

参考： https://keras.io/examples/timeseries/timeseries_traffic_forecasting/ 任务：交通多步预测准备数据节…

人工智能 2023年7月27日
0090
专业名词（ADAS）

MEB ADAS术语大全 APA PDC FCTA FCTB RCTA RCTB 小鹏G3 手册 NOP IHC 智能远光灯控制系统（IHBC）_搜狐汽车_搜狐网 ALC ICC …

人工智能 2023年6月10日
0067
【模式识别】SVM实现人脸表情分类

import os import numpy as np import cv2 import matplotlib.pyplot as plt import seaborn fro…

人工智能 2023年7月1日
0088
利用支持向量机(SVM)进行分类的Matlab实现

文章目录前言一、支持向量机是什么？二、步骤 * 1.构建特征矩阵和类标签 2.使用fitcsvm函数训练svm 3.使用predict函数验证svm 4.完整代码总结前言…

人工智能 2023年6月16日
0081
VSM向量空间模型

文章目录 VSM概念及应用场景 * 文本分类的概念 VSM涉及的概念 VSM模型及相似性度量特征项的选择项的权重计算 * TF(Term frequency) IDF(Inve…

人工智能 2023年5月28日
0076
opencv-python基于霍夫变换的图像矫正和表格补齐

文章目录背景</a></li> <li><a href="#-12">思路</a></li&…

人工智能 2023年6月19日
0084
复现CLOCs中spconv v1.0 (commit 8da6f96)踩坑记录

最近看了一篇基于KITTI做2D和3D后融合的论文，CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detec…

人工智能 2023年6月11日
0092
Fashion MNIST与分类算法

1 算法描述 Fashion-MNIST是一个数据集合，由Zalando提供的有关时尚流行的服饰衣物的图像集合，主要用于机器学习，使用该数据集合构建的模型主要用于识别目前时尚流行的…

人工智能 2023年7月17日
0071
改变conda虚拟环境的默认路径

anaconda下指定虚拟环境的创建路径conda环境默认安装在用户目录C:\Users\username.conda\envs下，如果选择默认路径，那么之后创建虚拟环境，也是安装…

人工智能 2023年5月31日
00119
【论文导读】- Federated Graph Neural Networks: Overview, Techniques and Challenges（联邦图神经网络：概述、技术和挑战）

文章目录论文信息摘要论文内容与结构 * 1. Introduction 2. Terminology and Taxonomy（术语与分类法） 3. Data Owners …

人工智能 2023年7月26日
0053
逻辑回归（Logistic Regression）

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、逻辑回归简介与用途二、逻辑回归的理论推导 1、问题描述和转化 …

人工智能 2023年7月18日
0059

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

语音识别功能集成总结

1、科大讯飞

2、百度

3、腾讯

大家都在看