HarmonyOS之AI能力·语音识别技术

2023年5月25日上午7:22 • 人工智能 • 阅读 78

语音识别功能提供面向移动终端的语音识别能力。它基于华为智慧引擎（HUAWEI HiAI Engine）中的语音识别引擎，向开发者提供人工智能应用层 API。该技术可以将语音文件、实时语音数据流转换为汉字序列，准确率达到 90% 以上（本地识别 95%）。
语音识别技术，也称为自动语音识别（Automatic Speech Recognition, ASR），可以基于机器识别和理解，将语音信号转变为文本或命令。
语音识别支持的输入文件格式有 wav 或 pcm。
语音识别目前只支持普通话识别。

[En]

speech recognition currently only supports Putonghua recognition.*
语音识别输入时长不能超过 20s。
语音识别采样要求：采样率 16000Hz，单声道。
语音识别引擎的使用必须初始化和释放处理，且调用必须在 UI 的主线程中进行。
多线程调用：HUAWEI HiAI Engine 不支持同一应用使用多线程调用同一接口，这样会使某一线程调用 release 方法后，卸载模型，导致正在运行的另一些线程出错。故多线程执行同一功能达不到并行的效果。但是引擎支持使用多线程调用不同接口，如开启两个线程同时使用文档矫正和 ASR 接口。
支持语音输入法、语音搜索、实时字幕、游戏娱乐、社交聊天、人机交互(如驾驶模式)等有语音识别需求的第三方应用开发。

[En]

support the development of third-party applications with speech recognition requirements, such as voice input method, voice search, real-time subtitles, games and entertainment, social chat, human-computer interaction (such as driving mode) and other scenarios.*
语音输入法：直接语音输入需要输入的文本。也就是说，当用户说话时，语音识别引擎返回识别的汉字序列，这使得输入更加方便，解放了双手。

[En]

speech input method: input the text that needs to be entered directly by voice. That is, when the user speaks, the speech recognition engine returns the recognized sequence of Chinese characters, which makes the input more convenient and liberates the hands.*
语音搜索：搜索内容直接语音输入，可在客服系统中进行关键词搜索，同时转录成文本，搜索效率更高。
[En]
Voice search: search content is entered directly by voice, which can be used for keyword search in customer service system and transcribed into text at the same time, making the search more efficient.*
实时字幕：将直播、视频、直播语音等音频转换成实时字幕，降低理解成本，提升用户体验。
[En]
Real-time subtitles: convert live streaming, video, live speech and other audio into real-time subtitles to reduce understanding costs and enhance user experience.*
驾驶模式：在驾驶过程中，握住方向盘，不能分心操作手机选择音乐和打电话。使用语音识别，只要你对手机说一个命令，比如说一个/下一个来剪歌，或者在听音乐的时候调节音量，你就可以被手机识别并执行相应的操作。
[En]
driving mode: in the process of driving, holding the steering wheel, can not distract to operate the mobile phone to choose music and make calls. Using speech recognition, as long as you say a command to the phone, such as saying one / the next to cut the song or adjust the volume while listening to music, you can be recognized by the phone and perform the corresponding operation.*

接口功能接口原型接口描述实例化ASR客户端对象Optional createAsrClient(Context context)实例化一个ASR客户端对象，该对象用于调用ASR引擎能力初始化ASR服务void init(AsrIntent intent, AsrListener asrListener)初始化ASR服务。传入回调，用于等待ASR功能接口的调用过程和结果；以及传入初始化参数，初始化ASR引擎开始听取和识别语音void startListening(AsrIntent asrIntent)开始听取和识别语音。如果识别的是音频文件，则读取文件识别。

如果识别PCM语音数据流，则结合writePcm(byte[], int)来识别。在调用此方法前，需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务停止识别语音void stopListening()调用此方法，已经获取到的语音会完成识别，未获取到的语音将不再识别。

一般来说，在默认场景下，不需要调用此方法来停止识别，因为语音识别会自动判断语音是否已完成，然后自动停止识别。但是，您也可以在某个时刻调用此方法来手动停止识别。

[En]

In general, in the default scenario, there is no need to call this method to stop recognition, because speech recognition will automatically determine whether the speech has been completed, and then automatically stop recognition. However, you can also call this method to stop recognition manually at some point.

调用此方法前，需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务。写入PCM数据流，进行语音识别void writePcm(byte[] bytes, int length)调用此方法，写入PCM语音数据流，并对PCM进行语音识别。

调用此方法前，需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务。

在调用startListening(AsrIntent)}之后，将获取的PCM数据通过此方法来下发给ASR引擎处理。

PCM数据流长度存在限制：PCM数据流大小不能超过800KB，另外PCM数据流对应的音频长度不能超过20s。length代表有效长度，当前只支持1280或者640字节取消语音识别void cancel()取消语音识别，已经获取到的语音也不再识别。调用此方法前，需要先调用init(AsrIntent, AsrListener)来初始化ASR引擎服务销毁ASR服务void destroy()取消所有ASR任务，销毁ASR引擎服务。调用此方法后，无法再使用ASR服务。如果需要重新使用ASR服务，需要重新调用createAsrClient(Context)来创建 AsrClient实例

AsrListener 接口说明：

包名类名接口原型功能描述ohos.ai.asrAsrListenervoid onInit(PacMap params)ASR引擎初始化结束后，ASR的服务端会调用此回调接口处理初始化结果数据void onBeginningOfSpeech()ASR引擎检测到用户开始说话时，ASR服务端调用此回调接口void onRmsChanged (float rms)ASR引擎检测到音频输入的语音能量变化时，ASR服务端调用此回调接口处理语音能量void onEndOfSpeech()ASR引擎检测到用户说话停止时，调用此回调接口void onIntermediateResults(PacMap intermediateResults)ASR引擎语音识别过程中，当部分识别结果可以获取到时，调用此回调处理中间过程的识别结果void onError(int error)ASR语音识别过程中出现错误时，调用此回调接口void onResults(PacMap results)ASR引擎完成语音识别，调用此回调返回和处理完整的识别结果void onBufferReceived(byte[] buffer)ASR引擎每次接收到新输入的音频流时，会调用此回调接口处理接收到的语音流数据void onEvent(int eventType, PacMap params)ASR引擎检测到某些事件时，调用此接口上报事件给调用者void onEnd()ASR引擎识别结束时，调用此回调接口。但如果识别音频过程中被AsrClient类中的stopListening()或者cancel()方法打断，则不会调用此回调接口void onAudioStart()在音频开始时，ASR引擎服务端调用此回调接口void onAudioEnd()在音频结束时，ASR引擎服务端调用此回调接口

AsrListener 中的 onResults(PacMap results) 方法返回结果，结果封装在 json 格式中，需要解析得到。结果说明：

返回结果结果类型结果说明{“result”:[{“confidence”:0,”ori_word”:”你好 “,”pinyin”:”NI3 HAO3 “,”word”:”你好。”}]}Json识别结果{“confidence”:xxx}Double识别结果的置信度{ “word”:”xxx”}String识别结果的文本内容

示例结果（Json）：

    {
        "engine_type":"local_engine",
        "result":[{"confidence":0,"ori_word":"你 好 ","pinyin":"NI3 HAO3 ","word":"你好。"}],
        "result_type":"lvcsr",
        "scenario_type":5
    }

AsrError 说明：

常量名取值错误码含义SUCCESS0表示在某个接口被调用成功时，在回调中会返回这个结果码ERROR_AUDIO3表示接口调用时，发生因音频读取导致的错误时，在回调中会返回的结果码ERROR_SERVER4表示接口调用时，ASR引擎服务端发生错误时，在回调中会返回的结果码ERROR_CLIENT5表示接口调用时，调用ASR的客户端发生错误时，在回调中会返回的结果码ERROR_SPEECH_TIMEOUT6表示ASR接口调用时，在设定的时间内没有语音输入时，在回调中会返回的结果码ERROR_NO_MATCH7表示ASR接口调用时，发生ASR的识别结果不匹配定义的json格式时，在回调中会返回的结果码ERROR_RECOGNIZER_BUSY8表示ASR接口调用时，ASR引擎正忙时，在回调中会返回的结果码ERROR_INVALID_PARAMS10表示ASR接口调用时，发生参数输入错误时，在回调中会返回的结果码ERROR_UNKNOWN11表示ASR接口调用时，发生未知错误时，在回调中会返回的结果码ERROR_GET_MODEL_PATH13表示ASR接口调用时，ASR模型路径获取失败时，在回调中会返回的结果码ERROR_RESULT_UNSUPPORTED15表示ASR接口调用时，设备上当前版本的ASR引擎不支持正在被调用的接口时，在回调中会返回的结果码ERROR_MODEL_NOT_MATCH16表示ASR接口调用时，当前设备中预置的ASR引擎应用和ASR模型不匹配时，在回调中会返回的结果码ERROR_INIT_FAIL23表示ASR接口调用时，发生ASR引擎初始化失败的错误时，在回调中会返回的结果码ERROR_NO_ASR30表示当前设备上没有ASR引擎，不支持ASR能力的调用时，在回调中会返回的结果码

    // 提供ASR引擎执行时所需要传入的参数类
    import ohos.ai.asr.AsrIntent;
    // 错误码的定义类
    import ohos.ai.asr.util.AsrError;
    // 加载语音识别Listener
    import ohos.ai.asr.AsrListener;
    // 提供调用ASR引擎服务接口的类
    import ohos.ai.asr.AsrClient;
    // ASR回调结果中的关键字封装类
    import ohos.ai.asr.util.AsrResultKey;

创建一个 AsrClient 对象：context 为应用上下文信息，应为 ohos.aafwk.ability.Ability 或 ohos.aafwk.ability.AbilitySlice 的实例或子类实例：

    AsrClient asrClient = AsrClient.createAsrClient(context).orElse(null);

设置引擎参数：如果希望识别文件，音频文件需满足约束与限制，并设置音频类型为”ASR_SRC_TYPE_FILE”；如果希望识别音频流，则设置音频类型为”ASR_SRC_TYPE_PCM”：

    AsrIntent initIntent = new AsrIntent();
    initIntent.setAudioSourceType(AsrIntent.AsrAudioSrcType.ASR_SRC_TYPE_PCM);

初始化ASR服务：其中，mMyAsrListener 为实现了 AsrListener 接口的实例对象：

    asrClient.init(initIntent, mMyAsrListener);

开始识别：用户无需设置参数即可使用默认参数：

[En]

start to identify: users can use default parameters without setting parameters:*

    AsrIntent asrIntent = new AsrIntent();    // 设置后置的端点检测（VAD）时间    asrIntent.setVadEndWaitMs(2000);    // 设置前置的端点检测（VAD）时间    asrIntent.setVadFrontWaitMs(4800);    // 设置语音识别的超时时间    asrIntent.setTimeoutThresholdMs(20000);    asrClient.startListening(asrIntent);    // buffer需要替换为真实的音频数据    byte[] buffer = new byte[]{0, 1, 0, 10, 1};    // 对于长度大于1280的音频，需要多次调用writePcm分段传输    asrClient.writePcm(buffer, 1280);

需要注意的是，startListening 或 writePcm 方法建议放在 mMyAsrListener 中 onInit() 方法内调用，保证初始化引擎成功之后再调用识别接口。如果希望识别音频文件，则不需要调用 writePcm 接口：

    AsrIntent asrIntent = new AsrIntent();    // 将FilePath修改为正确的地址，且文件路径需要给com.huawei.hiai进程授予可访问权限。    asrIntent.setFilePath("FilePath");    asrClient.startListening(asrIntent);

取消或停止识别：

    asrClient.stopListening(); // 停止识别    asrClient.cancel(); // 取消识别

释放引擎：

    asrClient.destroy();

Original: https://blog.csdn.net/Forever_wj/article/details/118341210
Author: ╰つ栺尖篴夢ゞ
Title: HarmonyOS之AI能力·语音识别技术

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512874/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

浅谈股价预测模型（二）：全能大明星——神经网络模型

1：本文主要讨论将神经网络的理念运用在股价预测或估值上； 2：本文主要为理念的讲解，模型也是笔者自建，因此不涉及任何主流机器学习框架，如果有读者是为了学习使用thensorflow…

人工智能 2023年7月13日
0064
Jupyter Notebook 对虚拟环境的访问

本文写作时间：2021 年 5 月 Jupyter Notebook 默认并不支持 Conda，无法访问虚拟环境中的资源，自然也无法切换不同的虚拟环境运行笔记。通过插件 nb_co…

人工智能 2023年6月4日
0049
Stable Diffusion背后的故事：独辟蹊径，开源和社区驱动的AI独角兽 | 创始人专访…

今日，AI文生图模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，此轮融资后， Stability AI 估值已到达 10 亿…

人工智能 2023年7月30日
0063
深度学习10——卷积神经网络

目录 1.全连接网络复习 2.卷积 2.1 卷积核 2.2 卷积层的基本实现 2.3 padding填充 2.4 stride步长 2.5 池化层 3. CNN实例 3.1 完整…

人工智能 2023年6月16日
00118
第5章 pandas入门

整述：pandas是有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具⼀同使用，如数值计算工具NumPy和SciPy，分析库statsmodels…

人工智能 2023年7月6日
0080
【学习笔记】小样本学习（Few-shot Learning）

参考视频：https://www.youtube.com/watch?v=UkQ2FVpDxHg 文章目录基本概念孪生网络（Siamese Network） Pretraini…

人工智能 2023年6月12日
00103
ResNeXt网络解析

ResNeXt是ResNet和Inception的结合体.ResNeXt借鉴Inception的”分割-变换-聚合”策略（即split-transform-…

人工智能 2023年7月22日
0071
Python二手车价格预测（一）—— 数据处理

文章目录前言一、数据二、处理过程 * 1.引入库 2.读入数据 3.删除无效列与填充空值 4.数值型数据处理 5.日期型数据处理 6.二值型数据处理 7.One-Hot型数据…

人工智能 2023年6月18日
0091
【opencv-python测量物体的实际大小】使用opencv-python测量物体的实际大小

效果 ; 第一步，进行轮廓提取，将图片转化为灰度图，然后进行高斯模糊，模糊后提取轮廓，然后进行膨胀收缩使轮廓更加的清晰 def getContours(img): img = cv…

人工智能 2023年6月18日
0085
Python + OpenCV一步一步地实现图像拼接（原理与代码）

图像拼接可以理解为三大步：按顺序读取多幅图像，并保证图像按照从左到右的顺序。发现这些图像像素之间的相关性（涉及到单应性）。将这些图像拼接成为一张全景图像。首先，需要了解如…

人工智能 2023年7月26日
0078
MATLAB实验四：MATLAB数据分析

导入指定文件，并对学生成绩进行分析（记录你的指令和结果）说明：本题请先将实验素材提供的成绩单文件s coresheet.xlsx 的数据导入到matlab中，再完成后面的问题。…

人工智能 2023年7月15日
0076
记录自己第一次科研经历

研究生第一次科研经历科研之路 * 研究方向选择论文撰写科研之路大导师非本校，基本无交流。不过给找了二导，方向跟二导做了知识图谱。刚接触科研，并不知道如何下手。问了二导，导…

人工智能 2023年6月1日
0087
机器学习笔记 – 基于传统方法/深度学习的图像配准

一、图像配准图像配准是将一个场景的不同图像变换到同一坐标系的过程。这些图像可以在不同的时间（多时间配准）、由不同的传感器（多模态配准）和/或从不同的视点拍摄。这些图像之间的空…

人工智能 2023年7月27日
00119
100天精通Python（数据分析篇）——第57天：Pandas读写Excel（read_excel、to_excel）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0069
解决：RuntimeError: CUDA out of memory. Tried to allocate 64.00 MiB (GPU 0； 4.00 GiB total capacity； 2

引发pytorch：CUDA out of memory错误的原因有两个： 1.当前要使用的GPU正在被占用，导致显存不足以运行你要运行的模型训练命令不能正常运行解决方法：1.换…

人工智能 2023年7月26日
00114
CiteSpace关键词时区图含义详细解析与注意事项

图片 CiteSpace有一个亮点就是将时间因素加入到了知识图谱的绘制之中。先划分时间段，然后再合并起来一起分析，如关键词时区图，有些文章将其命名为主题演化图，其实不太合适，该图本…

人工智能 2023年6月1日
00125

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

HarmonyOS之AI能力·语音识别技术

大家都在看