Android 讯飞语音识别功能开发

2023年5月27日下午6:23 • 人工智能 • 阅读 93

以下代码主要参考博客：
Android 科大讯飞语音识别

Android蓝牙串口开发部分请参照博客：
Android蓝牙串口开发

讯飞语音官方开发文档：
语音听写 Android SDK 文档

文章目录

前言
一、SDK的下载和导入
*
1.SDK的下载
2.新建工程
3.配置项目
–
二、工具类
*
1.Json解析类
2.语音识别相关方法
–
三、调用代码编写
*
1.点击事件的监听
2.识别结果的显示
3.语音命令识别和发送
总结

前言

语音识别目前使用的比较频繁，项目需要使用语音识别用户指令，然后通过蓝牙通信传递指定，命令下位机做出反应。手机端主要负责命令的发送，选用讯飞语音SDK，学习官方文档和参考博客进行开发。写这篇博客记录一下。

一、SDK的下载和导入

这一部分可以可以参照讯飞语音官方文档来进行
官方文档：语音听写 Android SDK 文档

1.SDK的下载

首先，登录iFLYTEK开放平台。没有要注册的帐户。

[En]

First of all, log in on the iFLYTEK open platform. There is no account to register.

在控制台中，按照流程创建新的应用程序。

[En]

In the console, follow the process to create a new application.

在下方的SDK下载中，下载相应的SDK。
Android 讯飞语音识别功能开发

解压缩完成后，首先设置项目。

[En]

After the decompression is completed, set up the project first.

; 2.新建工程

打开Android Studio 开发平台，新建工程画好前端设计界面，建立工程这一部分就不在赘述。

3.配置项目

a.导包

将解压后的libs文件夹中的文件放入项目的libs文件夹中。

对Msc包右键，选择Add As Library导入，此时Msc包可展开。
然后再添加assets，将assets文件夹添加到工程main文件夹下面。

; b.权限

导包完成后，我们需要给App一些必要权限，来使用手机的硬件功能。


    <uses-permission android:name="android.permission.INTERNET"/>

    <uses-permission android:name="android.permission.RECORD_AUDIO"/>

    <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE"/>

    <uses-permission android:name="android.permission.ACCESS_WIFI_STATE"/>

    <uses-permission android:name="android.permission.CHANGE_NETWORK_STATE"/>

    <uses-permission android:name="android.permission.READ_PHONE_STATE"/>

    <uses-permission android:name="android.permission.READ_CONTACTS"/>

    <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/>

    <uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE"/>

    <uses-permission android:name="android.permission.WRITE_SETTINGS"
        tools:ignore="ProtectedPermissions" />

    <uses-permission android:name="android.permission.ACCESS_FINE_LOCATION"/>

    <uses-permission android:name="android.permission.CAMERA" />

c.修改buid.gradle

打开buid.gradle后，在文件中做以下修改。

dependencies {
    implementation fileTree(include: ['*.jar'], dir: 'libs')
    implementation 'androidx.appcompat:appcompat:1.0.2'
    implementation 'androidx.constraintlayout:constraintlayout:1.1.3'
    testImplementation 'junit:junit:4.12'
    androidTestImplementation 'androidx.test.ext:junit:1.1.1'
    androidTestImplementation 'androidx.test.espresso:espresso-core:3.2.0'
    implementation files('libs/Msc.jar')
}

然后点击Sync Now。

二、工具类

1.Json解析类

识别语音时，需要用到Json格式，所以需要有一个解析Json格式的类。
在工程中，新建一个JsonParser 的类。

package com.example.speechrecognitionforbluetooth;

import org.json.JSONArray;
import org.json.JSONObject;
import org.json.JSONTokener;

public class JsonParser {

    public static String parseIatResult(String json) {
        StringBuffer ret = new StringBuffer();
        try {
            JSONTokener tokener = new JSONTokener(json);
            JSONObject joResult = new JSONObject(tokener);

            JSONArray words = joResult.getJSONArray("ws");
            for (int i = 0; i < words.length(); i++) {

                JSONArray items = words.getJSONObject(i).getJSONArray("cw");
                JSONObject obj = items.getJSONObject(0);
                ret.append(obj.getString("w"));

            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return ret.toString();
    }

    public static String parseGrammarResult(String json) {
        StringBuffer ret = new StringBuffer();
        try {
            JSONTokener tokener = new JSONTokener(json);
            JSONObject joResult = new JSONObject(tokener);

            JSONArray words = joResult.getJSONArray("ws");
            for (int i = 0; i < words.length(); i++) {
                JSONArray items = words.getJSONObject(i).getJSONArray("cw");
                for(int j = 0; j < items.length(); j++)
                {
                    JSONObject obj = items.getJSONObject(j);
                    if(obj.getString("w").contains("nomatch"))
                    {
                        ret.append("没有匹配结果.");
                        return ret.toString();
                    }
                    ret.append("【结果】" + obj.getString("w"));
                    ret.append("【置信度】" + obj.getInt("sc"));
                    ret.append("\n");
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
            ret.append("没有匹配结果.");
        }
        return ret.toString();
    }

    public static String parseLocalGrammarResult(String json) {
        StringBuffer ret = new StringBuffer();
        try {
            JSONTokener tokener = new JSONTokener(json);
            JSONObject joResult = new JSONObject(tokener);

            JSONArray words = joResult.getJSONArray("ws");
            for (int i = 0; i < words.length(); i++) {
                JSONArray items = words.getJSONObject(i).getJSONArray("cw");
                for(int j = 0; j < items.length(); j++)
                {
                    JSONObject obj = items.getJSONObject(j);
                    if(obj.getString("w").contains("nomatch"))
                    {
                        ret.append("没有匹配结果.");
                        return ret.toString();
                    }
                    ret.append("【结果】" + obj.getString("w"));
                    ret.append("\n");
                }
            }
            ret.append("【置信度】" + joResult.optInt("sc"));

        } catch (Exception e) {
            e.printStackTrace();
            ret.append("没有匹配结果.");
        }
        return ret.toString();
    }

    public static String parseTransResult(String json, String key) {
        StringBuffer ret = new StringBuffer();
        try {
            JSONTokener tokener = new JSONTokener(json);
            JSONObject joResult = new JSONObject(tokener);
            String errorCode = joResult.optString("ret");
            if(!errorCode.equals("0")) {
                return joResult.optString("errmsg");
            }
            JSONObject transResult = joResult.optJSONObject("trans_result");
            ret.append(transResult.optString(key));

        } catch (Exception e) {
            e.printStackTrace();
        }
        return ret.toString();
    }
}

用于进行语音识别的方法调用。

[En]

A method call used to give speech recognition.

2.语音识别相关方法

现在需要实现语音识别的核心代码了，具体代码请参考官方文档Demo或访问参考博客学习，这里做一个展示。

a.变量声明

首先，比较要导入的包。

[En]

First, compare the package you want to import.

import com.iflytek.cloud.ErrorCode;
import com.iflytek.cloud.InitListener;
import com.iflytek.cloud.RecognizerResult;
import com.iflytek.cloud.SpeechConstant;
import com.iflytek.cloud.SpeechError;
import com.iflytek.cloud.SpeechRecognizer;
import com.iflytek.cloud.ui.RecognizerDialog;
import com.iflytek.cloud.ui.RecognizerDialogListener;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.Set;
import java.util.UUID;
import org.json.JSONException;
import org.json.JSONObject;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.LinkedHashMap;
import static android.widget.Toast.LENGTH_SHORT;

为语音识别部分声明必要的变量。

[En]

Declare the necessary variables for the speech recognition part.


    private SpeechRecognizer mIat;
    private RecognizerDialog mIatDialog;

    private HashMap<String, String> mIatResults = new LinkedHashMap<String, String>();

    private SharedPreferences mSharedPreferences;

    private String mEngineType = SpeechConstant.TYPE_CLOUD;
    private String language = "zh_cn";

    private TextView tvResult;

    private Button mBTN_SPEECH;
    private String resultType = "json";

b.权限请求

在调用过程中，您需要动态获取权限。

[En]

During the call, you need to obtain permissions dynamically.


    private void initPermission() {
        String permissions[] = {Manifest.permission.RECORD_AUDIO,
                Manifest.permission.ACCESS_NETWORK_STATE,
                Manifest.permission.INTERNET,
                Manifest.permission.WRITE_EXTERNAL_STORAGE
        };

        ArrayList<String> toApplyList = new ArrayList<String>();

        for (String perm : permissions) {
            if (PackageManager.PERMISSION_GRANTED != ContextCompat.checkSelfPermission(this, perm)) {
                toApplyList.add(perm);
            }
        }
        String tmpList[] = new String[toApplyList.size()];
        if (!toApplyList.isEmpty()) {
            ActivityCompat.requestPermissions(this, toApplyList.toArray(tmpList), 123);
        }
    }

    @Override
    public void onRequestPermissionsResult(int requestCode, String[] permissions, int[] grantResults) {

    }

c.语音监听


    private InitListener mInitListener = new InitListener() {

        @Override
        public void onInit(int code) {
            Log.d(TAG, "SpeechRecognizer init() code = " + code);
            if (code != ErrorCode.SUCCESS) {
                showMsg("初始化失败，错误码：" + code + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
            }
        }
    };

    private RecognizerDialogListener mRecognizerDialogListener = new RecognizerDialogListener() {
        public void onResult(RecognizerResult results, boolean isLast) {

            printResult(results);

        }

        public void onError(SpeechError error) {
            showMsg(error.getPlainDescription(true));
        }

    };

    private void showMsg(String msg) {
        Toast.makeText(MainActivity.this, msg, Toast.LENGTH_SHORT).show();
    }

    @Override
    protected void onDestroy() {
        super.onDestroy();

        if (null != mIat) {

            mIat.cancel();
            mIat.destroy();
        }
    }

d.数据解析

分析得到的数据，利用Text将结果显示出来，然后分析结果，利用蓝牙将指令发送出去。


    private void printResult(RecognizerResult results) {
        String text = JsonParser.parseIatResult(results.getResultString());

        String sn = null;

        try {
            JSONObject resultJson = new JSONObject(results.getResultString());
            sn = resultJson.optString("sn");
        } catch (JSONException e) {
            e.printStackTrace();
        }

        mIatResults.put(sn, text);

        StringBuffer resultBuffer = new StringBuffer();
        for (String key : mIatResults.keySet()) {
            resultBuffer.append(mIatResults.get(key));
        }

        mET_DATE.setText(resultBuffer.toString());
        sendCMDByBluetooth(resultBuffer.toString());
    }

c.参数配置


    public void setParam() {

        mIat.setParameter(SpeechConstant.PARAMS, null);

        mIat.setParameter(SpeechConstant.ENGINE_TYPE, mEngineType);

        mIat.setParameter(SpeechConstant.RESULT_TYPE, resultType);

        if (language.equals("zh_cn")) {
            String lag = mSharedPreferences.getString("iat_language_preference",
                    "mandarin");
            Log.e(TAG, "language:" + language);
            mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");

            mIat.setParameter(SpeechConstant.ACCENT, lag);
        } else {

            mIat.setParameter(SpeechConstant.LANGUAGE, language);
        }
        Log.e(TAG, "last language:" + mIat.getParameter(SpeechConstant.LANGUAGE));

        mIat.setParameter(SpeechConstant.VAD_BOS, mSharedPreferences.getString("iat_vadbos_preference", "4000"));

        mIat.setParameter(SpeechConstant.VAD_EOS, mSharedPreferences.getString("iat_vadeos_preference", "1000"));

        mIat.setParameter(SpeechConstant.ASR_PTT, mSharedPreferences.getString("iat_punc_preference", "1"));

        mIat.setParameter(SpeechConstant.AUDIO_FORMAT, "wav");
        mIat.setParameter(SpeechConstant.ASR_AUDIO_PATH, Environment.getExternalStorageDirectory() + "/msc/iat.wav");
    }

三、调用代码编写

准备工作基本完成后，我们现在需要在主程序中调用该方法以逻辑地实现函数。

[En]

After the preparatory work has been basically completed, we now need to call the method to implement the function logically in the main program.

1.点击事件的监听

首先，实现了对屏幕点击事件的监控。

[En]

First of all, the screen to achieve a click event monitoring.

public class MainActivity extends AppCompatActivity implements View.OnClickListener{

    private static final String TAG ="MainActivity" ;

    @Override
    public void onClick(View v) {
        if( null == mIat ){

            showMsg( "创建对象失败，请确认 libmsc.so 放置正确，且有调用 createUtility 进行初始化" );
            return;
        }

        mIatResults.clear();
        setParam();
        mIatDialog.setListener(mRecognizerDialogListener);
        mIatDialog.show();
    }
}

2.识别结果的显示

结果的显示包含在用于数据分析的部分代码中

[En]

The display of the results is contained in part of the code for data analysis


mET_DATE.setText(resultBuffer.toString());
sendCMDByBluetooth(resultBuffer.toString());

3.语音命令识别和发送

在检测到语音输入后，生成识别结果，并显示后，根据您需要的判断逻辑对识别结果进行分析，并发出指令。

[En]

After the speech input is detected, a recognition result is generated, and after it is displayed, the recognition result is analyzed according to the judgment logic you need, and an instruction is issued.


    public void sendCMDByBluetooth(String Speech){

        String CMD = Speech.substring(0,Speech.indexOf("。"));

        if (CONNECT_STATUS) {
            switch (CMD){
                case "打开灯光":{
                    write("A");
                    Toast.makeText(MainActivity.this, "指令：打开灯光 CMD：A", LENGTH_SHORT).show();
                    break;
                }
                case "关闭灯光":{
                    write("B");
                    Toast.makeText(MainActivity.this, "指令：关闭灯光 CMD：B", LENGTH_SHORT).show();
                    break;
                }
                case "打开风扇":{
                    write("C");
                    Toast.makeText(MainActivity.this, "指令：打开风扇 CMD：C", LENGTH_SHORT).show();
                    break;
                }
                case "关闭风扇":{
                    write("D");
                    Toast.makeText(MainActivity.this, "指令：关闭风扇 CMD：D", LENGTH_SHORT).show();
                    break;
                }
            }
        } else {
            Toast.makeText(getApplicationContext(), "请先连接蓝牙", Toast.LENGTH_SHORT).show();
        }

    }

总结

对我来说，该项目主要的难点在于对SDK的使用，以及类的调用。更灵活的使用还需要加深理解。

关于Android经典蓝牙串口开发在我的另一篇博客有记录。
Android蓝牙串口开发

Original: https://blog.csdn.net/u011604460/article/details/124294562
Author: CallMeMinxJ
Title: Android 讯飞语音识别功能开发

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527221/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

动态卷积 Dynamic convolution

每周汇报，实属不易。近期学习了关于动态卷积的相关内容，写成一个小节，帮助理解什么为动态卷积。内容较为宽泛，若想学习细节知识，可以参考论文。和知乎链接：https://zhuanla…

人工智能 2023年5月26日
0088
机器学习算法系列（三）- 标准线性回归算法（Standard Linear Regression Algorithm）

阅读本文需要的背景知识点：矩阵求导、一丢丢编程知识一、引言前面介绍了两种二元分类算法——感知器算法、口袋算法，这些算法解决的都是分类的问题，但是现实中更多的是例如预测某一地区的…

人工智能 2023年6月18日
00100
opencv面试知识点

文章目录一、opencv基础 * 1、OpenCV中cv::Mat的深拷贝和浅拷贝问题 2、opencv常用数据结构和函数 – 2.1、QImage和Mat之间的转换…

人工智能 2023年6月17日
00104
浅谈Opencv中的傅立叶变换

最近在搞图像处理的大作业，做了一个图像处理软件，在实现滤波时需要用到傅立叶变换把图像从时域转移到频率域，从而加速图像卷积。感觉网上相关资料颇少而且不够完整，并且为了防止以后自己忘记…

人工智能 2023年6月22日
0083
2022年各国程序员编程水平排行榜出炉，排名第一的国家没听说过

哪个地方的程序员编程水平最高？相信很多人对这个问题感兴趣，今天就来聊一聊这个话题。 Pentalog 是一个全球数字服务平台，主要帮助企业寻找世界上一流的IT人才，每年都会发布一份…

人工智能 2023年7月29日
0091
解决报错RuntimeError: CUDA out of memory

文章目录一、问题描述二、解决方法 Reference 一、问题描述 (work2) andy@gpu-machine:~/deepFM_CTR_beat/model_train…

人工智能 2023年7月22日
0046
Python数据分析与展示(一)

一维数据：由对等关系的有序或无序数据构成，采用线性方式组织列表和数组：一组数据的有序结构列表：数据类型可以不同数组：数据类型相同二维数据：由多个一维数据构成，是一维数据的组合…

人工智能 2023年6月11日
00157
心跳信号分类预测（天池数据集）

前些时间，做了个阿里天池的练习赛，心跳预测。说是练习赛，实际也没赛，因为最后的结果也没拿去提交、上传之类的，最后做了个小展示，权当做练手，在这里和大家分享一下整体的思路，希望可以给…

人工智能 2023年7月1日
0074
matlab处理数据

纯分享我为了处理大数据看的一系列文章，重点在小波去噪，建立模型。参考文献 (127条消息) 小波分析、小波降噪matlab代码实现_leaf_991的博客-CSDN博客_小波降噪…

人工智能 2023年6月18日
0067
旋转框目标检测mmrotate v0.3.1 训练DOTA数据集（二）

1、数据集构建 MMRoteate 支持的数据集 ; 类别 The object categories in DOTA-v1.0: plane, ship, storage tan…

人工智能 2023年7月28日
0062
dataframe 删除行_Pandas常用数据结构DataFrame详细教程

pandas 是python的数据分析库，提供快速、灵活和富有表现力的数据结构，用于数据挖掘和数据分析，同时也提供数据清洗功能，与numpy、matplotlib并称，成为数据分析…

人工智能 2023年7月8日
0062
R语言使用timeROC包计算无竞争情况下的生存资料多时间AUC值、R语言使用timeROC包可视化无竞争情况下的生存资料多时间ROC曲线

R语言使用timeROC包计算无竞争情况下的生存资料多时间AUC值、R语言使用timeROC包可视化无竞争情况下的生存资料多时间ROC曲线目录 R语言使用timeROC包计算无竞…

人工智能 2023年6月19日
00109
K-Means不同含量果汁饮料的聚类（聚类算法）

文章目录实验内容实验要求实验代码实验内容某企业通过采集企业自身流水线生产的一种果汁饮料含量的数据集，来实现K-Means算法。通过聚类以判断该果汁饮料在一定标准含量偏差下…

人工智能 2023年5月31日
0089
数据结构之栈的实现

文章目录前言 1.栈的相关介绍 * 1.栈的概念 2.栈结构实现方式 2.具体代码实现栈 * 1.栈的相关接口 2.栈结构的定义声明和栈的初始化 3.栈数据的处理 –…

人工智能 2023年6月29日
0072
搜索历史、推理未来：时序知识图谱上的两阶段推理

©原创作者 | 朱林 01 介绍一个普通的知识图谱只拥有某一时刻的静态事实，常见表示为图的形式，如图1所示，包含了实体 e（圆）及其关系 r（箭头）。图1 知识图谱示意图目前…

人工智能 2023年6月1日
0086
R语言ggplot2-颜色设置调参详解

本章是ggplot2科研绘图调参的第十一个章节，前十章内容请跳转： ggplot保姆级教程-科研绘图调参细节 library(tidyverse) library(ggplot2)…

人工智能 2023年7月14日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Android 讯飞语音识别功能开发

文章目录

1.SDK的下载

; 2.新建工程

3.配置项目

a.导包

; b.权限

c.修改buid.gradle

1.Json解析类

2.语音识别相关方法

a.变量声明

b.权限请求

c.语音监听

d.数据解析

c.参数配置

1.点击事件的监听

2.识别结果的显示

3.语音命令识别和发送

大家都在看