使用APICloud & 科大讯飞SDK快速实现语音识别功能

2023年5月23日下午7:29 • 人工智能 • 阅读 75

语音识别功能已经是一个很普及的功能，在特定情境下，能带给人们方便的交互的体验，比如驾驶时使用语音进行唤醒手机，各类智能音响产品，语音控制智能电视等。本文主要介绍在APICloud平台使用科大讯飞的SDK快速实现语音识别功能。

一、效果预览

二、功能实现

在注册好APICloud账号后，进入控制台，添加iflyRecognition模块。iflyRecognition模块封装了科大讯飞的SDK 的语音听写、语音在线合成功能。

使用流程：
1、注册讯飞开放平台账号
2、在讯飞开放平台创建应用，并添加 语音听写、 在线语音合成服务。
3、参考模块文档（docs.apicloud.com/Client-API/Open-SDK/iflyRecognition）相关描述，制作Android自定义模块。

从讯飞下载的合成SDK，如下图：

根据文档提示，自定义模块如下：

[En]

As prompted by the document, the custom module is as follows:

重新压缩后，上传到自定义模块，添加到工程中。

[En]

After re-compression, upload it to the custom module and add it to the project.

根据模块文档，调用接口：

[En]

According to the module documentation, call the interface:

1、

; createUtility

创建科大讯飞引擎

createUtility({params}, callback(ret, err))

params

android_appid：

类型：字符串
描述：从科大讯飞开放平台得到的 appid（android端）

ios_appid：

类型：字符串
描述：从科大讯飞开放平台得到的 appid（iOS端）

示例：

var iflyRecognition = api.require('iflyRecognition');
        iflyRecognition.createUtility({
            ios_appid: '6041****',
            android_appid: '6041****'
        }, function (ret, err) {
            if (ret.status) {
                api.alert({
                    msg: '创建成功'
                });
            } else {
                api.alert({
                    msg: "创建失败"
                });
            }
        });

2、

record

识别语音返回文字

record({params}, callback(ret, err))

params

vadbos：

类型：数字
描述：（可选项）前断点时间（静音时间，即用户多长时间不说话做超时处理），范围是0-10000单位ms
默认值：5000

vadeos：

类型：数字
描述：（可选项）后断点时间（静音时间，即用户多长时间不说话做超时处理），单位ms，范围是0-10000
默认值：5000

rate：

类型：数字
说明：(可选)采样率(支持16000和8000)

[En]

description: (optional) sampling rate (supports 16000 and 8000)*
默认值：16000

asrptt：

类型：数字
Description：(可选)返回的语句是否有标点符号。取值范围：0-无，1-是。

[En]

description: (optional) whether the returned statement has punctuation marks. Value range: 0-none, 1-Yes.*
默认值：1

audioPath：

类型：字符串
描述：（可选项）录制的音频文件保存路径（如fs://123.pcm,一定要加后缀名;一定要加后缀名;只允许一级目录,不允许二级机二级以上的目录,例如不允许fs://test/123/pcm），不支持widget 协议。 注意：在 iOS 平台上由于科大讯飞 SDK 限制，只支持 pcm 格式音频保存
备注：若不传则不保存

callback(ret, err)

ret：

类型：JSON 对象
内部字段：

{
    status:true        //&#x5E03;&#x5C14;&#x7C7B;&#x578B;&#xFF1B;&#x64CD;&#x4F5C;&#x6210;&#x529F;&#x72B6;&#x6001;&#x503C;&#xFF0C;true|false
    wordStr:           //&#x5B57;&#x7B26;&#x4E32;&#x7C7B;&#x578B;&#xFF1B;&#x8BC6;&#x522B;&#x8BED;&#x97F3;&#x540E;&#x7684;&#x6587;&#x5B57;
    eventType:'',    //&#x5B57;&#x7B26;&#x4E32;&#x7C7B;&#x578B;&#xFF1B;&#x4EA4;&#x4E92;&#x4E8B;&#x4EF6;&#x7C7B;&#x578B;&#xFF1A;
                     //record_end&#xFF1A;&#x5F55;&#x97F3;&#x7ED3;&#x675F;&#x4E8B;&#x4EF6; &#xFF08;&#x4EC5;&#x652F;&#x6301;ios&#xFF09;
                     //recognize_end&#xFF1A;&#x8BC6;&#x522B;&#x7ED3;&#x675F;&#x4E8B;&#x4EF6;
             //recognize_start: &#x8BC6;&#x522B;&#x5F00;&#x59CB;&#x4E8B;&#x4EF6;&#xFF08;&#x4EC5;&#x652F;&#x6301;Android&#xFF09;
}

示例：

var iflyRecognition = api.require('iflyRecognition');
            iflyRecognition.record({
                vadbos: 5000,
                vadeos: 2000,
                rate: 16000,
                asrptt: 1,
                audioPath: 'fs://myapp/speech.pcm'
            }, function (ret, err) {
                if (ret.status) {
                    if (ret.wordStr) {
                        let wordStr = ret.wordStr;
                        that.data.items.push(wordStr);
                        that.data.isOk = true;

                    }
                } else {

                }
            });

完整代码如下：

<template>
    <safe-area>
        <view class="page">

            <view class="content"  v-if="isOk">
                <view class="item" v-for="(item, index) in items"><text>{{item}}text>view>
            view>

            <view class="btm" onclick="fnrecord()"><text>开始语音识别，请说话。。。text>view>

        view>
    safe-area>
template>
<script>
export default {
    name: 'record',
    apiready() {
        var iflyRecognition = api.require('iflyRecognition');
        iflyRecognition.createUtility({
            ios_appid: '6041****',
            android_appid: '6041****'
        }, function (ret, err) {
            if (ret.status) {
                api.alert({
                    msg: '创建成功'
                });
            } else {
                api.alert({
                    msg: "创建失败"
                });
            }
        });
    },
    data() {
        return {
            isOk: false,
            items: []
        }
    },
    methods: {
        fnrecord() {
            console.log(1111)
            var that = this;
            var iflyRecognition = api.require('iflyRecognition');
            iflyRecognition.record({
                vadbos: 5000,
                vadeos: 2000,
                rate: 16000,
                asrptt: 1,
                audioPath: 'fs://myapp/speech.pcm'
            }, function (ret, err) {
                if (ret.status) {
                    if (ret.wordStr) {
                        let wordStr = ret.wordStr;
                        that.data.items.push(wordStr);
                        that.data.isOk = true;

                    }
                } else {

                }
            });
        }

    }
}
script>
<style>
.page {
    height: 100%;
    width: 100%;
}

.content {
    position: relative;
    top: 30px;
    width: 80%;
    height: 60%;
    border: 1px solid #333;
    background-color: #fff;
}

.btm {
    position: absolute;
    bottom: 20px;
    left: 40px;
    height: 70px;
    width: 300px;
    padding: 20px 20px;
    border: 1px solid #eee;
    border-radius: 5px;
    background-color: rgb(51, 142, 216);
}

.item {
    width: 90%;
}
style>

Original: https://blog.csdn.net/weixin_43947457/article/details/124295499
Author: APICloud-移动端低代码开发平台
Title: 使用APICloud & 科大讯飞SDK快速实现语音识别功能

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/497662/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 中的回归树

在上一章关于分类决策树的章节中，我们介绍了决策树模型的基本概念，如何使用 Python 从头开始构建它们，以及使用预先打包的 sklearn DecisionTreeClass…

人工智能 2023年6月17日
00118
python时间序列图_python中用matlibplot画时间序列图的案例

python中用matlibplot画时间序列图的案例发布时间：2020-11-10 09:26:59 来源：亿速云阅读：93 作者：小新这篇文章给大家分享的是有关pytho…

人工智能 2023年7月8日
0089
【opencv】18、视频操作

目录一、视频基础二、摄像头初始化 / 视频文件初始化 * 场景1、使用摄像头场景2、使用视频文件三、检查摄像头/视频文件、打开摄像头/视频文件四、播放视频文件（捕获帧） …

人工智能 2023年6月19日
00113
Ubuntu系统iptables安全防护整改计划

端口开放默认防火墙是开放所有端口的，如果拿来做应用服务器，就很危险，所以要把防火墙用起来，只将需要的端口开放，ubuntu用的是iptables防火墙。 iptables处理流程…

人工智能 2023年6月4日
00104
重复测量资料纵向研究的数据分析-1

重复测量资料纵向研究的数据分析-1 单变量组内设计在纵向研究中，如果对同一个体的测量次数超过两次，情况会变得比较复杂。配对t检验就不再适用。先来理解什么是”单变量组…

人工智能 2023年7月17日
0079
微信原生组件｜基于小程序实现音视频通话

1 微信小程序原生推拉流组件功能简介本文将介绍如何使用微信小程序原生推拉流组件由于微信小程序原生推拉流组件使用起来比较复杂，推荐开发者使用即构封装的音视频SDK 2 实现微信小…

人工智能 2023年6月3日
00163
Wav2Lip模型——《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

在这篇文档中，我们将研究任意人物的人脸视频与目标音频的口型匹配问题。当前领域能做到对特定训练过的人物进行精准的口型匹配，但在其他未训练的人物上效果不好。我们找到了导致这种问题的主要…

人工智能 2023年5月28日
00104
Resnet介绍

1.简介作者提出了一种深度学习网络框架resnet，用来解决层数过深时，神经网络训练效果变差的情况。按理来说层数越深，模型的效果就会越好。那些在Imagenet上登顶的网络模型它…

人工智能 2023年6月17日
0075
深度学习——ResNet超详细讲解，详解层数计算、各层维度计算

残差神经网络(ResNet) 1 缘由在ResNet之前的网络层数都不是很高，14年的VGG网络才只有19层，但是ResNet的网络层数达到了惊人的152层。许多人会有一个直观的…

人工智能 2023年5月26日
00201
HighD数据集Python处理（超车变道邻近车辆数据筛选）

由德国亚琛工业大学汽车工程研究所发布的HighD数据集，是德国高速公路的大型自然车辆轨迹数据，搜集自德国科隆附近的六个不同地点，位置因车道数量和速度限制而异，记录的数据中包括…

人工智能 2023年6月19日
00130
【Python爬虫 • selenium】selenium4新版本使用指南

提示：本文默认你已经学会使用selenium的旧版本，因此对一些可以直接搜索到很多的内容，你应该是已经学会的文章目录前言一、设置驱动 * 1. selenium4推荐方法 2…

人工智能 2023年7月3日
0074
对YOLOv5目标检测正确与否的理解

学习目标检测有一段时间了，然而对目标检测怎么才算正确一直没有透彻的理解，也许有人会说，那不是很简单嘛，预测框与目标框IOU大于设定的阈值就认为是正确的呀，但是当真正写代码计算PR时…

人工智能 2023年7月10日
0055
no moudle tensorflow_hub解决办法

首先为啥会遇到这个：1、开启了虚拟环境（此处说一下，我是在jupyter玩这个库）2、安装在了主环境位置上，导致虚拟环境没有装到；3、输入：!pip install tensorf…

人工智能 2023年5月24日
0083
【路径规划】一文学懂五次多项式曲线 Quintic Polynomial

文章目录前言曲线插值法 * 五次多项式曲线方程代码讲解 – 参数设置构造五次多项式规划器五次多项式类判断终止条件参考资料前言局部路径规划是无人驾驶车辆…

人工智能 2023年6月1日
00117
自然语言处理入门——新手上路

目录一、自然与语言与编程语言二、自然语言处理的层次三、自然语言处理的流派五、语料库六、开源工具七总结自然语言处理（NLP）是一门融合了计算机科学、人工智能以及语言…

人工智能 2023年6月16日
0073
Text to Image综述阅读（1.1）：介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review（基于GAN的文本生成图像）

Text to Image（一）介绍与基本原理一、介绍 * 思维导图二、基本原理 * GANs ConditionalGANs Text encoding 数据集的使用思维导…

人工智能 2023年7月14日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用APICloud & 科大讯飞SDK快速实现语音识别功能

params

params

callback(ret, err)

大家都在看