度秘语音引擎app_带有语音识别功能的APP

2023年5月27日上午10:52 • 人工智能 • 阅读 155

实验目的：

调用讯飞api实现一个带有语音识别功能的app，

功能主要包括 1.实现语音输入转换成文本，显示在输入文本框中

实现语音合成，能让文本框中的文字转换成语音输出

先跑通这样的一个demo，后续需求再慢慢添加学习。拒绝使用官方的样例

实验过程：

第一步：申请科大讯飞的api

在控制台上创建新的应用程序，并选择语音合成、语音拼写等服务。

[En]

Create a new application on the console and select services such as speech synthesis, speech spelling, etc.

下载sdk (这个就不图示了，也比较简单)

吐槽：讯飞官网时常崩溃…不知道是我的浏览器问题，还是就是讯飞的官网有问题

第二步：将SDK 配置到项目环境当中。

解压sdk安装包，

将libs文件夹下的两个jar包复制到项目的libs

将libs文件夹下的剩余文件夹复制到项目的src/main下新创建的jniLibs目录下

将assets文件夹复制到 main目录下

最终结果如图所示

第三步：调用函数的总体流程图和描述。

[En]

Step 3: the overall flow chart and the description of the calling function.

a. 初始化sdk，调用申请的科大讯飞appid

b. 点击识别按钮，开启语音识别模块，将输入的语音转换成文字在文本框显示

c. 点击播放按钮，开启语音合成模块，将文本框的内容做语音输出

语音识别模块：该模块主要有两种实现方式。

[En]

Speech recognition module: there are two main implementation methods for this module.

一种是自带识别对话框的RecognizerDialog类，

另外一种是不带对话框识别的SpeechRecognizer类。

这里我主要使用了第一种RecognizerDialog类。

RecognizerDialog(上下文环境变量context，初始化监听器listener) ：构造初始化一个识别对话框。

RecognizerDialogListener中的

onResult(识别结果result，最后一次返回结果判定isLast)方法：

将输入的语音采用JSON格式解析，返回一个字符串。

显示。

语音合成模块：SpeechSynthesizer类用于文语转换的类

这个模块比较简单。创建对象后，设置一些参数，如谁发声、音量、语速等。

[En]

This module is relatively simple. After creating the object, set some parameters, such as who makes the sound, the volume, the speed of speech, and so on.

再调用startSpeaking方法实现播放，这里要传入一个SynthesizerListener 监听器对象，用途是关注合成的语音进度概况。

心得想法：

本次完成一个比较简单的app，实现了语音的输入输出，还是挺有成就感的。由本次动手实践，首先就是更加熟悉了调用api的流程(之前也调用过百度地图的api 写过一个地图app)，然后是通过查阅api文档去实现语音合成和语音识别，对自我能力也是一种提高。

这次完成的内容还是比较简单，主要是想通过跑通简单的demo来建立自信，后续还要完善。

目前我要改进的有两点，一是通过语音唤醒，二是合成音质(尽量不要太机械化)。

[En]

At present, there are two points I want to improve, one is to wake up through voice, and the other is to synthesize the sound quality (try not to be too mechanized).

具体代码如下 (布局文件为两个按钮，一个输入文本框，这个很简单)

public class MainActivity extends AppCompatActivity implements View.OnClickListener {

private EditText editText;

private Button bt1,bt2;

private HashMap mIatResults=new LinkedHashMap();

@Override

protected void onCreate(Bundle savedInstanceState) {

super.onCreate(savedInstanceState);

setContentView(R.layout.activity_main);

bt1=(Button)findViewById(R.id.recognize);

bt2=(Button)findViewById(R.id.play);

editText=(EditText)findViewById(R.id.et);

bt1.setOnClickListener(this);

bt2.setOnClickListener(this);

//调用科大讯飞申请的appid 这里要填自己申请的api

SpeechUtility.createUtility(this,SpeechConstant.APPID+”=11111111″);

}

@Override

public void onClick(View view) {

switch (view.getId()){

case R.id.recognize:

startSpeechDialog();//语音识别把声音转成文字

break;

case R.id.play:

speekText();//语音合成文字转声音

break;

}

private void speekText(){

//创建SpeechSynthesizer对象

SpeechSynthesizer speechSynthesizer=SpeechSynthesizer.createSynthesizer(this,null);

// speechSynthesizer.setParameter(SpeechConstant.VOICE_NAME,”vixyun”);//发音人

speechSynthesizer.setParameter(SpeechConstant.SPEED,”50″);//设置语速

speechSynthesizer.setParameter(SpeechConstant.VOLUME,”80″);//设置音量

speechSynthesizer.setParameter(SpeechConstant.ENGINE_TYPE,SpeechConstant.TYPE_CLOUD);//设置云端

speechSynthesizer.setParameter(SpeechConstant.TTS_AUDIO_PATH,”./sdcard/iflytek.pcm”);

speechSynthesizer.startSpeaking(editText.getText().toString(),new MySynthesizeListener());

}

class MySynthesizeListener implements SynthesizerListener{

@Override

public void onSpeakBegin() {

Toast.makeText(MainActivity.this,”开始播放”,Toast.LENGTH_SHORT).show();

}

@Override

public void onBufferProgress(int i, int i1, int i2, String s) {

//合成进度

}

@Override

public void onSpeakPaused() {

Toast.makeText(MainActivity.this,”暂停播放”,Toast.LENGTH_SHORT).show();

}

@Override

public void onSpeakResumed() {

Toast.makeText(MainActivity.this,”继续播放”,Toast.LENGTH_SHORT).show();

}

@Override

public void onSpeakProgress(int i, int i1, int i2) {

//播放进度

}

@Override

public void onCompleted(SpeechError speechError) {

if(speechError==null){

Toast.makeText(MainActivity.this,”播放完成”,Toast.LENGTH_SHORT).show();

}else if(speechError!=null){

Toast.makeText(MainActivity.this,speechError.getErrorDescription(),Toast.LENGTH_SHORT).show();

}

@Override

public void onEvent(int i, int i1, int i2, Bundle bundle) {

}

private void startSpeechDialog(){

//创建RecognizerDialog对象

RecognizerDialog mDialog=new RecognizerDialog(this,new MyInitListener());

mDialog.setParameter(SpeechConstant.LANGUAGE,”zh_cn”);//设置中文

mDialog.setParameter(SpeechConstant.ACCENT,”mandarin”);//普通话

mDialog.setListener(new MyRecognizerDialogListener());//回调接口

mDialog.show();//显示框接收语音输入

}

class MyRecognizerDialogListener implements RecognizerDialogListener{

@Override

public void onResult(RecognizerResult recognizerResult, boolean b) {

//b 表示是否说完了

String result=recognizerResult.getResultString();

String text=JsonParser.parseIatResult(result);

String sn=null;

try{

JSONObject resultJson=new JSONObject(recognizerResult.getResultString());

sn=resultJson.optString(“sn”);

}catch (JSONException e){

e.printStackTrace();

}

mIatResults.put(sn,text);

StringBuffer resultBuffer =new StringBuffer();

for(String key :mIatResults.keySet()){

resultBuffer.append(mIatResults.get(key));

}

editText.setText(resultBuffer.toString());//设置输入框的文本

editText.setSelection(editText.length());//光标定位到末尾

}

@Override

public void onError(SpeechError speechError) {}

}

class MyInitListener implements InitListener{

@Override

public void onInit(int i) {

if(i!= ErrorCode.SUCCESS) {

Toast.makeText(MainActivity.this, “初始化失败”, Toast.LENGTH_SHORT).show();

}

// /**

// * 语音识别另外一种识别方法

// */

// private void startSpeech(){

// //语音识别器对象，听写、语法识别功能把人的自然语言音频数据转换为文本数据

// SpeechRecognizer SR=SpeechRecognizer.createRecognizer(this,null);

// SR.setParameter(SpeechConstant.DOMAIN,”iat”);//默认

// SR.setParameter(SpeechConstant.LANGUAGE,”zh_cn”);//设置中文

// SR.setParameter(SpeechConstant.ACCENT,”mandarin”);//设置普通话

// SR.startListening(mRecoListener);

// }

// //听写监听

// private RecognizerListener mRecoListener=new RecognizerListener() {

// //听写结果回调接口

// //通过onResults接口多次返回结果，完整的识别内容是多次结果的累加

// @Override

// public void onResult(RecognizerResult recognizerResult, boolean b) {

// Log.d(“MainActivity.this”,recognizerResult.getResultString());

// Toast.makeText(MainActivity.this,recognizerResult.getResultString(),Toast.LENGTH_SHORT).show();

// }

// @Override

// public void onVolumeChanged(int i, byte[] bytes) {

// }

// @Override

// public void onBeginOfSpeech() {

// }

// @Override

// public void onEndOfSpeech() {

// }

// @Override

// public void onError(SpeechError speechError) {

// }

// @Override

// public void onEvent(int i, int i1, int i2, Bundle bundle) {

// }

// };

}

Josn解析

public class JsonParser {

public static String parseIatResult(String json){

StringBuffer ret=new StringBuffer();

try {

JSONTokener tokener=new JSONTokener(json);

JSONObject joResult=new JSONObject(tokener);

JSONArray words=joResult.getJSONArray(“ws”);

for(int i=0;i

JSONArray items=words.getJSONObject(i).getJSONArray(“cw”);

JSONObject obj=items.getJSONObject(0);

ret.append(obj.getString(“w”));

}

} catch (JSONException e) {

e.printStackTrace();

}

return ret.toString();

}

Original: https://blog.csdn.net/weixin_39779530/article/details/111738813
Author: weixin_39779530
Title: 度秘语音引擎app_带有语音识别功能的APP

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/525719/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Yolov5 安装详细教程及目标检测和识别

文章内容：1.在 Anaconda 环境下，进行目标检测程序（Yolov5）的下载及安装，实…

人工智能 2023年6月17日
00148
数据可视化——seaborn（三）

三、分类分布图目录三、分类分布图四、分类估计图五、多变量绘图函数 1.boxplot（）它的作用是可以直观的查看异常值 seaborn.boxplot(x=None, y…

人工智能 2023年7月17日
0092
数据分析案例（口罩厂亏损）—-明确目的

数据分析前需了解的基础知识 1.jupyter代码编辑器2.pandas库基础知识3.数据分析流程 pandas库 pandas库是一个专门用来解决数据分析问题的库，其有两大优点1…

人工智能 2023年7月8日
0096
数据职业的区别

目录 * – 数据分析师 – 初级、高级数据分析师对比 – 数据工程师 – 初级、高级数据工程师对比 – 机器学习工程师…

人工智能 2023年6月11日
00103
Matplotlib柱状图（代码+注释详解）

Matplotlib柱状图（代码+注释详解）柱状图是一种用矩形柱来表示数据分类的图表，柱状图可以垂直绘制，也可以水平绘制，它的高度与其所表示的数值成正比关系。柱状图显示了不同类别…

人工智能 2023年7月6日
00115
解决python操作中的一些乱码问题

在dataframe保存成为csv文件是编码方式为utf-8时通常会出现乱码的情况，但是如果将utf-8 改成utf_8_sig就不会出现乱码的情况啦 rank250.to_csv…

人工智能 2023年7月7日
00111
深度学习中一些注意力机制的介绍以及pytorch代码实现

文章目录前言注意力机制 * 软注意力机制 – 代码实现硬注意力机制多头注意力机制 – 代码实现参考前言因为最近看论文发现同一个模型用了不同的注…

人工智能 2023年7月21日
00108
python简单命令_python常用命令有哪些

Python常用的命令有：1、打开csv文件；2、数据重新排序【dataframe index】；3、求标准差；4、向上取整；5、希尔伯特变换；6、dataframe修改列名；7、…

人工智能 2023年7月7日
00113
论文笔记 ACL 2022|Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding

文章目录 * – 1 简介 – + 1.1 创新 – 2 方法 – + 2.1 触发词检测 + 2.2 论元抽取 – 3…

人工智能 2023年5月27日
00104
如何根据CUDA版本安装对应的pytorch？

### 回答1： CUDA 11.6 对应_的 _PyTorch 版本_为 _PyTorch 1.10.0。在发布 CUDA 11.6 之前， PyTorch 1.9.0 目前是支…

人工智能 2023年7月20日
0078
【Kaggle】Titanic – Machine Learning from Disaster

文章目录 1. 前言 2. 题目描述 3. 解答 4. 代码学习 * 4.1 数据集处理 – 1. 分析字段Embarked 2. 分析字段Fare 3. 分析字段Ag…

人工智能 2023年7月1日
00120
Transformer 架构逐层功能介绍和详细解释

多年来，深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参数，我们可以更容易地分类/检测某些东西，因为我们有更多的可以…

人工智能 2023年5月31日
00117
目标检测学习笔记11——FPN学习与论文解读

文章目录一、引言二、结构对比三、实现细节四、实验结果一、引言论文链接：https://arxiv.org/abs/1612.03144 FPN：Feature Pyra…

人工智能 2023年7月12日
0075
【算法分析与设计】【期中（末）复习题】【2022秋】

文章目录一. 单选题二. 填空题三. 判断题四. 多选题一. 单选题 1.按照渐近阶从低到高的顺序排列下列表达式： 30n，2logn，4，n! A. 4 Origina…

人工智能 2023年7月30日
0091
MMCV学习——基础篇1（配置&注册机制）

博主最近在学习mmcv这个基础库，所以写一个博客记录一下。一来是作为学习笔记，方便日后查阅，二来是和大家分享交流一下我得学习心得。 mmcv是由OpenMMLab开源的一个计算机视…

人工智能 2023年6月16日
00134
Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad

目录写在前面一、 torch.optim.SGD 随机梯度下降 SGD代码 SGD算法解析 1.MBGD（Mini-batch Gradient Descent）小批量梯度下降…

人工智能 2023年7月25日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

度秘语音引擎app_带有语音识别功能的APP

大家都在看