31 OPENVINO advanced course5 语音识别

2023年5月23日下午8:23 • 人工智能 • 阅读 99

初始化环境

定义工作目录

export OV=/opt/intel/openvino_2021/

export WD=~/OV-300/06/Lab1/

export MODELS_PATH=~/OV-300/06/Lab1/

初始化OpenVINO

source $OV/bin/setupvars.sh

开始实验

进入实验目录

cd $WD

下载并使用MO转换声音识别模型

bash download_audio_models.sh

通过vi查看模型拓扑结构

vi $MODELS_PATH/audio_models/aclnet/FP32/aclnet.xml

注：可以看到该xml的版本以及数据精度为：FP32，input shape=”1, 1, 1, 16000″。使用”:q”指令退出该界面。

播放需要检测的声音文件

使用show命令，播放mp3

show how_are_you_doing.mp3

注：由于功能限制，必须手动逐字输入该命令。并且由于限制，平台只能够播放MP3格式文件，实验运行的声音材料为WAV格式，本平台事先已经将WAV转换成MP3格式可供使用。

运行Demo

运行指令：

bash audio_event_detection.sh

注：屏幕上将会打印DL-Streamer的pipeline指令和该指令的全部输出结果

运行筛选结果的指令,来查看探测到的声音种类:

bash audio_event_detection.sh | grep “label”:” | sed ‘s/label_id.//’ |sed ‘s/.label”/==>/’

挑战任务：提高程序的识别准确度

你可以从音频文件听到没有昆虫的声音，但是程序检测到了昆虫的声音。请你思考一下，如何改善这个问题？

注：检查村里每种声音是否有一个临界值，即检测阈值。

[En]

Note: check whether there is a critical value for each kind of sound in the village, that is, the detection threshold.

修改aclnet.json 脚本来实现你的猜想：

vi $WD/model_proc/aclnet.json

解决方案：尝试 “Insects (flying)” 在 0.5 至0.9 之间更改，更改后保存完再次运行audio_event_detection.sh进行测试，直至检测不到昆虫噪音。

思考任务

你可以上传你的WAV文件进行测试，不过若是想使用平台进行播放mp3，记得使用：

ffmpeg -i xxx.wav output.mp3

转换成MP3进行播放哦，并且需要修改audio_event_detection.sh里面的输入wav名称。

注意：上传和下载文件的教程位于帮助手册页面的上角。按确认键即可跳过实验。

[En]

Note: tutorials for uploading and downloading files are available in the upper corner of the page in the help manual. The experiment can be skipped by pressing the confirm key.

初始化环境

定义工作目录

export OV=/opt/intel/openvino_2021/

export WD=~/OV-300/06/Lab2/

添加OpenVINO Python API路径

export PYTHONPATH=”$PYTHONPATH:/home/dc2-user/omz_demos_build/intel64/Release/lib/”

初始化OpenVINO

source $OV/bin/setupvars.sh

进入工作目录

cd $WD

将原生模型转换为IR格式

使用converter.py将事先准备好的mozilla-deepspeech-0.6.1进行IR转换：

python3 $OV/deployment_tools/tools/model_downloader/converter.py –name mozilla-deepspeech-0.6.1 -o $WD

运行声音识别Demo

播放待识别的声音文件：

show how_are_you_doing.mp3

运行声音识别示例：

python3 $OV/deployment_tools/inference_engine/demos/speech_recognition_deepspeech_demo/python/speech_recognition_deepspeech_demo.py -m ./public/mozilla-deepspeech-0.6.1/FP32/mozilla-deepspeech-0.6.1.xml -i how_are_you_doing.wav -p mds06x_en

思考任务

使用你自带的wav文件进行声音识别示例，看看能否正确识别到文件中的声音。

可以尝试使用中文或者英文作为声音输入，并且实验探究一下它们识别的准确性。

Original: https://blog.csdn.net/weixin_44498127/article/details/123776748
Author: THE ORDER
Title: 31 OPENVINO advanced course5 语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/497950/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

DataFrame详解——合并/比较/加入/合并

合并/比较/加入/合并方法解释DataFrame.append(other[, ignore_index, …])在末尾添加行DataFrame.assign(**k…

人工智能 2023年7月6日
0067
如何培养真正的数据分析思维？附实践案例

这个问题要拆分成两方面来说。因为不同场景，对于数据分析的需要程度是不同的，需要的能力各不相同。第一种：有一部分人只是需要在一些工作中，分析部分数据，从而指导自己工作，为之后计划…

人工智能 2023年6月11日
0078
EX3：逻辑回归实现手写数字识别（多类分类）

1.读取数据注意给出的数据集是以mat形式为后缀，在python中可以使用scipy.io中的函数loadmat()读取mat文件。 import numpy as np fro…

人工智能 2023年7月1日
0063
YOLOv6 Tensorrt Python部署教程

B站教学视频 https://www.bilibili.com/video/BV1ka411p7u4/ Github仓库地址 https://github.com/Monday-L…

人工智能 2023年7月12日
0077
从零到一实现神经网络（六）：误差反向传播算法更新网络权重

目录误差反向传播原理 * 单个神经元上的误差传播更多层的误差传播误差计算的矩阵表示求函数梯度的新方法 * 输出层输出误差e k e_k e k 与权重参数的偏导数表达式推…

人工智能 2023年7月14日
00114
pandas的疯狂融合之路

文 | 清香客来源：Python 技术「ID: pythonall」大家好，我是派森酱。上次介绍了 pandas的两表连接 merge技能，有的酱友留言说那么点数据用 exc…

人工智能 2023年7月8日
0061
pandas.DataFrame.sample

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=N…

人工智能 2023年6月2日
0073
数据挖掘实战—电商产品评论数据情感分析

文章目录 * – 引言 – 一、评论预处理 – + 1.评论去重 + 2.数据清洗 – 二、评论分词 – + 1.分词、…

人工智能 2023年6月19日
0077
大数据导论学习通考试习题

第7章数据处理与分析一、单选题 1、下面描述错误的是：（） A. 数据分析可以分为广义的数据分析和狭义的数据分析 B.广义的数据分析就包括狭义的数据分析和数据挖掘。 C .数…

人工智能 2023年7月15日
00196
图解自注意力机制

写在最前边这个文章是《图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)》的一部分…

人工智能 2023年7月26日
0086
Python Pandas merge 连接参数详解数据合并数据拼接

; pd.merge 根据一个或多个键将 两个DataFrame 进行 行 连接（横向 / 左右连接），类似于SQ…

人工智能 2023年7月7日
0091
【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN：基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月13日
0069
阿尔法小蛋机器人热点密码_科大讯飞阿尔法小蛋智能机器人使用说明

阿尔法蛋机器人是科大讯飞推出一款儿童智能陪伴机器人，它搭载了讯飞淘云的TY OS系统，能够做到自我深度学习。阿尔法蛋机器人是科大讯飞推出一款儿童智能陪伴机器人，它搭载了讯飞淘云的…

人工智能 2023年5月27日
00142
Linux基本命令简单介绍

Linux基本命令（上）前言 ls命令 pwd命令 cd命令 touch命令 mkdir rmdir指令 rm命令 cp命令 mv指令 man指令总结前言本文主要简单介绍一…

人工智能 2023年6月29日
0068
opencv-python3 | cv2.findContours()检测图像中物体轮廓

cv2.findContours检测物体轮廓什么是物体轮廓 cv2.findContours cv2.drawContours 代码示例什么是物体轮廓轮廓可以简单地理解为连接…

人工智能 2023年6月19日
00103
训练自己的点云数据进行3D目标检测

使用OpenPCDet框架训练&#x81…

人工智能 2023年7月9日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

31 OPENVINO advanced course5 语音识别

初始化环境

定义工作目录

初始化OpenVINO

开始实验

进入实验目录

下载并使用MO转换声音识别模型

通过vi查看模型拓扑结构

播放需要检测的声音文件

使用show命令，播放mp3

运行Demo

运行指令：

运行筛选结果的指令,来查看探测到的声音种类:

挑战任务：提高程序的识别准确度

你可以从音频文件听到没有昆虫的声音，但是程序检测到了昆虫的声音。请你思考一下，如何改善这个问题？

修改aclnet.json 脚本来实现你的猜想：

思考任务

定义工作目录

添加OpenVINO Python API路径

初始化OpenVINO

进入工作目录

将原生模型转换为IR格式

使用converter.py将事先准备好的mozilla-deepspeech-0.6.1进行IR转换 ：

运行声音识别Demo

播放待识别的声音文件：

运行声音识别示例：

思考任务

使用你自带的wav文件进行声音识别示例，看看能否正确识别到文件中的声音。

可以尝试使用中文或者英文作为声音输入，并且实验探究一下它们识别的准确性。

大家都在看

使用converter.py将事先准备好的mozilla-deepspeech-0.6.1进行IR转换：