31 OPENVINO advanced course5 语音识别

初始化环境

定义工作目录

export OV=/opt/intel/openvino_2021/

export WD=~/OV-300/06/Lab1/

export MODELS_PATH=~/OV-300/06/Lab1/

初始化OpenVINO

source $OV/bin/setupvars.sh

开始实验

进入实验目录

cd $WD

下载并使用MO转换声音识别模型

bash download_audio_models.sh

通过vi查看模型拓扑结构

vi $MODELS_PATH/audio_models/aclnet/FP32/aclnet.xml

注:可以看到该xml的版本以及 数据精度为:FP32,input shape=”1, 1, 1, 16000″。使用”:q”指令退出该界面。

播放需要检测的声音文件

使用show命令,播放mp3

show how_are_you_doing.mp3

注:由于功能限制,必须手动逐字输入该命令。并且由于限制,平台只能够播放MP3格式文件,实验运行的声音材料为WAV格式,本平台事先已经将WAV转换成MP3格式可供使用。

运行Demo

运行指令:

bash audio_event_detection.sh

注:屏幕上将会打印DL-Streamer的pipeline指令和该指令的全部输出结果

运行筛选结果的指令,来查看探测到的声音种类:

bash audio_event_detection.sh | grep “label”:” | sed ‘s/label_id.//’ |sed ‘s/.label”/==>/’

挑战任务:提高程序的识别准确度

你可以从音频文件听到没有昆虫的声音,但是程序检测到了昆虫的声音。请你思考一下,如何改善这个问题?

注:检查村里每种声音是否有一个临界值,即检测阈值。

[En]

Note: check whether there is a critical value for each kind of sound in the village, that is, the detection threshold.

修改aclnet.json 脚本来实现你的猜想:

vi $WD/model_proc/aclnet.json

解决方案:尝试 “Insects (flying)” 在 0.5 至0.9 之间更改,更改后保存完再次运行audio_event_detection.sh进行测试,直至检测不到昆虫噪音。

思考任务

你可以上传你的WAV文件进行测试,不过若是想使用平台进行播放mp3,记得使用:

ffmpeg -i xxx.wav output.mp3

转换成MP3进行播放哦,并且需要修改audio_event_detection.sh里面的输入wav名称。

注意:上传和下载文件的教程位于帮助手册页面的上角。按确认键即可跳过实验。

[En]

Note: tutorials for uploading and downloading files are available in the upper corner of the page in the help manual. The experiment can be skipped by pressing the confirm key.

初始化环境

定义工作目录

export OV=/opt/intel/openvino_2021/

export WD=~/OV-300/06/Lab2/

添加OpenVINO Python API路径

export PYTHONPATH=”$PYTHONPATH:/home/dc2-user/omz_demos_build/intel64/Release/lib/”

初始化OpenVINO

source $OV/bin/setupvars.sh

进入工作目录

cd $WD

将原生模型转换为IR格式

使用converter.py将事先准备好的mozilla-deepspeech-0.6.1进行IR转换 :

python3 $OV/deployment_tools/tools/model_downloader/converter.py –name mozilla-deepspeech-0.6.1 -o $WD

运行声音识别Demo

播放待识别的声音文件:

show how_are_you_doing.mp3

运行声音识别示例:

python3 $OV/deployment_tools/inference_engine/demos/speech_recognition_deepspeech_demo/python/speech_recognition_deepspeech_demo.py -m ./public/mozilla-deepspeech-0.6.1/FP32/mozilla-deepspeech-0.6.1.xml -i how_are_you_doing.wav -p mds06x_en

思考任务

使用你自带的wav文件进行声音识别示例,看看能否正确识别到文件中的声音。

可以尝试使用中文或者英文作为声音输入,并且实验探究一下它们识别的准确性。

Original: https://blog.csdn.net/weixin_44498127/article/details/123776748
Author: THE ORDER
Title: 31 OPENVINO advanced course5 语音识别

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/497950/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球