计算机视觉与智能语音处理融合套件初体验（语音部分）

2023年5月25日下午8:34 • 人工智能 • 阅读 112

本次实验我们使用的是EAIDK计算机视觉+语音处理套件试验箱进行实验

套件介绍

套件简介

EAIDK计算机视觉+语音实验箱以嵌入式人工智能开发套件EAIDK-610为核心，具备语音、视觉等传感器数据采集能力，及适用于多场景的运动控制接口；预装Linux操作系统与嵌入式深度学习框架Tengine，支持视觉处理与分析、语音识别与语义分析、SLAM等应用的基础平台和主流开源算法，可满足嵌入式人工智能教学与科研、AI算法应用与开发、AI产品原型开发验证等应用场景。

视觉套件包含 计算机视觉， ARM嵌入式和 人工智能语音处理三个部分：

视觉部分包括两个功能：
人脸属性
人脸识别
嵌入式部分主要包含 3个传感器和 2个电子执行器：
传感器：
- 红外感应器
- 超声波测距
- NFC磁卡读取器
电子执行器
- 风扇（含继电器，电机）
- LED发光二极管
人工智能语音处理包含：
语音处理
语音识别
语音合成
智能对话

本次实验中，由于对箱子的功能不尽了解，时间也相对有限，所以我只完成了以下几个简单的实验：

语音部分：
录音实验
播放实验
语音变速实验
降噪实验
回声消除实验
语音活性检测实验
视觉部分：
图像采集
图像处理
背景提取
视频跟踪

语音部分实验

1.录音实验：

录音流程：

实验过程：

进入 /home/openailab/cases/record/case/speech/record 文件夹中

CMakeLists.txt 是控制程序编译的文件，会根据此文件生成Makefile以及编译。
compile.sh为编译本案例的脚本
main.cpp是录音的C++源码
README.txt为运行本案例的指导文档
record.json为控制ESP平台编译的json文件

首先，我们需要编译平台。进入/home/openailab/cases/record/platform/release目录下

在该目录下，用./ninja.sh编译平台

成功编译后，我们回到案例目录/home/openailab/cases/record/case/speech/record。进入该目录之后，我们可以用./compile.sh命令编译工程

编译之后，我们在案例目录下会得到一个build目录，进入build目录内，首先使用arecord -l 查看有哪些播放设备

如上图所示，Microphone [USB FS Microphone] 新版套件所提供的V2版本麦克风（黑色）

Audio [Sabine Array Audio]新版套件所提供的V1版本麦克风（绿色）

如果是V1版麦克风，则使用./record hw:Audio进行录音

同理，V2版麦克风，则使用./record hw:Microphone进行录音

V3版麦克风，则使用./record hw:MicArray进行录音

运行此命令之后录音便会开始，我们可以按回车停止录音，录音结束后按ctrl+c退出案例。此时build目录下会显示一个save.pcm的录音文件，正如文件的后缀显示，是一个pcm格式的音频。

; 2.播放实验：

播放案例代码放于/home/openailab/cases/play/case/speech/play目录下。目录主要文件包含如下图

CMakeLists.txt 是控制程序编译的文件，会根据此文件生成Makefile以及编译
compile.sh为编译本案例的脚本
esp_demo.wav为案例播放音频
main.cpp是播放案例的C++源码
play.json为控制ESP平台编译的json文件
README.txt为运行本案例的指导文档

首先，我们需要编译平台。进入/home/openailab/cases/play/platform/release目录下

在该目录下，用./ninja.sh编译平台，成功编译后，

我们回到案例目录/home/openailab/cases/play/case/speech/play。进入该目录之后，我们可以用./compile.sh命令编译工程

编译之后，我们在案例目录下会得到一个build目录。

进入build目录内，用./play命令运行案例，运行此命令之后播放便会开始。

3.语音变速实验

语音变速变调案例文件放在/home/openailab/cases/vcs/case/speech/vcs目录下

CMakeLists.txt 是控制程序编译的文件，会根据此文件生成Makefile以及编译
compile.sh为编译本案例的脚本
esp_raw.wav为变速变调处理前的音频文件
main.cpp是变速变调案例的C++源码
README.txt为运行本案例的指导文档
vcs.json为控制ESP平台编译的json文件

首先，我们需要编译平台。进入/home/openailab/cases/vcs/platform/release目录下

在该目录下，用./ninja.sh编译平台

成功编译后，我们回到案例目录/home/openailab/cases/vcs/case/speech/vcs。进入该目录之后，我们可以用./compile.sh命令编译工程

编译之后，我们在案例目录下会得到一个build目录，进入build目录内，用./vcs命令运行案例

运行此命令后，变速变调处理开始，处理结束，build目录内会生成根据esp_raw.wav文件处理后的esp_vcs.wav文件。我们用 play esp_vcs.wav播放此音频文件，即可听到处理后的音频。

; 4.降噪实验

首先是一些基础知识的储备：

噪声估计的越准确得到的结果就越好。估计噪声的方法有如下几种：

基于VAD检测的噪声估计，VAD对Y进行检测，如果检测没有语音，则认为噪声
基于全局幅度最小原理，该估计认为幅度谱最小的情况必然对应没有语音的时候
基于矩阵奇异值分解原理估计噪声的
对似然比函数进行改进，将多个语音/噪声分类特征合并到一个模型中形成一个多特征综合概率密度函数，对输入的每帧频谱进行分析。其可以有效控制风扇/办公室设备等噪声

对接收到的每一帧带噪语音信号，以对该帧的初始噪声估计为前提，定义语音概率函数，测量每一帧带噪信号的分类特征，使用测量出来的分类特征，计算每一帧基于多特征的语音概率，在对计算出的语音概率进行动态因子（信号分类特征和阈值参数）加权，根据计算出的每帧基于特征的语音概率，修改多帧中每一帧的语音概率函数，以及使用修改后每帧语音概率函数，更新每帧中的初始噪声（连续多帧中每一帧的分位数噪声）估计。

这里噪声抑制算法的核心是采用维纳滤波器来抑制估计出来的噪声。维纳滤波（wiener filtering) 一种基于最小均方误差准则、对平稳过程的最优估计器。这种滤波器的输出与期望输出之间的均方误差为最小，因此，它是一个最佳滤波系统。它可用于提取被平稳噪声所污染的语音信号。

降噪工程位于/home/openailab/cases/ns/case/speech/ns目录下

CMakeLists.txt是用于生成Makefile,控制编译的文件
compile.sh为编译程序的脚本
dr_mp3.h是本案例所用到的处理mp3文件的库
dr_wav.h是本案例所用到的处理wav文件的库
esp_demo.wav为案例音频文件
main.c为案例主程序文件
noise_suppression.c为降噪功能源码
noise_suppression.h为降噪功能头文件
ns.json为控制程序编译的json文件
timing.h为程序使用到的计时头文件

进入案例目录之后，我们可以用./compile.sh命令编译工程

编译之后，我们在案例目录下会得到一个build目录，进入build目录内，用./ns esp_demo.wav命令运行案例

运行此命令之后降噪便会开始，结束后按任意键退出案例运行。此时build目录下会显示一个esp_demo_out.wav的音频文件，此文件为降噪处理后的效果音频。

5.回声消除实验

同样是先学习一些相关的知识储备：

从回声产生的原因看，可以分为声学回声（Acoustic Echo）和线路回声（Line Echo），相应的回声消除技术就叫声学回声消除（Acoustic Echo Cancellation，AEC）和线路回声消除（Line Echo Cancellation, LEC）。声学回音是由于在免提或者会议应用中，扬声器的声音多次反馈到麦克风引起的；线路回音是由于物理电子线路的二四线匹配耦合引起的。

尽管回声消除是一项非常复杂的技术，但仍然可以通过相对简单的语言描述这一处理过程：

房间A的音频会议系统接收到房间B中的声音
声音被采样，这一采样被称为回声消除参考
随后声音被送到房间A的音箱和声学回声消除器中
房间B的声音和房间A的声音一起被房间A的话筒拾取
声音被送到声学回声消除器，与原始的采样进行比较，移除房间B的声音

工程位于/home/openailab/cases/aecm/case/speech/aecm目录下

aecm.c为案例代码的源文件
aecm.h为案例需要的头文件
aecm.json为控制本案例编译的json文件
dr_wav.h为项目需要的头文件
CMakeLists.txt为控制本案例编译的CMakeList
compile.sh为编译本案例需要的脚本
main.c 为c源代码
micin.wav为本案例所需的案例音频
speaker.wav为本案例所需的案例音频
timing.h为项目需要的头文件

进入案例目录之后，我们可以用./compile.sh命令编译工程

编译之后，我们在案例目录下会得到一个build目录，进入build目录内，用./aecm命令运行案例

运行此命令之后回声消除便会开始，结束后按任意键退出案例运行。此时build目录下会显示一个aecm_out.wav的音频文件，此文件为回程消除处理后的效果音频

; 6.语音活性检测实验

VAD(voice activity detection)广泛应用于语音编码和降噪。这里所说的是语音/非语音检测，一个VAD系统通常包括两个部分：

特征提取和语音
非语音判决

常用的特征提取可以分为以下几类：

基于能量：基于能量的特征常用硬件实现
频域
倒谱：倒谱在在低信噪比下可以获得较好的效果
谐波和长时信息：当信噪比达到0dB时，基于语音谐波和长时语音特征更具有鲁棒性

活性算法集成在/home/openailab/cases/vad/case/speech/vad工程当中

Cmakelists.txt为控制案例编译生成Makefile的文件
compile.sh为编译案例需要使用的脚本
dr_wav.h为处理wav音频的头文件
main.c为主程序文件
timing.h为计时功能的头文件
vad.c为语音活性检测功能的c文件
vad.h为语音活性检测功能的头文件
vad.h为语音活性检测功能的头文件
vad_test.wav为案例音频

进入案例目录之后，我们可以用./compile.sh命令编译工程

编译之后，我们在案例目录下会得到一个build目录，进入build目录内，用./vad vad_test.wav命令运行案例

运行此命令之后语音活性检测便会开始。完成检测后，屏幕上会输出一系列0和1 的数字串，此处0代表该位置无人声，1代表该位置有人声

Original: https://blog.csdn.net/L_superhero/article/details/124856997
Author: 爱摸鱼的伪程序猿
Title: 计算机视觉与智能语音处理融合套件初体验（语音部分）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515922/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图的分类–图论笔记

图的分类 – 潘登同学的图论笔记文章目录图的分类 — 潘登同学的图论笔记 * 无向图(我们着重讨论简单图) – 图的数学语言简单图:不存在自环和重边的…

人工智能 2023年7月2日
0066
半监督KMeans

半监督KMeans KMeans是无监督的。当然也可以是有监督的。有监督形式非常简单。就是根据labels计算聚类中心即可。相当于无监督KMeans的半步迭代。本文贡献的是半监督…

人工智能 2023年6月2日
0073
自适应,响应式以及图片的性能优化(响应式图片)

自适应:最常见的就是淘宝无限适配[移动端]+rem单位 index.js · 2.0 · mirrors / amfe / lib-flexible · GitCode 可以将这个…

人工智能 2023年6月30日
00109
图像预处理

图像增强的目标增强需要的减弱不需要的图像处理方法点运算特征提取的方法直方图的均衡化自适应直方图均衡的办法（AHE） CLAHE算法步骤原图 AHE CLAHE 形态学…

人工智能 2023年6月22日
0093
OpenMV入门

1. 什么是OpenMV OpenMV 是一个开源，低成本，功能强大的机器视觉模块。 OpenMV上的机器视觉算法包括寻找色块、人脸检测、眼球跟踪、边缘检测、标志跟踪等。以S…

人工智能 2023年7月19日
0078
tensorflow中的图像编解码，画框操作

https://blog.csdn.net/seuzhouchenglong/article/details/104047784 https://blog.csdn.net/dil…

人工智能 2023年5月25日
0088
r语言逻辑回归_R语言机器学习 | 3 逻辑回归

1 基础知识逻辑回归(logistic regression)是线性回归的推广，属于广义线性模型(generalized linear model)的一种。所谓广义线性回归，…

人工智能 2023年6月18日
00122
模式识别与图像处理课程实验一：图像处理实验(颜色算子实验、Susan、Harris角点检测实验、 sobel边缘算子检测实验)

模式识别与图像处理课程实验一：图像处理实验–>> 颜色算子实验、Susan、Harris角点检测实验、 sobel边缘算子检测实验一、实验内容二、颜…

人工智能 2023年6月18日
00117
知识图谱系列（一）：如何构建一个简单的知识图谱

之前在了解对话系统的时候，就发现其实一个有应用价值的对话系统，需要引入外部知识辅助决策分析，所以我就打算最近学习一下知识图谱，并尝试结合知识图谱构建一个对话系统。知识图谱是谷歌提…

人工智能 2023年6月1日
0082
混淆矩阵不支持multilabel-indicator

from sklearn.metrics import confusion_matrix import seaborn as sns def plot_cm(labels, pre…

人工智能 2023年7月2日
0062
RNA 21. SCI 文章中单基因富集分析

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 88篇原创内容公众号…

人工智能 2023年7月16日
0065
【KD】Transformer在各个研究领域的轻量化研究进展

目录引言 Transformer中常用的模型压缩方法在预训练语言模型中的轻量化Transformer Q8BERT: Quantized 8Bit BERT Original:…

人工智能 2023年6月27日
0091
ICRA2022 SLAM进展—激光SLAM

激光SLAM文章列表 ICRA2022 SLAM Paper List Learning Spatiotemporal Occupancy Grid Maps for Lifelo…

人工智能 2023年7月26日
0089
手把手带你Yolov5 (v6.x)添加注意力机制(一)（并附上30多种顶会Attention原理图）(新增8种)

🌟想了解YOLO系列算法更多进阶教程欢迎订阅我的专栏🌟 基础不好的同学可以试试看一下我的《目标检测蓝皮书》🚀 ，里面包含超多目标检测实用知识，想速通目标检测，看这本就对了！想了解…

人工智能 2023年6月15日
00268
【youcans 的图像处理学习课】11. 形态学图像处理（中）

专栏地址：『youcans 的图像处理学习课』文章目录：『youcans 的图像处理学习课 – 总目录』【youcans 的图像处理学习课】11. 形态学图像处理（上）…

人工智能 2023年6月22日
0067
程序猿七夕礼物-如何30分钟给女朋友快速搭建专属语聊房

1 语聊房应用场景说明七夕礼物准备好了吗？程序猿七夕礼物标配，给女友搭建专属语聊房，既浪漫又硬核！语聊房在社交场景中使用比较广泛，社交APP中的语聊房场景的实现，主要由业务系统…

人工智能 2023年6月3日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

计算机视觉与智能语音处理融合套件初体验（语音部分）

套件介绍

套件简介

语音部分实验

1.录音实验：

; 2.播放实验：

3.语音变速实验

; 4.降噪实验

5.回声消除实验

; 6.语音活性检测实验

大家都在看