语音识别-食物声音识别

2023年5月27日下午4:26 • 人工智能 • 阅读 69

声音识别和自然语言处理类似，声音和文本都是一种序列化的数据。自然语言处理要处理文本，首先要将文本表示成为计算机能够识别的数据，比如one-hot编码，词袋模型，或者训练成词向量嵌入到空间内。在声音领域内，声音可以通过librosa库进行特征处理，例如提取melspectrogram，mfcc特征。进而可以成为计算机可以识别，处理的数据。

本次做食物声音识别，共有20种咀嚼食物的声音，如咀嚼肉饼，卷心菜等。baseline采用的是CNN，最后一层接全连接层，激活函数采用softmax，做多种声音识别

提取特征后的数据要经过处理输入到Conv2D函数中，Conv2D处理的数据是四维数据，且Conv2D处理的数据格式为conv2d(in_channels,out_channels,kernel_size, stride=(1,1),padding=0,dilation=(1,1),groups=1)。

经过处理之后X-train格式为(750,16,8,1),X-test格式为(250,16,8,1),四维数据的物理意义为(batch_size, channel, height, width)

经过CNN网络，卷积，池化，flatten，最后经过softmax分类经过的网络结构如下图所示，总共的参数为1144596个

Layer (type) Output Shape Param #

conv2d (Conv2D) (None, 16, 8, 64) 640

max_pooling2d (MaxPooling2D) (None, 8, 4, 64) 0

conv2d_1 (Conv2D) (None, 8, 4, 128) 73856

max_pooling2d_1 (MaxPooling2 (None, 4, 2, 128) 0

dropout (Dropout) (None, 4, 2, 128) 0

flatten (Flatten) (None, 1024) 0

dense (Dense) (None, 1024) 1049600

dense_1 (Dense) (None, 20) 20500

Total params: 1,144,596
Trainable params: 1,144,596
Non-trainable params: 0

框架选用的是基于tensorflow的kears框架，最后将训练后的model应用到测试数据，即可预测测试声音的标签，结果并保存到submit.csv

Original: https://blog.csdn.net/qq_33588413/article/details/115666469
Author: qq_33588413
Title: 语音识别-食物声音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526878/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文 | 知识图谱自动构建 Automatic Knowledge Graph Construction

论文 | 知识图谱自动构建 Automatic Knowledge Graph Construction 前言知识图谱自动构建要素论文解决的问题论文方法 * Module1 …

人工智能 2023年6月1日
0093
Lesson 7.1&Lesson 7.2 无监督学习算法与K-Means快速聚类&Mini Batch K-Means与DBSCAN密度聚类

Lesson 7.1 无监督学习算法与K-Means快速聚类从本节开始，我们将介绍无监督学习领域内最重要的一类算法——聚类算法。 import numpy as np impor…

人工智能 2023年6月2日
0098
设置pandas显示行数_Pandas 使用小技巧 No 23

Pandas 使用小技巧 23：系统配置如何 print一次只显示指定行数，指定列数。使用 pd.set_option方法，演示过程如下。首先创建一个 DataFrame: …

人工智能 2023年7月8日
0098
多模态融合 2022|DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection阅读笔记

论文题目：DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection（前融合）单位：googl…

人工智能 2023年6月17日
0083
c#Winform使用Opencvsharp4实现简易人脸识别

环境配置： vs2019 ， .Net FrameWork 4.8 Opencvsharp4 在Nuget内下载最新的Opencvsharp4即可，大概说一下我所理解的人脸识别的…

人工智能 2023年6月17日
0091
CUDA 11.7无法安装pytorch的GPU版本

环境： CUDA 11.7 + python 3.6 情况描述我的CUDA是11.7的，在pytorch官方（https://pytorch.org/）找对应的pytorch，由…

人工智能 2023年7月4日
0082
岭回归和套索回归（Lasso）——解决多元回归的多重共线性问题

目录标题 * – 岭回归 – Lasso回归 – Stata的使用 – + K 折交叉验证 + 案例 – 总结 &#82…

人工智能 2023年6月17日
00330
python query方法_Pandas dataframe.query方法语法

问题：我想更好地理解PandasDataFrame.query方法以及下面的表达式表示什么：match = dfDays.query(‘index > @x.n…

人工智能 2023年7月7日
0064
聚类算法数值属性的质心_聚类（一）：相似性度量

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0081
【Python】【爬虫】爬取小说5000章，遇到的爬虫问题与解决思路

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月10日
0068
z3求解器(SMT)解各类方程各种逻辑题非常简单直观

各位小伙伴大家好，今天我将给大家演示一个非常高级的工具，SMT求解器。应用领域非常广，解各类方程，解各类编程问题（例如解数独），解逻辑题等都不在话下。今天小小明就将带大家看看这其…

人工智能 2023年7月4日
0070
GIN：图神经网络有多强大? HOW POWERFUL ARE GRAPH NEURALNET WORKS

论文： HOW POWERFUL ARE GRAPH NEURALNET WORKS https://arxiv.org/abs/1810.00826v1 来源：ICLR 2019…

人工智能 2023年7月14日
0083
关于多标签分类任务的损失函数和评价指标的一点理解

关于多标签分类任务的损失函数和评价指标的一点理解之前有接触到多标签分类任务，但是主要关注点都放在模型结构中，最近关于多标签分类任务进行了一个讨论，发现其中有些细节不是太清楚，经过…

人工智能 2023年7月3日
0074
目标检测——COCO数据集的处理与评估

coco数据集是我们计算机视觉中最常用的数据集，因此我们需要知道并且熟悉其处理与评估 1. coco数据集的处理代码： """COCO Dat…

人工智能 2023年7月9日
00123
Linux终端如何运行py文件【python代码文件】

🍒 作者简介：大学机械本科，野生程序猿，学过C语言，玩过前端，还鼓捣过嵌入式，设计也会一点点，不过如今痴迷于网络爬虫，因此现深耕Python、数据库、seienium、JS逆向、安…

人工智能 2023年7月5日
0094
用python代码画爱心，来自程序猿的浪漫

不相信python代码可以画爱心？先来一张效果图来看看效果吧！用python代码画爱心的思路是怎样的？ 1、怎么画心形曲线 2、怎么填满心形曲线 3、怎么用 python 画出爱…

人工智能 2023年7月4日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音识别-食物声音识别

Layer (type) Output Shape Param #

dense_1 (Dense) (None, 20) 20500

大家都在看