听音识情绪 | 程序员手把手教你搭建神经网络，更快get女朋友情绪，求生欲max！⛵

2023年7月13日下午7:26 • 人工智能 • 阅读 65

💡 作者：韩信子@ShowMeAI
📘深度学习实战系列：https://www.showmeai.tech/tutorials/42
📘NLP实战系列: https://www.showmeai.tech/tutorials/45
📘本文地址：https://www.showmeai.tech/article-detail/291
📢 声明：版权所有，转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

《礼记·乐记》中说：”凡音之起，由人心生也。人心之动，物使之然也。感于物而动，故形于声。声相应，故生变。”

这说的是人对于一种事物有感而生，必然表现在声音上。而晚清名臣曾国藩也提到，他在认人识人中有自己独到的方法，其中，特别喜欢通过声音来识别人才。他认为，声音不仅能反映出一个人的贵贱和修养，也能听出其内心情绪变化。结合这个方法他一生提拔了大量人才。

既然声音对一个人的情绪性格表现这么明显，AI算法能不能根据声音识别情绪和气氛呢？如果来电话的女朋友，一张口AI就知道是什么情绪状态，钢铁直男小哥哥们可能求生欲技能可以plus max。

在本篇内容中，ShowMeAI就针对「 语音情感识别任务」，手把手带大家来构建一个处理和分类语音检测情绪的系统。

; 💡 背景概述

要完成语音情绪识别任务，我们先来了解一点基础知识：

语音包括三类不同的特征：

词汇特征（使用的词汇）
视觉特征（说话者的表达方式）
声学特征（音高、音调、抖动等声音属性）

我们当然可以基于词汇（文本）或者视觉信息来做情绪分类，在本篇内容中我们聚焦在声学特征进行分类，我们构建一个深度学习的神经网络来完成这个任务。

当然使用深度学习网络进行情绪识别也有其自身的挑战。大家都知道，情绪是高度主观的，解释因人而异；而且很多时候，我们很难将情绪归类为单一类别，我们在任何给定时间都可能感受到一系列情绪。所以真实解决这个问题的时候，数据的采集和标注其实是一个有挑战的任务。

💡 数据说明

在本篇中，ShowMeAI使用到的是公开数据集RAVDESS来训练该模型。RAVDESS 数据集包含1440个文件，覆盖两种不同类型的数据：演讲和歌曲。由24位专业演员（12位女性，12位男性）录制，语音情绪包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶。每种情绪都包含2种不同的程度（正常，强烈）。

数据可以在 🏆kaggle平台数据页;下载，大家也可以在ShowMeAI的百度网盘中直接下载整理好的版本。

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文 [4] 搭建基于深度学习的语音情感识别系统『 RAVDESS Emotional speech audio 数据集』

⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub

💡 神经网络开发应用

我们使用神经网络来对音频数据进行理解和分析预估，有不同的神经网络可以使用（多层感知器、 CNN 和 LSTM 等都可以处理音频时序数据），基于效率和效果考虑，我们下面会构建深度卷积神经网络来对音频文件中的情绪进行分类。

关于卷积神经网络的详细知识可以参考ShowMeAI下述教程：

① 数据导入与简单分析

我们首先导入数据，并做一点简单的可视化和分析，这里的音频数据我们会使用 LibROSA工具库来处理和绘图（波形和频谱图）。

针对语音相关的任务（语音识别、声纹识别等），MFCC（Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数）是非常有效的表征特征。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，它广泛地应用在语音各项任务中。使用 LibROSA 包可以轻松导入音频数据并提取 MFCC 格式信息。


!pip install librosa


import librosa
import librosa.display
import numpy as np
import pandas as pd
import glob
import os, sys
import matplotlib.pyplot as plt


data, sampling_rate = librosa.load('Data/03-02-06-02-02-02-12.wav')

%matplotlib inline
plt.figure(figsize=(15, 5))
librosa.display.waveshow(data, sr=sampling_rate)

我们得到了如下的音频波形图

下面我们绘制一下音频的频谱图

import scipy.io.wavfile

sr,x = scipy.io.wavfile.read('RawData/03-02-06-02-02-02-12.wav')

nstep = int(sr * 0.01)
nwin  = int(sr * 0.03)
nfft = nwin

window = np.hamming(nwin)

nn = range(nwin, len(x), nstep)
X = np.zeros( (len(nn), nfft//2) )

for i,n in enumerate(nn):
    xseg = x[n-nwin:n]
    z = np.fft.fft(window * xseg, nfft)
    X[i,:] = np.log(np.abs(z[:nfft//2]))

plt.imshow(X.T, interpolation='nearest',
    origin='lower',
    aspect='auto')

plt.show()

生成的频谱图如下图所示。

② 数据标签构建与映射

下一步我们来构建一下分类问题的标签数据

feeling_list=[]

mylist= os.listdir('Data/')

for item in mylist:
    if item[6:-16]=='02' and int(item[18:-4])%2==0:
        feeling_list.append('female_calm')
    elif item[6:-16]=='02' and int(item[18:-4])%2==1:
        feeling_list.append('male_calm')
    elif item[6:-16]=='03' and int(item[18:-4])%2==0:
        feeling_list.append('female_happy')
    elif item[6:-16]=='03' and int(item[18:-4])%2==1:
        feeling_list.append('male_happy')
    elif item[6:-16]=='04' and int(item[18:-4])%2==0:
        feeling_list.append('female_sad')
    elif item[6:-16]=='04' and int(item[18:-4])%2==1:
        feeling_list.append('male_sad')
    elif item[6:-16]=='05' and int(item[18:-4])%2==0:
        feeling_list.append('female_angry')
    elif item[6:-16]=='05' and int(item[18:-4])%2==1:
        feeling_list.append('male_angry')
    elif item[6:-16]=='06' and int(item[18:-4])%2==0:
        feeling_list.append('female_fearful')
    elif item[6:-16]=='06' and int(item[18:-4])%2==1:
        feeling_list.append('male_fearful')
    elif item[:1]=='a':
        feeling_list.append('male_angry')
    elif item[:1]=='f':
        feeling_list.append('male_fearful')
    elif item[:1]=='h':
        feeling_list.append('male_happy')

    elif item[:2]=='sa':
        feeling_list.append('male_sad')


labels = pd.DataFrame(feeling_list)

labels[:920]

输出的label如下所示

③ 数据处理与特征工程

我们已经对数据做了初步理解了，下面我们从音频文件中提取特征（音频信息表征），模型可以更有效地对音频进行建模和预估。这里的特征提取我们依旧使用 LibROSA 库。

因为CNN模型的输入维度是固定的，我们在特征提取过程中，限制了音频长度（3 秒，大家在计算资源足的情况下可以选择更长的时间）。我们还做了一点处理，把每个文件的采样率增加了一倍，同时保持采样频率不变。这个操作是为了收集到更多特征。


df = pd.DataFrame(columns=['feature'])
bookmark=0

for index,y in enumerate(mylist):
    if mylist[index][6:-16] not in ['01', '07', '08'] and mylist[index][:2]!='su' and mylist[index][:1] not in ['n','d']:
        X, sample_rate = librosa.load('Data/'+y, res_type='kaiser_fast',duration=2.5,sr=22050*2,offset=0.5)
        mfccs = librosa.feature.mfcc(y=X, sr=np.array(sample_rate), n_mfcc=13)
        feature = np.mean(mfccs, axis=0)
        df.loc[bookmark] = [feature]
        bookmark=bookmark+1


df3 = pd.DataFrame(df['feature'].values.tolist())
newdf = pd.concat([df3,labels], axis=1)

rnewdf = newdf.rename(index=str, columns={"0": "label"})

得到的特征列和标签列如下所示：

④ 模型构建与优化

在完成数据特征抽取之后，我们可以开始建模了，为了科学地建模和效果评估，我们会将模型分为训练集和测试集，用测试集评估模型的性能。


from sklearn.utils import shuffle
rnewdf = shuffle(newdf)

newdf1 = np.random.rand(len(rnewdf)) < 0.8
train = rnewdf[newdf1]
test = rnewdf[~newdf1]

train[250:260]

我们得到如下的训练集部分样本

在实际建模的时候，标签的格式要适用网络最后的softmax结构，我们对标签label使用LabelEncoder进行映射处理，得到one-hot的表示。

关于one-hot独热向量编码，可以查看ShowMeAI的机器学习实战教程中的文章 机器学习特征工程最全解读


trainfeatures = train.iloc[:, :-1]
trainlabel = train.iloc[:, -1:]

testfeatures = test.iloc[:, :-1]
testlabel = test.iloc[:, -1:]

from tensorflow.keras.utils import np_utils
from sklearn.preprocessing import LabelEncoder

X_train = np.array(trainfeatures)
y_train = np.array(trainlabel)
X_test = np.array(testfeatures)
y_test = np.array(testlabel)

lb = LabelEncoder()
y_train = np_utils.to_categorical(lb.fit_transform(y_train))
y_test = np_utils.to_categorical(lb.fit_transform(y_test))

我们得到的 y_train 形如下面格式：

下面我们构建一个深度卷积网络来完成分类问题。这个 CNN 模型包括Conv1D卷积层、pooling池化层，以及 Dropout 随机失活层，以及最后的全连接层。


x_traincnn =np.expand_dims(X_train, axis=2)
x_testcnn= np.expand_dims(X_test, axis=2)

model = Sequential()

model.add(Conv1D(256, 5,padding='same', input_shape=(216,1)))
model.add(Activation('relu'))
model.add(Conv1D(128, 5,padding='same'))
model.add(Activation('relu'))

model.add(Dropout(0.1))

model.add(MaxPooling1D(pool_size=(8)))

model.add(Conv1D(128, 5,padding='same',))
model.add(Activation('relu'))
model.add(Conv1D(128, 5,padding='same',))
model.add(Activation('relu'))

model.add(Flatten())
model.add(Dense(10))
model.add(Activation('softmax'))


model.summary()

我们得到如下信息，大家可以清晰地看到模型结构

下面我们使用模型对数据进行拟合训练


model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=['accuracy'])

cnnhistory=model.fit(x_traincnn, y_train, batch_size=16, epochs=700, validation_data=(x_testcnn, y_test))

部分训练信息如下：

⑤ 模型存储及测试集评估


model_name = 'Emotion_Voice_Detection_Model.h5'

save_dir = os.path.join(os.getcwd(), 'saved_models')
model_path = os.path.join(save_dir, model_name)

model.save(model_path)
print('模型存储在 %s ' % model_path)


from tensorflow import keras
loaded_model = keras.models.load_model(model_path)

score = loaded_model.evaluate(x_testcnn, y_test, verbose=0)
print("%s: %.2f%%" % (loaded_model.metrics_names[1], score[1]*100))

⑥ 测试集预估


preds = loaded_model.predict(x_testcnn, batch_size=32, verbose=1)

pred_labels = preds.argmax(axis=1)

pred_labels = pred_labels.astype(int).flatten()
predictedvalues = (lb.inverse_transform((pred_labels)))

actual_labels = y_test.argmax(axis=1).astype(int).flatten()
actualvalues = (lb.inverse_transform((actual_labels)))

final_df = pd.DataFrame({'actualvalues': actualvalues, 'predictedvalues': predictedvalues})

final_df[170:176]

结果如下：

💡 实时预估演示

下面我们录制了一个实时音频文件，并在得到的模型上进行测试。


import sounddevice as sd
from scipy.io.wavfile import writefs = 44100
seconds = 4
sd.wait()
write('output.wav', fs, myrecording)

data, sampling_rate = librosa.load('output.wav')
plt.figure(figsize=(15, 5))
librosa.display.waveshow(data, sr=sampling_rate)

X, sample_rate = librosa.load('output.wav', res_type='kaiser_fast',duration=2.5,sr=22050*2,offset=0.5)
mfccs = np.mean(librosa.feature.mfcc(y=X, sr=np.array(sample_rate), n_mfcc=13),axis=0)
livedf= pd.DataFrame(data=mfccs)
livedf = np.expand_dims(livedf.stack().to_frame().T, axis=2)
livepreds = loaded_model.predict(livedf, batch_size=32, verbose=1)
lb.inverse_transform(livepreds.argmax(axis=1))

我们得到正确的结果 array(['male_sad'], dtype=object)。

参考资料

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文[4] 搭建基于深度学习的语音情感识别系统『 RAVDESS Emotional speech audio 数据集』
⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub
📘 深度学习教程 | 吴恩达专项课程 · 全套笔记解读:https://www.showmeai.tech/tutorials/35
📘 卷积神经网络解读:https://www.showmeai.tech/article-detail/221
📘 深度学习与计算机视觉教程:https://www.showmeai.tech/tutorials/37
📘 卷积神经网络详解:https://www.showmeai.tech/article-detail/264
📘 机器学习实战教程:http://showmeai.tech/tutorials/41
📘 机器学习特征工程最全解读:https://www.showmeai.tech/article-detail/208

Original: https://blog.csdn.net/ShowMeAI/article/details/125713296
Author: ShowMeAI
Title: 听音识情绪 | 程序员手把手教你搭建神经网络，更快get女朋友情绪，求生欲max！⛵

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690467/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python-Matplotlib可视化（9）——精通更多实用图形的绘制

Python-Matplotlib可视化（9）——精通更多实用图形的绘制 * – 前言 – 可视化二维数组的内容 – 为图形添加色彩映射图例 &…

人工智能 2023年6月16日
0070
【基于机器学习的垃圾分类监控系统】

基于机器学习的垃圾分类监控系统一、摘要 abstract 正确处理厨余垃圾，可以有效地保护环境，并带来不错的经济效益。本文将机器学习运用到厨余垃圾的分类监控中，以识别混入其中的非…

人工智能 2023年7月1日
0067
DCN可形变卷积实现1：Python实现

DCN可形变卷积实现1：Python实现我们会先用纯 Python 实现一个 Pytorch 版本的 DCN ，然后实现其 C++/CUDA 版本。本文主要关注 DCN 可形变…

人工智能 2023年7月23日
0061
Pandas 基础(8) – 用 concat 组合 dataframe

以各个城市的天气为例, 先准备下面的数据: 印度天气的相关信息: import pandas as pd india_weather = pd.DataFrame({ ‘city’…

人工智能 2023年6月2日
0061
【十】推荐系统遇到知识图谱RippleNet

RippleNet: Propagating User Preferences on the KnowledgeGraph for Recommender Systems 代码： …

人工智能 2023年6月1日
0058
图像处理技术之图像分辨率与压缩基本知识

一图像分辨率数码图像有两大类，一类是矢量图，也叫向量图；另一类是点阵图，也叫位图。矢量图比较简单，它是由大量数学方程式创建的，其图形是由线条和填充颜色的块面构成的，而不是由像素…

人工智能 2023年6月4日
00121
卷积神经网络手势识别之剪刀石头布

剪刀石头布手势识别 1.加载数据并解压（1）使用wget下载训练样本和测试样本的压缩文件 !wget https://storage.googleapis.com/laurenc…

人工智能 2023年5月25日
0058
【SaaS金羊毛】微信小程序We分析

微信前几天发布了通告https://mp.weixin.qq.com/cgi-bin/announce?action=getannouncement&announce_id…

人工智能 2023年7月15日
0069
python 为html页面增加背景_python – Pandas dataframe.to_html() – 为标题添加背景颜色…

您可以尝试以两种方式执行此操作： import pandas as pd import numpy as np Set up a DataFrame np.random.seed(…

人工智能 2023年7月8日
0068
sklearn如何保存模型

问题用sklearn训练的模型，如何将其参数保存，方便下次调用模型 gbr = GBR(random_state=1412) gbr.fit(X, y.ravel()) 方法 …

人工智能 2023年6月24日
0067
PyTorch Geometric (PyG) 入门教程

诸神缄默不语-个人CSDN博文目录 PyTorch Geometric是PyTorch 1的几何图形学深度学习扩展库。本文旨在通过介绍PyTorch Geometric（PyG）中…

人工智能 2023年7月13日
0044
启英泰伦cl1122模块学习笔记

笔记目录前言一.CI1122芯片与其它型号对比二.资料获取 * 1.启英泰伦语音AI平台 – 文档中心：软硬件开发资料以及平台的使用方法开发资料： SDK和固…

人工智能 2023年5月23日
0055
猿创征文｜时间序列分析算法之二次指数平滑法和三次指数平滑法详解+Python代码实现

二次指数平滑法(Holt’s linear trend method) 1.定义 2.公式二次指数平滑值： Original: https://blog.csdn.n…

人工智能 2023年7月28日
0049
数据仓库理论知识

数据仓库 1.1 数仓基础知识 1.1.1. 为什么要有数据仓库通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样，可能是 Oracle、MySQL、SQL S…

人工智能 2023年7月17日
0049
化合物分子 ogb、dgl生成图网络及GNN模型训练

参考：https://towardsdatascience.com/learn-to-smell-molecules-with-graph-convolutional-neural…

人工智能 2023年6月28日
00102
AISHELL-1 语音识别实战

AISHELL-1 开发者学习语音技术离不开数据， AISHELL-1 数据集自2017年由希尔贝壳发布至今始终被高频应用在语音技术开发及实验中。录音时长 178小时，录音文本涉及…

人工智能 2023年5月25日
0089

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30