语音处理/语音识别基础（四）- 语音文件读取与播放

2023年5月25日下午7:26 • 人工智能 • 阅读 94

本文分享如何在 matlab 里面读取 wav 文件，播放 wav 文件，以及如何录制语音文件，保存语音文件。

代码中演示了如何改变音频文件的采样率（影响到播放速度），音量（影响到听到的声音大小）。

以及录制的数据如何保存到文件中。如果使用其他的编程语言，也能通过相关的函数类库达到类似的效果，比如 Python :Playing and Recording Sound in Python – Real Python

Matlab 2021 中读取 wav 文件

文件来自： http://mirlab.org/jang/books/audiosignalprocessing/example/sunday.wav

[y, fs] = audioread('sunday.wav');
sound(y, fs);       % Playback of the sound data (播放此音讯)
time=(1:length(y))/fs;  % Time vector on x-axis (时间轴的向量)
plot(time, y);      % Plot the waveform w.r.t. time (画出时间轴上的波形)

画出的图形如下：

打印出音频文件的参数信息：

myAudioRead 库函数来自： http://mirlab.org/jang/books/audiosignalprocessing/example.rar

fileName = 'welcome.wav';

au = myAudioRead(fileName);
y=au.signal; fs=au.fs; nbits=au.nbits;
fprintf('Information of the sound file "%s":\n', fileName);
fprintf('Duration = %g seconds\n', length(y)/fs);
fprintf('Sampling rate = %g samples/second\n', fs);
fprintf('Bit resolution = %g bits/sample\n', nbits);

打印出来音频的总时长，采样率，采样位深（采样位分辨率）后，就可以进一步进行分析。

Matlab 中播放音频文件，播放3倍，15倍音量大小（震幅）的音频

au = myAudioRead('welcome.wav');
y=au.signal; fs=au.fs; nbits=au.nbits;

% &#x64AD;&#x653E;&#x97F3;&#x9891;&#xFF1A;Playback with original amplitude (&#x64AD;&#x653E; 1 &#x500D;&#x9707;&#x5E45;&#x7684;&#x97F3;&#x8A0A;)
audioPlay(au);

% Playback with 3 times the original amplitude (&#x64AD;&#x653E; 3 &#x500D;&#x9707;&#x5E45;&#x7684;&#x97F3;&#x8A0A;)
au.signal = 3*y;
audioPlay(au);

au.signal = 15*y;
audioPlay(au);  % Playback with 15 times the original amplitude (&#x64AD;&#x653E; 15 &#x500D;&#x9707;&#x5E45;&#x7684;&#x97F3;&#x8A0A;)

以不同采用率播放（不同速度播放）

% Playback at the original speed (&#x64AD;&#x653E; 1.0 &#x500D;&#x901F;&#x5EA6;&#x7684;&#x97F3;&#x8A0A;)

au.signal = y; % &#x6062;&#x590D;&#x9707;&#x5E45;
audioPlay(au);

% Playback at 0.8 times the original speed (&#x64AD;&#x653E; 0.8 &#x500D;&#x901F;&#x5EA6;&#x7684;&#x97F3;&#x8A0A;)
au.fs = 0.8*fs;
audioPlay(au);

% &#x64AD;&#x653E; 0.5 &#x500D;&#x901F;&#x5EA6;&#x7684;&#x97F3;&#x8A0A;&#xFF0C;&#x50CF;&#x725B;&#x53EB;&#x7684;&#x58F0;&#x97F3;
au.fs = 0.5*fs;
audioPlay(au);

% Playback at 1.2 times the original speed (&#x64AD;&#x653E; 1.2 &#x500D;&#x901F;&#x5EA6;&#x7684;&#x97F3;&#x8A0A;)

au.fs = 1.2*fs;
audioPlay(au);

% Playback at 2&#xA0;times the original speed (&#x64AD;&#x653E; 2&#xA0;&#x500D;&#x901F;&#x5EA6;&#x7684;&#x97F3;&#x8A0A;)&#xA0;

au.fs = 2*fs
audioPlay(au);

改变波形，比如把信号沿着x轴反转（y轴 * -1），再听声音，听到的没有变化，说明声音的相位并不影响人的感知。

% Playback of the original signal (&#x64AD;&#x653E;&#x6B63;&#x5E38;&#x7684;&#x97F3;&#x8A0A;&#x6CE2;&#x5F62;)
au.fs = fs;
au.y = y;
audioPlay(au);

% Playback of the up-down flipped signal (&#x64AD;&#x653E;&#x4E0A;&#x4E0B;&#x985B;&#x5012;&#x7684;&#x97F3;&#x8A0A;&#x6CE2;&#x5F62;)
au.y = - y;
audioPlay(au);

% Playback of the left-right flipped signal (&#x64AD;&#x653E;&#x524D;&#x5F8C;&#x985B;&#x5012;&#x7684;&#x97F3;&#x8A0A;&#x6CE2;&#x5F62;)
au.y = flipud(y);
audioPlay(au);

使用 audioplayer, play 来播放音频文件


apObj=audioplayer(y, fs);
apObj.SampleRate=16000;     % Change the sample rate to 16000
play(apObj);

% &#x53EF;&#x4EE5;&#x4F7F;&#x7528; doc play, doc audioplayer &#x6765;&#x67E5;&#x770B;&#x5728;&#x7EBF;&#x5E2E;&#x52A9;&#xFF0C;&#x4E5F;&#x53EF;&#x4EE5;&#x4F7F;&#x7528; help &#x770B;&#x547D;&#x4EE4;&#x884C;&#x5E2E;&#x52A9;&#x3002;

录制音频文件

% The commands wavplay and wavrecord are only supported in Microsoft Windows platform.

% audiorecorder(Fs, NBITS, NCHANS) creates an audiorecorder object
fs=16000;       % Sampling rate (&#x53D6;&#x6A23;&#x983B;&#x7387;)
% duration=2;       % Recording duration (&#x9304;&#x97F3;&#x6642;&#x9593;)
fprintf('Press any key to start %g seconds of recording...', duration); pause
fprintf('Recording...');
% y=wavrecord(duration*fs, fs); % duration*fs is the total number of sample points

% record audio, sample rate of fs, and 16 bit, 1 channel
r = audiorecorder(fs, 16, 1)
record(r)
% &#x7B49;&#x5F85;&#x4E00;&#x5B9A;&#x65F6;&#x95F4;
stop(r)

fprintf('Finished recording.\n');
fprintf('Press any key to play the recording...'); pause;
fprintf('\n');
p = play(r);

前面的 record() 函数是异步录制，执行之后代码继续运行，知道 stop()。也可以同步录制，示例如下。

同步指定时长录制音频文件（录制5s）

fs=16000; % Sampling rate 
r = audiorecorder(fs, 16, 1) % sample rate of fs, and 16 bit, 1 channel

recordblocking(r, 5); % speak into microphone...

fprintf('Finished recording.\n');
fprintf('Press any key to play the recording...'); pause; fprintf('\n');

p = play(r);

保存录制的音频文件

可以通过如下代码，将前面录制的数据保存到 wav 文件。

% &#x4FDD;&#x5B58;&#x5F55;&#x5236;&#x7684;&#x97F3;&#x9891;&#x5230;&#x6587;&#x4EF6;
% nbits=16;     % Bit resolution (&#x6BCF;&#x4E2A;&#x91C7;&#x6837;&#x70B9;&#x7684;&#x4FE1;&#x53F7;&#x91CF;&#xFF0C; &#x91CF;&#x5316;&#x503C;&#x7684;&#x4F4D;&#x6570;&#x4E3A; 16-bit)
waveFile='test.wav';    % Wav file to be saved

% get sample data from recorder, get data as int16 array:
y = getaudiodata(r, 'int16');

% writes data Y to an audio file with name FILENAME, with a sample rate of FS Hz.

% AUDIOWRITE(FILENAME,Y,FS)
audiowrite(waveFile, y, fs);
fprintf('Finished writing %s\n', waveFile);

Original: https://blog.csdn.net/davidullua/article/details/122913629
Author: davidullua
Title: 语音处理/语音识别基础（四）- 语音文件读取与播放

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515683/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pycharm安装与pytorch环境配置

pycharm安装与pytorch环境配置 Pycharm简介 Pycharm下载 Pytorch简介 Pytorch下载安装 Pycharm简介 PyCharm是一种Python…

人工智能 2023年5月28日
00112
Serie

人工智能 2024年1月1日
0041
【Pytorch学习笔记】1.Python的yield和next是什么？为什么常用来读取数据（DataLoader）？

初学Pytorch，先讲讲我在代码中遇到的在Python本身用的不太多的知识点，比如yield和next。文章目录 * – 定义数据读取的函数时常用yield &#8…

人工智能 2023年6月26日
0065
安装pytorch1.10.0/cu111时报错：no matching distribution found for torchvision==0.11.0+cu111

目录 1.背景：显卡驱动最高支持cu111，打算安装 pytorch1.10.0/cu111（torch1.10.0+cu111、 torchvision0.11.0+cu111）…

人工智能 2023年7月21日
0051
深度学习框架是否支持多种类型的神经网络架构，如卷积神经网络、循环神经网络等

问题介绍深度学习框架是否支持多种类型的神经网络架构，如卷积神经网络、循环神经网络等？算法原理深度学习是一种机器学习方法，通过多层神经网络实现对特征的抽取和模式的学习。许多深度…

人工智能 2024年1月1日
0034
HuaPu在学：torch和torchvision版本对应关系

文章目录前言一、torch和torchvision版本对应关系二、导入离线包 * 1.打开虚拟化环境 2.验证是否安装成功前言一、torch和torchvision版本对…

人工智能 2023年6月16日
0096
利用图神经网络（GNN）的视频/图像分割模型总结（AGNN、Episodic Graph Memory Networks、Cas-GNN）

注：Zero-shot VOS即为零样本视频对象分割，指在验证阶段不会向网络输入除待测视频本身以外的其他注释样本，下文记为 Z-VOS；One-shot VOS即为单样本视频对象分…

人工智能 2023年7月10日
00100
反向投影法

反向投影法是用已知图像的某些特征来突出其它图像中此类特征的一种方法，基于直方图。主要步骤如下： 1、统计已知图像某个特征的色度直方图，通常用色度-饱和度（Hue-Saturati…

人工智能 2023年6月3日
0085
Keras学习之：全网最详细，一文包你会！使用 Keras 自带的模型实现迁移学习

文章目录迁移学习是什么，为什么要用迁移学习 * 场景一场景二破局之法：迁移学习 – 迁移学习主要的三种手段 Keras 可以使用哪些已经训练好的模型模型选择：I…

人工智能 2023年7月13日
0085
yolov5训练最常见错误解决办法

我主要用过两种代码第一种为哔哩哔哩上的up主Bubbliiiing上传的代码———出现以下错误： 1、标注好自己的数据集之后，进行数据集的划分，通常比例为9：1；但是由于我的数…

人工智能 2023年6月16日
00116
力扣刷题day45|300最长递增子序列、674最长连续递增序列、718最长重复子数组

文章目录 * – 300. 最长递增子序列 – + 思路 + * 动态规划五部曲 – 674. 最长连续递增序列 – + 思路 + …

人工智能 2023年6月28日
0090
Python数据分析-数据预处理

数据预处理文章目录数据预处理 * 1.前言 2.数据探索 – 2.1缺失值分析 2.2 异常值分析 + 2.2.1 简单统计量分析 2.2.2 3$\sigma$原…

人工智能 2023年7月4日
0075
生成对抗网络(Generative Adversial Network,GAN)原理简介

生成对抗网络(GAN)是深度学习中一类比较大的家族，主要功能是实现图像、音乐或文本等生成(或者说是创作)，生成对抗网络的主要思想是：通过生成器(generator)与判别器(dis…

人工智能 2023年7月30日
0073
深度学习-基于(Pytorch)卷积神经网络对多分类实验分析

1．1主要研究内容本次实验利用CNN对类别数据集进行分类，并掌握卷积神网络搭建的过程，了解卷积模块，池化模块，Batch Normalization模块，激活函数等各个模块的原理…

人工智能 2023年7月13日
0092
jupyter notebook上使用GPU运行程序

问题描述虽然jupyter上能后直接运行代码，但是默认是使用的cpu，我的电脑支持GPU，虽然也安装了tensorflow-gpu，但是运行的时候没有使用上。网上找了很多办法， …

人工智能 2023年6月17日
0075
ImageNet 数据集下载与处理（亲测实用有效无坑版）

下载通常下载方式有两种，官网下载和第三方网站上传的资源下载。这里推荐第三方下载，因为官网可能会存在注册麻烦，网页卡顿的情况。第三方下载方式如下：里面包含几乎所有常用的Image…

人工智能 2023年7月20日
00348

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31