音频信号处理（一）语音录制

2023年5月27日上午9:08 • 人工智能 • 阅读 71

import pyaudio

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 16000

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

p = pyaudio.PyAudio() 创建一个PyAudio的

stream = p.open(format=FORMAT，channels=CHANNELS, rate=RATE,input=True,output=False, frames_per_buffer=CHUNK)

用open函数打开一个音频的输入流

&#x6587;&#x6863;&#x4E2D;&#x5BF9;&#x5404;&#x53C2;&#x6570;&#x7684;&#x8BF4;&#x660E;
def __init__(self,
                 PA_manager,
                 rate,              #Sampling rate &#x91C7;&#x6837;&#x7387;
                 channels,              #Number of channels&#x97F3;&#x8F68;&#x6570;
                 format,                #Sampling size and format. See |PaSampleFormat|.&#x91C7;&#x6837;&#x70B9;&#x7684;&#x5927;&#x5C0F;&#x548C;&#x7C7B;&#x578B;&#xFF0C;&#x89C1;PaSampleFormat
                 input=False,           #Specifies whether this is an input stream&#xFF0C;Defaults to &#xFF0C;&#x662F;&#x5426;&#x4E3A;&#x8F93;&#x5165;&#x6D41;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;&#x5426;
                 output=False,          #Specifies whether this is an output stream&#xFF0C;Defaults to .&#x662F;&#x5426;&#x4E3A;&#x8F93;&#x51FA;&#x6D41;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;&#x5426;
                 input_device_index=None,       #Index of Input Device to use.Unspecified (or ) uses default device.Ignored if input is .

                 output_device_index=None,      #Index of Output Device to use.Unspecified (or ) uses the default device.Ignored if output is .

                 frames_per_buffer=1024,        #Specifies the number of frames per buffer.

                 start=True,            #Start the stream running immediately.

                 input_host_api_specific_stream_info=None,  #Specifies a host API &#xFF0C;specific stream information data structure for input. See :py:class:PaMacCoreStreamInfo
                 output_host_api_specific_stream_info=None, #Specifies a host API &#xFF0C;specific stream information data structure for output.See :py:class:PaMacCoreStreamInfo.

                 stream_callback=None):         #Specifies a callback function for *non-blocking* (callback) operation,which indicates *blocking* operation (i.e.,:py:func:Stream.read and :py:func:Stream.write).

简而言之，我们要使用的参数与示例中的参数类似：

[En]

In a nutshell, the parameters we are going to use are like those in the example:

format采样数据的格式，在文档中有给出定义好的格式变量

PaSampleFormat Sample Formats

paFloat32 #: 32 bit float
paInt32 #: 32 bit int
paInt24 #: 24 bit int
paInt16 #: 16 bit int
paInt8 #: 8 bit int
paUInt8 #: 8 bit unsigned int
paCustomFormat t #: a custom data format

channels音轨数一般取2

rate采样率即每秒采样多少次

input=True，Ture代表这是一条输入流，False代表这不是输入流

frames_per_buffer每个缓冲多少帧

通过设置这些参数，我们打开了一个可用于输入的音频流。

[En]

By setting these parameters, we open an audio stream that can be used for input.

RECORD_SECONDS = 2
print("start recording......")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS) + 1):
    data = stream.read(CHUNK)
    frames.append(data)

print("end!")

stream.stop_stream()
stream.close()
p.terminate()

stream.read(CHUNK)每次读chunk个数据
通过int(RATE / CHUNK * RECORD_SECONDS)计算要读多少次，2秒*每秒的采样率/每次读多少数据=需要读多少次

frames.append(data)将读出的数据保存到列表中

stream.stop_stream() 停止输入流
stream.close() 关闭输入流
p.terminate() 终止portaudio

import wave

WAVE_OUTPUT_FILENAME = "Oldboy.wav"

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

wave.open(WAVE_OUTPUT_FILENAME, ‘wb’) 以’wb’二进制流写的方式打开一个文件

wf.setnchannels(CHANNELS) 设置音轨数
wf.setsampwidth(p.get_sample_size(FORMAT)) 设置采样点数据的格式，和FOMART保持一致
wf.setframerate(RATE) 设置采样率与RATE要一致

wf.writeframes(b”.join(frames))将声音数据写入文件
wf.close() 关闭文件流，释放句柄

Original: https://blog.csdn.net/qq_55796594/article/details/120343559
Author: 午夜零时
Title: 音频信号处理（一）语音录制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/525297/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用keras-ImageDataGenerator实现图像增强与批量生成

目录 1.背景 2.代码解释 3.演示 * 3.1 具体操作 3.2 补充 4.总结 1.背景最近在做一个图像题,初始样本图给的特别少(每类只有几张图),因此想通过 keras-…

人工智能 2023年6月20日
0097
【斐波那契数列——python多种写法】

斐波那契数列——经典例子，永不过时！！！ def fibonacci1(n): a, b = 0, 1 for i in range(n): a, b = b, a+b print…

人工智能 2023年7月8日
0062
python筛选数据并运算_python pandas 对dataframe中的数据进行四则运算及筛选

对dataframe的行，列加减乘除四则运算首先，构建一个dataframe import pandas as pd d={‘one’:{‘a…

人工智能 2023年7月7日
0058
CMakeLists.txt上OpenCV库配置

平台： Windows 11 x64/Ubuntu 22.04 CMake 3.15.5 OpenCV 4.5.0 CMakeLists.txt文件内容： cmake_minimu…

人工智能 2023年6月19日
0078
OpenCv入门（六）——几何检测

目录 0x01 了解霍夫变换 0x02 线检测技术 0x03 LSD快速直线检测 0x04 圆检测技术 0x05 轮廓检测 0x01 了解霍夫变换霍夫变换是要从图像钟识别几何形状…

人工智能 2023年6月20日
0079
从卷积神经网络（CNN）到图卷积神经网络（GCN）详解

目录一、CNN和GCN的关系二、”图”的预备知识三、图卷积网络（GCN）四、针对于高光谱图像分类的网络优化五、频域的图卷积神经网络最近看到一篇引…

人工智能 2023年6月13日
0078
机器学习入门实战加州房价预测

目录 1 快速搭建运行环境 2 快速构建项目 * 2.1 导入训练集 2.2 安装函数库 – 2.2.1 安装numpy 2.2.2 安装pandas 2.3 构建特征…

人工智能 2023年6月25日
0091
YOLOv7论文部分解读【含自己的理解】

yolo终于又更新了！！看了一下yolov7的论文，然后把论文翻译以及自己的一些思考写了进去，这里还包含了我对论文中粗label和细label的详细解释【自己的理解】，其实就是借鉴…

人工智能 2023年7月27日
0073
TensorFlow是否支持分布式训练

问题介绍 TensorFlow是一个非常强大的开源深度学习框架，但是在大规模训练时，单个计算设备可能无法满足需求。因此，了解TensorFlow是否支持分布式训练是非常重要的。分…

人工智能 2023年12月31日
0052
【目标检测论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

文章目录 R-CNN模型回顾 * 为什么R-CNN要求固定输入？ SSPnet模型提出背景作者改进的思路和方法 SPP为什么能输出固定的长度？ SPP模型训练过程小总结 R-C…

人工智能 2023年7月9日
0077
R语言使用zoo包中的rollapply函数计算两个时间序列数据列之间的滚动相关性（Rolling correlations）、例如，计算两种商品销售额之间的3个月的滚动相关性

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0063
【深度学习进阶-自然语言处理】第一章：神经网络的复习

本章复习了神经网络的基础知识，”从零开始搭建”一个神经网络模型对一个简单数据集进行神经网络的学习。 1.数据集先看一下数据集：该数据一共300行，x是输入…

人工智能 2023年7月13日
0071
python实现树莓派监控_树莓派上安装pyaudio 及对声音实时监控

在树莓派上最常用的录音是arecord命令，但是功能有限，不能实现检测到声音做出反应。但是pyaudio能。本文实现的功能是在树莓派上监听声音，当分贝超过阈值，将会做出反应，例子…

人工智能 2023年5月27日
00182
torchvision.datasets.ImageFolder使用详解

一、数据集组织方式ImageFolder是一个通用的数据加载器，它要求我们以下面这种格式来组织数据集的训练、验证或者测试图片。 root/dog/xxx.png root/dog/…

人工智能 2023年7月22日
0055
目标检测中的损失函数IoU、GIoU、DIoU、CIoU、SIoU

IoU损失函数 IoU损失是目标检测中最常见的损失函数，表示的就是真实框和预测框的交并比，数学公式如下：I o U = ∣ A ∩ B ∣ ∣ A ∪ B ∣ IoU =\frac…

人工智能 2023年6月16日
0054
vs2022在win11下配置opencv3.4.5（保姆式教学）

vs2022在win11下配置opencv3.4.5 1、下载官网下载地址：opencv找到你要的版本我这里选择的是3.4.5的版本然后点击 windows下载 ; 2、安装会…

人工智能 2023年7月19日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

音频信号处理（一）语音录制

PaSampleFormat Sample Formats

大家都在看