声纹技术（二）：音频信号处理基础【模拟信号（连续）–采样–＞数字信号（离散）–量化–＞振幅简化为整数–编码–＞二进制序列】【WAV音频格式】【SoX】【分帧-加窗-】

2023年5月25日上午8:44 • 人工智能 • 阅读 79

2.1 欲懂声纹，先学音频

在学科分类方面，声纹技术是语音信号处理的一个分支，而语音信号处理属于音频信号处理的范畴。

[En]

In terms of discipline classification, voiceprint technology is a branch of speech signal processing, while speech signal processing belongs to the category of audio signal processing.

语音信号和音频信号，两者的区别是：

[En]

Voice signal and audio signal, the difference between the two is:

语音信号是指人类说话时具有社会意义的声音。

[En]

speech signals refer specifically to sounds of social significance when human beings speak.*
音频信号一般是指人类可以听到的所有声音。比如，乐器、动物、汽车发动机、人打呼噜、打喷嚏、咳嗽发出的声音，广义上都属于音频信号，但不属于语音信号。因此，它通常不在声纹技术的范围内。
[En]
Audio signals generally refer to all sounds that human beings can hear. For example, the sounds made by musical instruments, animals, car engines, and people snoring, sneezing and coughing all belong to audio signals in a broad sense, but they do not belong to voice signals. so it’s not usually within the scope of voiceprint technology.*

音频信号处理中的许多基本概念和知识对于学习声纹技术是非常重要的。

[En]

Many basic concepts and knowledge in audio signal processing are very important for learning voiceprint technology.

任何声纹系统，无论模型多么先进，算法多么复杂，都离不开对声音的处理。只有连接正确的音频信号，并从中提取有意义的特征表示，后一种模型才能最大限度地发挥其作用。

[En]

Any voiceprint system, no matter how advanced the model and how sophisticated the algorithm, can not do without dealing with sound. Only when the correct audio signal is connected and the meaningful feature representation is extracted from it, the later model can play its role to the maximum extent.

因此，在本章中，我们具体而系统地学习这些与声音相关的概念和知识。本章涵盖了人类听觉感知、音频接口、编码技术、离散信号处理等广泛的子领域。乍一看，这些子领域似乎彼此没有太大关系。然而，当我们真正开始声纹领域的研究或工程项目时，我们会发现，所有这些子领域的知识都将不可避免地被使用。在企业或研究机构

[En]

Therefore, in this chapter, we specifically and systematically learn these sound-related concepts and knowledge. This chapter covers a wide range of sub-fields, such as human auditory perception, audio interface, coding technology, discrete signal processing and so on. At first glance, these subareas do not seem to have much to do with each other. However, when we really start research or engineering projects in the field of voiceprint, we will find that all of these sub-areas of knowledge will inevitably be used. In an enterprise or research institution

Original: https://blog.csdn.net/u013250861/article/details/124523119
Author: u013250861
Title: 声纹技术（二）：音频信号处理基础【模拟信号（连续）–采样–＞数字信号（离散）–量化–＞振幅简化为整数–编码–＞二进制序列】【WAV音频格式】【SoX】【分帧-加窗-】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513170/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

树莓派视觉小车 — 物体跟踪（OpenCV）

目录物体跟踪效果展示过程：一、初始化二、运动控制函数三、舵机角度控制四、摄像头&&图像处理 1、打开摄像头 2、把图像转换为灰度图 3、高斯滤波（去噪…

人工智能 2023年6月22日
00246
WSL2，NCCL报错RuntimeError: NCCL Error 2: unhandled system error

在WSL2上使用pytorch1.7.1，无法进行多显卡分布式训练，提示”RuntimeError: NCCL Error 2: unhandled system er…

人工智能 2023年7月23日
0064
FusionGAN：一种生成式红外与可见光图像融合对抗网络

FusionGAN：一种生成式红外与可见光图像融合对抗网络 FusionGAN：一种生成式红外与可见光图像融合对抗网络 * – 简要介绍损失函数网络架构训练细节 …

人工智能 2023年5月26日
0083
学习MRI成像的螺旋桨填充

论文《Motion Correction With PROPELLER MRI: Application to Head Motion and Free-Breathing Car…

人工智能 2023年6月22日
0089
Resnet介绍

1.简介作者提出了一种深度学习网络框架resnet，用来解决层数过深时，神经网络训练效果变差的情况。按理来说层数越深，模型的效果就会越好。那些在Imagenet上登顶的网络模型它…

人工智能 2023年6月17日
0080
（王树森老师课程）【强推】RNN模型和NLP应用

一、数据处理如何将计算机不认识的转化为数字处理文本数据二、文本处理与词嵌入文本转化为序列分词构建字典 One-Hot编码序列对齐词嵌入三、SimpleRNN 为什…

人工智能 2023年6月4日
0082
C++进行简单的图像处理

目录前言一、读取,显示和保存二、图像变换 1.显示灰度图 2.显示HSV图 3.高斯模糊 4.图片缩放三、遍历图像前言本文中介绍了用opencv处理图像的一些简单方法，…

人工智能 2023年6月20日
0072
图神经网络框架-PyTorch Geometric(PyG)的使用及踩坑

PyG(PyTorch Geometric)是一个基于PyTorch的图神经网络框架，建议先了解PyTorch的使用再学习PyG,要不然看不懂。本文内容角度，喜欢本文点赞支持、欢迎…

人工智能 2023年7月23日
0072
单片机学习：第一篇基于Python的树莓派语音助手

title: 单片机学习：第一篇基于Python的树莓派语音助手tags: 树莓派,python,语音助手,百度AIP 一、pyaudio录音二、语音识别三、与图灵机器人对话…

人工智能 2023年5月25日
00299
6. DICOM图像显示-DCMTK-像素数据获取的三种方式和源码分析

本篇文章对应的DICOM原理部分，在专栏从零讲解DICOM协议-成像协议的文章DICOM图像CT值计算和DICOM图像CT值转RGB，建议先了解原理，有助于理清代码思路。dcmim…

人工智能 2023年6月22日
00116
【机器学习】神经网络识别手写数字（附python源码）

专栏持续更新中，欢迎订阅~Linux数据结构与算法机器学习文章目录 * – 非线性假设 – 神经元与大脑 – 正向传播：向量化实现 &#821…

人工智能 2023年7月12日
0076
Educoder 机器学习决策树使用之使用决策树预测隐形眼镜类型

任务描述相关知识如何处理隐形眼镜数据集编程要求测试说明任务描述本关任务：编写一个例子讲解决策树如何预测患者需要佩戴的隐形眼镜类型。使用小数据集，我们就可以利用决策树学到…

人工智能 2023年6月16日
00103
【笔记】Volume Rendering — Compositing Function

感性理解感性理解：三维空间划分成很多体素，每个体素有RGBA四种信息，表示颜色（RGB）和透明度（A）要渲染二维表示，我们选定坐标原点，以它为球心发出很多射线每条射线会穿过一…

人工智能 2023年6月4日
0061
小度智能音响拆解芯片_拆解报告：DOSS小度版智能音箱

DOSS 是中国第一家获得苹果公司认证的音响生产研发企业，在国外主要与亚马逊 Alexa 共同研发音箱产品，而回到国内，DOSS 就与百度 DuerOS 开展战略合作伙伴关系，推出…

人工智能 2023年5月27日
00182
李宏毅_机器学习_作业1（详解）_COVID-19 Cases Prediction (Regression)

本文旨在，读懂hw1代码。李宏毅老师作业的完成有一个默认前提，掌握python基础语法,pytorch,numpy,pandas的使用。但并不是说必须将这些系统的学一遍才能完成作业…

人工智能 2023年6月15日
0096
经典目标检测算法：RCNN、Fast RCNN、 Faster RCNN 基本思想和网络结构介绍

目录 * – 一、目标检测的基本介绍 – + 1.1 什么是目标检测？ + 1.2 目标检测算法的分类 – 二、RCNN – + 2…

人工智能 2023年7月26日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

声纹技术（二）：音频信号处理基础【模拟信号（连续）–采样–＞数字信号（离散）–量化–＞振幅简化为整数–编码–＞二进制序列】【WAV音频格式】【SoX】【分帧-加窗-】

2.1 欲懂声纹，先学音频

大家都在看