基于矢量量化(VQ)的说话人识别（python）

2023年5月25日下午4:30 • 人工智能 • 阅读 65

最近用python做了VQLBG的说话人识别实验，记录一下。若是有错恳请指出。

矢量量化的基本原理

将几个标量数据形成一个向量(或从一帧语音数据中提取的特征向量)，并在多维空间中作为一个整体进行量化，从而可以在较少信息损失的情况下压缩数据量。矢量量化有效地利用了矢量中元素之间的相关性，因此比标量量化具有更好的压缩效果。

[En]

Several scalar data are formed into a vector (or the feature vector extracted from a frame of speech data) and quantized as a whole in multi-dimensional space, so that the amount of data can be compressed with less information loss. Vector quantization effectively applies the correlation between the elements in the vector, so it can have a better compression effect than scalar quantization.

设有N N N个K K K维特征矢量X = { X 1 , X 2 , ⋯ , X N } X={X_1,X_2,\cdots,X_N}X ={X 1 ,X 2 ,⋯,X N }(X X X在K K K维欧几里德空间R K R^K R K中)，其中第i i i个矢量可记为：
X i = { x 1 , x 2 , ⋯ , x K } , i = 1 , 2 , ⋯ , N X_i={x_1,x_2,\cdots,x_K},i=1,2,\cdots,N X i ={x 1 ,x 2 ,⋯,x K },i =1 ,2 ,⋯,N
X i X_i X i 可被看作是语音信号中某帧参数组成的矢量。将K K K维欧几里得空间R K R^K R K无遗漏地划分成J J J个互不相交的子空间R 1 , R 2 , ⋯ , R J R_1,R_2,\cdots,R_J R 1 ,R 2 ,⋯,R J ，即满足
{ ⋃ j = 1 J R j = R K R i ⋂ R j = ∅ , i ≠ j \begin{cases} \bigcup^J_{j=1} R_j=R^K \ R_i\bigcap R_j=\emptyset,i\neq j \end{cases}{⋃j =1 J R j =R K R i ⋂R j =∅,i =j
这些子空间R j R_j R j 称为胞腔。在每一个子空间R j R_j R j 找一个代表矢量Y j Y_j Y j ，则J J J个代表矢量可以组成矢量集为：
Y = { Y 1 , Y 2 , ⋯ , Y J } Y={Y_1,Y_2,\cdots,Y_J}Y ={Y 1 ,Y 2 ,⋯,Y J }
这样，Y Y Y就组成了一个矢量量化器，被称为码书或码本；Y j Y_j Y j 成为码失或码字；Y Y Y内矢量的个数J J J，则叫做码本长度或码本尺寸。不同的划分或不同的代表矢量选取方法就可以构成不同的矢量量化器。

当矢量量化器输入一个任意矢量X i ∈ R K X_i\in R^K X i ∈R K进行矢量量化时，矢量量化器首先判断它属于哪个子空间R j R_j R j ，然后输出该子空间R j R_j R j 的代表矢量Y j Y_j Y j 。也就是说，矢量量化过程就用Y j Y_j Y j 代表X i X_i X i 的过程，或者说把X i X_i X i 量化成Y j Y_j Y j ，即
Y j = Q ( X i ) , 1 ≤ j ≤ J , i ≤ i ≤ N Y_j=Q(X_i), 1\leq j\leq J,i\leq i\leq N Y j =Q (X i ),1 ≤j ≤J ,i ≤i ≤N
式中，Q ( X i ) Q(X_i)Q (X i )为量化器函数。由此可知，矢量量化的全过程就是完成一个从K K K维欧几里得空间R K R^K R K中的矢量X i X_i X i 到K K K维空间R K R_K R K 有限子集Y Y Y的映射：
Q : R K ⊃ X → Y = { Y 1 , Y 2 , ⋯ , Y J } Q:R^K\supset X\rightarrow Y={Y_1,Y_2,\cdots,Y_J}Q :R K ⊃X →Y ={Y 1 ,Y 2 ,⋯,Y J }
下面以K = 2 K=2 K =2为例来说明矢量量化过程。当K = 2 K=2 K =2时，所得到的是二维矢量。

即我们有N个二维的特征矢量X X X,第i i i个二维矢量为X i = { x i 1 , x i 2 } X_i={x_{i1},x_{i2}}X i ={x i 1 ,x i 2 }，则所有可能的X i = { x i 1 , x i 2 } X_i={x_{i1},x_{i2}}X i ={x i 1 ,x i 2 }就是一个二维空间。

矢量量化就是先把这个平面划分成J J J块互不相交的子区域R 1 , R 2 , ⋯ , R J R_1,R_2,\cdots,R_J R 1 ,R 2 ,⋯,R J ，然后从每一块中找出一个代表矢量Y j ( j = 1 , 2 , ⋯ , J ) Y_j(j=1,2,\cdots,J)Y j (j =1 ,2 ,⋯,J )，这就构成了一个有J J J块区域的二维矢量量化器，下图就是一个码本尺寸为J = 7 J=7 J =7的二维矢量量化器，共有7块区域和7个码字表示代表值，码本是Y = { Y 1 , Y 2 , ⋯ , Y 7 } Y={Y_1,Y_2,\cdots,Y_7}Y ={Y 1 ,Y 2 ,⋯,Y 7 }。

如果利用该量化器对一个矢量X i = { x i 1 , x i 2 } X_i={x_{i1},x_{i2}}X i ={x i 1 ,x i 2 }进行量化，那么首先要选择一个合适的失真测度，然后根据最小失真原理，分别计算用各码矢Y j Y_j Y j 代替X i X_i X i 所带来的失真。其中，产生最小失真值时所对应的那个码矢，就是矢量X i X_i X i 的重构矢量（或称恢复矢量），或者成为矢量X i X_i X i 被量化成了那个码矢。

说话人识别系统通常包括两个过程：训练和识别。而关键在于培训。

[En]

Speaker recognition system usually includes two processes: training and recognition. And the key lies in training.

; 训练步骤

步骤：

从训练语音提取特征矢量，得到特征矢量集。
选择合适的失真测度，并通过码本优化算法生成码本。
重复训练修正优化码本。
存储码本。

如果用d ( X ， Y ) d(X，Y)d (X ，Y )表示训练用特征矢量X X X与训练出的码本的码字Y Y Y之间的畸变，那么最佳码本设计就是再一定的条件下，使得畸变的统计平均值D = E [ d ( X , Y ) ] D=E[d(X,Y)]D =E [d (X ,Y )]达到最小。这里，E [ ⋅ ] E[·]E [⋅]表示对X X X的全体所构成的集合以及码本的所有码字Y Y Y进行统计平均。为了实现这一目的，应该遵循以下两条原则：

根据X X X选择相应的码字Y l Y_l Y l 时应遵从最近邻准则，可表示为：
d ( X , Y l ) = min j d ( X , Y j ) d(X,Y_l)=\underset{j}{\text{min}}d(X,Y_j)d (X ,Y l )=j min d (X ,Y j )
设所有选择码字Y l Y_l Y l （即归属于Y l Y_l Y l 所表示的区域）的输入矢量X X X的集合为S l S_l S l ，那么Y l Y_l Y l 应使此集合中的所有矢量与Y l Y_l Y l 之间的畸变值最小。如果X X X与Y Y Y之间的畸变值等于他们的欧式距离，那么容易证明Y l Y_l Y l 应等于S l S_l S l 中所有矢量的质心，即Y l Y_l Y l 应由下式表示：
Y l = 1 N ∑ X ∈ S l X , ∀ l Y_l=\frac{1}{N}\sum_{X\in S_l}X,\forall l Y l =N 1 X ∈S l ∑X ,∀l
这里N N N代表S l S_l S l 中所包含的矢量的个数。

根据这两条原则，可以得到一种码本设计的递推算法——LBG算法。整个算法实际上就是上述两个条件的反复迭代过程，即从初始码本中寻找最佳码本的迭代过程。它由对初始码本进行迭代优化开始，一直到系统性能满足要求或不再有明显的改进为止。

LBG步骤

具体实现步骤如下：

设定码本和迭代训练参数：设全部输入训练矢量X X X的集合为S S S；设置码本的尺寸为J J J；设置迭代算法的最大迭代次数为L L L；设置畸变改进阈值为δ \delta δ。
设定初始化值：设置J J J个码字的初值Y 1 ( 0 ) , Y 2 ( 0 ) , ⋯ , Y J ( 0 ) Y_1^{(0)},Y_2^{(0)},\cdots,Y_J^{(0)}Y 1 (0 ),Y 2 (0 ),⋯,Y J (0 )；设置畸变初值D ( 0 ) = ∞ D^{(0)}=\infty D (0 )=∞;设置迭代次数初值m = 1 m=1 m =1。
假定根据最近邻准则将S S S分成了J J J个子集S 1 ( m ) , S 2 ( m ) , ⋯ , S J ( m ) S_1^{(m)},S_2^{(m)},\cdots,S_J^{(m)}S 1 (m ),S 2 (m ),⋯,S J (m )，即当X ∈ S l ( m ) X\in S_l^{(m)}X ∈S l (m )时，下式应成立：
d ( X , Y l ( m − 1 ) ) ≤ d ( X , Y i ( m − 1 ) ) , ∀ i , i ≠ l d(X,Y_l^{(m-1)})\leq d(X,Y_i^{(m-1)}),\forall i,i\neq l d (X ,Y l (m −1 ))≤d (X ,Y i (m −1 )),∀i ,i =l
计算总畸变D ( m ) D^{(m)}D (m )：
D ( m ) = ∑ l = 1 J ∑ x ∈ S l ( m ) d ( X , Y l ( m − 1 ) ) D^{(m)}=\sum^J_{l=1}\sum_{x\in S_l^{(m)}}d(X,Y_l^{(m-1)})D (m )=l =1 ∑J x ∈S l (m )∑d (X ,Y l (m −1 ))
计算畸变改进量Δ D ( m ) \Delta D^{(m)}ΔD (m )的相对值δ ( m ) \delta^{(m)}δ(m ):
δ ( m ) = Δ D ( m ) D ( m ) = ∣ D ( m − 1 ) − D ( m ) ∣ D ( m ) \delta^{(m)}=\frac{\Delta D^{(m)}}{D^{(m)}}=\frac{|D^{(m-1)}-D^{(m)}|}{D^{(m)}}δ(m )=D (m )ΔD (m )=D (m )∣D (m −1 )−D (m )∣
计算新码本的码字Y 1 ( m ) , Y 2 ( m ) , ⋯ , Y J ( m ) Y_1^{(m)},Y_2^{(m)},\cdots,Y_J^{(m)}Y 1 (m ),Y 2 (m ),⋯,Y J (m )
Y l ( m ) = 1 N l ∑ X ∈ S l i ( m ) X Y_l^{(m)}=\frac{1}{N_l}\sum_{X\in S^{(m)}_{li}}X Y l (m )=N l 1 X ∈S l i (m )∑X
判断δ ( m ) \delta^{(m)}δ(m )是否小于δ \delta δ。若是，转入（9）执行；否则转入（2）执行。
判断m m m是否小于L L L。若否，转入（9）执行；否则，令m = m + 1 m=m+1 m =m +1，转入（3）执行。
迭代终止；输出Y 1 ( m ) , Y 2 ( m ) , ⋯ , Y J ( m ) Y_1^{(m)},Y_2^{(m)},\cdots,Y_J^{(m)}Y 1 (m ),Y 2 (m ),⋯,Y J (m )作为训练成的码本的码字，并且输出总畸变D ( m ) D^{(m)}D (m )。

识别步骤

识别步骤如下：

录制音频，提取音频特征
与所有码本进行距离计算，产生最小的距离的码本即是最相像的人。

gitee

https://gitee.com/squid_feng/VQLBG.git

只要运行VQSystem.py文件即可体验。

Original: https://blog.csdn.net/weixin_43142450/article/details/122116942
Author: Squid _
Title: 基于矢量量化(VQ)的说话人识别（python）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515033/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用python读取和保存为excel、csv、txt文件以及对DataFrame文件的基本操作

文章目录一、对excel文件的处理 * 1.读取excel文件并将其内容转化DataFrame和矩阵形式 2.将数据写入xlsx文件 3.将数据保存为xlsx文件 4.使用exc…

人工智能 2023年7月14日
0096
轻量化AlphaPose

目录前言 * AlphaPose介绍这里强调一下轻量化什么 yolo目标检测的轻量化单人姿态估计网络的轻量化 * 训练轻量化的单人姿态估计模型 – 下载数据集 …

人工智能 2023年7月14日
0083
基于VS2017+OpenCV，C++搭建NanoDet-Plus轻量级目标检测模型并训练（一）

1.绪论官方GitHub地址：https://github.com/RangiLyu/nanodet中文知乎地址： https://zhuanlan.zhihu.com/p/44…

人工智能 2023年7月10日
0045
《李宏毅2022机器学习》HW1 记录

文章目录任务描述一、特征选择（Feature selection）二、调整网络结构和优化器 * 1. 增加神经元和隐藏层 2. L2正则化及调参任务描述现已成功跑完sam…

人工智能 2023年6月26日
0094
震惊！我竟然在1080Ti上加载了一个35亿参数的模型（ZeRO, Zero Redundancy Optimizer）

; 背景在最近几年，虽然大规模预训练模型已经越来越普遍，但是关于如何训练这些模型的内容却很少有人关注，一般都是一些财大气粗的企业或实验室来训练大模型并发布，然后中小型企业以及高校…

人工智能 2023年7月13日
0066
SegNeXt学习笔记（卷积注意力语义分割框架）

SegNeXt学习笔记（卷积注意力语义分割框架）概念：不同于图像分类任务，语义分割属于密集预测任务，需要为每个像素指定一个语义类别，即需要在单个图像中对不同的对象进行处理。综合2…

人工智能 2023年7月28日
0050
[ISPRS数据集1]ISPRS中2D语义标签数据介绍

文章目录 ISPRS中2D语义标签数据介绍 * 参考文献：数据下载地址： Vaihingen Toronto 2D数据任务—Urban Classification（语义分割） …

人工智能 2023年6月18日
00105
pytorch多GPU并行的问题

以下是在多GPU并行torch程序的时候出现的问题以及解决方案： 1.torch.distributed.elastic.multiprocessiong.erroes.Child…

人工智能 2023年6月23日
00168
使用mmsegmentation训练自己的模型

1. 学习前言 mmsegmentation是一个基于ptorch的语义分割代码库，其中复现了众多先进的分割模型。由于代码风格统一，功能齐全，我打算用mmseg来跑对比实验。本文…

人工智能 2023年5月28日
00112
使用tensorflow神经网络预测房价模型

本例使用kaggle的”House Sales in King County, USA”数据集，共有21613笔房屋数据，每一笔数据有21个不同的信息，如图…

人工智能 2023年7月14日
0045
从零开始的基于Python Flask框架、SQLite的语音识别五子棋web小游戏

Flask框架 Flask框架中文网建议在开发环境和生产环境下都使用虚拟环境来管理项目的依赖。虚拟环境可以为每一个项目安装独立的 Python 库，这样就可以隔离不同项目之间的 P…

人工智能 2023年5月25日
00120
语音信号处理 —— 笔记（一）音频信号处理

声音的产生：能量通过声带使其振动产生一股基声音，这个基声音通过声道，与声道发生相互作用产生共振声音，基声音与共振声音一起传播出去。一、音频信号简介 1.声音波形图传感器以 …

人工智能 2023年5月27日
0070
如何在Tensor对象上执行循环操作（如遍历、迭代等）

如何在Tensor对象上执行循环操作在TensorFlow中，可以使用Tensor对象进行循环操作，包括遍历和迭代。Tensor对象是TensorFlow中的核心数据结构之一，它…

人工智能 2024年1月2日
0025
python flask框架详解

Flask是一个Python编写的Web 微框架，让我们可以使用Python语言快速实现一个网站或Web服务。本文参考自Flask官方文档，英文不好的同学也可以参考中文文档 1.安…

人工智能 2023年7月4日
0081
OpenCV 中的轮廓－查找轮廓的不同特征，例如面积，周长，重心，边界框等。

轮廓特征目标查找轮廓的不同特征，例如面积，周长，重心，边界框等。你会学到很多轮廓相关函数矩图像的矩可以帮助我们计算图像的质心，面积等。详细信息请查看维基百科Image Mo…

人工智能 2023年7月19日
0069
Spark中RDD、DataFrame和DataSet的区别

最近同事开始学习使用Spark，问我RDD、DataFrame和DataSet之间有什么区别，以及生产环境中的spark1.6将在不久后被移除，全部使用spark2+。于是今天我就…

人工智能 2023年6月2日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31