说话人识别(speaker Recognition/Verification)简介

2023年5月25日下午7:43 • 人工智能 • 阅读 78

1.分类

说话人识别(speaker Recognition/Verification)简介

说话人识别研究方向主要有三个：

语音信号参数化：即提取音频特征spectral features，目前主流研究都采用MFCCs系数，以及其Δ和ΔΔ系数(即时间上的一阶导数和二阶导数)。什么是MFCC系数以及如何提取可以看这个博客：语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理

模式匹配: 即从上一步得到的语音参数中提取出该说话人的固有特征，通俗点讲，就是从输入数据中提取出一个固定长度的向量来表示该speaker的特征，又称speaker embedding。所谓embedding可以理解为在一个固定维度下的表达形式。

算分方法: 即在进行识别的时候，将待测speaker的embedding和训练阶段得到的embedding进行比较，算分方法以一个特定公式去计算两者的相似度，从而达到识别的效果。

模式识别的发展历史

可以分为三类：

模板匹配、概率模型和神经网络。

Vector Quantization 的介绍可以看这个博客:说话人识别 speaker identification发展历史

1980s主流方法即为向量量化（K-means)或NN。效果不好，因为算法简单。

1990s神经网络面世，TDNN即为CNN的前身。但此时还没有深度学习的概念。

2010s以概率模型为代表的i-vector取得了良好的效果，但是最近几年被由深度神经网络发展而来的x-vector超越。

3.1 GMM高斯混合模型

将不同参数的高斯分布以合计概率为1进行叠加，得到的分布可以模拟非常复杂的分布。该模型利用GMM的参数来表示每个speaker的模式。但问题是想要效果比较好，则需要非常多数量的高斯分布进行混合，随之而来的参数计算也会很多，但是一个speaker的数据往往比较少，例如短短一句话得到的feature是非常少的，完全不足以训练GMM。所以，后来提出了一个GMM-UBM的方法，所谓UBM通用背景模型是一个提前训练好的模型，该模型本身是一个很复杂的GMM，但是他用了大量不同speaker的数据进行训练，得到的是一个可以表达很多人的GMM。利用UBM和我们想要训练的speaker数据，将UBM的参数向当前speaker靠拢。

GMM的模型如下，了解EM算法的人应该很熟悉：

用大量无关的、我们已有的数据，利用EM算法训练UBM，再利用MAP和当前speaker的数据进行调整参数。

M表示当前speaker的分布，m表示UBM的分布，z表示标准正态分布，矩阵D来调整m。

Original: https://blog.csdn.net/weixin_50547200/article/details/117646021
Author: BeichenLiu.Polaris
Title: 说话人识别(speaker Recognition/Verification)简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515759/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

最新CCF会议|2022-2023顶会会议时间+投稿时间+官网链接（视觉+多媒体+数据挖掘+数据库+通用人工智能）

图形学与多媒体序号刊物简称链接出版社截至日期类别会议地点会议举办日期1ACM MM ACM International Conference on Multimedia2022….

人工智能 2023年6月19日
0073
ffmpeg七大库功能介绍——机翻、非人话

libavformat 库为音频、视频和字幕流的多路复用和解复用(muxing 和demuxing )提供了一个通用框架。它包含多个多媒体容器格式的多复用器和解复用器。它还支持多…

人工智能 2023年5月25日
0055
半监督学习中的生成模型与判别模型有何区别

问题介绍在深度学习中，分布式和并行计算是一种常见的需求。分布式计算可以加速模型的训练过程，并利用多台计算机进行并行计算，从而处理更大规模的数据。而并行计算则通过同时使用多个计算设…

人工智能 2024年1月1日
0024
[Python] 散点图（二维散点图、三维散点图、散点图矩阵）

目录 1 两主特征：二维散点图 1.1 二维散点图 1.2 二维分类散点图 1.3 气泡图 2 三主特征：三维散点图 2.1 三维散点图 2.2 三维分类散点图 3 多主特征：二维…

人工智能 2023年7月4日
0084
多层感知机MLP的理解及代码实现

1、MLP模型多层感知机（MLP，Multilayer Perceptron）也叫人工神经网络（ANN，Artificial Neural Network），除了输入输出层，它中…

人工智能 2023年6月13日
0055
常见的图像质量评估指标SSIM、PSNR、LPIPS

现阶段针对有真实参考的图像生成任务，主要有三种质量评价指标，分别为两种人为设计的指标SSIM和PSNR，也包括深度学习网络抽取到的特征进行对比的LPIPS评价指标一：结构相似性（…

人工智能 2023年7月29日
0053
（5）一文懂“NLP Bert-base” 模型参数量计算

Bert 的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。 1、词向量参数（embeddin…

人工智能 2023年5月28日
0098
关于tensorflow 中module ‘tensorflow‘ has no attribute ‘xxx‘问题的根本解决方法。

在用tensorflow复现github上面的代码时，经常会出现tensorflow版本不对的情况，如下图所示。 FLAGS = tf.flags.FLAGS 很多博主的解决方法都…

人工智能 2023年5月26日
0062
人脸识别技术实现，机器学习分类，网络搭建

一。人脸识别技术 1.python编程环境构建下载anaconda，CUDA，CUDNN 下载完成后（开始键+r）输入cmd后输入conda，显示以下内容即可 2.程序实现环境…

人工智能 2023年7月2日
0060
人脸识别_人脸识别及其应用

人脸识别软件登录界面人脸识别的英文名称是 Human Face Recognition.人脸识别产品利用AVS03A图像处理器；可以对人脸明暗侦测,自动调整动态曝光补偿，人脸追踪…

人工智能 2023年5月27日
0059
【python技能树】python编码规范

想要写好python代码，必须了解python相关编码规范，有了这个的加持，编写的代码不仅可以实现相应的功能，而且简单易读，逻辑清晰。本节技能树主要分享相应的python编码规范，…

人工智能 2023年7月4日
0086
点云 3D 目标检测 – PointPillars

点云 3D 目标检测 – PointPillars: Fast Encoders for Object Detection from Point Clouds &#82…

人工智能 2023年7月10日
0055
opencv-python图像处理 —-图像梯度、Sobel算子

一、图像的梯度处理1、Sobel算子梯度可以按照x方向或者y方向求梯度，其实就是在看像素点的差异变化情况，比如黑白物体的交界，其像素值变化差异是非常大的。求梯度计算使用的函数就叫做…

人工智能 2023年6月20日
0065
（一）一元线性回归方程 & 梯度下降

学习目标： I. 理解一元线性回归 II. 学会用 “梯度下降法” 和 “相关系数法”求解线性模型 III. 学会用代码来实现该…

人工智能 2023年6月17日
0050
【37】使用LSTM实现文本分类、图像分类、图像生成任务

如有错误，恳请指出。在上一篇文章中，使用了LSTM来预测时序信息，接下来就继续对LSTM进行一些拓展应用： 1）使用LSTM网络来对文本分类 2）使用LSTM网络来对图像分类…

人工智能 2023年6月16日
0070
mediapipe python的简单应用

mediapipe python的简单应用前言一、mediapipe 二、mediapipe python库 * 1.引入库 2.简单应用总结前言这是mediapipe …

人工智能 2023年5月28日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

说话人识别(speaker Recognition/Verification)简介

3.1 GMM高斯混合模型

大家都在看