《Fusion of Embeddings Networks for Robust Combination of Text Dependent and Independent Speaker 》

2023年5月27日下午2:17 • 人工智能 • 阅读 160

论文名字最后还有个recognition，受限于题目长度。

本文的作者是 Ruirui Li, Chelsea J.-T. Ju, Zeya Chen, Hongda Mao, Oguz Elibol, Andreas Stolcke，Amazon, USA

研究动机

本文做的是说话人识别（测试的时候用一句话测试，可以得到是那个人说的话，即说这句话的人），本文主要是将文本相关和文本不相关的说话人识别技术融合在一起。提出的模型叫做FOEnet。

INTRODUCTION

介绍了一下什么是说话人识别以及文本相关和文本不相关模型。TD（文本相关模型）将声学信号和说话人的相关语音片段计算一个分数，分数越高，相关性越强，越能证明要测试的语言是和说话人有关系。TI（说话不相关模型）也是将一句话或者没有弱音词的部分和说话人的语句对比产生匹配分数。这两个模型是用不同的数据集和不同的模型训练的。如果这2个模型都可以用，就可以去提高它们的精确度和。但是需要关注三个点：第一，给一定范围的融合方法，不能明确那个方法是最好的；第二，2个系统的输入，尤其是TD系统，有可能也不能用。第三，说话者的嗓音是不断变化的，反过来可能会影响2个系统融合之后的平衡。之后说了一些别人是怎么做的。

模型结构

《Fusion of Embeddings Networks for Robust Combination of Text Dependent and Independent Speaker 》

实验数据和操作

输入的是VAD后的40维的梅尔频谱，用的是现有的说话人识别模型，将5000小时的数据用到说话人识别模型中，和四个基本的模型做对比。

下图的结果不同的区别在于数据集不一样。

评价指标

false accept rate (FAR) 和false reject rate (FRR)

结论

提出了一种实现说话人识别的新结构。其效果要好于四种比较模型。

[En]

A new structure is proposed to realize speaker recognition. The effect is better than the four comparative models.

生词

voice assistants 语音助手

posit 假定

trade-off 权衡

Original: https://blog.csdn.net/qq_46079584/article/details/122586746
Author: qq_46079584
Title: 《Fusion of Embeddings Networks for Robust Combination of Text Dependent and Independent Speaker 》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526502/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

自学机器学习笔记（十九）

ADABOOST 核心思想：融合一些弱分类器获得强分类器核心流程：先用一部分特征训练一些较弱的分类器，然后再将这些较弱的分类器逐步提升为强的分类器。ADABOOST的核心是调整训…

人工智能 2023年7月2日
0087
ubuntu18.04（LINUX）运行YOLOV5+训练VOC数据集/自己的数据集

YOLOV5 中文Github网址： https://github.com/wudashuo/yolov5 YOLOV5相关文件百度网盘连接：链接: https://pan.ba…

人工智能 2023年6月2日
0095
基于SwinTransformer+UNet的遥感图像语义分割

目录摘要 1.Introduction 2.Related Work * 2.1.基于CNN的RS语义分割 2.2.自注意力机制 2.3.ViT 3.方法 * 3.1.网络结构 …

人工智能 2023年5月26日
00108
Android系统服务自动化信息收集与Fuzz测试

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
0069
机器学习基础学习-聚类

一、聚类基本概念 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is…

人工智能 2023年6月3日
00115
反向传播算法是否适用于所有类型的神经网络？是否存在某些特定类型的网络结构或任务，其效果较差

问题描述在神经网络中，反向传播算法是一种用于训练网络权重的常用方法。然而，是否存在某些特定类型的网络结构或任务，其效果较差，反向传播算法不适用的情况呢？介绍反向传播算法是一种…

人工智能 2024年1月4日
0049
物体检测难点 (多尺度检测, 遮挡与拥挤)

目录多尺度检测 * 降低下采样率与空洞卷积 Anchor 设计多尺度训练 (Multi Scale Training，MST) 特征融合尺度归一化: SNIP (Scale …

人工智能 2023年7月9日
00129
【图神经网络DGL】消息传递范式（消息+聚合+更新）

学习总结 homogeneous graph是同构图；heterogeneous graph是异构图。小结消息传递的流程：消息函数（message function）：传递消息…

人工智能 2023年7月14日
0094
python金融量化初体验——2020年“大湾区杯”金融数学建模比赛A题《大湾区指数增强策略》刷题总结（持续更新中）

目录 1.前言 2.准备工作（1）题目分析：提供的数据集问题 3.解题思路：（1）第一问解题思路 4.代码实现（1）第一题部分代码 1.前言之前和男朋友一起学完了数据挖…

人工智能 2023年7月4日
00101
Python学习笔记

python pandas库㈠前言一、pandas概述二、Series对象 * ①Series对象特点 ②Series对象的创建 – (1)从列表(list)创建…

人工智能 2023年7月8日
0059
干货！机器学习中 5 种必知必会的回归算法！

提到回归算法，我想很多人都会想起线性回归，因为它通俗易懂且非常简单。但是，线性回归由于其基本功能和有限的移动自由度，通常不适用于现实世界的数据。实际上，它只是经常用作评估和研究…

人工智能 2023年6月18日
00133
LiveGBS国标GB/T28181协议监控直播平台支持海康语音对讲大华跨网语音喊话对讲

GB28181支持海康语音对讲大华跨网语音对讲 1、国标设备语音对讲 2、服务端必备条件（注意） 3、准备监控设备 * 3.1、大华摄像机配置接入示例 3.2、海康摄像机配置…

人工智能 2023年5月27日
00229
【Pandas总结】第五节 Pandas 数据查询方法总结_df.loc()总结

文章目录 * – 一、写在前面 – 二、查询方法：df.loc() – + 2.1 查询单个值 + 2.2 查询列表对应的值 + 2.3 查询区…

人工智能 2023年7月6日
0072
#轻量级网络 MobileNetV1+V2+V3（原理+结构详解+代码）

目录 MobileNetV1 Depthwise separable convolution：深度可分离卷积原理介绍：深度可分离网络结构： MobileNet网络结构：控制模…

人工智能 2023年6月22日
00116
基于Python的npTDMS库的TDMS文件的读取

npTDMS可直接在终端中下载 pip install npTDMS TDMS（Technical Data Management Streaming）文件是NI主推的一种二进制记…

人工智能 2023年7月16日
00144
基于GAN的小目标检测算法总结（1）——Perpetual GAN

基于GAN的小目标检测算法总结（1）——Perpetual GAN 1.前言这是一个系列文章，对基于GAN的小目标检测算法进行总结。目前基于GAN的小目标检测算法不多，比较有名的…

人工智能 2023年7月12日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

《Fusion of Embeddings Networks for Robust Combination of Text Dependent and Independent Speaker 》

大家都在看