远场多阵列语音识别（Far-filed multi-array speech recognition）

2023年5月25日上午5:27 • 人工智能 • 阅读 73

1. 本章内容

本博客介绍基于Attention的beamformer技术（多麦克风波束合成）。
对其文章中代码进行复现。
只复现了beamformer代码，集成到ASR（wenet）中的代码等待我后期GitHub开源。

2. 文章详情

引用：Gong, R. , et al. “Self-Attention Channel Combinator Frontend for End-to-End Multichannel Far-field Speech Recognition.” 2021.
arXiv：https://arxiv.org/abs/2109.04783

3. 原文解读

网络结构（构思还是很easy的）

（1）最下面：类似于mel谱
（2）右侧：计算多通路之间的cross-attention，然后经过一个softmax函数，来给每一个通路（channel）求出一个权重。
（3）最上面：求多通路语音信号的mel谱加权和，作为ASR的输入
结果展示

（1）自称是beamformer中最SOTA的，其实粒度还是蛮高的。（还有方法降低粒度，还可以更SOTA）
（2）效果绝对提升1-2%。

; 4. 代码/源码（只包含beamformer部分，具体融合到Wenet-ASR，参考我后期github更新）

import torch
import torch.nn as nn
import numpy as np
class beamformer_attention(nn.Module):
    def __init__(self,d_model, d_k, d_v, n_heads):
        super(beamformer_attention, self).__init__()
        self.muttiheadatt = MultiHeadAttention(d_model, d_k, d_v, n_heads)
    def forward(self,x):
        attain = self.muttiheadatt(x,x,x)
        softmax_att = nn.Softmax(dim=-1)(attain)
        output = torch.matmul(x.transpose(-1,-2),attain)
        length = output.size(0)
        output = output.view(length,-1)
        return output
class ScaledDotProductAttentionMask(nn.Module):
    def __init__(self, d_k):
        super(ScaledDotProductAttentionMask, self).__init__()
        self.d_k = d_k
    def forward(self, Q, K, V):
        scores = torch.matmul(Q, K.transpose(-1,-2)) / np.sqrt(self.d_k)
        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context, attn
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, d_k, d_v, n_heads):
        super(MultiHeadAttention, self).__init__()
        self.d_model = d_model
        self.d_k = d_k
        self.d_v = d_v
        self.n_heads = n_heads
        self.W_Q = nn.Linear(d_model, d_k * n_heads)
        self.W_K = nn.Linear(d_model, d_k * n_heads)
        self.W_V = nn.Linear(d_model, d_v*n_heads)
        self.layer_norm = nn.LayerNorm(d_model)
        self.concat = nn.Linear(n_heads*d_v,d_v)
    def forward(self, Q, K, V):

        batch_size = Q.size(0)

        ##&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x5C31;&#x662F;&#x5148;&#x6620;&#x5C04;&#xFF0C;&#x540E;&#x5206;&#x5934;&#xFF1B;&#x8FD9;&#x91CC;&#x90FD;&#x662F;dk
        q_s = self.W_Q(Q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)  # q_s: [batch_size x n_heads x len_q x d_k]
        k_s = self.W_K(K).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)  # k_s: [batch_size x n_heads x len_k x d_k]
        v_s = self.W_V(V).view(batch_size, -1, self.n_heads, self.d_v).transpose(1,2)  # v_s: [batch_size x n_heads x len_k x d_v]

        ## &#x8F93;&#x5165;&#x8FDB;&#x884C;&#x7684;attn_mask&#x5F62;&#x72B6;&#x662F; batch_size x len_q x len_k&#xFF0C;&#x7136;&#x540E;&#x7ECF;&#x8FC7;&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x4EE3;&#x7801;&#x5F97;&#x5230; &#x65B0;&#x7684;attn_mask : [batch_size x n_heads x len_q x len_k]&#xFF0C;&#x5C31;&#x662F;&#x628A;pad&#x4FE1;&#x606F;&#x91CD;&#x590D;&#x4E86;n&#x4E2A;&#x5934;&#x4E0A;
        #attn_mask = attn_mask.unsqueeze(1).repeat(1, self.n_heads, 1, 1)

        context, attn = ScaledDotProductAttentionMask(self.d_k)(q_s, k_s, v_s)
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_v) # context: [batch_size x len_q x n_heads * d_v]
        #output = self.layer_norm(context)
        output = self.concat(context)
        return output # output: [batch_size x len_q x d_v]

if __name__ == '__main__':
    beamformer = beamformer_attention(40,64,1,6)
    input = torch.ones((10,8,40),dtype=torch.float32) # [seq_len channel fbank]
    print(input)
    output = beamformer(input)
    print(output)
    print(input.size(),'[seq_length,channels,fbank]')
    print(output.size(),'[seq_length,fbank]')
    print('succed')

Original: https://blog.csdn.net/qq_37258753/article/details/126427181
Author: 方付平
Title: 远场多阵列语音识别（Far-filed multi-array speech recognition）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512466/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOV1详解——Pytorch版

由于YOLOV1是end没有设置先验框，因此预测精度受的影响且迁移能力差；只有一个特征层，对小物体和群体的小物体预测能力差，这样也意味着有更多的修改空间。参考代码：https:/…

人工智能 2023年7月21日
0057
COX回归分析

COX比例风险模型（cox proportional-hazards model）是英国统计学家D.R.COX于1972年提出的一种半参数回归模型，它可同时研究多个风险因素和事件结…

人工智能 2023年7月27日
00106
数据预处理（提取数据，合并csv，建立词典，引入外部词典的分词，删除csv文件特定行）

数据处理 1、提取数据 * 第一步：创建一个DataFrame 第二步：提取相应列存入DataFrame 2、从多文件中提取数据 * 3、合并csv文件 4、用正则表达式抠出所需内…

人工智能 2023年7月8日
0076
ENVI图像处理（6）：NDVI和植被指数

NDVI NDVI 植被指数 ENVI操作 * NDVI band math quick stat统计图 NDVI 定义：NDVI（Normalized Difference Ve…

人工智能 2023年6月17日
0086
YOLO7环境搭建、代码测试

文章目录 1. 依赖类库 2. 相关下载(可跳过本步,依据后面步骤按需下载) 3. 源码调试 * 3.1 下载源码 3.2 下载预训练模型 3.3 下载数据集 4. 运行代码 * …

人工智能 2023年7月27日
0073
win10,GTX1650配置cuda10.1，cudnn7.6.5，cv2环境参考

常用命令 conda env list 当前已创建的环境列表 conda create -n name 创建名称为name的环境 conda remove -n name &#82…

人工智能 2023年5月26日
0085
机器学习中的数学——牛顿迭代法（Newton‘s Method）

分类目录：《机器学习中的数学》总目录相关文章：· 梯度下降法（Gradient Descent）· 随机梯度下降（Stochastic Gradient Descent, SGD）…

人工智能 2023年6月16日
00100
ParserError: NULL byte detected. This byte cannot be processed in Python‘s native csv library

ParserError: NULL byte detected. This byte cannot be processed in Python’s native cs…

人工智能 2023年5月30日
0059
OpenCV-图像对比度

作者：翟天保Steven版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处实现原理图像对比度指的是一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级…

人工智能 2023年6月22日
0095
ip地址冲突导致ping时通时断显示超时问题处理过程

目录 1 现象 2 Ping的过程： 3 可能的原因： 4 排查过程类似问题：ip冲突问题解决和复现过程_wj31932的博客-CSDN博客无法上网故障排查过程及复现过程系ip…

人工智能 2023年6月27日
0099
相机标定目的及原理

相机标定的目的：相机标定的目的有两个，一个就是矫正由于镜头畸变造成的图片的变形，例如，现实中的直线，拍摄成图像后会外凸或内凹，进行相机标定后可以对这种情况进行校正；另一个是根据获得…

人工智能 2023年6月18日
0083
TensorFlow中loss与val_loss、accuracy和val_accuracy的意义

loss：训练集损失值 loss:训练集损失值 accuracy:训练集准确率 val_loss:测试集损失值 val_accruacy:测试集准确率以下5种情况可供参考： tr…

人工智能 2023年5月26日
00106
Python安装Pytorch教程（图文详解）

最近人工智能等多门课需要复现论文，近两年的论文很多都是基于Pytorch环境做的实验，所以，这里总结一下Pytorch的安装教程，做好最快、最简单、最好地完成安装。本机环境Wi…

人工智能 2023年7月24日
0076
论文浅尝 | KnowEdu: 一个自动构建教育知识图谱的系统

笔记整理 | 崔凌云，天津大学硕士链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8362657 动机基于知识图…

人工智能 2023年6月1日
00125
Javaweb：HTTP协议与Web服务端开发环境（一）

一、http协议 • 套接字（Socket）是通信的基石，是支持TCP/IP协议的网络通信的基本操作单元。• Socket可以看成在两个程序进行通讯连接中的一个端点，一个程序将一段…

人工智能 2023年6月29日
0055
基于Matlab的遗传算法优化BP神经网络的算法实现（附算法介绍与代码详解）

目录一、内容提要二、算法简介 2.1 遗传算法（Genetic Algorithm，GA） 2.2 BP（Back Propagation）神经网络三、实例计算四、代码解读…

人工智能 2023年7月12日
00119

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

远场多阵列语音识别（Far-filed multi-array speech recognition）

1. 本章内容

2. 文章详情

3. 原文解读

; 4. 代码/源码（只包含beamformer部分，具体融合到Wenet-ASR，参考我后期github更新）

大家都在看