NLP基础知识之语音识别

  1. 语音识别的输出类别

1)phoneme:输出为发音,比较简单,因为语音跟发音是一一对应的,但是需要一个词汇表,表示发音跟word的对应。

2)Grapheme:字母或者token

3)word:短语,V会很大

4)morpheme:代表含义的最小单位

5)byte:utf-8,适用于任何语言

NLP基础知识之语音识别
  1. 输入特征:(具体的处理可以看下图,以MFCC为例子,如果不经过DCT,就是目前用的最普遍的fliter bank output)

NLP基础知识之语音识别
  1. 那确定了输入以及输出,接下来介绍 中间的模型

NLP基础知识之语音识别

⚠️encoder:

NLP基础知识之语音识别

NLP基础知识之语音识别

⚠️attention:

其常见计算方式: 直接乘法、加法。在transformer面试时可能会问,为什么选择乘法而不是加法计算相似度:虽然加法计算量小,但是求出来的只是中间结果(矩阵),还要再✖️矩阵才能得到标量。

NLP基础知识之语音识别

⚠️decoder:

NLP基础知识之语音识别

NLP基础知识之语音识别

其中C为样本数量,p是label(one-hot),q是预测的概率。其中q的计算公式(softmax)为:即现扩大差距,在进行归一化。

NLP基础知识之语音识别

因为p是one-hot,会使得最终预测的logits向量中目标类别zi的值会趋于无穷大,使得模型向预测正确与错误标签的logit差值无限增大的方向学习,而 过大的logit差值会使模型缺乏适应性,对它的预测过于自信,过拟合,所以有时候会使用 label smothing(soft “one-hot”)

Original: https://blog.csdn.net/m0_56618741/article/details/121163073
Author: 今天学习算法了吗
Title: NLP基础知识之语音识别

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/512123/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球