kaldi解码中, 排查静音对应到“啊“的异常问题

2023年5月25日上午8:05 • 人工智能 • 阅读 81

label: 对二幺五嗯好好谢谢嗯
asr pred: Demo 啊对哎呀捂好谢谢
phone sequence: Demo a1_S sil d_B w E4 Y_E A1_B Y y A1_E w_B u3_E sil h_B a3 W_E x_B y E4 x y E4_E sil

优先排查AM模型

● 抽取音频特征, 并apply cmvn

echo "Demo $wav_file" | compute-fbank-feats --num-mel-bins=40 --sample-frequency=8000 scp:- ark,t:- | apply-cmvn-online asr_model_online/online_model/20211212/global_cmvn.stats ark,t:- ark,t:- > feat.txt

● nnet3-latgen-faster /nnet3-latgen-faster-batch来对音频解码, 生成文本识别结果的同时, 生成lattice, 并用show_lattice.sh 来将lattice可视化:

nnet3-latgen-faster --frames-per-chunk=50 --extra-left-context=10 --extra-right-context=0 --minimize=false --max-active=7000 --min-active=200 --beam=15.0 --lattice-beam=8.0 --acoustic-scale=0.1 --allow-partial=true --word-symbol-table=graph/graph_zjtb//words.txt exp/exp_zjtb/tdnn_0730/final.mdl graph/graph_zjtb/HCLG.fst ark,t:feat.txt "ark:test.lats"

./utils/show_lattice.sh --mode save Demo asr/lattice_test/test.lats.gz asr/lattice_test/words.txt

● nnet3-compute输出帧级别的预测结果, 即每一帧对应的所有pdf的概率列表, 其中, pdf是0-based indexing, 可将整个矩阵用excel打开, 用excel根据值渐变色功能, 可看出, 哪个概率pdf的概率最大, 即这帧预测结果为此pdf


nnet3-compute --apply-exp=true exp/exp_zjtb/tdnn_0730/final.mdl "ark,t:feat.txt" ark,t:- > test_frame_res.txt
show-transitions graph/graph_zjtb/phones.txt exp/exp_zjtb/tdnn_0730/final.mdl > test_occs.txt

● 通过show-transitions以human-readable格式打印出HMM转移模型, 如下:

show-transitions graph/graph_zjtb/phones.txt exp/exp_zjtb/tdnn_0730/final.mdl > test_occs.txt

输出结果, 其中pdf的值为pdf id, 即

Transition-state 1744: phone = d_B hmm-state = 2 pdf = 3184
Transition-id = 3487 p = 0.01 [self-loop]
Transition-id = 3488 p = 0.99 [2 -> 3]
Transition-state 1745: phone = d_B hmm-state = 2 pdf = 3351
Transition-id = 3489 p = 0.311331 [self-loop]
Transition-id = 3490 p = 0.688669 [2 -> 3]
Transition-state 1746: phone = e1 hmm-state = 0 pdf = 71
Transition-id = 3491 p = 0.01 [self-loop]
Transition-id = 3492 p = 0.990001 [0 -> 1]
Transition-state 1747: phone = e1 hmm-state = 0 pdf = 1136
Transition-id = 3493 p = 0.01 [self-loop]
Transition-id = 3494 p = 0.99 [0 -> 1]
Transition-state 1748: phone = e1 hmm-state = 0 pdf = 1675
Transition-id = 3495 p = 0.0854856 [self-loop]
Transition-id = 3496 p = 0.914514 [0 -> 1]

排查LM中, 不同句子的scoring情况:

● srilm的ngram language model相关介绍: https://web.stanford.edu/~jurafsky/slp3/3.pdf
● probabiltiy越高, perplexcity越低.

ngram -lm zhijian_lm.gz -ppl test.txt -debug 2

test.txt内容如下:

啊对哎呀捂好谢谢
对哎呀捂好谢谢

输出结果

reading 890937 1-grams
reading 14733024 2-grams
reading 13701101 3-grams
啊对哎呀捂好谢谢
p( 啊 | ) = [2gram] 0.1468152 [ -0.8332291 ]
p( 对 | 啊 …) = [3gram] 0.06473259 [ -1.188877 ]
p( 哎呀 | 对 …) = [3gram] 0.0001231799 [ -3.90946 ]
p( 捂 | 哎呀 …) = [2gram] 3.734564e-05 [ -4.42776 ]
p( 好 | 捂 …) = [2gram] 0.04002296 [ -1.397691 ]
p( 谢谢 | 好 …) = [2gram] 0.04092193 [ -1.388044 ]
p( | 谢谢 …) = [3gram] 0.1421139 [ -0.8473634 ]
1 sentences, 6 words, 0 OOVs
0 zeroprobs, logprob= -13.99242 ppl= 99.75112 ppl1= 214.818

对哎呀捂好谢谢
p( 对 | ) = [2gram] 0.02417497 [ -1.616634 ]
p( 哎呀 | 对 …) = [3gram] 0.0001068959 [ -3.971039 ]
p( 捂 | 哎呀 …) = [2gram] 3.734564e-05 [ -4.42776 ]
p( 好 | 捂 …) = [2gram] 0.04002296 [ -1.397691 ]
p( 谢谢 | 好 …) = [2gram] 0.04092193 [ -1.388044 ]
p( | 谢谢 …) = [3gram] 0.1421139 [ -0.8473634 ]
1 sentences, 5 words, 0 OOVs
0 zeroprobs, logprob= -13.64853 ppl= 188.2588 ppl1= 536.6687

file test.txt: 2 sentences, 11 words, 0 OOVs
0 zeroprobs, logprob= -27.64096 ppl= 133.7295 ppl1= 325.6973

由LM引入的多余的”啊”, 因为lm ngram模型中, 确实出现了超大量的啊开头的句子. 开始重点优化语言模型, 方法:
● 计算出开头字的出现频率, 其中, 若以叹词开头的(啊, 嗯, 哦, 呃, 我等), 逐一选出, 按30%保留, 剩余的去除开头字.

● 清理相同字母连续多次出现的无意义的英文词.

● 进行多轮WER评估, 看效果.

Original: https://blog.csdn.net/weixin_40103562/article/details/125545279
Author: phoenix-bai
Title: kaldi解码中, 排查静音对应到“啊“的异常问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513028/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第八章笔记

pandans 定义一个开源的python类库，用于数据分析、数据处理、数据可视化以管理员的身份打开cmd 特点高性能、容易使用的数据结构、容易使用的数据分析工具安装下载…

人工智能 2023年7月7日
0062
echarts如何画地图

; 前情提要用echarts画地图的方式有两种通过真实的地图来画（百度地图、google地图、或者其它某种地图软件）去拿到某块区域的json文件来画第一种方式，可以前往 h…

人工智能 2023年6月29日
0079
【图像处理】c++使用opencv对图像进行形态学操作

好的，这个任务可以分为以下几步： 1. 读取； 2. 对预处理，包括灰度化、二值化、处理等； 3. 找到车牌区域的位置，并将其分割出来； 4. 对分割出来的车牌区域字符分割…

人工智能 2023年6月20日
0046
SLAM精度评估

简介最近在群里划水时，看到很多初学的SLAMer面对精度评估这个问题无从下手。而精度评估确实是在SLAM算法实际评估中急需一种手段和工具，本文将从2维室内和3维室外两个层面来向各…

人工智能 2023年6月10日
0059
【基于SVM的数据分类预测——意大利葡萄酒种类识别】的一些笔记

支持向量机结构特点（1）测试数据：测试数据wine,其中包含的数据为classnumber = 3,记录的是类别数目；wine:17813的double型矩阵,记录了178个样…

人工智能 2023年7月2日
0083
yolov5目标检测神经网络——损失函数计算原理

前面已经写了4篇关于yolov5的文章，链接如下： 1、基于libtorch的yolov5目标检测网络实现——COCO数据集json标签文件解析 2、基于libtorch的yolo…

人工智能 2023年7月30日
0064
归一化处理

1. 为什么要进行归一化处理？例：假设放假预测，自变量为面积，房间数两个，因变量为房价。得到等式：其中代表房间数，代表面积。在实验中寻找最优解的过程也就是在使得损失函数值最小…

人工智能 2023年7月29日
0057
fastDFS安装笔记

1.官方安装教程官方教程：INSTALL 这里，我在 /usr/local目录下创建了一个fastDFS目录，然后将官网教程中git下来的目录都放到此目录中。 ; 2. 配置 2…

人工智能 2023年6月29日
0081
【python数据分析】数据的分组，遍历，统计

数据的分组，遍历，统计俗话说：”人与类聚，物以群分”，到这里我们将学习数据的分组以及分组后统计。Pandas的分组相对于Excel会更加简单和灵活。 1️…

人工智能 2023年7月7日
0044
2022最新教程 | windows系统中vscode配置R语言

飞哥的文章目录 VScode配置R语言 * 1. 下载R语言4.1.3 2. 安装vscode1.66 3. vscode配置R语言 – 3.1 安装vscode的R插…

人工智能 2023年7月5日
00104
解决kaldi训练报错 CUDA error: ‘out of memory‘，gpu不够用（亲测有效）

kaldi训练mobvoihotwords报错： ERROR (nnet3-chain-train[5.5]:AllocateNewRegion():cu-allocator.cc…

人工智能 2023年5月25日
00120
金融风控数据分析

一、信贷底层库表详解与数据集市构建 1.信贷业务底层数据核心库表穿透式详解 1）客户信息表结构与数据（customer_info）客户信息表是根据客户在前端申请信贷产品时主动填写…

人工智能 2023年7月15日
0075
10个自动EDA库功能介绍：几行代码进行的数据分析靠不靠谱

探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Pyth…

人工智能 2023年7月16日
0069
一个Springboot配置顺序问题，让我直接回滚代码了

问题回顾前天，日常上线了个小迭代。内容是：将接口A切换成了接口B，需求很小，QA也没想着测，就让我自测后走免测上线了。开发完成后，赶紧部署到测试环境验证了下，没啥问题，per…

人工智能 2023年6月28日
0084
Matplotlib绘制箱线图

箱线图（Box-plot）又称为盒式图或箱型图，是一种用来显示一组数据分散情况的统计图，它能显示一组数据的上界、下界、中位数、上下四分位数以及异常值等。箱线图的各部分组成及其含义如…

人工智能 2023年7月15日
0061
中文NER的那些事儿4. 数据增强在NER的尝试

这一章我们不聊模型来聊聊数据，解决实际问题时90%的时间其实都是在和数据作斗争，于是无标注，弱标注，少标注，半标注对应的各类解决方案可谓是百花齐放。在第二章我们也尝试通过多目标对抗…

人工智能 2023年6月4日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

kaldi解码中, 排查静音对应到“啊“的异常问题

优先排查AM模型

排查LM中, 不同句子的scoring情况:

test.txt内容如下:

大家都在看