kaldi nnet3模型对单一语音文件在线解码

2023年5月25日下午7:09 • 人工智能 • 阅读 69

本文主要以 kaldi中的CSJ日语数据集为例进行讲解，文中涉及的路径都是在 egs/csj/s5 中可以找到的。

online2-wav-nnet3-latgen-faster 是nnet3模型解码的核心程序，它读取 wav 文件，进行 mfcc 和 ivector 特征处理，根据单词符号表生成对应的词图，即 lattice，一般是以压缩文件形式存在的 lat.gz, 它的C++源码文件是
kaldi-master/src/online2bin/online2-wav-nnet3-latgen-faster.cc，其中逐帧读取语音文件的代码在244-273行，如下所示：

        while (samp_offset < data.Dim()) {
          int32 samp_remaining = data.Dim() - samp_offset;
          int32 num_samp = chunk_length < samp_remaining ? chunk_length
                                                         : samp_remaining;
          KALDI_LOG << "current time: " << samp_offset / samp_freq;
          SubVector<BaseFloat> wave_part(data, samp_offset, num_samp);
          feature_pipeline.AcceptWaveform(samp_freq, wave_part);

          samp_offset += num_samp;
          decoding_timer.WaitUntil(samp_offset / samp_freq);
          if (samp_offset == data.Dim()) {

            feature_pipeline.InputFinished();
          }

          if (silence_weighting.Active() &&
              feature_pipeline.IvectorFeature() != NULL) {
            silence_weighting.ComputeCurrentTraceback(decoder.Decoder());
            silence_weighting.GetDeltaWeights(feature_pipeline.NumFramesReady(),
                                              &delta_weights);
            feature_pipeline.IvectorFeature()->UpdateFrameWeights(delta_weights);
          }

          decoder.AdvanceDecoding();

          if (do_endpointing && decoder.EndpointDetected(endpoint_opts)) {
            break;
          }
        }
        decoder.FinalizeDecoding();

解码调试的时候在这里加入输出日志的代码比较合适，可以观察对音频文件读取的进度，比如这里添加的 KALDI_LOG 。

该程序除了要输入音频文件，还有很多配置文件也是必须的，下面我给出自己的运行脚本，主要参考的是 csj目录下的 s5/steps/online/nnet3/decode.sh

#!/bin/bash
model_dir="online-data/models/nnet3"
silence_weight=1
max_state_duration=40
do_endpointing=false
frames_per_chunk=20
extra_left_context_initial=0
online=true
frame_subsampling_opt="--frame-subsampling-factor=3"
online_config=online-data/models/nnet3/online.conf
min_active=200
max_active=7000
beam=15.0
lattice_beam=6.0
acwt=1.0
post_decode_acwt=10.0
symtable=$model_dir/words.txt
model=$model_dir/final.mdl
FST=$model_dir/HCLG.fst
wav_rspecifier="ark,s,cs:wav-copy scp,p:$model_dir/wav.scp ark:- |"

spk2utt_rspecifier="ark:$model_dir/spk2utt"

if [ "$post_decode_acwt" == 1.0 ]; then
    lat_wspecifier="ark:|gzip -c > work/lat.gz"
else
    lat_wspecifier="ark:|lattice-scale --acoustic-scale=$post_decode_acwt ark:- ark:- | gzip -c >work/lat.gz"
fi

if ["$silence_weight" != "1.0" ]; then
    silphones=$(cat $model_dir/phones/silence.csl) || exit 1
    silence_weighting_opts="--ivector-silence-weighting.max-state-duration=$max_state_duration --ivector-silence-weighting.silence_phones=$silencephones --ivector-silence-weighting.silence-weighting=$silence_weight"
else
    silence_weighting_opts=
fi

online2-wav-nnet3-latgen-faster $silence_weighting_opts \
 --do-endpointing=$do_endpointing \
 --frames-per-chunk=$frames_per_chunk \
 --extra-left-context-initial=$extra_left_context_initial \
 --online=$online \
 $frame_subsampling_opt \
 --config=$online_config \
 --min-active=$min_active --max-active=$max_active --beam=$beam --lattice-beam=$lattice_beam \
 --acoustic-scale=$acwt --word-symbol-table=$symtable \
 $model $FST $spk2utt_rspecifier "$wav_rspecifier" \
 "$lat_wspecifier"

在这里讲几个关键的配置：

这个是终点检测用的，没有特殊需求的话最好不要设置，如果静音时间超过某一阈值程序会提前结束识别，源码中对应的片段是：

if (do_endpointing && decoder.EndpointDetected(endpoint_opts)) {
    break;
}

该配置文件设置了mfcc和iverctor的提取参数，具体如下所示：

--feature-type=mfcc
--mfcc-config=/home/kaldi-master/egs/csj/online_demo/online-data/models/nnet3/conf/mfcc.conf
--ivector-extraction-config=/home/kaldi-master/egs/csj/online_demo/online-data/models/nnet3/conf/ivector_extractor.conf
--endpoint.silence-phones="1:2:3:4:5:6:7:8:9:10"

一般来说，如果用 s5/local/chain/run_tdnn.sh 顺利地完成了nnet3模型的训练和解码，这些跑配置文件是可以自动生成的，准确来讲是通过 s5/steps/online/nnet3/prepare_online_decode.sh 生成的，可以在 s5/exp/chain/tdnn1a_online/conf 中找到，注意里面都要写成绝对路径。

这个其实没什么说的，就是单词表words.txt

这两个就直接用训练好的就行，分别是 final.mdl 和 HCLG.fst

这两个文件一开始我是有点迷惑的，因为在训练和测试数据中，utterance是有明确的时间戳标注的，但对于未知的单一音频文件的解码很显然没法提供明确的时间戳，只能让他一次读取整个音频文件，下面是spk2utt和wav.scp的写法：
spk2utt:

kaldiAudio kaldiAudio

后面的utt直接用文件名代替就行。
wav.scp:

kaldiAudio cat online-data/audio/kaldiAudio.wav |

这样写可以让程序一次读取整个音频再输出结果，但事实上在实际的应用中这样做很不科学，最有效的方法是用 VAD之类的端点检测技术先检测出包含语音数据的帧片段，打上时间戳提取出来再进行识别，避免静音部分对识别造成影响。否则的话，直接对整个音频识别的时候，静音部分很容易被识别成一些语气词，影响整体识别效果。

最后需要注意的就是输出的不是识别结果，而是词图 lattice, 后面还要经过进一步的解码从词图中找到一条最佳路径才是最终的识别结果。

#!/bin/bash
beam=6.0

lattice=work/lat.gz
symtable=online-data/models/nnet3/words.txt
symtable_nopos=words-nopos.txt
spk="kaldiAudio"

lattice-scale --inv-acoustic-scale=10 "ark:gunzip -c $lattice|" ark:- | \
    lattice-add-penalty --word-ins-penalty=0.0 ark:- ark:- | \
    lattice-best-path --word-symbol-table=$symtable ark:- ark,t:word_ids

perl int2sym.pl -f 2- $symtable_nopos word_ids | tr -d "$spk "

解码的输入就是前面生成的词图压缩文件 lat.gz, 注意为了达到最佳的解码效果， lattice-scale 中的 –inv-acousic-scale 要和前面的脚本中 post_decode_acwt 保持一致，这里为10。

最后的 lattice-best-path 以单词id的形式输出一条最优的解码路径，我们用 int2sym.pl 将id转换为单词显示出来，
ini2sym.pl 的输入就是words.txt，我这里的words-nopos.txt 是去掉了原来文件中的词性部分，只留下单词，看起来会更清楚一些。

那么nnet3模型线上解码的流程大致就是这样，有机会我会在理论部分中深入讲解一下解码参数中的 acousitc-scale 和各种 beam 如何对解码结果产生影响。

Original: https://blog.csdn.net/dhj_tsukuba/article/details/113620910
Author: dhj_tsukuba
Title: kaldi nnet3模型对单一语音文件在线解码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515607/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在windows下训练solov2记录（继上次windows环境搭建）

写在最前面：在pycharm中运行的时候，记得用管理员身份打开pycharm，不然训练会报错。我们标注数据集使用的是labelme来标注，每一个图片会生成一个json标注文件，…

人工智能 2023年7月12日
0054
Adams— 系统级多体动力学仿真平台

Adams 是一款系统级多体动力学仿真平台，被广泛应用于汽车、能源、重型机械等多个行业。该工具凝聚了丰富行业应用经验，能够快速进行系统级的运动学、动力学仿真、系统级模态及振动分析、…

人工智能 2023年6月2日
0063
常见的图像平滑处理算法的比较（均值滤波、高斯滤波、双边滤波），并解析语法格式

粗略的概念：图像平滑处理==图像模糊处理==图像滤波==图像质量增强；称呼是次要的，主要的是：使用算法处理问题；均值滤波只考虑空间信息，并且权重全为1；高斯滤波虽然只考虑空间信…

人工智能 2023年7月18日
0066
手把手搭建经典神经网络系列（3）——GoogLeNet

一、GoogleNet简介 GoogLeNet是 google推出的基于 Inception模块的深度神经网络模型，在2014年的ImageNet 分类竞赛中夺得了冠军，在随后的…

人工智能 2023年6月20日
0072
Pytorch中卷积层转向全连接层时，全连接层输入维度的确定

Pytorch中卷积层转向全连接层时，全连接层输入维度的确定 * – 一、代码法： – + 改变的AlexNet网络结构： + AlexNet &#8211…

人工智能 2023年7月21日
0051
pandas查看数据

下列代码说明如何查看 DataFrame 头部和尾部数据： In [13]: df.head() Out[13]: A B C D 2013-01-01 0.469112 -0.2…

人工智能 2023年7月7日
0057
python3.8+pytorch 1.7.0+cuda10.2+cuDNN

本文是在电脑中直接安装cuda10.2的过程，如果是要在anaconda环境中安装的话，可以直接只在虚拟环境中使用命令进行安装，用以下链接中的过程即可。安装过程中看到的不错的教程…

人工智能 2023年7月22日
0057
数据分析项目-用户消费行为分析

目录导入及分析第一部分：数据清洗导包数据加载&分析数据数据清洗第二部分：按月数据分析分析方向：用户、订单、消费趋势消费趋势的分析 1. 每月的消费总金额 2…

人工智能 2023年6月11日
0093
图像质量评估(3) — 噪声

简介图像中的噪声是一些原始场景并未携带的内容，图像领域很多时候用瑕疵（artifacts）来表达其影响。通常来说，噪声是由随机过程造成的测量的统计偏差。在图像领域，噪声表现为图像…

人工智能 2023年5月28日
0080
基于resnet训练flower图像分类模型（p31-p37）

概述本文属于跟着b站学习pytorch笔记系列。网上很多大佬关于renet模型图像识别的分类文章很多，但是图像部分通常就是一笔带过，给个链接。还是看了知乎的文章从头准备了数据集…

人工智能 2023年7月1日
0076
Tensorboard最详细的启动教程【适合小白】

文章目录一、导入包二、下载Mnist数据三、定义神经网络模型model 四、编译模型五、设置Tensorboard * – + * – 1. 定义T…

人工智能 2023年5月26日
0094
python –opencv图像处理滤波详解(均值滤波、2D 图像卷积、方框滤波、高斯滤波、中值滤波、双边滤波)

介绍第一件事情还是先做名词解释，图像平滑到底是个啥？从字面意思理解貌似图像平滑好像是在说图像滑动。 emmmmmmmmmmmmmmm。。。。其实半毛钱关系也没有，图像平滑技术…

人工智能 2023年7月19日
0053
pandas Series和DataFrame的详细使用说明

Series是一个类似于一维数组的对象，能同时存储不同类型的数据 from pandas import Series s=Series(data=[1,2,3,’da’],inde…

人工智能 2023年7月7日
0073
Ubuntu 18.04 ———（Intel RealSense D435i）安装kalibr + 双目视觉与IMU标定（2022年）

Ubuntu 18.04 ———（Intel RealSense D435i）安装kalibr + 双目视觉与IMU标定（2022年）一、安装标定工具 * 1. 下载编译code…

人工智能 2023年6月2日
0072
ESP32在线语音识别词法解析

文章目录 * – 在线语音识别的优势 – 一，语音识别流程图 – 二，录音 – 三，词法分析在线语音识别的优势结合语义分析的在线…

人工智能 2023年5月25日
00102
协程 + epoll 的两个小例子

getcontext/setupcontext/swapcontext/setcontext 方式的协程实现 #include #include #include #include…

人工智能 2023年6月26日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

kaldi nnet3模型对单一语音文件在线解码

大家都在看