用 kaldi 和 CVTE开源模型实现语音识别

2023年5月25日下午5:30 • 人工智能 • 阅读 70

文章目录

用 kaldi 和 CVTE开源模型实现语音识别
*
下载模型
使用
测试自己的数据集
–
- 准备文件
  +
- 0. 音频文件
- 1. wav.scp
  *
  - wav.scp 格式
- 2. utt2spk
  *
  - utt2spk 格式
- 3. spk2utt
  *
  - spk2utt 格式
- 测试：

下载模型

CVTE开源了kaldi的中文模型，
模型下载地址： http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz
解压放到kaldi/egs/下

使用

将 egs/wsj/s5中的steps和utils拷贝到 egs/cvte/s5目录下:
将 egs/hkust/s5/local/score.sh拷贝到 egs/cvte/s5/local目录下:

cp -r egs/wsj/s5/steps egs/cvte/s5/steps
cp -r egs/wsj/s5/utils egs/cvte/s5/utils
cp egs/hkust/s5/local/score.sh egs/cvte/s5/local

注释掉utils/lang/check_phones_compatible.sh中if语句中的exit 1：

 36
 37 if [ ! -f $table_first ]; then
 38   if [ ! -f $table_second ]; then
 39     echo "$0: Error! Both of the two phones-symbol tables are absent."
 40     echo "Please check your command"
 41
 42   else
 43
 44
 45     exit 0;
 46   fi

然后执行 ./run.sh就可以了

测试自己的数据集

准备文件

0. 音频文件

要求是16-bit位深，采样率16000Hz，单声道，wav格式的语言文件

1. wav.scp

; wav.scp 格式

&#x97F3;&#x9891;id &#x97F3;&#x9891;&#x4F4D;&#x7F6E;

如下：

AUDIO_20211129_170900_0000    ./audio/2021_11_29_17.09.00_0000.wav
AUDIO_20211129_170901_0000    ./audio/2021_11_29_17.09.01_0000.wav
AUDIO_20211129_170902_0000    ./audio/2021_11_29_17.09.02_0000.wav
AUDIO_20211129_170903_0000    ./audio/2021_11_29_17.09.03_0000.wav
AUDIO_20211129_170904_0000    ./audio/2021_11_29_17.09.04_0000.wav
AUDIO_20211129_170905_0000    ./audio/2021_11_29_17.09.05_0000.wav
AUDIO_20211129_170906_0000    ./audio/2021_11_29_17.09.06_0000.wav
AUDIO_20211129_170907_0000    ./audio/2021_11_29_17.09.07_0000.wav
AUDIO_20211129_170908_0000    ./audio/2021_11_29_17.09.08_0000.wav
AUDIO_20211129_170909_0000    ./audio/2021_11_29_17.09.09_0000.wav
AUDIO_20211129_170910_0000    ./audio/2021_11_29_17.09.10_0000.wav
AUDIO_20211129_170911_0000    ./audio/2021_11_29_17.09.11_0000.wav
AUDIO_20211129_170912_0000    ./audio/2021_11_29_17.09.12_0000.wav
AUDIO_20211129_170913_0000    ./audio/2021_11_29_17.09.13_0000.wav
AUDIO_20211129_170914_0000    ./audio/2021_11_29_17.09.14_0000.wav

2. utt2spk

音频ID
说话人ID
音频ID最好含有说话人ID

由于本例没有说话人，所以用音频ID代替说话人，即每条音频都是一个独立的说话人

utt2spk 格式

&#x97F3;&#x9891;ID1 &#x8BF4;&#x8BDD;&#x4EBA;1
&#x97F3;&#x9891;ID2 &#x8BF4;&#x8BDD;&#x4EBA;2

如下：

AUDIO_20211129_170900_0000    AUDIO_20211129_170900_0000
AUDIO_20211129_170901_0000    AUDIO_20211129_170901_0000
AUDIO_20211129_170902_0000    AUDIO_20211129_170902_0000
AUDIO_20211129_170903_0000    AUDIO_20211129_170903_0000
AUDIO_20211129_170904_0000    AUDIO_20211129_170904_0000
AUDIO_20211129_170905_0000    AUDIO_20211129_170905_0000
AUDIO_20211129_170906_0000    AUDIO_20211129_170906_0000
AUDIO_20211129_170907_0000    AUDIO_20211129_170907_0000
AUDIO_20211129_170908_0000    AUDIO_20211129_170908_0000
AUDIO_20211129_170909_0000    AUDIO_20211129_170909_0000
AUDIO_20211129_170910_0000    AUDIO_20211129_170910_0000
AUDIO_20211129_170911_0000    AUDIO_20211129_170911_0000
AUDIO_20211129_170912_0000    AUDIO_20211129_170912_0000
AUDIO_20211129_170913_0000    AUDIO_20211129_170913_0000
AUDIO_20211129_170914_0000    AUDIO_20211129_170914_0000

3. spk2utt

spk2utt 格式

&#x8BF4;&#x8BDD;&#x4EBA;1 &#x97F3;&#x9891; &#x97F3;&#x9891; &#x97F3;&#x9891;
&#x8BF4;&#x8BDD;&#x4EBA;2 &#x97F3;&#x9891; &#x97F3;&#x9891; &#x97F3;&#x9891;

几个发言者只有几行，用空格隔开

[En]

Several speakers are just a few lines, separated by spaces

如下：

AUDIO_20211129_170900_0000    AUDIO_20211129_170900_0000
AUDIO_20211129_170901_0000    AUDIO_20211129_170901_0000
AUDIO_20211129_170902_0000    AUDIO_20211129_170902_0000
AUDIO_20211129_170903_0000    AUDIO_20211129_170903_0000
AUDIO_20211129_170904_0000    AUDIO_20211129_170904_0000
AUDIO_20211129_170905_0000    AUDIO_20211129_170905_0000
AUDIO_20211129_170906_0000    AUDIO_20211129_170906_0000
AUDIO_20211129_170907_0000    AUDIO_20211129_170907_0000
AUDIO_20211129_170908_0000    AUDIO_20211129_170908_0000
AUDIO_20211129_170909_0000    AUDIO_20211129_170909_0000
AUDIO_20211129_170910_0000    AUDIO_20211129_170910_0000
AUDIO_20211129_170911_0000    AUDIO_20211129_170911_0000
AUDIO_20211129_170912_0000    AUDIO_20211129_170912_0000
AUDIO_20211129_170913_0000    AUDIO_20211129_170913_0000
AUDIO_20211129_170914_0000    AUDIO_20211129_170914_0000

测试：

替换data/fbank/test/ 下同名文件在执行 ./run.sh就可以了

可见准确率还是比较高的

Original: https://blog.csdn.net/liang_baikai/article/details/121768987
Author: 凉_白开
Title: 用 kaldi 和 CVTE开源模型实现语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515258/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

openCV实战项目–人脸考勤

人脸任务在计算机视觉领域中十分重要，本项目主要使用了两类技术：人脸检测+人脸识别。代码分为两部分内容：人脸注册和人脸识别人脸注册：将人脸特征存储进数据库，这里用featu…

人工智能 2023年7月3日
0044
数据科学导引上机（5）

此次用到的是青少年社交网络中常用词数据，借此进行市场调研使用的方法是K-Means聚类方法，不介绍原理数据预处理 import pandas as pd teenager_sn…

人工智能 2023年7月17日
0043
深度学习基础之BatchNorm和LayerNorm

文章目录 BatchNorm LayerNorm 总结参考 BatchNorm Batch Normalization（下文简称 Batch Norm）是 2015 年提出的方法…

人工智能 2023年7月27日
0076
Python+statsmodels实现多元线性回归和泊松回归

statsmodels是python中专门用于统计学分析的包，它能够帮我们在模型未知的情况下来检验模型的线性显著性更多回归模型见：statsmodels-formula-api在建…

人工智能 2023年6月18日
0087
window关闭临时ipv6地址、开启临时ipv6地址

1 关闭临时ipv6地址以管理员权限执行命令提示符输入如下命令即可netsh interface ipv6 set privacy state=disable最后重启网卡此时再在…

人工智能 2023年6月4日
00242
行为识别C3D代码(pytorch)实现过程及常见错误

行为识别C3D代码(pytorch)实现过程及常见错误 1.C3D网络代码 C3D（pytorch）实现代码链接： C3D代码 2.C3D代码复现过程（1）环境版本要求pytor…

人工智能 2023年7月13日
0060
半监督聚类方法

传统无监督聚类算法在划分数据时并不需要任何数据属性，但在实际应用中，存在少量带有独立类标签或成对约束的监督信息的数据样本，学者们致力于将这些为数不多的监督信息运用于聚类，以得到更…

人工智能 2023年5月31日
0065
目标检测的一些基本概念

暑假的时候对目标检测做了些研究，没有发什么博客，现在是整理了一下自己的笔记，主要是在吴恩达视频讲解的目标检测以及一些自己的理解，我之前在网上有找到一个目标检测过程的动图解析，觉得挺…

人工智能 2023年7月12日
0049
点云深度学习——点云配准网络DCP复现

点云配准网络DCP复现前言一、效果展示 * 1.1 open3d中效果展示二、复现源码 * 2.1 参考链接 2.2 复现流程 2.3遇到问题：三、模型测试单个数据，并用o…

人工智能 2023年7月28日
0075
层次聚类python实现

层次聚类算法顾名思义，层次聚类就是一层一层的进行聚类，可以由上向下把大的类别（cluster）分割，叫作分裂法；也可以由下向上对小的类别进行聚合，叫作凝聚法；但是一般用的比较多的…

人工智能 2023年6月16日
0082
PyTorch中如何查看神经网络模型的参数（两种高效的方法，简单上手）

文章目录 1 用for循环打印parameters 2 安装依赖：torchsummary * 2.1 如果是单输入，比如CNN 模型 – 2.1.1 代码1 2.1….

人工智能 2023年6月15日
0077
Python3 DataFrame数据详解

pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作，它是一个表格型的数据结构, 每一列代表一个变量，而每一行则是一条记录。简答地说，DataFrame是共享同一…

人工智能 2023年6月19日
0057
Pytorch Lightning框架：使用笔记【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】

pytorch是有缺陷的，例如要用半精度训练、BatchNorm参数同步、单机多卡训练，则要安排一下Apex，Apex安装也是很烦啊，我个人经历是各种报错，安装好了程序还是各种报错…

人工智能 2023年7月21日
0060
Python遥感图像处理应用篇(二十四)：Python绘制遥感图像各波段热力图（相关系数矩阵）

给多光谱遥感图像各个波段绘制热力图，首先需要计算波段之间的相关系数矩阵，而计算遥感图像波段相关系数矩阵有不同的方法，常用的我们可以采用遥感图像处理软件计算，比如ENVI软件就可以计…

人工智能 2023年6月18日
0058
如何选择合适的神经网络结构和超参数

人工智能 2024年1月6日
0065
自然语言处理(NLP)之五：知识图谱

现在的很多数据是互相连接的，如果想分析这些链接的价值，知识图谱可以是一种有效的工具。而且随着万物互联时代的到来，链接中所包含的信息必然会发挥更大的价值，这也是为什么知识图谱在最近几…

人工智能 2023年5月27日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

用 kaldi 和 CVTE开源模型 实现语音识别

文章目录

下载模型

使用

测试自己的数据集

准备文件

0. 音频文件

1. wav.scp

; wav.scp 格式

2. utt2spk

utt2spk 格式

3. spk2utt

spk2utt 格式

测试：

大家都在看

用 kaldi 和 CVTE开源模型实现语音识别