MindSpore:【语音识别】DFCNN网络训练loss不收敛

2023年5月27日上午11:06 • 人工智能 • 阅读 65

问题描述：

我参考了Model Arts的例子
想要用MindSpore也实现语音识别，根据脚本迁移了网络。网络最后是调通了，但是Loss不收敛，训练得到的模型推理结果比预期长了一段。

有没有专家可以帮我们找出问题所在？

[En]

Is there any expert who can help us find out what the problem is?

一些额外的说明可能会更好地解决我遇到的问题。

[En]

Some additional instructions may better solve the problems I have encountered.

Model Arts上，是用两个网络组合完成语音识别的任务的：DFCNN+Transformer
首先构造了数据集get_data，可以把读取音频文件和标注的文本。
其思想是首先获取声音的时域信息，类似于下面的波形。

[En]

The idea is to get the time domain information of the sound first, which is like the following waveform.

然后compute_fbank做傅里叶变换，转换为语谱图。

数据可以用下面的代码可视化。我在附件中提供了代码，并将其注释掉。

[En]

The data can be visualized with this code. I provided the code in the attachment and commented it out.

frame_time = [i * 0.025 for i in range(x.shape[1])]
frequency_scale = [i *40 for i in range(200)]
print(frame_time)
print(frequency_scale)
plt.pcolormesh(frame_time, frequency_scale, x.squeeze().T)
plt.colorbar()
plt.show()

这样可以把ASR的任务转换成CV的任务。DFCNN的目的就是根据这个语谱图，识别其中的语音信息，得到拼音序列。
Transformer是NLP的网络，可以把拼音序列转成文字。

我主要是迁移了DFCNN的部分，本质还是CV类的网络，不过使用的损失函数是P.CTCLoss，是对整个序列求Loss值。可能问题出在这里，因为原来的脚本是keras写的，好像这个ctcloss的入参不一致。

问题现象：

训练我没有用全部的数据集，就拿了一个音频文件，想看看效果，但是Loss值到140左右就不动了。
loss值

177.98982，175.98216， 175.95705，……，146.96646，147.22882，147.1331

验证我也是用同样的那个音频，推理后还需要解码，我调用了P.CTCGreedyDecoder。这个推理得到的是拼音，我直接用匹配汉字的方法，输出的结果，前面对的上，后面跟了一段尾巴。

绿色是阳春烟幕的背景。四月，森林丘陵清新秀丽，诗意盎然(不止于此)。月亮、太阳和绿色的森林充满了风景。

[En]

Green is the background of the Yangchun smoke scene. In April, the forest hills are fresh, beautiful and poetic (this is more than that). The moon, the sun, and the green forest are full of scenery.

因为我使用keras的那个脚本，是可以训练收敛的，想知道是哪里对不上了。

使用的环境：
由于P.CTCGreedyDecoder只支持Ascend，脚本要在Ascend上执行。如果不推理只训练，可以用GPU。mindspore版本1.0以上好像都可以。

我还有几个建议
1.能不能提供一些供语音处理的算子，比如计算mfcc, spectrogram等，不然音频数据处理用python还是效率挺低的。
2.CTCGreedyDecoder，CTCLoss希望GPU，CPU都支持更好，比如我训练好，用自己电脑可以直接做推理。
3.mindspore是否可以提供读取音频文件的接口，像图片，文本都支持挺好，语音这块的能力希望也能补上。

脚本，训练数据见附件，解压后有三个文件

wav是音频文件，我就用一个试着训练
dfcnn.py是我的脚本，里面一些路径设置，还要麻烦改一下
data.txt是音频的标注文件。这个是从华为云上拿下来的，已经整理好的标注数据全集，不过如果只训练一个，只会读取一条，可以用head -n 1 data.txt看一下，第一句就是我希望得到的识别结果。

dfcnn.zip

解决方案：

问题

看问题的现象，之前的领域是对的，说明培训应该有一定的效果，模式学到了一些东西。

[En]

The phenomenon of looking at the problem, the previous field is right, indicating that the training should have a certain effect, and the model has learned something.

这个模型本身我不是很熟，后续的尾巴猜测是不是需要设置一些blank标识，不代表任务结果，就是占位符。

因为Ascend上运行的大部分都还是固定shape的数据，这样必定长数据必然存在一些padding数据，对应结果也需要一个blank标识来对应padding占位。

改进

您的意见很好，我们会考虑逐步完善音频方面的支持，对应建议可以考虑反馈到Mindspore代码仓（

https://gitee.com/mindspore/mindspore）提一些Issue来反馈并记录。

Original: https://blog.csdn.net/weixin_45666880/article/details/126059739
Author: 小乐快乐
Title: MindSpore:【语音识别】DFCNN网络训练loss不收敛

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/525773/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

opencv小笔记（IndexError: too many indices for array分析和UserWarning：missing from current font分析）

今天在测试下边代码时出现了报错 IndexError: too many indices for array: array is 2-dimensional, but 3 were…

人工智能 2023年6月20日
0054
【深度学习】嵌入式人工智能概述

AI嵌入式系统 1.1 概念嵌入式系统是指”嵌入”在应用中的计算机系统。嵌入式系统和传统PC的不同之处在于它通常针对特定应用配备专用软硬件接口，在运算速度…

人工智能 2023年6月25日
0087
UNet3+详解

目录 1. UNet3+解决的问题（1）UNet （2）UNet++ 2. UNet3+的创新点 3. UNet3+的结构体 (1) 编码层 (2) 解码层 a.跳跃连接 b.分…

人工智能 2023年6月16日
0064
在语音识别中，如何处理口音和方言的差异

详细解决语音识别中处理口音和方言差异的问题在语音识别中，处理口音和方言差异是一个重要而复杂的问题。这个问题的挑战在于不同的人，甚至同一人在不同的情况下，都可能会以不同的方式发音。…

人工智能 2024年1月3日
0038
OpenCV笔记–人脸识别算法Eigenfaces和Fisherfaces

目录 1–前言 2–处理ORL数据集 3–Eigenfaces复现过程 4–Fisherfaces复现过程 5–分析 1…

人工智能 2023年6月29日
0095
机器学习系列(9)_决策树详解01

注：本篇文章参考：1、机器学习的种类介绍2、机器学习两种方法——监督学习和无监督学习3、决策树回归文章目录一、种类介绍 * 1、监督学习 2、非监督学习 3、半监督学习 4、强…

人工智能 2023年7月17日
0051
【自然语言处理】【多模态】多模态综述：视觉语言预训练模型

多模态综述：视觉语言预训练模型论文地址： VLP：A Survey on Vision-Language Pre-training A Survey of Vision-Lang…

人工智能 2023年5月27日
0079
数仓中的维度、原子指标、派生指标、衍生指标、指标分类、缓慢变化维等的含义

1 基本概念 1.1 实体从业务角度讲，实体是为了满足分析的需要，抽象出来的概念，从业务中拆分出一个个实体，可以是现实存在的业务对象，如用户，商家，商品，也可以是现实没有的，如虚…

人工智能 2023年7月2日
0066
【数学建模】青少年犯罪问题 | 逐步回归分析法stepwise函数 | 残差分析rcoplot

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、逐步回归分析法 * 1.1.逐步回归分析定义，最优回归方程 1.2.stepwise函数介绍二、例…

人工智能 2023年6月17日
00120
《深度学习之pytorch实战计算机视觉》第8章图像风格迁移实战（代码可跑通）

上一章《深度学习之pytorch实战计算机视觉》第7章迁移学习（代码可跑通）介绍了迁移学习。本章将完成一个有趣的应用，基于卷积神经网络实现图像风格迁移（Style Trans…

人工智能 2023年7月23日
0081
数据分析思维

在工作中当我们遇到难题时，首先我们需要知道，比如问题诊断、识别机会，规避风险等。这是WHY。那分析什么？比如战略分析，用户偏好分析，STP分析，品牌建设分析，营销组合分析，客户画…

人工智能 2023年6月11日
0060
模拟打车的测试用例计划点

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0056
【Python】mmSegmentation语义分割框架教程（自定义数据集、训练设定、数据增强）

文章目录 0.mmSegmentation介绍 1.mmSegmentation基本框架 * 1.1.mmSegmentation的model设置 1.2.mmSegmentati…

人工智能 2023年7月4日
0086
L3/L4级自动驾驶拐点已至，谁在抢跑线控底盘千亿级风口？

高阶自动驾驶拐点已至。日前，工信部发布《关于开展智能网联汽车准入和上路通行试点工作的通知（征求意见稿），将对L3/L4级自动驾驶车辆进行准入管理并展开试点工作，这将再次助推L3/…

人工智能 2023年6月27日
0085
PaddleHub教程合集—（2）PaddleHub预训练模型Senta完成情感分析

PaddleHub教程合集—（2）PaddleHub预训练模型Senta完成情感分析 Senta—情感倾向分析（Sentiment Classification）;针对带有主观描述…

人工智能 2023年7月18日
0057
python-pandas学习笔记

文章目录读写文件 * 一般读写xlsx/csv文件读写有多个子表的excel表格查询、遍历 * 获取表头信息按行遍历获取某一行并转为list数据判断表格是否为空按照列…

人工智能 2023年7月7日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

MindSpore:【语音识别】DFCNN网络训练loss不收敛

问题现象：

大家都在看