智能硬件语音控制的时频图分类挑战赛2.0（思路以及结果，目前top5）

2023年5月27日下午3:04 • 人工智能 • 阅读 93

智能硬件语音控制2.0的时频挑战

[En]

Time-frequency Challenge for Intelligent hardware Voice Control 2.0

以下是我的一些想法和学习过程的记录，我在2022年iFLYTEK开发者大赛中参加的一些比赛，以及我的一些成功。

[En]

Here is a record of some of my ideas and processes of learning, some of the competitions I did in the iFLYTEK developer contest in 2022, and some of my successes.

比赛地址：http://challenge.xfyun.cn/topic/info?type=time-frequency-2022&option=ssgy

一、赛事背景

2014年11月，亚马逊推出了一款全新概念的智能音箱Echo，通过语音指令交互控制硬件设备。截止2016年4月，Echo的累计销量已经突破300万台。2017年12月累计数千万台。亚马逊Echo音箱的推出标志着以语音交互为实用化的落地方案。

以智能音箱为代表的声控智能硬件在我国已大规模商业化。2020年，中国占全球智能音箱销量的51%，位居世界第一，而同期美国的份额从44%下降到24%。

[En]

Voice-controlled intelligent hardware represented by intelligent speakers has been commercialized on a large scale in our country. In 2020, China accounted for 51% of global smart speaker sales, ranking first in the world, while the share of the United States fell from 44% to 24% in the same period.

二、赛事任务

赛题提供具有24句语音交互指令的语音时频谱数据集(spectrogram dataset)，选手需要完成搭建网络模型，基于密集多层网络、卷积网络和循环网络等基本结构的组合，进行有效预测。

三、评审规则

1.数据说明

本次比赛为参赛者提供语音信号及其对应的句子标注。为了数据安全，所有数据都是不敏感的。

[En]

This competition provides the contestants with voice signals and their corresponding sentence labels. For the sake of data security, all data are desensitized.

2.评估指标

本模型依据提交的结果文件，采用Macro-F1进行评价。

3.评测及排行

1、初赛和复赛均提供下载数据，选手在本地进行算法调试，在比赛页面提交结果。

2、每支团队每天最多提交3次。

3、排行按照得分从高到低排序，排行榜将选择团队的历史最优成绩进行排名。

四、作品提交要求

1、文件格式：按照csv格式提交测试结果

2、文件大小：无要求

3、文件详细说明：

编码为UTF-8
提交格式见提交示例

五、赛程规则

本赛题实行一轮赛制

赛程周期 7月1日-8月1日

1、7月1日10：00发布相关数据集（即开启比赛榜单）

2、比赛作品提交截止日期为8月1日17：00

现场答辩

1、最终前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行答辩

2、答辩以（10mins陈述+5mins问答）的形式进行

3、根据作品成绩和答辩成绩综合评分（作品成绩占比70％，现场答辩份数占比30％）

六、奖项设置

入围决赛
科大讯飞1024开发者节全场通票
决赛入围证书
科大讯飞创孵基地绿色入驻通道
A.I.服务市场入驻特权
决赛胜出
决赛奖金，各赛道TOP3选手将阶梯获得赛道奖金，第一名5000元、第二名3000元、第三名2000元。
参与1024全球开发者节颁奖盛典，现场授予奖金、证书与定制奖杯
A.I.全链创业扶持
绿色就业通道&讯飞Offer

七、尝试Tricks和思路

尝试多用数据增强
尝试使用现有的权重进行迁移学习

[En]

try to use existing weights for transfer learning*
尝试利用LabelSmooth的损失
尝试运用多模式融合、模型融合等方法
[En]
try to use multi-model integration, model fusion and other methods*
尝试改变图像的分辨率，原先是450×750
450×750其实是一个很奇妙的数据，在图片中，大概来说是500×800,450×750讲边缘数据给剔除之后，也就是边缘的噪声得到最后的结果，这样的方法是比较有可信度的
尝试增大batchsize进行运行得到结果，从5->8
尝试利用大模型进行训练

八、详细参数以及运行

数据增强处理

transform_train = A.Compose([
        A.RandomCrop(450, 750),
    ])

在随后增加数据增强后，我发现从结果上看，因为我们画面中的亮度变化比较明显，如果我们改变亮度，我们的数据增强几乎是无效的，个人感受对比度也是如此。因此，增加的数据增强主要是图像的平移，或掩蔽等。如果结果良好，可以考虑使用增强的亮度和对比度进行测试

[En]

After the subsequent increase of data enhancement, I found that from the result, because the brightness change in our picture is more obvious, if we change the brightness, our data enhancement is almost ineffective, and the personal feeling contrast is also. So the increased data enhancement is mainly the translation of the image, or masking and so on. If the results are good, consider testing with enhanced brightness and contrast

增加了A.CoarseDropout(p=0.5)以后，结果提高了1%左右

transform_train = A.Compose([
            A.RandomCrop(450, 750),
            A.CoarseDropout(p=0.5),

        ])

ResNet18

首先借鉴baseline中的ResNet18进行训练，然后加上自己的框架和一点点修改进行训练，第一次训练达到了91.5%的评分

CUDA_VISIBLE_DEVICES=3 python train.py -f --cuda --net ResNet18 --epochs 50 -bs 5 -lr 0.001

训练方式

CUDA_VISIBLE_DEVICES=0 python train.py -f --cuda --net Model --epochs 50 -bs 5 -lr 0.001 -fe 5

结果会发现，我们用小模型的训练往往能得到不错的结果，特别是EfficientNetv2系列的模型，在验证集中能得到比较高的准确率

所有这些都是使用预训练模型过程进行测试的，因为具有一定知识量的模型可以得到更好的结果，并且在随后的模型中，首先冻结五次迭代。

[En]

All of these are tested using the pre-training model process, because the model with a certain amount of knowledge can get better results, and in the following models, five iterations are frozen first.

此外，增加了提前停止策略，以防止过度匹配。

[En]

In addition, an early stop strategy is added to prevent overfitting.

文中给出了模型的最优结果。

[En]

The optimal results of the model are shown here.

使用模型迭代次数训练参数训练集ACC验证集ACCResNet18epochs = 50AdamW,lr = 0.0005,batch-size = 899.9097.12ConvNeXt-Tepochs = 50AdamW,lr = 0.0005,batch-size = 8EfficientNetv2-Tepochs = 50AdamW,lr = 0.0005,batch-size = 899.9091.12EfficientNetv2-b0epochs = 50AdamW,lr = 0.0005,batch-size = 899.9096.63EfficientNetv2-b1epochs = 50AdamW,lr = 0.0005,batch-size = 899.9095.67

事实上，现有的模型都是用于训练的小模型，然后可以尝试使用大模型，看看是否可以得到更好的结果。

[En]

In fact, the existing models are all small models for training, and then you can try to use large models to see if you can get better results.

九、提交结果

2022.7.15，目前排名第7，得分0.93121

2022.7.15，目前排名第5，得分0.94377，这一次只加了一个数据增强就得到了不错的结果

ID状态评分提交文件名提交备注提交者提交时间1返回分数0.94377submit_ensemble_07-15-16-56-00.csv集成多个Efficientv2系列的模型，加上ResNet18小模型，加上随机掩盖数据增强的结果擅长射手的pikachu2022-07-15 17:14:562返回分数0.93121submit_ensemble_07-15-01-03-09.csv集成多个Efficientv2系列的模型，加上ResNet18小模型，无数据增强的结果擅长射手的pikachu2022-07-15 09:53:243返回分数0.93121submit_EfficientNetv2-S_07-15-01-03-09.csv利用三个模型ConvNeXt-T,ResNet18,EfficientNetv2-S，无数据增强的结擅长射手的pikachu2022-07-15 01:04:404返回分数0.90679sub_convnext-T.csv利用ConvNeXt-T模型，在改进的基础上进行训练，无数据增强的结果擅长射手的pikachu2022-07-14 22:20:305返回分数0.9145sub.csv利用baseline中的ResNet18模型，在改进的基础上进行训练，最后测试结果擅长射手的pikachu2022-07-14 16:54:44

Original: https://blog.csdn.net/weixin_45508265/article/details/125819767
Author: 风信子的猫Redamancy
Title: 智能硬件语音控制的时频图分类挑战赛2.0（思路以及结果，目前top5）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526619/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【论文笔记】PP-YOLOE: An evolved version of YOLO

PP-YOLOE 简介改进 * 1.针对泛化性 – 1）可变卷积（deformable convolution） 2)Matrix NMS 2. Anchor-fre…

人工智能 2023年7月12日
0082
Topic 7. 临床预测模型–Cox回归

上期讨论完两种建模方式，这期讲一下经典的 Cox 回归，这个估计大家早就很熟悉了，但是这里还是需要梳理一下到底该怎么使用。 01 Cox回归概念 ——————— 在介绍Cox回归模…

人工智能 2023年7月17日
0091
回归模型的评估及超参数调优

一、回归模型在机器学习中，其中算法最为重要一面就是回归算法，回归算法占我们理解机器学习一大块，这一块的学习可以帮助我们掌握超参数的调节。基本上只要一切基于特征预测连续型变量的需求…

人工智能 2023年6月17日
0077
Python库使用笔记—Dataframe

一、Dataframe的读取和保存 1.1 Dataframe导出csv xlsx_file.to_csv(‘F:/XXX/XXX.csv’, encoding="utf…

人工智能 2023年7月6日
0099
OpenCV(C++)环境配置（windows）

OpenCV(C++)环境配置（windows） 1.下载编译好的库 1.1）点击网站中OpenCV版本的windows，可获得如下.exe文件，注意该网站的版本为releases…

人工智能 2023年6月19日
00118
基于噪声伪标签和对抗性学习的医学图像分割注释有效学习

一、背景如今深度学习的成功在很大程度上取决于大量训练图像的可用性，以及专家提供的手动注释。然而，由于为分割任务提供像素级注释非常耗时，并且依赖具有领域知识的专家来实现，因此很难获…

人工智能 2023年6月20日
00120
Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

导语 “慢品人间烟火色闲观人间岁月长” 🌙 遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得🌙。星光月夜烟花皆归你，我也归你。关于烟花🎇…

人工智能 2023年7月3日
00112
论文笔记 EMNLP 2021|Treasures Outside Contexts: Improving Event Detection via Global Statistics

文章目录 * – 1 简介 – + 1.1 动机 + 1.2 创新 – 2 方法 – + 2.1 语义特征提取器 + 2.2 统计特…

人工智能 2023年5月28日
0076
【项目实战】Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景如今已是大数据时代，具备大数据思想至关重…

人工智能 2023年7月16日
00107
Openmv通过IMPULSE训练模型实现目标检测

Openmv神经网络文章目录 Openmv神经网络前言一、云端训练二、操作步骤 * 1.数据集的采集 2.上传数据集 3.训练模型 – 1、创建模型 2、参数生…

人工智能 2023年7月12日
0085
【矩阵论】3. 矩阵运算与函数——张量积

矩阵论1. 准备知识——复数域上矩阵,Hermite变换)1.准备知识——复数域上的内积域正交阵1.准备知识——Hermite阵，二次型，矩阵合同，正定阵，幂0阵，幂等阵，矩阵的秩…

人工智能 2023年6月29日
00109
【项目实战】Python基于Lasso特征选择、GM算法和SVR回归算法进行财政收入影响因素分析及预测

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。 1.项目背景随着信息化的发展和科学技术的进步，数据分…

人工智能 2023年6月17日
00133
机器学习笔记 – MediaPipe了解 + 结合OpenCV进行人体姿势估计

一、MediaPipe概述 MediaPipe 为直播和流媒体提供开源跨平台、可定制的 ML 解决方案。MediaPipe 是谷歌开发的开源框架。它是一个非常轻量级的多平台机器学习…

人工智能 2023年6月19日
0091
算法中的作用是什么

问题：算法在计算机科学中的作用是什么？详细介绍：算法在计算机科学中起着至关重要的作用。简单而言，算法是一系列按照特定顺序执行的指令，用于实现特定任务或解决问题。它们是构建计算机…

人工智能 2024年1月3日
0071
QT5 + MSVC + OpenCV4 配置

目录一、系统环境二、opencv 安装三、QT配置Opencv *Opencv 在pro文件中的配置使用qcreator工具添加库文件库文件添加选择连接到的库类型添加…

人工智能 2023年7月19日
0067
Python数据分析（一）matplotlib基础绘图和调整x轴刻度

每个红色的点是坐标，把5个点的坐标连接成一条线，组成一个折线图。假设一天中每个两个小时（range(2,26,2)）的气温分别是：[15，13，14.5，17，20，25，26…

人工智能 2023年7月14日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

智能硬件语音控制的时频图分类挑战赛2.0（思路以及结果，目前top5）

一、赛事背景

二、赛事任务

三、评审规则

1.数据说明

2.评估指标

3.评测及排行

四、作品提交要求

五、赛程规则

赛程周期 7月1日-8月1日

现场答辩

六、奖项设置

七、尝试Tricks和思路

八、详细参数以及运行

九、提交结果

大家都在看