智能硬件语音控制的时频图分类挑战赛2.0(思路以及结果,目前top5)

智能硬件语音控制2.0的时频挑战

[En]

Time-frequency Challenge for Intelligent hardware Voice Control 2.0

以下是我的一些想法和学习过程的记录,我在2022年iFLYTEK开发者大赛中参加的一些比赛,以及我的一些成功。

[En]

Here is a record of some of my ideas and processes of learning, some of the competitions I did in the iFLYTEK developer contest in 2022, and some of my successes.

比赛地址:http://challenge.xfyun.cn/topic/info?type=time-frequency-2022&option=ssgy

一、赛事背景

2014年11月,亚马逊推出了一款全新概念的智能音箱Echo,通过语音指令交互控制硬件设备。截止2016年4月,Echo的累计销量已经突破300万台。2017年12月累计数千万台。亚马逊Echo音箱的推出标志着以语音交互为实用化的落地方案。

以智能音箱为代表的声控智能硬件在我国已大规模商业化。2020年,中国占全球智能音箱销量的51%,位居世界第一,而同期美国的份额从44%下降到24%。

[En]

Voice-controlled intelligent hardware represented by intelligent speakers has been commercialized on a large scale in our country. In 2020, China accounted for 51% of global smart speaker sales, ranking first in the world, while the share of the United States fell from 44% to 24% in the same period.

二、赛事任务

赛题提供具有24句语音交互指令的语音时频谱数据集(spectrogram dataset),选手需要完成搭建网络模型,基于密集多层网络、卷积网络和循环网络等基本结构的组合,进行有效预测。

三、评审规则

1.数据说明

本次比赛为参赛者提供语音信号及其对应的句子标注。为了数据安全,所有数据都是不敏感的。

[En]

This competition provides the contestants with voice signals and their corresponding sentence labels. For the sake of data security, all data are desensitized.

2.评估指标

本模型依据提交的结果文件,采用Macro-F1进行评价。

3.评测及排行

1、初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。

2、每支团队每天最多提交3次。

3、排行按照得分从高到低排序,排行榜将选择团队的历史最优成绩进行排名。

四、作品提交要求

1、文件格式:按照csv格式提交测试结果

2、文件大小:无要求

3、文件详细说明:

  1. 编码为UTF-8
  2. 提交格式见提交示例

五、赛程规则

本赛题实行一轮赛制

赛程周期 7月1日-8月1日

1、7月1日10:00发布相关数据集(即开启比赛榜单)

2、比赛作品提交截止日期为8月1日17:00

现场答辩

1、最终前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行答辩

2、答辩以(10mins陈述+5mins问答)的形式进行

3、根据作品成绩和答辩成绩综合评分(作品成绩占比70%,现场答辩份数占比30%)

六、奖项设置

  • 入围决赛
  • 科大讯飞1024开发者节全场通票
  • 决赛入围证书
  • 科大讯飞创孵基地绿色入驻通道
  • A.I.服务市场入驻特权
  • 决赛胜出
  • 决赛奖金,各赛道TOP3选手将阶梯获得赛道奖金,第一名5000元、第二名3000元、第三名2000元。
  • 参与1024全球开发者节颁奖盛典,现场授予奖金、证书与定制奖杯
  • A.I.全链创业扶持
  • 绿色就业通道&讯飞Offer

七、尝试Tricks和思路

  • 尝试多用数据增强
  • 尝试使用现有的权重进行迁移学习
    [En]

    try to use existing weights for transfer learning*

  • 尝试利用LabelSmooth的损失
  • 尝试运用多模式融合、模型融合等方法
    [En]

    try to use multi-model integration, model fusion and other methods*

  • 尝试改变图像的分辨率,原先是450×750

    450×750其实是一个很奇妙的数据,在图片中,大概来说是500×800,450×750讲边缘数据给剔除之后,也就是边缘的噪声得到最后的结果,这样的方法是比较有可信度的

  • 尝试增大batchsize进行运行得到结果,从5->8
  • 尝试利用大模型进行训练

八、详细参数以及运行

数据增强处理

transform_train = A.Compose([
        A.RandomCrop(450, 750),
    ])

在随后增加数据增强后,我发现从结果上看,因为我们画面中的亮度变化比较明显,如果我们改变亮度,我们的数据增强几乎是无效的,个人感受对比度也是如此。因此,增加的数据增强主要是图像的平移,或掩蔽等。如果结果良好,可以考虑使用增强的亮度和对比度进行测试

[En]

After the subsequent increase of data enhancement, I found that from the result, because the brightness change in our picture is more obvious, if we change the brightness, our data enhancement is almost ineffective, and the personal feeling contrast is also. So the increased data enhancement is mainly the translation of the image, or masking and so on. If the results are good, consider testing with enhanced brightness and contrast

增加了A.CoarseDropout(p=0.5)以后,结果提高了1%左右

transform_train = A.Compose([
            A.RandomCrop(450, 750),
            A.CoarseDropout(p=0.5),

        ])

ResNet18

首先借鉴baseline中的ResNet18进行训练,然后加上自己的框架和一点点修改进行训练,第一次训练达到了91.5%的评分

CUDA_VISIBLE_DEVICES=3 python train.py -f --cuda --net ResNet18 --epochs 50 -bs 5 -lr 0.001

训练方式

CUDA_VISIBLE_DEVICES=0 python train.py -f --cuda --net Model --epochs 50 -bs 5 -lr 0.001 -fe 5

结果会发现,我们用小模型的训练往往能得到不错的结果,特别是EfficientNetv2系列的模型,在验证集中能得到比较高的准确率

所有这些都是使用预训练模型过程进行测试的,因为具有一定知识量的模型可以得到更好的结果,并且在随后的模型中,首先冻结五次迭代。

[En]

All of these are tested using the pre-training model process, because the model with a certain amount of knowledge can get better results, and in the following models, five iterations are frozen first.

此外,增加了提前停止策略,以防止过度匹配。

[En]

In addition, an early stop strategy is added to prevent overfitting.

文中给出了模型的最优结果。

[En]

The optimal results of the model are shown here.

使用模型迭代次数训练参数训练集ACC验证集ACCResNet18epochs = 50AdamW,lr = 0.0005,batch-size = 899.9097.12ConvNeXt-Tepochs = 50AdamW,lr = 0.0005,batch-size = 8EfficientNetv2-Tepochs = 50AdamW,lr = 0.0005,batch-size = 899.9091.12EfficientNetv2-b0epochs = 50AdamW,lr = 0.0005,batch-size = 899.9096.63EfficientNetv2-b1epochs = 50AdamW,lr = 0.0005,batch-size = 899.9095.67

事实上,现有的模型都是用于训练的小模型,然后可以尝试使用大模型,看看是否可以得到更好的结果。

[En]

In fact, the existing models are all small models for training, and then you can try to use large models to see if you can get better results.

九、提交结果

2022.7.15,目前排名第7,得分0.93121

智能硬件语音控制的时频图分类挑战赛2.0(思路以及结果,目前top5)

2022.7.15,目前排名第5,得分0.94377,这一次只加了一个数据增强就得到了不错的结果

智能硬件语音控制的时频图分类挑战赛2.0(思路以及结果,目前top5)

ID状态评分提交文件名提交备注提交者提交时间1返回分数0.94377submit_ensemble_07-15-16-56-00.csv集成多个Efficientv2系列的模型,加上ResNet18小模型,加上随机掩盖数据增强的结果擅长射手的pikachu2022-07-15 17:14:562返回分数0.93121submit_ensemble_07-15-01-03-09.csv集成多个Efficientv2系列的模型,加上ResNet18小模型,无数据增强的结果擅长射手的pikachu2022-07-15 09:53:243返回分数0.93121submit_EfficientNetv2-S_07-15-01-03-09.csv利用三个模型ConvNeXt-T,ResNet18,EfficientNetv2-S,无数据增强的结擅长射手的pikachu2022-07-15 01:04:404返回分数0.90679sub_convnext-T.csv利用ConvNeXt-T模型,在改进的基础上进行训练,无数据增强的结果擅长射手的pikachu2022-07-14 22:20:305返回分数0.9145sub.csv利用baseline中的ResNet18模型,在改进的基础上进行训练,最后测试结果擅长射手的pikachu2022-07-14 16:54:44

Original: https://blog.csdn.net/weixin_45508265/article/details/125819767
Author: 风信子的猫Redamancy
Title: 智能硬件语音控制的时频图分类挑战赛2.0(思路以及结果,目前top5)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/526619/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球