经典模型WDCNN中的AdaBN复现

2023年5月25日下午2:36 • 人工智能 • 阅读 103

最近自己的故障分类论文完成的差不多了，决定抽点时间复现一下引用比较多的WDCNN。之前都是直接用别人的实验数据，没有仔细阅读过相关论文，更没有考虑过复现的问题。仔细阅读这篇论文后，查阅了网上的资料才发现复现的帖子很少，且大部分只对WDCNN复现，有些里还有明显的错误，于是决定自己整一下。

原作者用的是tensorflow，我也是，但其实目前用pytorch复现更容易。

1.首先是WDCNN的模型代码

def WDCNN():
    inputs1 = Input(shape=(2048, 1))
    x = Conv1D(filters=16, kernel_size=64,strides=16,padding='same')(inputs1)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling1D(pool_size=2, strides=2)(x)

    x = Conv1D(filters=32, kernel_size=3, strides=1, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling1D(pool_size=2, strides=2, padding='valid')(x)

    x = Conv1D(filters=64, kernel_size=3, strides=1, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling1D(pool_size=2, strides=2)(x)

    x = Conv1D(filters=64, kernel_size=3, strides=1, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling1D(pool_size=2, strides=2)(x)

    x = Conv1D(filters=64, kernel_size=3, strides=1, padding='valid')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling1D(pool_size=2, strides=2)(x)

    x = Flatten()(x)
    x = Dense(100)(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    outputs = Dense(10, activation='softmax')(x)
    model = Model(inputs=inputs1, outputs=outputs)
    # model.summary()  # 打印模型结构
    return model

模型比较简单，可以根据图中的结构进行查看和调整。

[En]

The model is relatively simple, and you can view and adjust it according to the structure in the diagram.

2.AdaBN算法原理及实现

复现WDCNN其实没啥难度，但是AdaBN还是很有说头的。简单来讲，这是BN的一个变种，首先还得对BN的机理多一点了解。我以前只管用，毕竟放到现在已经是一个常规配置项了，不理解一般也不影响使用，但是要用AdaBN的话就不能一知半解了。

大家应该都知道BN实际上就是对隐藏层的参数做批量归一化，而归一化就要用到训练集的数据分布信息，均值和方差。模型中BN模块是个特殊的存在， 它不参与反向传播，查看模型时，你会发现它是不可训练的。但不可训练并不意味着不进行变化，在训练阶段它依据每一组batch的相关参数进行调整，之所以不用整个训练集的均值和方差是为了优化模型的适应能力，也可以理解为泛化能力或鲁棒性。

以上过程是 model.fit过程中发生的，但是在 model.evaluate中就不用了。这时大家一般用测试集来获得准确率，这里的BN用的则是之前fit过程中得到的 训练集相关的全局均值和方差。

如果训练集和测试集属于同一工况，或者同分布的数据集，那么这样就很合适。但是当我们做迁移学习时就不一样了，我们当然希望用测试集的均值和方差来进行 model.evaluate，毕竟测试集的数据信息是我们已有的信息，这种方法就是AdaBN。

因此，整个AdaBN过程分3步实现。

1.使用训练集进行model.fit。这一步和常规训练一样， 但是绝对不能把测试集当验证集进行，这是常识性错误。就像下面这样的，结果肯定准确率能提高， 毕竟相当于偷看了答案。

model.fit(X_train, Y_train,validation_data=(X_test, Y_test),epochs=30,batch_size=64)

正确的应该是这样，必须 使用验证集。这里我加入了早停机制、模拟褪火和保存最佳模型模块，确保模型能够有效收敛。

model.fit(trainX, trainy, epochs=epochs, batch_size=64, verbose=0, validation_data=(valX, valy),
              callbacks=[earlystopper, checkpointer,lr_reducer])

2.再次进行model.fit。这一步是最关键的，上一步我们相当于进行了正向传播和反向传播，并且保存了最佳模型的参数。这次fit中我们需要 使用训练集进行正向传播，确保BN中的参数更新为训练集相关的。这里如果使用pytorch的话据说非常简单，直接将BN层track_running_stats=True参数，把它改成False，这样在model.eval()时就是用目标域样本的均值和方差。但是tensorflow中我没有找到类似的，也是我个人学的比较浅。这里我使用另外一种方法代替， 首先锁定所有模型参数，只允许BN层的参数进行训练，因为BN的机制本身就不参与反向更新，因此训练完成后相当于将目标域测试集的参数保留在了BN中。此时再次保存模型参数， 相当于上一步中非BN层的参数+本步骤中BN层的参数组成的一个新的模型参数。

model.load_weights(path)    #载入模型参数
model.trainable = False    #锁定所有层参数
    for i in [2, 6, 10, 14, 16, 20]:    #只允许特定层更新
        model.layers[i].trainable = True

这一步使用model.fit时需要训练集和标签信息，此时训练集就是我们目标域的测试集， 标签信息从原理上来讲可以随意设置，因为除了BN所有参数都被锁定了，不会变化，而BN只受此时的训练数据影响。

np.random.shuffle(valy)

 label_te = np.array([1 for i in range(0, 1400)])
 label_te = label_te.reshape([1400, 1])
 label_te = label_te.reshape(label_te.shape[0], 1)
 label_te = label_te.astype(int)
 label_te = case10.to_one_hot(label_te)

 model.fit(testX, label_te, epochs=epochs, batch_size=64, verbose=0,
              callbacks=[lr_reducer, earlystopper2, checkpointer2])

为了验证理论的正确性，我在这一步中使用了一个随机标签和一个1标签的类别。让我们看看结果会是什么。取5次后的平均值

[En]

In order to verify the correctness of the theory, I used a random label and a category of 1 tag in this step. Let’s see what the result is. Take the average value after 5 times

WDCNN Accuracy: 92.764% (+/-1.967)
WDCNN_ada Accuracy: 96.202% (+/-1.447)

可以看出，效果确实很好，改善非常明显，与论文中的结果接近。

[En]

It can be seen that the effect is really very good, and the improvement is very obvious, which is close to the results in the paper.

这个方法的好处就是适用性比较强，和很多使用BN的模型都适配，在我的ShuffleNet模型上效果更好，稳定性也更好。

shu Accuracy: 96.148% (+/-0.896)
shu_ada Accuracy: 98.129% (+/-0.445)

3.TICNN的复现

我还顺便试了一下TICNN的一部分，实际上这两个模型很接近，TICNN主要就是比WDCNN多了dropout模块，但是我个人测试中发现效果和原作者有出入。这里可能还涉及到原论文中的一点错误，我记录下来供大家参考。首先我们看模型结构

然而，作者在上面显然提到，第一卷积层的步长已改为8，我猜这是作者在绘图时的疏忽。以下是原文

[En]

However, the author obviously mentioned above that the step size of the first convolution layer has been changed to 8, which I guess is the author’s negligence in drawing. Here is the original text * *

但有趣的是，许多人在繁殖时仍然使用16的步长。据估计，他们没有很好地阅读这份报纸。

[En]

But what is interesting is that many people still use the step length of 16 when they reproduce. It is estimated that they did not read the paper well.

TICNN结合AdaBN的效果差一些，只提升1-2%，我个人估计是dropout的原因，因为它会随机丢弃一些参数，导致模型数据的一些不稳定。

写作到此结束，欢迎批评指正+点赞收藏！谢谢!

[En]

This is the end of the writing, welcome to criticize and correct + like collection! Thank you!

Original: https://blog.csdn.net/weixin_50642818/article/details/125354408
Author: 北漂炼丹青年
Title: 经典模型WDCNN中的AdaBN复现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514634/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

微信语音麦克风静音_iPhone7Plus手机麦克风失灵怎么办

如何检查麦克风是否损坏 [En] How to check whether the microphone is damaged or not 当麦克风出现故障时，我们可以自己检查，…

人工智能 2023年5月27日
0097
随笔记录——pandas(数据联合与合并)

包含在pandas对象的数据可以通过多种方式联合在一起： pandas.merge根据一个或多个键将行进行连接。对于SQL或其他关系型数据库的用户来说，这种方式比较熟悉，它实现的是…

人工智能 2023年6月11日
0073
【目标检测】yolo系列：从yolov1到yolov5之YOLOv2详解及复现

YOLO v2 Yolov2论文链接：YOLO9000: Better, Faster, Stronger yolov2的改进从Yolov2论文的标题可以直观看到就是Better…

人工智能 2023年6月2日
0099
（arxiv-2022）具有自适应距离对齐的时空步态特征

具有自适应距离对齐的时空步态特征 paper题目：Spatio-temporal Gait Feature with Adaptive Distance Alignment pap…

人工智能 2023年5月28日
0093
【深度学习】损失函数详解

损失函数什么是损失函数？损失函数的分类回归损失 * L1 Loss L2 Loss Smooth L1 Loss IoU Loss – IoU Loss vs L…

人工智能 2023年6月22日
00111
损失函数与反向传播

损失函数定义与作用损失函数(loss function)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为…

人工智能 2023年7月23日
0095
pycharm 安装nltk库，报错Resource punkt not found.

在pycharm中安装nltk库，在使用pip install nltk后，import nltk使用发生报错，错误内容是Resource punkt not found.即pun…

人工智能 2023年5月28日
0070
pyltp实体识别_基于pyltp进行命名实体识别

pyltp简介 pyltp 是 LTP 的 Python 封装。LTP是哈尔滨工业大学社会计算与信息检索研究中心研发的一款自然语言处理工具，提供了分词，词性标注，命名实体识别，依存…

人工智能 2023年6月1日
0065
【Linux从入门到放弃】Linux基本指令大全

🧑‍💻作者： @情话0.0📝专栏：《Linux从入门到放弃》👦个人简介：一名双非编程菜鸟，在这里分享自己的编程学习笔记，欢迎大家的指正与点赞，谢谢！ Linux基本指令一、文件目…

人工智能 2023年7月30日
0077
训练一个图像分类器demo in PyTorch【学习笔记】

【学习源】Tutorials > Deep Learning with PyTorch: A 60 Minute Blitz > Training a Classifi…

人工智能 2023年6月4日
00163
tf1常用损失函数

tf.nn.sigmoid_cross_entropy_with_logits() 表示和sigmoid搭配使用的交叉熵tf.nn.softmax_cross_entropy_wi…

人工智能 2023年5月26日
00101
ResNet详解与CIFAR10数据集实战

ResNet详解与CIFAR10数据集实战 * – 1、引言 – 2、ResNet原理 – 3、ResNet解决网络退化的机理 – …

人工智能 2023年7月13日
0073
（理论+代码）K-Means与DBSCAN聚类算法

文章目录一、基本概念二、K-Means * 2.1 基本步骤与流程 2.2 代码实现 – 2.2.1 手写python代码实现 2.2.2 算法优化 + 2.2.2…

人工智能 2023年6月2日
0086
【python】标准库（第七讲）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
00102
Pointpillars三维点云实时检测

目录一、项目方案二、项目准备工作 1.安装并配置好Openpcdet的环境 2.安装好ROS melodic 三、项目工作空间创建及代码配置四、具体代码修改与讲解 launc…

人工智能 2023年7月26日
0064
限制对比度自适应直方图均衡化

1.累积分布函数：累积分布函数(Cumulative Distribution Function)，又叫分布函数，是概率密度函数的积分，能完整描述一个实随机变量X的概率分布。一般以…

人工智能 2023年6月20日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

经典模型WDCNN中的AdaBN复现

大家都在看