【论文笔记】AP-CNN: Weakly Supervised Attention Pyramid Convolutional Neural Network for FGVC

2023年7月14日上午12:16 • 人工智能 • 阅读 73

高类内方差（high intra-class variance）：
图片中属于同一类别的对象通常呈现显著不同的姿态和视角。
低类间方差（low inter-class variance）：
下属类（例如哈士奇和金毛两个下属类，都属于狗这一超类）之间的视觉差异往往是微妙的，因为它们属于同一超类别。

数据集

当前细粒度分类的主流数据集有三个：

CUB-200-2011：鸟类数据集，200类11788张图像，每张图像包含15各部位的位置信息。（位置信息主要给基于部件的网络模型训练用）
Stanford Cars：汽车数据集，196类16185张图像，不包含部件信息。
FGVC-Aircraft：飞机数据集，102类10200张图像，不包含部件信息。

近两年大部分细粒度分类论文都以上述三个数据集作为benchmark。

AP-CNN

2021年2月刊登在IEEE的一篇细粒度分类的文章。
论文地址（下载需要校园网）
源码地址

整体结构

【论文笔记】AP-CNN: Weakly Supervised Attention Pyramid Convolutional Neural Network for FGVC

; 1、主要改进

1）Attention Pyramid（注意金字塔）

在FPN的基础上，对每一层feature map都使用注意力机制，形成一个自下而上的注意力层级结构，作者给其取名为 注意金字塔（Attention Pyramid），这个结构中每一层又包含两个部分，分别是 空间注意 和 通道注意，生成过程如下图所示：

每一层的通道注意由FPN中对应层的Feature map进行一次全局平均池化和两次全连接而成。
公式如下：A k ( c ) = σ ( W 2 ⋅ R e L U ( W 1 ⋅ G A P ( F k ) ) ) A^{(c)}_k=\sigma(W_2\cdot ReLU(W_1\cdot GAP(F_k)))A k (c )=σ(W 2 ⋅R e L U (W 1 ⋅G A P (F k )))
空间注意则由对应的Feature map进行一次33的反卷积，再做sigmoid而成。
公式如下：A k ( s ) = σ ( v c ∗ F k ) A^{(s)}_k=\sigma(v_cF_k)A k (s )=σ(v c ∗F k )

而 空间注意通常的做法是对特征层进行 最大池化和 平均池化，之后把这俩结果进行堆叠，再做1*1卷积，然后sigmoid，最后和原特征层相乘即可。

这个部分作者没有做消融实验，我认为作者是想要和之前已经存在的CBAM进行区别，所以进行反卷积，魔改了一下😓。

想要了解注意力机制原理的读者可以参考：注意力机制的实现

; 2） ROI引导的细化模块

流程图：

以上述注意金字塔得到的空间注意 A k s A^{s}_{k}A k s 作为掩膜，在每一层都生成对应数量的ROI（region of interest）,效果如下：

之后根据这些生成的ROI做基于ROI的Dropblock和Zoom-in（过程省略，因为非常简单），得到最终的特征map Z k Z_k Z k .

最后再对 Z k Z_k Z k 做一次分类，将这次的结果和初始FPN经过注意力后得到的分类结果进行平均，得到最终结果。

2、与主流模型比较

; 3、可视化

首先在训练时加上可视化选项，cd到AP-CNN目录下，激活对应环境，输入：

python -m vindom.server

在本机指定的窗口（官方初始定义为8097）
出现如下提示：

浏览器打开本机对应端口：

然后运行训练文件，输入：

python train.py --visualize

记得要带上可视化选项。
如下提示，则开始训练。

此时观察到浏览器端口页面变为训练与测试图像的ROI和三层mask展示：

（顺序被我不小心打乱了😓，我还不会恢复…）

4、总结

本文其实没有任何的创新点，作者将 空间注意和 通道注意在FPN每一层都进行运用，得到了相较于 baseline：NTS在CUB-200-2011上0.9个点的精度提升。
lego的方法值得学习和应用😏

Original: https://blog.csdn.net/no_pain_no_gain_/article/details/124494939
Author: 事多做话少说
Title: 【论文笔记】AP-CNN: Weakly Supervised Attention Pyramid Convolutional Neural Network for FGVC

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690910/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ICASSP 2022丨语音深度合成鉴别挑战赛（ADD 2022）

竞赛简介目前语音生成技术已经日趋成熟，生成的语音在特定条件下可以与真人语音相媲美，该技术在生活、娱乐、新闻、教育、医疗、金融等众多领域具有广泛的应用前景，但是虚假生成语音对社会危…

人工智能 2023年5月27日
0070
神经网络如何提高准确率,神经网络的求解方式

如何训练神经网络 1、先别着急写代码训练神经网络前，别管代码，先从预处理数据集开始。我们先花几个小时的时间，了解数据的分布并找出其中的规律。 Andrej有一次在整理数据时发现了重…

人工智能 2023年6月16日
0099
自动驾驶入门必须要学会的ADAS（详解）

ADAS详解一、信息辅助 * 1、行车监控类 2、危险预警类 3、驾驶便利类二、控制辅助 * 1、紧急应对类 2、驾驶便利类 3、是车道保持类 4、智能灯光类先丢一版ADAS…

人工智能 2023年6月26日
0071
彻底搞懂MySQL主从复制工作原理：2个日志｜ 3种存储格式｜3个线程｜4种工作模式

什么是主从复制从mysql3.23版本开始，mysql官方就开始提供主从复制，最简单的主从复制架构就是有两个mysql节点，一个作为主节点，用户可以进行读写，另外一台作为从节点，…

人工智能 2023年6月27日
0074
编译原理：CH4 静态语义分析

CH4 静态语义分析文章目录 * – CH4 静态语义分析 – + 4.1 语法制导翻译 + * 4.1.1 语法与语义 * – （1）语法与…

人工智能 2023年6月1日
0086
采用yoloV5+pycharm的自己数据集训练目标检测与识别

day2-day4 续上一篇：采用了opencv自己的多层链接分类器做了简单的检测后，发现根本达不到我所需的要求，于是某宝买了opencv+yolo+pytorch的网课，逐渐有了…

人工智能 2023年7月10日
0094
filterin

filterin问题在数据处理和分析过程中，我们常常会遇到需要对数据进行筛选或过滤的情况。Filterin问题就是要解决如何根据一定的条件来筛选出符合条件的数据，以便进一步分析或…

人工智能 2024年1月5日
0040
反人类直觉-逻辑学

最近跟我朋友小黑分享逻辑学，所以就跟小黑一起写了这篇文章逻辑是什么维基上说”有效推论和证明的原则与标准” 但是什么是有效的？这个我不太认同，我认为是逻辑…

人工智能 2023年6月4日
0067
作业一：预测PM2.5（李宏毅机器学习2020HW1——线性回归）

作业描述采集了台湾环境监测所的数据。要求：根据前9小时的数据，用线性回归来预测第10个小时的PM2.5的数值。任务要求输入：9个小时的数据，共18项特征（AMB_TEMP, …

人工智能 2023年6月18日
0072
【小程序开发】—— 封装自定义弹窗组件

回答1： Element UI是一个流行的UI框架，提供了很多，其中包括。如果你想要，可以按照以下步骤进行： 1. 创建一个，可以使用 CLI或手动创建一个. 文件。 2….

人工智能 2023年6月30日
00116
用Anaconda安装TensorFlow(Windows10)

用Anaconda安装TensorFlow 本部分分为方法一和方法二，方法一是从清华镜像官网下载速度较快，方法二是从GitHub下载，速度较慢(有梯子的建议使用) 1.打开Ana…

人工智能 2023年5月23日
0093
YOLOv5的Tricks | 【Trick2】目标检测中进行多模型推理预测（Model Ensemble）

如有错误，恳请指出。在学习yolov5代码的时候，发现experimental.py文件中有一个很亮眼的模块： Ensemble。接触过机器学习的可能了解到，机器学习的代表性算法…

人工智能 2023年6月16日
0086
数据分析（Data Analysis)

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助…

人工智能 2023年6月19日
0090
Kalman滤波通俗理解+实际应用

一、Kalman用于解决什么的问题？卡尔曼滤波是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以…

人工智能 2023年6月1日
0098
tensorflow和pytorch设置和查看权重

pytorch import numpy as np import torch.nn as nn import random import os import torch impo…

人工智能 2023年5月23日
0077
pandas库笔记

两个待匹配数据表： df1、df2 联结匹配字段： data1 data2 用pandas的merge函数： import pandas as pd df3 = pd.merge(…

人工智能 2023年7月8日
0045

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31