【SCRDet++论文解读】模型部分：特征提取 ResNet/FPN + 实例去噪 + 候选区域生成 RPN + 回归分类 RoI Warping

2023年7月3日上午3:29 • 人工智能 • 阅读 107

【SCRDet++论文解读】模型部分

一、实例去噪
二、候选区域生成网络
三、回归分类

SCR Det++ 的模型结构是基于 Faster R-CNN 设计的，包括4部分，如下图所示：

【SCRDet++论文解读】模型部分：特征提取 ResNet/FPN + 实例去噪 + 候选区域生成 RPN + 回归分类 RoI Warping

用于进行 特征提取的基础网络（basic embodiment for feature extraction）。以 ResNet为基础，添加了 特征金字塔（FPN） 以进行多尺度特征融合。
用于消除实例噪声的 实例级去噪网络（instance-level denoising module for suppressing instance noise）
用于生成五参数定义的旋转候选框的 候选区域生成网络（RPN）。
用于产生 类别分数和 预测边界框的部分（the ‘class+box’ branch for predicting classification score and bounding box position）

论文中的4部分分别是：特征提取、图像级去噪、实例级去噪以及回归分类，这里划分成这4部分的原因有3个：

为了更好的与 Faster R-CNN 模型结构进行对比；
因为图像级去噪的效果可以由实例级去噪达到，所以图像级去噪模块可省，就不需要体现在模型主要结构上；
代码中没有图像级去噪的部分。

; 一、实例去噪

模块结构如下图所示：

对 FPN的每一层，进行如下步骤：

首先采用 N个空洞卷积和一个 1×1卷积扩大感受野
通过两个并行的 1×1 卷积层得到两个输出， 其中一个输出是像素级标注，用以引导 另一个输出生成 用于去噪的权重特征图（denosing feature map）
将用于去噪的权重特征图与原特征图通过 矩阵的点运算进行融合，得到根据物体类别进行解耦后的 层次特征图

代码：


def enrich_semantics_supervised(net, channels, num_layer, scope):
    with tf.variable_scope(scope):
        for _ in range(num_layer-1):
            net = slim.conv2d(net, num_outputs=channels, kernel_size=[3, 3], stride=1, rate=2, padding="SAME")

        net = slim.conv2d(net, num_outputs=channels, kernel_size=[3, 3], stride=1, rate=4, padding="SAME")
        net = slim.conv2d(net, num_outputs=channels, kernel_size=[1, 1], stride=1, padding="SAME")
        return net

def generate_mask(net, num_layer, level_name):

    G = enrich_semantics_supervised(net=net,
                                    num_layer=num_layer,
                                    channels=256, scope="enrich_%s" % level_name)

    last_dim = 2 if cfgs.BINARY_MASK else cfgs.CLASS_NUM + 1
    mask = slim.conv2d(G, num_outputs=last_dim, kernel_size=[1, 1], stride=1, padding="SAME",
                       activation_fn=None,
                       scope='gmask_%s' % level_name)

    act_fn = tf.nn.sigmoid if cfgs.SIGMOID_ON_DOT else None
    dot_layer = slim.conv2d(G, num_outputs=256, kernel_size=[1, 1], stride=1, padding="SAME",
                            activation_fn=act_fn,
                            scope='gdot_%s' % level_name)

    return G, mask, dot_layer

mask_list = []
with tf.variable_scope("enrich_semantics"):
    with slim.arg_scope([slim.conv2d], weights_regularizer=slim.l2_regularizer(cfgs.WEIGHT_DECAY),
                        normalizer_fn=None):
        for i, l_name in enumerate(cfgs.GENERATE_MASK_LIST):

            G, mask, dot_layer = generate_mask(net=pyramid_dict[l_name],
                                               num_layer=cfgs.ADDITION_LAYERS[i],
                                               level_name=l_name)
            add_heatmap(G, name="MASK/G_%s" % l_name)
            add_heatmap(mask, name="MASK/mask_%s" % l_name)

            if cfgs.MASK_ACT_FET:
                pyramid_dict[l_name] = pyramid_dict[l_name] * dot_layer
            mask_list.append(mask)

二、候选区域生成网络

候选区域生成网络（RPN）结构如下图：

大体工作流程为： 针对一张特征图上的每个像素点，生成 k k k 个不同scale和ratio的锚框，然后将这些锚框堆叠成 256 − d 256-d 2 5 6 −d 的向量，接下来针对每个锚框，RPN完成两项任务：

判断锚框中是否有目标。仅需判定该锚框中是否含有需要检测的目标，因此进行简单的 二分类（正样本或负样本），针对k k k 个锚框生成2 k 2k 2 k 个分数
对锚框进行边界回归。针对k k k 个锚框产生4 k 4k 4 k 个坐标

之后，还需要进行一些后续操作：

将候选区域 映射回原图，并剔除超出原图边界的候选区域；
将”分数”从大到小进行排序，选出前2000个候选区域；
采用 NMS 移除尺度过小以及所含目标相同的候选区域

最后，生成最终的候选区域。

边界框回归（Bounding Box Regression）：
在这个过程中，RPN生成的 4 k 4k 4 k 个坐标不是预测边界框的坐标，而是变换参数（包括平移参数d x dx d x，d y dy d y和伸缩参数d w dw d w，d h dh d h）

“变换参数”是一种”映射关系”，能使得每个锚框通过这种映射关系都能够得到一个和真实边界框更接近的区域

详见：【边框回归(Bounding Box Regression)详解】


with tf.variable_scope('build_rpn', regularizer=slim.l2_regularizer(cfgs.WEIGHT_DECAY)):
    fpn_cls_score = []
    fpn_box_pred = []

    for level_name, p in zip(cfgs.LEVLES, P_list):
        if cfgs.SHARE_HEADS:
            reuse_flag = None if level_name == cfgs.LEVLES[0] else True
            scope_list = ['rpn_conv/3x3', 'rpn_cls_score', 'rpn_bbox_pred']
        else:
            reuse_flag = None
            scope_list = ['rpn_conv/3x3_%s' % level_name, 'rpn_cls_score_%s' % level_name,
                          'rpn_bbox_pred_%s' % level_name]

        rpn_conv3x3 = slim.conv2d(p, 512, [3, 3],
                                  trainable=self.is_training, weights_initializer=cfgs.INITIALIZER,
                                  activation_fn=tf.nn.relu, padding="SAME",
                                  scope=scope_list[0],
                                  reuse=reuse_flag)

        rpn_cls_score = slim.conv2d(rpn_conv3x3, self.num_anchors_per_location * 2, [1, 1], stride=1,
                                    trainable=self.is_training, weights_initializer=cfgs.INITIALIZER,
                                    activation_fn=None, padding="VALID",
                                    scope=scope_list[1],
                                    reuse=reuse_flag)

        rpn_box_pred = slim.conv2d(rpn_conv3x3, self.num_anchors_per_location * 4, [1, 1], stride=1,
                                   trainable=self.is_training, weights_initializer=cfgs.BBOX_INITIALIZER,
                                   activation_fn=None, padding="VALID",
                                   scope=scope_list[2],
                                   reuse=reuse_flag)
        rpn_cls_score = tf.reshape(rpn_cls_score, [-1, 2])
        rpn_box_pred = tf.reshape(rpn_box_pred, [-1, 4])

        fpn_cls_score.append(rpn_cls_score)
        fpn_box_pred.append(rpn_box_pred)

    fpn_cls_score = tf.concat(fpn_cls_score, axis=0, name='fpn_cls_score')

    fpn_cls_prob = slim.softmax(fpn_cls_score, scope='fpn_cls_prob')
    fpn_box_pred = tf.concat(fpn_box_pred, axis=0, name='fpn_box_pred')

三、回归分类

def roi_pooling(self, feature_maps, rois, img_shape, scope):
    '''
    Here use roi warping as roi_pooling

    :param featuremaps_dict: feature map to crop
    :param rois: shape is [-1, 4]. [x1, y1, x2, y2]
    :return:
    '''

    with tf.variable_scope('ROI_Warping_' + scope):

        img_h, img_w = tf.cast(img_shape[1], tf.float32), tf.cast(img_shape[2], tf.float32)

        N = tf.shape(rois)[0]

        x1, y1, x2, y2 = tf.unstack(rois, axis=1)

        normalized_x1 = x1 / img_w
        normalized_x2 = x2 / img_w
        normalized_y1 = y1 / img_h
        normalized_y2 = y2 / img_h

        normalized_rois = tf.transpose(
            tf.stack([normalized_y1, normalized_x1, normalized_y2, normalized_x2]), name='get_normalized_rois')

        normalized_rois = tf.stop_gradient(normalized_rois)

        cropped_roi_features = tf.image.crop_and_resize(feature_maps, normalized_rois,
                                                        box_ind=tf.zeros(shape=[N, ],
                                                                         dtype=tf.int32),
                                                        crop_size=[cfgs.ROI_SIZE, cfgs.ROI_SIZE],
                                                        name='CROP_AND_RESIZE')

        roi_features = slim.max_pool2d(cropped_roi_features,
                                       [cfgs.ROI_POOL_KERNEL_SIZE, cfgs.ROI_POOL_KERNEL_SIZE],
                                       stride=cfgs.ROI_POOL_KERNEL_SIZE)

    return roi_features

Original: https://blog.csdn.net/dear_jing/article/details/115285997
Author: dear_jing
Title: 【SCRDet++论文解读】模型部分：特征提取 ResNet/FPN + 实例去噪 + 候选区域生成 RPN + 回归分类 RoI Warping

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666775/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【css 动画】css实现奔跑的北极熊

📋 个人简介 💖 作者简介：大家好，我是阿牛，全栈领域优质创作者😜 📝 个人主页：馆主阿牛🔥 🎉 支持我：点赞👍+收藏⭐️+留言📝 📣 系列专栏：前端实用小demo🍁 💬格言：迄今…

人工智能 2023年6月20日
0078
WaPIRL: 基于自监督表示学习的晶圆图缺陷模式分类模型

Self-Supervised Representation Learning for Wafer Bin Map Defect Pattern Classification(基于…

人工智能 2023年7月2日
0065
Yolov4-tiny pth转onnx转tensorrt

Yolov4-tiny pth模型转换成onnx Yolov4-tiny模型参考链接 trt加载推理代码提取码：ou91 载入模型并完成转换 def pth2onnx(pth_m…

人工智能 2023年7月10日
0086
04 导师不敢和你说的水论文隐藏技巧，论文模型需不需要继承

江西周公子周公子的”苟利国家生死以，家庭传承吾辈责” 1：31 一定要代码白痴代码新手没有代码，又没有继承，你啥也不是有一个好的继承，我啥都有了，…

人工智能 2023年6月4日
0063
【PyTorch】从头搭建并训练一个神经网络模型（图像分类、CNN）

目录 0. 前言 1. 使用torchvision加载数据集并做预处理 2. 定义（搭建）自己的神经网络 3. 定义损失函数（Loss Function）和优化器（Optimize…

人工智能 2023年7月12日
0066
是否可以通过增加模型复杂性来避免欠拟合

问题背景在机器学习中，欠拟合是指模型无法表达数据的复杂性，导致模型在训练集和测试集上均表现不佳的现象。欠拟合通常是由于模型过于简单，无法捕捉到数据的非线性关系或者细微的模式。而增…

人工智能 2023年12月30日
0022
AttributeError: cannot assign module before Module.__init__() call

诸神缄默不语-个人CSDN博文目录运行环境，报错信息和查找到的错误内容：Linux系统Python 3.8（使用anaconda管理的虚拟环境）PyTorch 1.11+cuda…

人工智能 2023年7月6日
0048
【HTML粉色跳动爱心】效果展示+源代码

目录 * – 一、源代码 – + 1.1 index.html + 1.2 style.css + 1.3 js文件 – 二、效果展示一、源代…

人工智能 2023年7月30日
0056
opencv面试知识点

文章目录一、opencv基础 * 1、OpenCV中cv::Mat的深拷贝和浅拷贝问题 2、opencv常用数据结构和函数 – 2.1、QImage和Mat之间的转换…

人工智能 2023年7月19日
0071
【OpenCV 例程200篇】223. 特征提取之多边形拟合（cv.approxPolyDP）

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程 300篇】223. 特征提取之多边形拟合目标特征的基本概念 …

人工智能 2023年6月18日
00124
Pytorch 学习笔记–to(device)的用法

在学习深度学习的时候，我们写代码经常会见到类似的代码： img = img.to(device=torch.device("cuda" if torch.cud…

人工智能 2023年6月16日
0094
异常值检测常用算法及案例

异常值检测常用方法对历史数据进行异常值检测，对突发情况或者异常情况进行识别，避免因为异常值导致预测性能降低，并对其进行调整便于后续预测。一、3-sigma原则异常值检测 3-S…

人工智能 2023年6月19日
00297
卷积层在卷积神经网络（CNN）中的位置通常是怎样的

问题：卷积层在卷积神经网络（CNN）中的位置通常是怎样的？在卷积神经网络（Convolutional Neural Networks, CNN）中，卷积层起到了关键的作用。本文将…

人工智能 2024年1月3日
0039
白学立体视觉（1）: 双目视觉

文章目录前言什么是双目视觉？双目视觉的应用总结前言小伙伴们，大家好，以前学习了新的知识，一段时间之后便忘得差不多了，经常被他人嘲讽：你真是白学xxx了！。是啊，我确实…

人工智能 2023年5月26日
0042
机器学习——时间序列ARIMA模型(三)：AR、MA、ARMA、ARIMA模型定义及公式介绍及股价预测案例代码

ARIMA模型文章目录 ARIMA模型 * 1、自回归模型（AR） – + * – 使用自身的数据进行预测，且只适用于预测与自身前期相关的现象。 2、移动…

人工智能 2023年6月16日
00182
UNet网络实现图像分割

UNet网络实现图像分割最近在b站上找到一篇UNet网络实现图像分割的教学视频，进行相关学习后决定记录相关知识和自己的理解。标题首先，分享下教学视频：图像分割UNet硬…

人工智能 2023年7月12日
0084

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【SCRDet++论文解读】 模型部分：特征提取 ResNet/FPN + 实例去噪 + 候选区域生成 RPN + 回归分类 RoI Warping

【SCRDet++论文解读】 模型部分

大家都在看

【SCRDet++论文解读】模型部分：特征提取 ResNet/FPN + 实例去噪 + 候选区域生成 RPN + 回归分类 RoI Warping

【SCRDet++论文解读】模型部分