Maskrcnn实现笔记—锚框及建议框生成篇

2023年7月12日上午12:14 • 人工智能 • 阅读 72

这五个特征图的大小不同，特征图上的每个像素点的感受野也都不同，对应到原图，相当于可以把原图分割成不同大小的网格。比如最小的(16,16)大小的特征图，上面一个像素点对应到原图上的格子的长宽为(1024/16,1024/16)，相当于把原图分为16*16个网格。
锚框生成需要做的就是通过画框把原图分成许多个网格，再经由区域建议网络rpn给这些框进行校正和打分，得分高的也就是感兴趣区域，送到后续分类回归处理。

; 二、锚框生成

1.锚框参数设置

在每个特征图上，锚框的大小都是一样的。但在config文件中人工指定的RPN_ANCHOR_SCALES是对应到原图上的锚框边长。
如当输入为(1024,1024)时，一般锚框的长宽会设置为8个像素点，即以每个特征图上像素点为中心，截取长宽均为8个像素点的锚框，由于每个特征图上像素点感受野是不同的，相对于原图为[4,8,16,32,64]。这样对应的锚框scales即为[32,64,128,256,512]。一般会设置长宽比为[0.5 1 2]，这样每个特征图上每个像素点的具有5*3种大小的锚框。

RPN_ANCHOR_SCALES = (32, 64, 128, 256，512)
RPN_ANCHOR_RATIOS = [0.5, 1, 2]

2.锚框生成流程

1.cofig.py文件编写

anchor的长度（像素）
RPN_ANCHOR_SCALES = (32, 64, 128, 256, 512)
anchor的变化比率
RPN_ANCHOR_RATIOS = [0.5, 1, 2]

anchor步长
RPN_ANCHOR_STRIDE = 1

特征金字塔步长(特征图压缩率)
FEATURE_STRIDES = [4, 8, 16, 32, 64]

2.根据传入图片大小和特征金字塔步长计算得到每个特征图的大小
feature_shapes=img_shape/feature_stride.

3.分别为每个特征图生成锚框
传入：特征图shape，锚框scale(与特征图大小对应)，锚框变化率，输出锚框中心点坐标及长宽。
4.对锚框进一步处理，将锚框左上角与右下角进行标准化后存入数组
左上角=center-0.5[W,H]；右下角=center+0.5[W,H]
左上角/(img_shapes-1)，(右下角-1)/(img_shapes-1)

三.RPN网络

RPN网络：

传入的是不同大小的特征层，首先经过一个3×3的卷积，输出通道变为512，再并行经过两个1×1卷积，一个输出为2k(anchor中包含和不包含物体的得分,k为每个像素点锚框数量，一般为9)，另一个输出为4k(anchor应该调整的偏差，编码形式)。
注意由于第一个3×3卷积padding形式为same，后续的又是1×1卷积，所以特征图长宽经过rpn之后是不变的。
比如rpn网络输入特征图大小为[16,16,256]，经过3×3变为[16,16,512]，最后输出[16,16,2×9]与[16,16,4×9]。锚框生成也是对应特征图大小生成的[16,16,9]，所以输出结果也就是特征图上每一个像素点上每一个锚框是否包含物体的得分与应该调整的偏差。

; 四.经过rpn网络后的框后续处理

首先anchors经过rpn网络，输出建议框与anchors的中心点偏差及长宽偏差的编码形式以及框内是否有目标的概率数组。
至于为什么是编码形式，因为训练rpn网络的时候，喂给网络的输入就是anchors位置，真实框与anchors的偏差的编码形式。因此训练完成后，输出的偏差就是编码形式的偏差。
因此下面对anchors与编码形式的偏差及概率数组进行处理。
RPN网络输出logits,classes,bbox，代表对锚框的修正。后续利用rpn网络得到的预测和偏差，对锚框进行下一步处理。

1.对偏差进行处理

rpn网络将预测anchor与真实框的偏差。在神经网络上，理想状态下希望rpn网络的输出最好符合正态分布，因此训练的时候会把喂入的”真实框与anchor的偏差”做一个标准化，即(x-均值)/标准差，这样得到的输出也是符合正态分布的。
由于anchor的选择是均匀的，所以可以认为均值为0，标准差是由anchor计算得到的。这里直接用了faster-rcnn的值[0.1 0.1 0.2 0.2]。

偏差乘以标准差，我理解成去标准化
deltas = deltas * np.reshape(self.config.RPN_BBOX_STD_DEV, [1, 1, 4])

2.筛选anchor

经过rpn网络后会输出一个anchor内有物体的得分，得分越高则anchor内存在物体的可能性越大。对得分进行排序，保留前k个anchor，k一般取6000。并且还把锚框的下标保留一下(锚框之前堆叠的顺序是按照特征图大小及一行一行的像素点来堆叠的)。

#筛选出前K个得分高的先验框
pre_nms_limit = tf.minimum(self.config.PRE_NMS_LIMIT, tf.shape(anchors)[1])
        # 获得这些框的索引
        ix = tf.nn.top_k(scores, pre_nms_limit, sorted=True,
                         name="top_anchors").indices

3.根据anchor得到建议框

根据anchor的位置和rpn预测的偏差得到建议框，建议框相对于anchor定位更接近于真实框，但是由于一开始anchor的大小相差较差，所以根据建议框的面积还是可以很容易区分这个建议框是从哪个特征图上截取的。

计算anchor的中心和宽高，boxes[y1,x1,y2,x2]
height = boxes[:, 2] - boxes[:, 0]
width = boxes[:, 3] - boxes[:, 1]
center_y = boxes[:, 0] + 0.5 * height
center_x = boxes[:, 1] + 0.5 * width
计算出调整后的先验框的中心和宽高
center_y += deltas[:, 0] * height
center_x += deltas[:, 1] * width
height *= tf.exp(deltas[:, 2])
width *= tf.exp(deltas[:, 3])
计算左上角和右下角的点的坐标
y1 = center_y - 0.5 * height
x1 = center_x - 0.5 * width
y2 = y1 + height
x2 = x1 + width
输出[y1,x2,y2,x2]

4.建议框处理得到最终ROIS(感兴趣区域)

1.修剪超出图像范围内的建议框
input:建议框:[n,y1,x1,y2,x2]，窗口坐标[y11,x11,y12,x12]
output：修正后的anchors位置。把超出windows大小的框修正一下,y1=min(y1,y12)等等。
windows=[0,0,1,1]，因为之前anchors已经标准化过，这个窗口代表的就是原图的范围。
2.非极大值抑制
如果几个建议框的IOU>nms_threshold，则保留得分最大的一个，去除其他的建议框。一般nms_threshold=0.7。
这样就得到了建议框。

总结

上面主要讲的就是建议框怎么来的。
首先人工指定anchor(先验框)的框的大小(输入图为1024的时候，一般在特征图上截取的长宽为8个像素点)和比率；
然后把特征输入到rpn网络中，会得到anchor与真实框的偏差及anchor中有物体的得分；
最后根据根据得分筛选前k个anchor，并根据偏差对其进行解码得到建议框，并进行非极大值抑制，得到最终的建议框。

Original: https://blog.csdn.net/Tepmoe/article/details/121142859
Author: Tepmoe
Title: Maskrcnn实现笔记—锚框及建议框生成篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686566/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Gaussian Embedding

文章目录 1. 前驱知识 * transE 2. 高斯分布 3. 结论性概念 4. KG2E 5. Qualitative Analysis 6. Link Prediction …

人工智能 2023年6月10日
0090
YOLOv3目标检测全过程记录

前提: 软硬件环境：python 3.6.5Ubuntu18.04 LTSPyTorch 1.1.0CUDA 10.0cudnn 7.5.0GPU: NVIDIA TITAN XP…

人工智能 2023年5月26日
0088
MachineLearning 11. 机器学习之随机森林生存分析（randomForestSRC）

点击关注，桓峰基因 **桓峰基因公众&#…

人工智能 2023年6月19日
0089
Python代码实现信息熵、信息增益、信息增益率的计算

今天在课堂上给大家讲到信息熵、信息增益（在特征项较多的数据集中，对某些特征有明显的偏好，ID3 决策树学习算法就是以信息增益为准则来选择划分属性。）和信息增益率（标识某个特征的重…

人工智能 2023年6月11日
00217
tensorflow2 serving

tensorflow 模型训练部署为tfserving 服务有以下三部1 模型训练保存为savemodel2 保存的模型在docker 部署服务。3 在调用http 接口，进行模…

人工智能 2023年5月25日
0078
python数据分析实战：使用Lightgbm解决二分类预测问题以泰坦尼克号数据为例

背景来自于kaggle上的一个经典比赛，我们使用Lightgbm进行分类预测，数据说明： VariableDefinitionKeysurvivalSurvival0 = No,…

人工智能 2023年7月15日
0093
2020年12月大学英语六级作文

1.第一套 2.第二套 3.第三套 why students should be encouraged to develop effective communication ski…

人工智能 2023年6月26日
0059
改进YOLOv5系列：6.修改Soft-NMS,Soft-CIoUNMS,Soft-SIoUNMS,Soft-DIoUNMS,Soft-EIoUNMS,Soft-GIoUNMS…

💡基于 YOLOv5 代码框架，结合不同模块来构建不同的YOLO目标检测模型。 🌟本项目包含大量的改进方式,降低改进难度,改进点包含 Backbone、 Neck、 Head、 …

人工智能 2023年7月25日
0080
OpenCV.js 快速入门指南

OpenCV.js 常用的 API 如下：图像读取和显示 cv.imread(dom) -> dst cv.imshow(dst, dom) dom(Dom/string)…

人工智能 2023年5月26日
00164
python深度学习之TensorFlow

一元线性回归多元线性回归梯度下法分类问题人工神经网络 TensorFlow基础 import TensorFlow as tf 创建张量创建Tensor对象张量由Tensor类…

人工智能 2023年5月26日
0077
python——基于三层神经网络实现手写数字分类

文章目录前言一、神经网络组成二、代码实现 * 1.引入库 2.导入数据集 3.全连接层 4.ReLU激活函数层 5.Softmax损失层 6.网络训练与推断模块 7.完整流程…

人工智能 2023年7月1日
0089
利用WordPress搭建网站

prepare环境要求：此外我用到的环境： phpstudy 安装WordPress管理平台 3. 此时可以成功进入http://localhost:82/wp-admin来进行…

人工智能 2023年6月4日
00103
数据分析之爬虫实例-获取天气AQI数据-附python代码

数据分析与数据挖掘的步骤流程： 1、明确目标。首先要熟悉业务背景，了解业务背景后，才能明确目标。如去分析电商业务流量与转化率的关系，广告业务如何确定单次点击竞价增加点击率和…

人工智能 2023年6月19日
0092
由浅入深理解latent diffusion/stable diffusion(3)：一步一步搭建自己的stable diffusion models

Diffusion Models专栏文章汇总：入门与实战前言：关于如何使用stable diffusion的文章已经够多了，但是由浅入深探索stable diffusion m…

人工智能 2023年7月30日
0056
关于回归分析分类

目的：当需要用一个数学表达式（模型）表示多个因素（原因）与另外一个因素（因素）之间关系时，可选用回归分析法。应用：1）分析哪些自变量对因变量存在显著影响作用，R方值可以不要求大于…

人工智能 2023年7月2日
0068
旅游网站之数据分析

编程要求在右侧代码窗口完成代码编写： 1：MapReduce类已经配置好，只需完成MapReduce的数据分析；2：在Map节点执行类中把城市ID当成的输出key，酒店价格当成M…

人工智能 2023年6月11日
00110

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31