【深度学习】ROI Pooling 和 ROI Align 计算机视觉目标检测

2023年7月10日上午8:43 • 人工智能 • 阅读 79

文章目录

ROI Pooling和ROI Align：
一篇好的文章
ROI Pooling 如何计算？
AdaptiveMaxPool2d 在做啥
Fast RCNN或者Faster RCNN中都使用了ROI Pooling
ROI Align

ROI Pooling和ROI Align：

（1）ROI Pooling 是为了让特征图输出等尺寸大小的特征图而发明的粗暴Pooling 方法，在Pooling 过程中取整数个数像素点进行操作，导致在Mask RCNN实例分割的时候效果不好，所以凯明大神在Mask RCNN中提出ROI Align。
（2）ROI Align 采用双线性插值方式，获取原特征图中一个插值的像素结果。
（3）Faster-RCNN 中使用ROI Pooling ，存在2次取整量化操作，一是SS的bbox是原理里的，射影到特征图的时候取整量化；二是做了如同AdaptiveMaxPool2d 的ROI Pooling 的时候。2次取整量化导致在原图中像素差距很大，这样小目标将受到极大影响。Mask RCNN作者把它总结为”不匹配问题（misalignment）。

一篇好的文章

https://zhuanlan.zhihu.com/p/73113289

ROI Pooling 如何计算？

pytorch也有实现：https://pytorch.org/vision/main/generated/torchvision.ops.RoIPool.html

下面程序截取了Fast RCNN中的代码：

import numpy as np
import torch
from torch import nn

class SlowROIPool(nn.Module):
    def __init__(self, output_size):
        super().__init__()
        self.maxpool = nn.AdaptiveMaxPool2d(output_size)
        self.size = output_size

    def forward(self, images, rois, roi_idx):
"""
        :param images: shape is (n, C, H, W,)
        :param rois: exam [[0.00078125, 0.00138889, 0.39140624, 0.6958333 ]]
        :param roi_idx: [0]
        :return:
"""
        n = rois.shape[0]

        h = images.size(2)
        w = images.size(3)
        x1 = rois[:, 0]
        y1 = rois[:, 1]
        x2 = rois[:, 2]
        y2 = rois[:, 3]

        x1 = np.floor(x1 * w).astype(int)
        x2 = np.ceil(x2 * w).astype(int)
        y1 = np.floor(y1 * h).astype(int)
        y2 = np.ceil(y2 * h).astype(int)

        res = []
        for i in range(n):
            img = images[roi_idx[i]].unsqueeze(0)
            img = img[:, :, y1[i]:y2[i], x1[i]:x2[i]]
            img = self.maxpool(img)
            res.append(img)
        res = torch.cat(res, dim=0)
        return res

roipool = SlowROIPool(output_size=(7, 7))

print(roipool(images=torch.Tensor(np.random.randn(2, 3, 720, 1280)),
              rois=np.asarray([[0.00078125, 0.00138889, 0.39140624, 0.6958333],
                               [0.00078125, 0.00138889, 0.39140624, 0.6958333]]),
              roi_idx=[0, 1]).size())

输出 torch.Size([2, 3, 7, 7])。 # n C H W
程序中定义了ROI Pooling层，输出固定7*7的宽高特征图。
重点是AdaptiveMaxPool2d 。

AdaptiveMaxPool2d 在做啥

举例输入：

想输出2*2固定尺寸：

除了最大池化，还有平均池化。
有趣的是，原特征图宽高（10,10），想要输出（20,20），AdaptiveMaxPool2d 也可以，是一种映射查找。

; Fast RCNN或者Faster RCNN中都使用了ROI Pooling

Fast RCNN或者Faster RCNN中都使用了ROI Pooling，如下是Fast RCNN的过程：

回顾Fast RCNN或者Faster RCNN：
（1）Fast RCNN采用Selective Search 方法生成1K~2K个候选区域,
Faster RCNN采用RPN 方法生成1K~2K个候选区域。
（2）两者都只需要做一次特征提取，bbox做projection映射提取特征图中的对应子特征图（ConV feature map），然后将子特征图用ROI Pooling形成 固定大小输出，再然后经过FC网络去做分类和回归。
（3）RCNN中是Selective Search 方法出来的每个区域，都从原图中crop出区域，然后直接resize后给入VGG网络提取特征。

ROI Align

利用双线性插值就能取到想要的”浮点数像素点坐标位置”的对应值，就能正常pooling操作。
很好的一个视频：https://www.bilibili.com/video/BV1ZY411774T?spm_id_from=333.999.0.0

下图表示：
（1）原理图和特征图比例是32，原图里bbox左上角是[10 10]，右下角是[124 124] ；
（2）ROI Pooling 就会两次取整，第一次算bbox映射是[0 0 ],[3 3]，第二次是做AdaptiveMaxPool2d，如果是奇数就会遇到不均分取整；
（3）ROI Align 在下图中，第一次求bbox映射是[0.3125 0.3125 ],[3.875 3.875]，不会取整。对应到特征图后，如果想要2 _2的特征图输出，直接把[0.3125 0.3125 ],[3.875 3.875]这个对应框直接均分，不会取整。
（4）ROI Align 在下图中，对于想要2_2的特征图输出，每一块输出数值取决于sampling ratio的数值。比如在下图中取sampling ratio=1，也就是只用取一个点，这个点的数值是利用双线性插值由它最近的四个像素点共同决定得到的。原Mask RCNN是sampling ratio=2，也就是取4个点，但作者也说采样位置和采样数量对于结果并不是由很大影响。

（5）双线性插值如何计算：

（6）原论文的 ROI Align是取sampling ratio=2，也就是4个采样点，每个采样点数值都是靠双线性插值计算得到：

参考：
https://blog.csdn.net/x1131230123/article/details/123660382
https://zhuanlan.zhihu.com/p/73138740
https://github.com/gary1346aa/Fast-RCNN-Object-Detection-Pytorch/blob/master/README.ipynb
https://www.bilibili.com/video/BV1ZY411774T?spm_id_from=333.999.0.0
https://arxiv.org/pdf/1703.06870.pdf

Original: https://blog.csdn.net/x1131230123/article/details/124196093
Author: XD742971636
Title: 【深度学习】ROI Pooling 和 ROI Align 计算机视觉目标检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682447/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv5改进之YOLOv5+GSConv+Slim Neck

论文题目：Slim-neck by GSConv: A better design paradigm of detector architectures for autonomou…

人工智能 2023年7月29日
0062
【python二级-练习题】

python江湖 1、求长方形面积 * 题目描述： – 代码如下： 2、随机密码验证 * 题目描述： – 代码如下： 3、信息分配表（字典） * 题目描述：…

人工智能 2023年7月5日
0088
ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析

VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的逻辑添加到合并数据部分的算法中。VersionedCollapsingMergeTr…

人工智能 2023年6月26日
0067
ExifTool常用使用方法

ExifTool下载和工具用法链接https://www.rmnof.com/article/exiftool-introduction/ 记录用到的命令查看JPG图片信息 ex…

人工智能 2023年5月28日
0086
Git 分支管理策略汇总

原文链接： Git 分支管理策略最近，团队新入职了一些小伙伴，在开发过程中，他们问我 Git 分支是如何管理的，以及应该怎么提交代码？我大概说了一些规则，但仔细想来，好像也并没…

人工智能 2023年6月27日
0098
python实现超级玛丽小游戏（动图演示+源码分享）

大家好，我是梦执，对梦执着。希望能和大家共同进步！下面给大家带来python实现超级玛丽小游戏的源码分享效果演示：基础源码 * – 1.基础设置（tools部分）…

人工智能 2023年7月3日
0069
【python实战】利用BP神经网络做传感器数据分类（数据处理+训练+调用步骤，科研神器）

主要任务：做科研项目，对传感器的一些数据分类，分成三类，正常，异常，紧急三类，分别以0，1，2来表示。解决方法：主要读取传感器三维的数据，每秒500个采样点，打算取200个采样点，…

人工智能 2023年7月13日
0054
一文理解Linux的基本指令（三分钟学会Linux基本指令）

前沿：本文小马将把Linux一般比较常见的指令给大家一一列举出来，为了大家忘记某些指令后，可以方便查询记忆，再次小马建议，Linux指令并不需要去特别花时间专门记忆，只需要多进行…

人工智能 2023年7月30日
0068
语音识别卷积神经网络,卷积神经网络字符识别

如何利用Python做简单的验证码识别 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物，充当着很多系统的防火墙功能，但是随时OCR技术的发展，验证码暴露出来的安全问…

人工智能 2023年5月25日
0061
论文复现——CE-FPN: Enhancing Channel Information for Object Detection

最近想自己对FPN结构进行一些改进，读了不少有关FPN的论文，有些论文开源了，但是有些最新的论文没有开源，后面打算把最近复现的论文都总结一下，发个论文复现系列的文章。 &#…

人工智能 2023年5月26日
00105
文本质量指标知识图谱_关于知识图谱和语言模型的想法

点击蓝字｜关注我们作者：知乎—秣陵冬地址：https://www.zhihu.com/people/qin-hua-peng 知识图谱已经在推荐系统、搜索引擎等应用场景下展现了…

人工智能 2023年6月10日
0084
Python 计算机视觉（十五）—— 图像特效处理

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年6月19日
0070
2022-12-15 工作记录–React-用swiper实现多行交错、同速、跑马灯效果的弹幕式轮播（坑）

React -用 swiper 实现多行交错、同速、跑马灯效果的弹幕式轮播（坑）激动的心呀呀呀！٩(๑>◡ 【 React-用 swiper实现多行交错、同速、跑马灯效果的…

人工智能 2023年7月30日
0052
no model named “compat“ ，Tensorflow 版本问题

查看我的版本： Module: tf.compat | TensorFlow Core v2.6.0 Compatibility functions.https://tensorf…

人工智能 2023年6月24日
0085
用Python实现简单的人脸识别，10分钟搞定！（附源码）

前言让我的电脑认识我，我的电脑只有认识我，才配称之为我的电脑！今天，我们用Python实现简单的人脸识别技术！ Python里，简单的人脸识别有很多种方法可以实现，依赖于pyt…

人工智能 2023年7月20日
0057
声控红外实验

一、实验简介个人学习制作的一个小实验，功能为用一块板子的语音和红外功能去控制另一块板子的LED灯亮灭以及蜂鸣器响应。二、所用模块 1.STM32F4系列板子2个 2.LD332…

人工智能 2023年5月25日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【深度学习】ROI Pooling 和 ROI Align 计算机视觉 目标检测

文章目录

大家都在看

【深度学习】ROI Pooling 和 ROI Align 计算机视觉目标检测