【CV-Learning】目标检测&实例分割

2023年7月12日下午2:20 • 人工智能 • 阅读 62

目标检测

单目标检测

训练思路：一般分三个阶段，先训练分类（一般是拿现成已经训练好的模型），再训练定位，再一起训练分类+定位。
Ps:目标检测中，一般不从头开始训练网络，而是使用ImageNet上预训练的模型。
多任务损失：网络训练的目标是降低总损失，所以 softmax loss 和 L2 loss 将同时减小，也可以为 softmax loss 和 L2 loss 分别设置一个权重，通过改变权重，调整 softmax loss 和 L2 loss 在总损失中所占的比重。
姿态估计：在人体上标注关键点，然后通过训练，与标答进行对比。

; 多目标检测

思考：神经网络的标答是预先建立好的，因为多目标检测中目标数量并不确定，输出的维度不确定，就无法建立Correct box标答，如果使用单目标检测的训练方法，无法建立多目标检测的表达，训练将不能进行。

滑动窗口

思路：将图像中 所有可能的区域都给到卷积神经网络进行分类，只留下能正确分类的窗口。

注：仅当分类器速度够快的时候才能这样做，比如人脸识别时使用Adaboost进行穷举。

; R-CNN

思考：针对穷举图像所有区域神经网络分类计算量大这个问题，提出了一种新的思想，先从图像中产生一些候选区域再进行分类，而不是穷举图像中所有区域。例如： 区域建议 selective search。
思路：
1.利用区域建议产生感兴趣的区域。（存入硬盘）
2.对区域进行缩放。
3.将图像区域送入卷积网络（可以直接使用ResNet）进行特征提取。（存入硬盘）

边界框回归（Bbox reg ）：区域建议生成的区域，可能有损失，效果不好，进行边界框回归，就是为了修正区域建议生成的区域与真实区域的偏差。
问题：计算效率低下，不能进行使用。

Fast R-CNN

思路：
1.利用卷积网络对全图进行特征提取。
2.利用区域建议的方法产生感兴趣的区域。
3.对感兴趣的区域（特征）进行裁剪+缩放处理。
4.通过全连接神经网络进行分类。

改进：
1.先提取特征后区域建议：如果先进行区域建议后进行特征提取，计算量比较大。
2.采用全连接神经网络
3.裁剪+缩放特征（RoI Pool）

; 区域裁剪（Rol Pool）

思路：
1.将候选区域投影到特征图上
2.将区域顶点规整到网格交点上（处理后的区域会有轻微的对不齐）
3.将其粗略的分成面积相等的n*n个子区域
（n由最终想要的特征图尺寸决定）
4.对每个子区域进行最大池化

区域裁剪（Rol Align）

思路：
1.将候选区域投影到特征图上
2.将区域顶点规整到网格交点上（不进行规整操作）
3.在每个网格上 规格地取四个点，对每个点在周围的四格中进行双线性插值（对不同距离的点赋予不同的权重）
4.对每个子区域进行最大池化

; R-CNN vs Fast R-CNN

问题：在右图中可以看出，候选区域产生过程（区域建议）耗时过长，几乎等于单张图片的检测时间。

Faster R-CNN

突破点：让卷积神经网络自己产生候选区域。
RPN：
1.将利用卷积网络对全图进行特征提取的结果输入到RPN
2.将结果通过全连接神经网络判断是否为object

损失联合训练：
1.RPN分类损失（目标/非目标）
2.RPN边界框坐标回归损失
3.候选区域分类损失
4.最终边界框坐标回归损失
思路：两阶段目标检测器

;区域候选网络（Region Proposal Network）

前言：经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如R-CNN使用Selective Search方法生成检测框。而Faster R-CNN直接使用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提升检测框的生成速度。
锚点（anchor）：选择锚点，判断以锚点为中心的区域是否包含某一个类别。

给予一个anchor后，进行回归并返回一个偏差量，修正区域让区域描述得更加准确。

实际使用时，对应每个特征图上的每个位置，我们通常会采用k个不同尺寸和分辨率的锚点区域，在一个锚点处预测k种可能性，以此来增加一个点的预测能力。
将k * 20 * 15的boxes按照类别得分进行排序，选取前300个作为我们的候选区域。

; 一阶段目标检测器

yolo不进行区域建议。
SSD对每层进行分类，每层都使用anchor特性，并将每一层的特征进行综合最终使用多层特征。

; 影响检测精度的因素

实例分割

在Faster-RCN的基础上加上Mask Prediction即可。

通过一个卷积进行上采样的过程得到Mask。

实例分割结果

姿态检测：可以在第一次卷积后回归关键点检测。

; Good implementations on GitHub!

TensorFlow Detection API：Faster RCNN, SSD, RFCN, Mask R-CNN

Original: https://blog.csdn.net/Y0704__00/article/details/126133793
Author: 小梁要努力哟
Title: 【CV-Learning】目标检测&实例分割

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687808/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【眇视万里一毫端】全志V853三核异构边缘AI视觉处理芯片全新发布

V853 是一颗面向智能视觉领域推出的新一代高性能、低功耗的处理器SOC，芯片采用三核异构设计，同时搭配了全志自研的新一代视觉处理引擎和疾风系统，最高算力可达1T的NPU助力V85…

人工智能 2023年5月28日
0087
Stata:中介效应理论及sgmediation命令做sobel检验

中介作用的检验模型可以用以下路径图来描述：方程(1)的系数c 为自变量X对因变量Y的总效应；方程(2)的系数a为自变量X对中介变量M的效应；方程(3)的系数b是在控制了自变量…

人工智能 2023年6月18日
00112
pandas100个骚操作六：pandas 数据转换 transform 的 4 个常用技巧

大家好，我是你们的东哥。本篇是pandas100个骚操作的第6篇： pandas 数据转换 transform 的 4 个常用技巧查看全部骚操作可以点击专栏：pandas 10…

人工智能 2023年7月8日
0043
【安卓学习之开源项目】 ParrotTongue：文字转语音(含LeLeTextToVoice、TextToMp3项目)

█ 【安卓学习之开源项目】 ParrotTongue：文字转语音(含LeLeTextToVoice、TextToMp3项目) █ 系列文章目录小贴士：以下是音频相关文章的集合 […

人工智能 2023年5月27日
0087
【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images

RoI Transformer: 将空间转换应用在RoIs上，并通过标注旋转框，监督学习得到转换参数。RoI Transformer是轻量级的。一、Introduction （1…

人工智能 2023年7月12日
0049
RGB相机、深度相机以及LiDAR成像原理

RGB相机成像原理相机结构和原理（入门简版）知乎摄像机模型数学推导相机结构成像原理大名鼎鼎的”拜尔滤镜”CMOS滤镜排列像素尺寸、大小关系景深景…

人工智能 2023年5月26日
0074
跟数据打交道的人都得会的这8种数据模型，满足工作中95%的需求

“小王，你把这些用户数据分析下，分别打个价值标签给我，我们制定一下618的营销活动。” 这时候你拿着用户数据一脸懵？打标签？从哪几个维度？脑海里仿佛有很多想…

人工智能 2023年7月16日
0058
mysql 数据备份与恢复使用详解

对一个运行中的线上系统来说，定期对数据库进行备份是非常重要的，备份不仅可以确保数据的局部完整性，一定程度上也为数据安全性提供了保障，设想如果某种极端的场景下，比如磁盘损坏导致某个时…

人工智能 2023年7月29日
0043
FCM算法

文章目录 1.FCM模糊聚类算法 2.FCM算法原理 3. 代码实战（一） 4.代码实战（二） 5.FCM的缺点 1.FCM模糊聚类算法如何理解模糊聚类中的”模糊&#…

人工智能 2023年5月31日
0087
bio和bieos哪个标注模式好_2021秋招-NLP基础任务模型-NER

NLP基础任务模型-NER 注: 基本全是转载，也都附加了转载链接，侵删。多谢各位大佬的总结。目录: 任务定义简单综述数据集细节总结模型细节总结损失函数计算总结 NL…

人工智能 2023年6月1日
0062
Ubuntu20.04安装ROS Noetic

参考ROS官网安装教程： https://wiki.ros.org/melodic/Installation/Ubuntu 在安装ROS之前建议先配置好系统的软件镜像源：打开软件和…

人工智能 2023年6月10日
0058
Tensorflow/Keras/h5py报错处理

个人体验记录帖子，如有任何闯入，请与我联系。谢谢。 [En] Personal experience record post, if there is any intrusion,…

人工智能 2023年5月23日
0054
存储mybatis的xml标签，动态sql 查询

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0060
K近邻分类算法的Python代码实现

文章目录问题描述算法方案代码实现代码测试问题描述 K近邻算法解决的是机器学习领域中，监督学习类别下的回归和分类问题。监督学习是指利用数据的特征及其对应的标签来训练模型，然…

人工智能 2023年7月1日
0099
多通道并行卷积神经网络实现

一、网络结构多通道并行卷积神经网络主要由多个卷积池化层和全连接层组合而成，其网络结构图如下所示： ; 二、基于pytorch的实现如下（双通道）： 1.网络模型 class C_…

人工智能 2023年6月16日
0062
探索SpringMVC-HandlerMapping之RequestMappingHandlerMapping

前言上回我们知道HandlerMapping是用来寻找Handler的，并不与Handler的类型或者实现绑定，而是根据需要定义的。那么为什么要单独给@RequestMappin…

人工智能 2023年7月30日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30