王越的目标检测学习笔记

2023年7月10日上午11:43 • 人工智能 • 阅读 57

目标检测是在图片中对可变数量的目标进行查找和分类

传统目标检测算法

Viola-Jones（人脸检测）

Haar特征抽取

训练人脸分类器（Adaboost算法等）

滑动窗口

HOG+SVM（行人检测，Opencv实现）

提取HOG特征

训练SVM分类器

利用滑动窗口提取目标区域，进行分类判断

NMS

输出检测结果

DPM（物体检测）

HOG的扩展，利用SVM训练得到物体的梯度

计算DPM特征图

计算响应图（root filter 和part filter）

Latent SVM分类器训练

检测识别

NMS（非极大值抑制算法） 为了消除多余的框，找到最佳的物体检测的位置。选取邻域分数最高的窗口，抑制分数低的窗口。

Soft-NMS（非极大值抑制算法）相邻区域内的检测框的分数进行调整而非彻底抑制，提高了高检索率情况下的准确率，在低检索率时仍能对物体检测性能有明显提升。

深度学习目标检测算法

two-stage

CNN卷积特征，端到端的目标检测（RPN网络）准确度高，速度相对one-stage慢，核心组件CNN网络，RPN网络。

CNN网络设计原则：从简单到复杂再到简单的卷积神经网，多尺度特征融合的网络，更轻量级的CNN网络。

one-stage

使用CNN卷积特征，直接回归物体类别概论和位置坐标值（无region proposal），准确度低，速度相对two-stage快。核心组件：CNN网络，回归网络。

SSD算法

直接回归目标类别和位置，不同尺度的特征图上预测，端到端训练，图像分辨率比较低，也能保证检测精度。

R-CNN

* 步骤
    * 1、找出可能存在的候选区域， 得出2000个候选区域，统一成大小
      * 通过选择性搜索（SS）算法，进行筛选 * 大小统一：通过crop +warp
    * 2、进行CNN提取特征，得出2000特征向量
      * 使用AlexNet的结构，输入要去227 * 227 * 提取出的特征会会保存在磁盘当中
      * [2000,  4096]
    * 3、**20个SVM进行分类，得到 2000 * 20的得分矩阵**
      * 20:代表你的目标检测当前数据集一共需要检测20种类别* 得出[2000, 20]的得分矩阵，打分
    * 4、进行NMS，提出候选框
      * 理解NMS的整个过程，* 假设现在滑动窗口有：A、B、C、D、E 5个候选框，
        - 第一轮：假设B是得分最高的，与B的IoU＞0.5删除。现在与B计算IoU，DE结果＞0.5，剔除DE，B作为一个预测结果
        - 第二轮：AC中，A的得分最高，与A计算IoU，C的结果＞0.5，剔除C，A作为一个结果
    * 5、修正bbox，对bbox做回归微调
      * 通过线性回归，特征值是候选区域，目标是对应的GT. * 建立回归方程学习参数。

* R-CNN的训练过程
    * 预训练+微调
    * 当前我们业务的数据集（正负样本标记）
    * 预训练：别人已经在大数据集上训练好的CNN网络参数模型，model1
    * 微调：利用标记好的样本，输入到model1当中，继续训练，得出model2（CNN网络）
    * 训练SVM分类器，每个类别训练一个分类器
    * 特征M * 4096 ， 一个SVM，4096 * 20
      * 正负样本标记结果（100个猫，900个非猫）
      * 总共得到4096 * 20的SVM权重
    * 回归训练：
      * 筛选候选框，只对那些跟ground truth的IoU超过某个阈值且IOU最大的region proposal回归
      * 训练得到回归的参数

R-CNN的总结
    * 缺点：
    * 训练速度慢
    * 占用磁盘空间大
    * 训练阶段多
    * 图片变形

YOLO

改进速度：YOLO
448 * 448
一个网络解决
输出 7 * 7 * 30
7 * 7=49个像素值，理解成49个单元格，49 * 2 = 98 个bbox框
30 = 两个bbox( 4 + 1 + 4 + 1) + 20（单元格的代表概率）
筛选一个bbox作为训练：
通过confidence进行筛选
confidence由网络输出，（进行标记）
每一个单元格：输出一个confidence高的bbox位置，一个概率大的类别
训练过程：所以如何判断一个grid cell中是否包含object呢？如果一个object的ground truth的中心点坐标在一个grid cell中，那么这个grid cell就是包含这个object，也就是说这个object的预测就由该grid cell负责。

目标检测数据集

pascal voc 数据集介绍

文件内容
Annotations: 图像中的目标标注信息xml格式
JPEGImages: *所有图片（VOC2007中总共有9963张，训练有5011张，测试有4952张）

以下是一个标准的物体检测标记结果格式，这就是用于训练的物体标记结果。其中有几个重点内容是后续在处理图像标记结果需要关注的。

size:
图片尺寸大小，宽、高、通道数
object:
name:被标记物体的名称
bndbox:标记物体的框大小

Original: https://blog.csdn.net/m0_64735594/article/details/123399886
Author: 艾卡西亚暴雨o
Title: 王越的目标检测学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682718/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CVPR2022新作：P图不会，深度学习来帮忙，基于GAN逆映射的图像编辑(中)

导语 GAN逆映射（GAN Inversion）实际上是逆向思维的极佳范式。简单来说，以往将编码z通过生成器合成图像；现在是求真实图像的编码，期望在特征空间的修改最终映射为对图像…

人工智能 2023年7月22日
0057
基于51单片机的心率脉搏检测报警系统Proteus仿真

资料编号：135 下面是相关功能视频演示： 135-基于51单片机的心率脉搏检测报警系统Proteus仿真（源码+仿真+全套资料）功能讲解：采用51单片机做的心率计设计，能实时…

人工智能 2023年6月26日
0067
Bert实现多标签文本分类

多标签文本分类 Bert简介两个任务 Bert是按照两个任务进行预训练的，分别是遮蔽语言任务(Masked Language Model)和句子预测任务(NextSentence…

人工智能 2023年5月27日
0072
核密度估计及其Python实践

一、参数估计简介很多情况下，我们只有有限的样本集，而类条件概率密度函数p(x|ωi)和先验概率P(ωi)是未知的，需要根据已有样本进行参数估计，然后将估计值当作真实值来使用。由给定…

人工智能 2023年7月15日
0051
神经网络参数初始化方法

神经网络训练的过程就是对网络权重不断学习更新的过程，网络初始权重对网络的训练非常重要。不合适的初始化方法可能会导致网络参数传播过程中产生梯度消失、梯度爆炸等现象。常用的初始化方法…

人工智能 2023年7月13日
0053
opencv3编程入门-毛星云

文章目录第1章邂逅OpenCV * 1.1 OpenCV周边概念认知 – 1.1.1 图像处理、计算机视觉与OpenCV 1.2 OpenCV基本架构分析第3章 …

人工智能 2023年6月19日
0089
sklearn的系统学习——随机森林分类器与随机森林回归器（含有python完整代码及案例）

目录集成算法 sklearn中的随机森林随机森林分类器随机性参数属性案例代码随机森林回归器案例代码在前面的内容中，已经对决策树解决分类回归问题分别做了阐述，今天走进…

人工智能 2023年6月16日
00152
毕业设计 :基于深度学习的人脸识别【全网最详细】 – opencv 卷积神经网络

文章目录 0 简介 1 人脸识别 – 常用实现技术 * 1.1 基于几何特征的人脸识别方法 1.2 初级神经网络方法。 1.3 深度学习方法。 2 人脸识别算法缺陷 3…

人工智能 2023年5月26日
0072
「认识AI：人工智能如何赋能商业」【13】机器学习能够解决的不同问题

作者 | Harper 审核 | gongyouliu 编辑 | auroral-L 机器学习能够解决的不同问题本期内容给大家带来的内容是来自《认识AI，人工智能如何赋能商业》，…

人工智能 2023年6月2日
00102
Python实现逻辑回归模型教程

理解多个预测变量与连续响应变量之间关系通常适用线性回归，但当响应变量为类别变量时需要适用逻辑回归。逻辑回归是尝试从数据集中把W观测记录分为不同类别的分类算法。常见的分类回归场景有…

人工智能 2023年6月15日
0048
C语言什么时候用 “-＞“，什么时候用 “.“

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0064
基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述——阅读曹家乐,李亚利,孙汉卿,谢今,黄凯奇,庞彦伟(天津大学, 天津 300072;清华大学, 北京 100084;重庆大学, 重庆 4000…

人工智能 2023年6月28日
0073
【数值预测案例】(5) LSTM 时间序列气温数据预测，附TensorFlow完整代码

大家好，今天和各位分享一下如何使用循环神经网络 LSTM 完成有多个特征的气温预测。上一节中我介绍了 LSTM 的单个特征的预测，感兴趣的可以看一下：https://blog.cs…

人工智能 2023年6月16日
00245
HCIP之BGP的路由聚合

BGP的路由聚合（类似路由汇总）自动聚合手工聚合 BGP的路由聚合（类似路由汇总） 1.抓取流量 [R1]ip ip-prefix aa permit 172.16.0.0 2…

人工智能 2023年6月27日
0049
Python：图像处理——使用Pillow对图像做基本变化

目录一、图像处理 1. 灰度图像 2. 二值图像 3. 索引图像 4. RGB彩色图像 5. 图像存储方式二、图像处理基础操作 1.查看图片属性 2. 显示RGB不同通道 3….

人工智能 2023年6月17日
0052
DBSCAN原理及实现

DBSCAN 01 DBSCAN的原理从样本中选择一点，给定半径 epsilon和圆内的最小近邻点数 min_points 如果该点满足在其半径为 epsilon的邻域圆内至少有…

人工智能 2023年6月19日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30