AI遮天传 DL-深度学习在计算机视觉中的应用

2023年7月26日下午4:19 • 人工智能 • 阅读 47

本文只做一些在计算机视觉中应用的简单介绍，童叟无欺。

一、图像分类

a. 通用图像分类

将不同图片按照内容进行分类

b. 特定图像分类

特定识别人脸、某种动物、汽车等

1.1 人脸验证

下面是两种典型的人脸识别损失函数

1.1.1 DeepID2

上图左侧两个人比较像，都是侧脸，所以箭头短一点，下方一个是侧脸一个是正脸，而且光照也不相同，所以箭头长一点。我们希望经过训练后，上方的两张图片离得远一点(因为这是两个不同的人)，而下方的图片近一些(同一个人)。

目标：当i，j身份相同时，
足够小，否则其中
损失：
（一个minibatch至少包含2个样本，为标签。）

1.1.2 FaceNet

随计算一个人得图片做为Anchor，然后选择和他同一个人的图片和不同的人的图片做训练。其它同上。

目标：
其中 a>0
损失：
（一个minibatch至少包含3个样本）

1.1.3 人脸验证的其它损失函数

SphereFace: Deep Hypersphere Embedding for Face Recognition, CVPR 2017
NormFace: L2 Hypersphere Embedding for Face Verification, ACM MM 2017
ArcFace: Additive Angular Margin Loss for Deep Face Recognition, CVPR 2019

二、物体检测

任务：找出图片中的物体和每个物体所在的位置。

怎么做这个任务？

找到包含物体的区域，用一个多分类器进行物体分类

怎么知道哪些区域包含物体？

找到很多候选区域，用一个二分类器进行区域分。

2.1 候选区域(Region Proposals)

指可能包含物体的区域、感兴趣区域（Region of interest, ROI）。

挑选候选区域的多种选择

2.1.1 (C+1)-类的分类

上面提到简单检测物体的思路：

找到很多候选区域，用一个二分类器进行区域分类。
找到包含物体的区域，用一个多分类器(Softmax、SVM等)进行物体分类。

另外一种方法：

设有C个类别，加一个”背景”类
对每个区域用一个多分类器进行(C+1)-类的分类
对每个区域用(C+1)个二分类器进行分类

2.1.2 R-CNN

把每个候选框的图片剪贴出来，变成相同尺寸，经过一个同样的CNN进行一个二分类。这里用的上面提到的C+1类方法。SVM解决二分类问题。至于Bbox reg 用于解决回归问题，坐标定位。

步骤：

训练(或下载)ImageNet分类模型(如AlexNet)
针对检测微调(fine-tune)
提取特征
每个类别训练一个二分类SVM来为候选区域的特征进行分类
对每个类别，训练一个线性回归模型，将特征映射到一组偏移量，用以校正那些稍微有些误差的候选区域

R-CNN有什么问题吗？

测试慢

需要对每个ROI跑一个完整的CNN前向过程。

非”端到端”过程

找候选区域， SVM和回归器基于CNN的特征进行处理。
SVM和回归器不能更新CNN的特征。

更好的想法？

先在整张图上跑一个CNN的前向过程，然后将每个ROI 映射到特征图上。

2.1.3 Fast R-CNN

即先把整张图做一个神经网络，先把特征取好，想要什么特征就取什么特征。

感兴趣区域池化(RoI Pooling)

可见上面提取的图片大小是不同的，这里做一下池化。

结果：

Fast R-CNN问题：

R-CNN和Fast R-CNN它们的那些”框”来自于计算机视觉上的一些方法，万一不准怎么办？

2.1.4 Faster R-CNN

在最后一个卷积层后插入候选区域网络(Region Proposal Network ,RPN)

RPN用来直接产生候选区域; 不需要额外的候选框。

RPN之后, 使用RoI Pooling以及分类器、回归器，类似Fast R-CNN。

通过Fast R-CNN的一个神经网络得到feature map，在最后一个卷积层后插入了RPN，会输出一些ROI。用神经网络的特征预测哪些区域有误。前面的方法用其它方法预测候选区域不一定准，而且是在Deep Learing兴起之前的一些方法。

候选区域网络 (RPN)

在feature map每个点上做两个预测，在每个点提出k个框(不同大小形状，k常设置为9，3种不同的形状*3种不同的大小如上右图)，把这些框经过一个全连接层得到一个256维的向量去做两个任务1.识别物体(2分类，2k个) 2. 定位(4k个)。

Faster R-CNN 结果

2.1.5 两阶段与单阶段

上面介绍的三个模型有一个共同点，需要一些候选框，再对每个候选框进行处理。我们把这一类的方法称之为：两阶段方法。

两阶段方法较慢，现在人们已经在研发更快的方法：单阶段模型，它不再去预测哪个框是更合适的，所以更快，但精度会有些问题。

单阶段如何实现呢？

2.1.6 YOLO: You only look at once

将图像划分为S×S个网格；

每个网格预测B个矩形框, 每个框的置信度(与任意一个Ground truth框的IOU), 以及C个类别的概率。

这些预测结果可整合为大小为 S ×S ×(B ∗5 + C) 的张量

效果对比

https://github.com/yehengchen/Object-Detection-and-Tracking/blob/master/Twostage%20vs%20One-stage%20Detectors.md

在日常生活中，特定的物体检测应用更加广泛一些

三、图像分割

给定一张图片，对每个像素进行分类。

通常的一些卷积方法会使输出变小，所以我们就需要一些方法来增他特征图。

如何增大特征图？

上采样 (采样和插值)
对于一张输入图片，将其放大到指定尺寸，并用插值方法计算每个像素的值，例如双线性插值。
转置卷积 (不应称为反卷积deconvolution)
http://deeplearning.net/software/theano/tutorial/conv_arithmetic.html

3.1 全卷积网络(Fully Convolutional Networks)

一种典型图片分割网络。

对于一个输入，经过一些卷积后图片变得很小，进行上采样(此时尺寸和刚输入时相同)。

四、图像风格转换

主要的应用为图像分类、物体检测、图像分割，至于图像风格转换比较有趣，因此也分享一下。

Original: https://blog.csdn.net/suic009/article/details/126048288
Author: 老师我作业忘带了
Title: AI遮天传 DL-深度学习在计算机视觉中的应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/717110/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【魔改YOLOv5-6.x（上）】结合轻量化网络Shufflenetv2、Mobilenetv3和Ghostnet

另外，本文所使用的实验环境为1个GTX 1080 GPU，数据集为VOC2007，超参数为hyp.scratch-low.yaml，训练200个epoch，其他参数均为源码中默认设…

人工智能 2023年7月12日
0087
transformer序列预测示例

本文参考：【python量化】将Transformer模型用于股票价格预测_蚂蚁爱Python的博客-CSDN博客_transformer 股票一、Transformer初步架…

人工智能 2023年6月16日
00102
智能座舱HMI自动化测试之语音交互测试

随着多屏交互、语音识别、手势控制、增强现实、云交互等新技术的出现，智能座舱的功能/交互越来越丰富和复杂。让我们来谈谈如何进行语音交互测试。 [En] With the emerge…

人工智能 2023年5月27日
0078
【数据分析系列】Python数据预处理总结篇

目录 1.缺失值处理 * 1.1删除缺失值dropna 1.2填充/替换缺失数据 – fillna、replace 1.3缺失值插补(mean,median,mode,…

人工智能 2023年7月9日
0079
Session | 基于Session改造oa项目的登录功能

目录一：总结域对象二：基于Session改造oa项目的登录功能三：oa项目的安全退出系统一：总结域对象（1）request（对应的类名：HttpServletReques…

人工智能 2023年7月29日
0055
Matlab图像处理（入门笔记）

注：某些函数有些过时 1.1 矩阵矩阵中元素取值只有0、1 0表示黑色，1表示白色黑白图像又叫二值图或二进制图 I = [ 1 1 0 0 1 1 1 0 1 ] I= \le…

人工智能 2023年6月18日
0080
视觉机器学习20讲-MATLAB源码示例（1）-Kmeans聚类算法

视觉机器学习20讲-MATLAB源码示例（1）-Kmeans聚类算法 1. K-means聚类算法 2. Matlab仿真 3. 仿真结果 4. 小结 ; 1. K-means聚类…

人工智能 2023年6月2日
0067
ros入门（六）–imu融合里程计robot_pose_ekf扩展卡尔曼融合包

回答1：是一个用于在系统中实现机器人姿态。使用方法如下： 1. 安装该：在终端中输入 sudo apt-get install</p> <p>（其中…

人工智能 2023年6月23日
0074
【一文足以系列】ORB SLAM2完整详细算法流程

目录算法目的算法应用场景算法优点相关概念点内涵算法算法实现 * tracking线程 – 步骤单目相机初始化 + 成功条件单目相机初始化器初始化后续 …

人工智能 2023年6月23日
0093
Pycharm快速安装OpenCV

由于pycharm自带的pip源网站是国外网址，这就导致了许多国内用户在pycharm中下载其他软件包速度极慢，有时还会跳出下载失败的界面。因此我们可以将pycharm中的pip…

人工智能 2023年7月31日
0053
Python中多线程的简单使用

from threading import Timer import time def run1(): print(1) print(2) print(3) def run2():…

人工智能 2023年6月6日
0068
计算机视觉快速入门一 —— 图像基本操作(二）

计算机视觉快速入门一 —— 图像基本操作(二） 1.灰度图 img_gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) import cv2 #…

人工智能 2023年7月5日
0063
【图像超分辨（SR）】一文通俗解释blind SR（盲超分）和non-blind SR（非盲超分）的区别

blind和non-blind的区别用一句话来概括就是：是否假设退化核已知并将其作用于图像来做网络训练。 non-blind Super Resolution：这类方法在训练过程…

人工智能 2023年6月15日
0069
动漫风格化—AnimeGANv2

animegan2_face2paint_v2bryandlee/naver-webtoon-faces AnimeGANv2 项目 [Project]AnimeGANv2 ; 摘…

人工智能 2023年5月28日
00123
python 爬取七普人口并展示人口区间的概率分布

爬虫常用的库：requests,beautifulsoup,urllib2,scrapy等，本次主要用requests库以及正则表达式提取关键信息。正态分布有一个非常重要的性质：…

人工智能 2023年7月16日
0055
python实现数值型变量分段统计

实现功能：对年龄（age）这一数值型变量进行分段统计，统计每一区间（年龄段）患者人数。实现代码： import numpy as np import pandas as pd …

人工智能 2023年7月7日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31