图像语义分割和目标检测（上）

2023年7月10日上午10:21 • 人工智能 • 阅读 58

语义分割是对图像在像素级别上进行分类的方法，在一张图像中，属于同一类的像素点都要被预测为相同的类，因此语义分割是从像素级别来理解图像。但是需要正确区分语义分割和实例分割，虽然他们在名称上很相似，但是他们属于不同的计算机视觉任务。例如，一张照片中有多个人，针对语义分割任务，只需将所有人的像素都归为一类即可，但是针对实例分割任务，则需要将不同人的像素归为不同的类。简单来说，实例分割会比语义分割所做的工作更近一步。

随着深度学习在计算机视觉领域的发展，提出了多种基于深度学习方法的图像语义分割网络，如FCN、U-Net、SegNet、DeepLab等。下面对FCN、U-Net、SegNet等网络结构进行一些简单的介绍。

1.FCN

FCN语义分割网络是在图像语义分割文章Fully Convolutional Networks for Semantic Segmentation中提出的全卷积网络，该文章是基于深度网络进行图像语义分割的开山之作，而且是全卷积的网络，可以输入任意图像尺寸。FCN的主要思想是：

（1）对于一般的CNN图像分类网络，如VGG和ResNet，在网络的最后是通过连接层，并经过softmax后进行分类。但这只能表示整个图片的类别，不能表示每个像素点的类别，所以这种全连接方法不适用于图像分割。因此FCN提出把网络最后几个全连接层换成卷积操作，已获得和输入图像尺寸相同的特征映射，然后通过softmax获得每个像素点的分类信息，既可以实现基于像素点分类的图像分割。

（2）端到端像素级语义分割任务，需要输出分类结果尺寸和输入图像尺寸一致，而基于卷积+池化的网络结构，或缩小图片尺寸。因此FCN引入反卷积（deconvolution，和转置卷积的功能一致，也可成为转置卷积）操作，对缩小后的特征映射进行上采样，从而满足像素级的图像分割要求。

（3）为了更有效地利用特征映射信息，FCN提出一种跨层连接结构，将低层和高层的目标位置信息的特征映射进行融合，即将低层目标位置信息强但语义信息弱的特征映射与高层目标位置信息弱但语义信息强的特征映射进行融合，一次来提升网络对图像进行语义分割的性能。

2.U-Net

U-Net是原作者参加ISBI Challenge提出的一种分割网络，能够适应较小的训练集（大约30张图片）。其设计思想是基于FCN网络，在整个网络中仅有卷积层，没有全连接层。因为训练数据较少，故采用大量弹性形变的方式增强数据，以让模型更好地学习形变不变性，这种增强方式对于医学图像来说很重要，并在不同的特征融合方式上，相较于FCN式的逐点相加，U-Net则采用在通道维度上进行拼接融合。

3.SegNet

SegNet的网络结构借鉴了自编码网络的思想，网络具有编码器网络和相应的解码器网络，最后通过softmax分类器对每个像素点进行分类。

网络在编码器处，执行卷积核最大值池化等操作，并且会在进行2*2最大值池化时，存储相应的最大值池化索引。在解码器部分，执行上采样和卷积，并且在上采样期间，会调用相应编码器层的最大值池化索引来帮助上采样操作，最后，每个像素通过softmax分类器进行预测类别。

下面来介绍常用的目标检测网络。

目标检测是很多计算机视觉应用的基础，如实例分割、人体关键点提取、人脸识别等，目标检测任务可以认为是目标分类和定位两个任务的结合。目标检测主要关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息。基于深度学习的目标检测方法主要有两类，一类是两阶段检测模型，如R-CNN、Fast R-CNN、Faster R-CNN等模型，他们将检测问题划分为两个阶段，首先产生候选区域，然后对候选区域分类并对目标位置进行精修；另一类是但阶段检测模型，如YOLO系列、SSD、Retina-Net等模型，他们不需要产生候选区域阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此他们的检测速度更快。

1.R-CNN

R-CNN是将CNN方法引入目标检测领域的开山之作，大大提高了目标检测效果，并且改变了目标检测领域的主要研究思路。

R-CNN的工作流程主要有4个步骤。

（1）候选区域生成：每张图像会采用Selective Search方法，生成1000~2000个候选区域。

（2）特征提取：针对每个生成的候选区域，归一化为同一尺寸，使用深度卷积网络（CNN）提取候选区域的特征。

（3）类别判断：将CNN特征送入每一类SVM分类器，判别候选区域是否属于该类。

（4）位置精修：使用回归器精细修正候选框位置。

2.Faster R-CNN

Faster R-CNN是两阶段方法的奠基性工作，提出的RPN（Region Proposal Networks）网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。其具体操作方法是将RPN放在最后一个卷积层之后，RPN直接训练得到候选区域。RPN网络的特点在于通过滑动窗口的方式实现候选框的提取，在特征映射上滑动窗口，每个滑动窗口位置生成9个不同尺度、不同宽高的候选窗口，提取对应9个候选窗口的特征，用于目标分类和边框回归。目标分类只需要区分候选框内特征为前景或者北京，与Fast R-CNN类似，边框回归确定更精确的目标位置。

3.YOLO

YOLO（You Only Look）是经典的但阶段目标检测算法，将目标区域预测和目标类别预测整合于单个神经网络模型中，实在在准确率较高的情况下快速检测与识别目标。YOLO的主要优点是检测速度快、全局处理使得北京错误相对较少、泛化性能好，但是YOLO由于其设计思想的局限，所以会在小目标检测时有些困难。

YOLO的工作流程如下：首先将图像划分为S*S个网格，然后再每个网格上通过深度卷积网络给出其物体所属的类别判断（图像使用不同的颜色表示），并在每个网格上生成B个边框（box），每个边框预测5个回归值，其中前4个值表示边框位置，第五个至表示这个边框含有物体的概率和位置的准确程度。最后经过NMS（Non-Maximum Suppression，非极大抑制）过滤得到最后的预测框。

这怒地图像的语义分割网络，下面将介绍Pytorch中已经与训练好网络的使用方式，然后使用VOC2012数据集训练一个FCN语义分割网络。

在pytorch提供的已与训练好的图像语义分割网络中，有连个你与训练好的网络，分别是FCN ResNet101系列和DeepLabV3 ResNet101系列。针对语义分割的分割器，需要输入图像使用了相同的预处理方式，即先将每张图像的像素值预处理到0~1之间，然后对图像进行标准化处理，使用的均值为[0.485,0.456,0.406],标准差为[0.229,0.224,0.225]

在Pascal VOC（Pattern analysis statistical modelling and computational learning,Visual Object Class）数据集中存在20个类别和1个背景类，与训练好的模型在COCO train2017的子集上进行了与训练。这20个类别分别分为4个大类，分别为人、动物（鸟、猫、牛、马、羊）、交通工具（飞机、自行车、船、大巴、轿车、摩托车、火车）、室内物品（瓶子、椅子、餐桌、盆栽、沙发、显示器）等。已经预训练好的可供使用的网络模型如下所示：

网络类描述segmentation.fcn_resnet50()具有ResNet-50结构的全卷积网络模型sogmentation.fcn_resnet101()具有ResNet-101结构的全卷积网络模型segmentation.deeplabv3_resnet50()具有ResNet-50结构的DeepLabV3模型segmentation.deeplabv3_resnet101()具有ResNet-101结构的DeepLabV3模型

下面以segmentation.fcn_resnet101()为例，介绍如何使用这些已经与训练好的网络结构进行图像的语义分割任务。首先导入需要使用的库和模块。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import PIL
import torch
from torchvision import transforms
import torchvision

下面从torchvision库的models模块下导入与训练好的segmentation.fcn_resnet101()网络，并且设置参数pretrained=True,程序如下所示：

下面从文件中读取一张照片，并对其进行预测，程序如下：

image=PIL.Image.open("data/chap10/照片1.jpg")
image_transf=transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485,0.456,0.406],
                         std=[0.229,0.224,0.225])
])
image_tensor=image_transf(image).unsqueeze(0)
output=model(image_tensor)["out"]
outputarg=torch.argmax(output.squeeze(),dim=0).numpy()
print(outputarg)

输出结果如下：

上述程序对一整副图像的预测结果，只需要使用网络输出的”out”对应的预测矩阵即可，该输出是一个三维矩阵，该三维矩阵可以使用torch.argmax()将其转化为二维矩阵，并且二维矩阵中的每个取值均代表图像中对应位置像素点的预测类别。

为了更直观地查看网络的图像分割结果，可以将像素值的每个预测类别分别编码为不同的颜色，然后将图像可视化，用于直观地观察图像的结果。

定义一个编码颜色的函数decode_segmaps()，程序如下所示：

def decode_segmaps(image,label_colors,nc=21):
    r=np.zeros_like(image).astype(np.unit8)
    g=np.zeros_like(image).astype(np.unit8)
    b=np.zeros_like(image).astype(np.unit8)
    for cla in range(0,nc):
        idx=image==cla
        r[idx]=label_colors[cla,0]
        g[idx]=label_colors[cla,1]
        b[idx]=label_colors[cla,2]
    rgbimage=np.stack([r,g,b],axis=2)
    return rgbimage

该函数通过label_colors来指定所有的颜色编码。然后对图像image中的不同像素点取值并定义一种颜色，nc参数指定数据的类别。下面对图像分割的结果进行可视化，程序如下所示：

label_colors=np.array([(0,0,0),(128,0,0),(0,128,0),(128,128,0),
                      (0,0,128),(128,0,128),(0,128,128),(128,128,128),
                      (64,0,0),(192,0,0),(64,128,0),(192,128,0),(64,0,128),
                      (192,0,128),(64,128,128),(192,128,128),(0,64,0),(128,64,0),
                      (0,192,0),(128,192,0),(0,64,128)])
outputrgb=decode_segmaps(outputarg,label_colors)
plt.figure(figsize=(20,8))
plt.subplot(1,2,1)
plt.imshow(image)
plt.axis("off")
plt.subplot(1,2,2)
plt.imshow(outputarg)
plt.axis("off")
plt.subplots_adjust(wspace=0.05)
plt.show()

程序输出结果如下：

下面展示一张图像中有不同目标实例的图像分割结果，程序如下所示：

image=PIL.Image.open("data/chap10/2012_004308.jpg")
image_tensor=image_transf(image).unsqueeze(0)
output=model(image_tensor)["out"]
outputarg=torch.argmax(output.squeeze(),dim=0).numpy()
outputrgb=decode_segmaps(outputarg,label_colors)
plt.figure(figsize=(20,8))
plt.subplot(1,2,1)
plt.imshow(image)
plt.axis("off")
plt.subplot(1,2,2)
plt.imshow(outputrgb)
plt.axis("off")
plt.subplots_adjust(wspace=0.05)
plt.show()

输出结果如下：

Original: https://blog.csdn.net/mez_Blog/article/details/119949079
Author: mez_Blog
Title: 图像语义分割和目标检测（上）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682601/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【深度学习】浅显易懂的残差网络（Residual Network）

残差网络介绍随着网络的层数变深，作者发现网络出现退化现象，训练集的准确率不增反降。退化现象简单的说就是浅层网络的表现要优于深层网络，因此，如果我们可以把浅层网络的特征传递到深层网…

人工智能 2023年7月13日
0061
【Linux修炼】8.进程概念

进程概念本节目标 1. 进程概念 * 1.1 进程的概念 1.2 描述进程—PCB 2.进程的基本操作 * 2.1 查看进程 2.2 结束进程 2.3 查看进程的另一种方式（了解…

人工智能 2023年6月29日
00104
【ICCV2021】TOOD: Task-aligned One-stage Object Detection【待完善。。。】

太长不看版通俗来说设计了一种新的检测头加入了新的标签分配和新的loss在coco数据集上单模型取得了不错的效果。存在问题单阶段目标检测通常是通过优化两个子任务来实现的： &a…

人工智能 2023年7月12日
0052
随机森林模型及案例（Python）

1 集成模型简介 1.1 Bagging算法简介 1.2 Boosting算法简介 2 随机森林模型基本原理 3 使用sklearn实现随机森林模型 4 案例：股票涨跌预测模型 4…

人工智能 2023年6月25日
00107
Pytorch 带你一行一行分析训练脚本

目录 1.引言 2.数据集处理部分 2.引入网络模型、损失函数、优化器 3.训练过程 4.验证过程 1.引言在使用pytorch进行深度学习模型训练时，训练脚本是不可或缺的一部分…

人工智能 2023年7月21日
0073
【深入思考】卷积网络（CNN）的平移不变性

在这个Vision Transformer睥睨天下的时代，CNN一时式微，作为计算机视觉领域的前任霸主，少不得被拿来对比。相信大家在看论文的时候，会发现引言里面常常会阐述ViT与C…

人工智能 2023年5月26日
0096
nsga2多目标优化之核心知识点（快速非支配排序、拥挤距离、精英选择策略）详解（python实现）

文章目录一、多目标优化算法简介 * 1.基本知识二、NSGA2算法 * 1.基本原理 2.快速非支配排序 – 2.1快速非支配排序 python实现 3.拥挤距离 …

人工智能 2023年7月5日
00150
实现基于区域的图像分割方法-区域生长法

目录基于区域的图像分割方法区域生长法算法步骤区域分裂与合并阈值分割区域合并实现区域生长法代码分割结果基于区域的图像分割方法基于区域的分割是以直接寻找区域为基础…

人工智能 2023年6月24日
0093
python画散点图

文章目录前言一、散点图函数二、函数参数介绍三、代码实例总结前言最近在搞聚类算法，所以难免会用到一些散点图的用法，总结一下，方便以后参考。一、散点图函数首先调用一下…

人工智能 2023年7月4日
0069
OpenCV 直方图均衡化

文章目录直方图均衡化介绍 * 图像的直方图是什么? – 更形象解释什么是直方图均衡化？直方图均衡化是如何实现的？直方图均衡化的作用直方图均衡化步骤相关API…

人工智能 2023年7月18日
0089
【笔记】PyTorch快速入门：训练，保存和加载模型

优化模型参数有了模型，接下来要进行训练、验证和测试。首先要加载数据，建立模型 import torch from torch import nn from torch.util…

人工智能 2023年6月4日
00103
Python 中的 PIL 库

一、简介 Pillow 是 Python 中较为基础的图像处理库，主要用于图像的基本处理，比如裁剪图像、调整图像大小和图像颜色处理等。与 Pillow 相比，OpenCV 和 S…

人工智能 2023年6月20日
0060
Python_Dataframe_去除重复数据

去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现，需要利用Pandas包。其中： 1、subset=[] 表示整个dataframe基于[]内选定…

人工智能 2023年6月19日
0094
图解Pandas，创建数据对象 | 图文第2篇

01写在前面大家好，我是阳哥，欢迎来到「Python数据之道」。本次是《图解Pandas》系列图文内容的第 02 篇，主要是对Pandas中 创&amp…

人工智能 2023年6月11日
0099
逻辑回归（Logistic Regression）原理及其应用

目录第一章：逻辑回归的应用场景第二章：逻辑回归的原理 1.输入 2.Sigmoid函数 3.损失函数 4.优化损失采用梯度下降：第三章逻辑回归应用案例 1.数据集 2.具…

人工智能 2023年7月26日
0051
2022世界杯感悟

世界杯转眼之间已经到了尾声，总共48场比赛，也只剩下了最后的两场。都说这一届是诸神黄昏，再过三天，也就到了真正封神的时候。回想第一次看世界杯，恰逢2002年中国队首次挤进世界杯…

人工智能 2023年7月30日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

图像语义分割和目标检测（上）

大家都在看