语义分割：最简单的代码实现！

2023年6月16日上午1:31 • 人工智能 • 阅读 78

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“

重磅干货，第一时间送达

分割对于图像解释任务至关重要，那就不要落后于流行趋势，让我们来实施它，我们很快就会成为专业人士！

什么是语义分割？

它描述了将图像的每个像素与类别标签（例如花、人、道路、天空、海洋或汽车）相关联的过程，即我们要输入图像，然后为该图像中的每个像素输出一个类别决策。例如下面这个输入图像，这是一只坐在床上的狗：

因此，在输出中，我们希望为每个像素定义一组类别，即狗、床、后面的桌子和橱柜。在语义分割之后，图像看起来像这样：

关于语义分割的一件有趣的事情是它不区分实例，即如果此图像中有两只狗，它们将仅被描述为一个标签，即 dog ，而不是 dog1 和 dog2。

语义分割一般用于：

自动驾驶
工业检验
卫星图像中值得注意的区域分类
医学影像监查

语义分割实现：

第一种方法是滑动窗口，我们将输入图像分解成许多小的局部图像，但是这种方法在计算上会很昂贵。所以，我们在实践中并没有真正使用这个方法。
另一种方法是完全卷积网络，其中网络有一整堆卷积层，没有完全连接的层，从而保留了输入的空间大小，这在计算上也是极其昂贵的。
第三个也是最好的一个方法，那就是对图像进行上采样和下采样。因此，我们不需要对图像的完整空间分辨率进行所有卷积，我们可能会在原始分辨率下遍历少量卷积层，然后对该特征图进行下采样，然后对其进行上采样。
在这里，我们只想在网络的后半部分提高我们预测的空间分辨率，以便我们的输出图像现在可以与我们的输入图像具有相同的维度。它的计算效率要高得多，因为我们可以使网络非常深，并以更便宜的空间分辨率运行。

让我们在代码中实现这一点：

导入处理所需的必要库，即
Pytorch 的重要功能，例如数据加载器、变量、转换和优化器相关函数。
导入 VOC12 和 cityscapes 的数据集类，从 transform.py 文件导入 Relabel、ToLabel 和 Colorize 类，从 iouEval.py 文件中导入 iouEval 类。

#SSCV IIITH 2K19
import random
import time
import numpy as np
import torch
print(torch.__version__)
import math
from PIL import Image, ImageOps
from torch.optim import SGD, Adam, lr_scheduler
from torch.autograd import Variable
from torch.utils.data import DataLoader
from torchvision.transforms import  Resize
from torchvision.transforms import ToTensor, ToPILImage
from dataset import cityscapes
from dataset import idd_lite
import sys
print(sys.executable)
from transform import Relabel, ToLabel, Colorize
import matplotlib
from matplotlib import pyplot as plt
%matplotlib inline
import importlib
from iouEval import iouEval, getColorEntry #importing iouEval class from the iouEval.py file
from shutil import copyfile

*定义几个全局参数：

NUM_CHANNELS = 3 #RGB Images
NUM_CLASSES = 8 #IDD Lite has 8 labels or Level1 hierarchy of labels
USE_CUDA = torch.cuda.is_available()
IMAGE_HEIGHT = 160
DATA_ROOT = '/tmp/school/6-segmentation/user/1/6-segmentation/idd1_lite'
BATCH_SIZE = 2
NUM_WORKERS = 4
NUM_EPOCHS = 100
ENCODER_ONLY = True
device = torch.device("cuda" )
#device = 'cuda'
color_transform = Colorize(NUM_CLASSES)
image_transform = ToPILImage()
IOUTRAIN = False
IOUVAL = True

增强，即对图像和目标执行随机增强的不同功能：

class MyCoTransform(object):
 def __init__(self, enc, augment=True, height=160):
 self.enc=enc
 self.augment = augment
 self.height = height
 pass
 def __call__(self, input, target):
 # Resizing data to required size
 input = Resize((self.height,320), Image.BILINEAR)(input)
 target = Resize((self.height,320), Image.NEAREST)(target)
if(self.augment):
 # Random horizontal flip
 hflip = random.random()
 if (hflip < 0.5):
 input = input.transpose(Image.FLIP_LEFT_RIGHT)
 target = target.transpose(Image.FLIP_LEFT_RIGHT)

 #Random translation 0–2 pixels (fill rest with padding)
 transX = random.randint(0, 2)
 transY = random.randint(0, 2)
input = ImageOps.expand(input, border=(transX,transY,0,0), fill=0)
 target = ImageOps.expand(target, border=(transX,transY,0,0), fill=7) #pad label filling with 7
 input = input.crop((0, 0, input.size[0]-transX, input.size[1]-transY))
 target = target.crop((0, 0, target.size[0]-transX, target.size[1]-transY))
input = ToTensor()(input)

 target = ToLabel()(target)

 target = Relabel(255,7)(target)
 return input, target

加载数据 ：我们将遵循 pytorch 推荐的语义，并使用数据加载器加载数据。

best_acc = 0
co_transform = MyCoTransform(ENCODER_ONLY, augment=True, height=IMAGE_HEIGHT)
co_transform_val = MyCoTransform(ENCODER_ONLY, augment=False, height=IMAGE_HEIGHT)
#train data
dataset_train = idd_lite(DATA_ROOT, co_transform, 'train')
print(len(dataset_train))
#test data
dataset_val = idd_lite(DATA_ROOT, co_transform_val, 'val')
print(len(dataset_val))
loader_train = DataLoader(dataset_train, num_workers=NUM_WORKERS, batch_size=BATCH_SIZE, shuffle=True)
loader_val = DataLoader(dataset_val, num_workers=NUM_WORKERS, batch_size=BATCH_SIZE, shuffle=False)

既然是分类问题，我们就使用交叉熵损失，但为什么呢？

答案是负对数，在较小值的时候效果不好，并且在较大值的时候效果也不好。因为我们将损失函数加到所有正确的类别上，实际发生的情况是，每当网络为正确的类别，分配高置信度时，损失就低，但是当网络为正确的类别时分配低置信度，损失就高。

criterion = torch.nn.CrossEntropyLoss()

*现在让我们加载模型并优化它！

model_file = importlib.import_module('erfnet')
model = model_file.Net(NUM_CLASSES).to(device)
optimizer = Adam(model.parameters(), 5e-4, (0.9, 0.999), eps=1e-08, weight_decay=1e-4)
start_epoch = 1

*所以，编码的最终本质就是训练！

import os
steps_loss = 50
my_start_time = time.time()
for epoch in range(start_epoch, NUM_EPOCHS+1):
 print(" — — — TRAINING — EPOCH", epoch, " — — -")
epoch_loss = []
 time_train = []
doIouTrain = IOUTRAIN
 doIouVal = IOUVAL
if (doIouTrain):
 iouEvalTrain = iouEval(NUM_CLASSES)
model.train()
 for step, (images, labels) in enumerate(loader_train):
start_time = time.time()
 inputs = images.to(device)
 targets = labels.to(device)

 outputs = model(inputs, only_encode=ENCODER_ONLY)
zero the parameter gradients
 optimizer.zero_grad()

 # forward + backward + optimize
 loss = criterion(outputs, targets[:, 0])
 loss.backward()
 optimizer.step()
epoch_loss.append(loss.item())
 time_train.append(time.time() — start_time)
if (doIouTrain):
 #start_time_iou = time.time()
 iouEvalTrain.addBatch(outputs.max(1)[1].unsqueeze(1).data, targets.data)
 #print ("Time to add confusion matrix: ", time.time() — start_time_iou)
print statistics
 if steps_loss > 0 and step % steps_loss == 0:
 average = sum(epoch_loss) / len(epoch_loss)
 print('loss: {average:0.4} (epoch: {epoch}, step: {step})', "// Avg time/img: %.4f s" % (sum(time_train) / len(time_train) / BATCH_SIZE))
average_epoch_loss_train = sum(epoch_loss) / len(epoch_loss)
iouTrain = 0
 if (doIouTrain):
 iouTrain, iou_classes = iouEvalTrain.getIoU()
 iouStr = getColorEntry(iouTrain)+'{:0.2f}'.format(iouTrain*100) + '\033[0m'
 print ("EPOCH IoU on TRAIN set: ", iouStr, "%")
my_end_time = time.time()
print(my_end_time — my_start_time)

在训练了 100 个 epoch 之后，我们会看到：

*验证：

#Validate on val images after each epoch of training
print(" — — — VALIDATING — EPOCH", epoch, " — — -")
model.eval()
epoch_loss_val = []
time_val = []
if (doIouVal):
 iouEvalVal = iouEval(NUM_CLASSES)
for step, (images, labels) in enumerate(loader_val):
 start_time = time.time()
inputs = images.to(device)
 targets = labels.to(device)

 with torch.no_grad():
 outputs = model(inputs, only_encode=ENCODER_ONLY)
 #outputs = model(inputs)
 loss = criterion(outputs, targets[:, 0])
 epoch_loss_val.append(loss.item())
 time_val.append(time.time() — start_time)
#Add batch to calculate TP, FP and FN for iou estimation
 if (doIouVal):
 #start_time_iou = time.time()
 iouEvalVal.addBatch(outputs.max(1)[1].unsqueeze(1).data, targets.data)
 #print ("Time to add confusion matrix: ", time.time() — start_time_iou)

 if steps_loss > 0 and step % steps_loss == 0:
 average = sum(epoch_loss_val) / len(epoch_loss_val)
 print('VAL loss: {average:0.4} (epoch: {epoch}, step: {step})',
 "// Avg time/img: %.4f s" % (sum(time_val) / len(time_val) / BATCH_SIZE))
average_epoch_loss_val = sum(epoch_loss_val) / len(epoch_loss_val)
iouVal = 0
if (doIouVal):
iouVal, iou_classes = iouEvalVal.getIoU()
 print(iou_classes)
 iouStr = getColorEntry(iouVal)+'{:0.2f}'.format(iouVal*100) + '\033[0m'
 print ("EPOCH IoU on VAL set: ", iouStr, "%")

*可视化输出：

Qualitative Analysis
dataiter = iter(loader_val)
images, labels = dataiter.next()
if USE_CUDA:
 images = images.to(device)
inputs = images.to(device)
with torch.no_grad():
 outputs = model(inputs, only_encode=ENCODER_ONLY)
label = outputs[0].max(0)[1].byte().cpu().data
label_color = Colorize()(label.unsqueeze(0))
label_save = ToPILImage()(label_color)
plt.figure()
plt.imshow(ToPILImage()(images[0].cpu()))
plt.figure()
plt.imshow(label_save)

输出图像

很快我们就可以准备好我们的模型了！

随意使用我们新设计的模型，尝试增加更多的 epoch 并观察我们的模型表现得更好！

因此，简而言之，现在我们将能够轻松地将图像的每个像素与类标签相关联，并可以调整超参数以查看显示的更改。本文展示了语义分割的基础知识，要对实例进行分类，我们需要进行实例分割，这是语义分割的高级版本。

下载1：OpenCV-Contrib扩展模块中文版教程

在「 小白学视觉」公众号后台回复： 扩展模块中文教程 ，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖 扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「 小白学视觉」公众号后台回复： Python视觉实战项目 ，即可下载包括 图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「 小白学视觉」公众号后台回复： OpenCV实战项目20讲 ，即可下载含有 20个基于 OpenCV实现20个 实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向”，例如：”张三 + 上海交大 + 视觉SLAM”。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

Original: https://blog.csdn.net/qq_42722197/article/details/122572342
Author: 小白学视觉
Title: 语义分割：最简单的代码实现！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618865/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

协同过滤算法在面对稀疏数据情况下的处理方式是什么

协同过滤算法在面对稀疏数据情况下的处理方式在协同过滤算法中，当面对稀疏数据情况时，一种常见的处理方式是使用基于矩阵分解的方法来进行数据补充和预测。这种方法可以通过将数据集分解为用…

人工智能 2024年1月5日
0046
3.0 Maixpy(maixduino)的简单使用、训练的讲解，识别程序和视频播放的讲解（以垃圾分类为例）

注意！！！这篇文章写于2021年10月，但是我使用这个开发板是在2020年8月到12月的期间用的，并且这块板子还是比较新的，也是最近一段时间资料才开始逐渐完善的。当时我用的时候…

人工智能 2023年7月2日
0092
WebRTC Opus编码器的创建与参数细节分析( sdp -＞ native )

这几天在做一些WebRTC音频改进方面的调查工作，在阅读Chromium源码的过程中，就顺便记录下来，便于日后回顾。本文基于Chromium 85源码分析，由于Chromium的快…

人工智能 2023年5月27日
0092
实验—采用SOM网络进行聚类

1.SOM网络简介自组织特征映射网络SOFM又称自组织映射网络SOM，是一种自组织竞争神经网络，一个神经网络接受外界输入模式时，将会分为不同的对应区域，各区域对输入模式具有不同的…

人工智能 2023年5月31日
0084
【MindSpore】简单使用Resnet50实现狗狼图片分类。附全部代码下载。

本文章用的例子来自MindSpore官网教程，这里主要是分享一下个人理解和整合一下相关代码。个人博客网站查看环境配置： windows10 MindSpore1.6.1 CPU…

人工智能 2023年5月28日
0082
Bert不完全手册8. 预训练不要停！Continue Pretraining

paper: Don’t stop Pretraining: Adapt Language Models to Domains and Tasks GitHub：htt…

人工智能 2023年6月4日
0084
Deep Learning——深度学习介绍及Tensorflow基础

一、深度学习（deep Learning）深度学习是机器学习的一个分支。是一种以人工神经网络为架构，对数据进行特征学习的算法。深度学习(DL, Deep Learning)是机…

人工智能 2023年5月27日
0097
Error in ggplot(df, aes(x = x, y = y)) : could not find function “ggplot“

Error in ggplot(df, aes(x = x, y = y)) : could not find function “ggplot” 目录 E…

人工智能 2023年6月19日
0083
R语言回归及混合效应（多水平/层次/嵌套）模型应用及贝叶斯实现

回归分析是科学研究中十分重要的数据分析工具。随着现代统计技术发展，回归分析方法得到了极大改进。混合效应模型（Mixed effect model），或称多水平模型（Multilev…

人工智能 2023年6月17日
0093
知识图谱——Python操作Neo4j导入CSV文件建立图谱

首先Neo4j是图数据库，最重要的就是结点和边的关系，每两个结点和边都可以看成三元组，主谓宾的关系，当然结点也是可以添加属性的，但是首先要有结点，在添加属性。本片文章就是用简单的方…

人工智能 2023年6月1日
0062
【参赛作品93】openGauss-An Autonomous Database【PVLDB论文阅读分享】

作者：YAN左使本文基于openGauss在VLDB2021上最新发表的论文《openGauss: An Autonomous Database System》，从学术的角度来探…

人工智能 2023年6月16日
00109
服务器PyTorch环境配置（Ubuntu）

目录关于正常安装先不写了…. 非root用户安装cuda与cudnn(仅供参考) 介绍（显卡驱动，cuda，cudnn，深度学习库的关系）准备工作安装包下载下载…

人工智能 2023年7月23日
0067
Framework如何实现分布式计算以支持大规模数据和模型训练

问题介绍在大规模数据和模型训练中，分布式计算是一种常用的方法。本文将详细介绍如何使用Framework实现分布式计算，以支持大规模数据和模型训练。算法原理分布式计算的核心思想…

人工智能 2024年1月1日
0040
ESP32+TFTLCD实现WiFi天气语音播报（八）

ESP32实现天气播报文章目录 ESP32实现天气播报前言 1、实现功能 2、获取并解析天气数据 3、获取天气 4、LCD显示 5、按键实现切换城市和界面 6、语音播报天气总…

人工智能 2023年5月25日
00173
睿智的目标检测53——Pytorch搭建YoloX目标检测平台

睿智的目标检测53——Pytorch搭建YoloX目标检测平台学习前言源码下载 YoloX改进的部分（不完全） YoloX实现思路 * 一、整体结构解析二、网络结构解析 &#…

人工智能 2023年7月23日
0069
【毕业季】一个普通大二学生的迷茫与展望

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页： knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️ 夏日炎炎，热浪中我们迎来毕业季，这…

人工智能 2023年7月27日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语义分割：最简单的代码实现！

大家都在看