SegNet算法详解

2023年7月13日上午4:36 • 人工智能 • 阅读 77

SegNet论文详解

SegNet算法Pytorch实现： https://github.com/codecat0/CV/tree/main/Semantic_Segmentation/SegNet

本文提出了一种用于语义分割的深度全卷积神经网络结构SegNet，其核心 由一个编码器网络和一个对应的解码器网络以及一个像素级分类层组成。

本文的创新在于：
解码器使用在对应编码器的最大池化步骤中计算的 池化索引来执行非线性上采样，这与反卷积相比，减少了参数量和运算量，而且消除了学习上采样的需要。

; 1. 网络结构

1.1 编码器

Conv层
通过卷积提取特征，其中使用的是 same padding的卷积，不会改变特征图的尺寸
BN层
起到归一化的作用
ReLU层
起到激活函数的作用
Pooling层
max pooling层，同时会 记录最大值的索引位置

1.2 解码器

Upsampling层
对输入的特征图放大两倍，然后把输入特征图的数据根据编码器 pooling层的 索引位置放入， 其他位置为0
Conv层
通过卷积提取特征，其中使用的是 same padding的卷积，不会改变特征图的尺寸
BN层
起到归一化的作用
ReLU层
起到激活函数的作用

; 1.3 像素级分类层

输出每一个像素点在所有类别概率，其中 最大的概率类别为该像素的预测值

2. Pytorch实现

import torch
import torch.nn as nn
import torch.nn.functional as F

class Encoder(nn.Module):
    def __init__(self, in_channels):
        super(Encoder, self).__init__()

        batchNorm_momentum = 0.1

        self.encode1 = nn.Sequential(
            nn.Conv2d(in_channels, 64, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(64, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(64, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),
        )

        self.encode2 = nn.Sequential(
            nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(128, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(128, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),
        )

        self.encode3 = nn.Sequential(
            nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(256, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(256, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),
        )

        self.encode4 = nn.Sequential(
            nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),
        )

        self.encode5 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),
        )

    def forward(self, x):
        idx = []

        x = self.encode1(x)
        x, id1 = F.max_pool2d_with_indices(x, kernel_size=2, stride=2, return_indices=True)
        idx.append(id1)

        x = self.encode2(x)
        x, id2 = F.max_pool2d_with_indices(x, kernel_size=2, stride=2, return_indices=True)
        idx.append(id2)

        x = self.encode3(x)
        x, id3 = F.max_pool2d_with_indices(x, kernel_size=2, stride=2, return_indices=True)
        idx.append(id3)

        x = self.encode4(x)
        x, id4 = F.max_pool2d_with_indices(x, kernel_size=2, stride=2, return_indices=True)
        idx.append(id4)

        x = self.encode5(x)
        x, id5 = F.max_pool2d_with_indices(x, kernel_size=2, stride=2, return_indices=True)
        idx.append(id5)

        return x, idx

class Decoder(nn.Module):
    def __init__(self, out_channels):
        super(Decoder, self).__init__()

        batchNorm_momentum = 0.1

        self.decode1 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True)
        )

        self.decode2 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(512, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(512, 256, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(256, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True)
        )

        self.decode3 = nn.Sequential(
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(256, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(256, 128, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(128, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True)
        )

        self.decode4 = nn.Sequential(
            nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(128, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(128, 64, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(64, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True)
        )

        self.decode5 = nn.Sequential(
            nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1, bias=False),
            nn.BatchNorm2d(64, momentum=batchNorm_momentum),
            nn.ReLU(inplace=True),

            nn.Conv2d(64, out_channels, kernel_size=3, stride=1, padding=1)
        )

    def forward(self, x, idx):
        x = F.max_unpool2d(x, idx[4], kernel_size=2, stride=2)

        x = self.decode1(x)
        x = F.max_unpool2d(x, idx[3], kernel_size=2, stride=2)

        x = self.decode2(x)
        x = F.max_unpool2d(x, idx[2], kernel_size=2, stride=2)

        x = self.decode3(x)
        x = F.max_unpool2d(x, idx[1], kernel_size=2, stride=2)

        x = self.decode4(x)
        x = F.max_unpool2d(x, idx[0], kernel_size=2, stride=2)

        x = self.decode5(x)

        return x

class SegNet(nn.Module):

    def __init__(self, num_classes):
        super(SegNet, self).__init__()

        self.encode = Encoder(in_channels=3)
        self.decode = Decoder(out_channels=num_classes)

    def forward(self, x):
        x, idx = self.encode(x)
        x = self.decode(x, idx)
        return x

if __name__ == '__main__':
    input = torch.randn(1, 3, 384, 544)
    model = SegNet(num_classes=2)
    output = model(input)
    print(output.shape)

Original: https://blog.csdn.net/qq_42735631/article/details/122252894
Author: 何如千泷
Title: SegNet算法详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689090/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv7 | 模型结构与正负样本分配解析

如有错误，恳请指出。 Yolov7的原作者就是Yolov4的原作者。看论文的时候看到比较乱，这里可能会比较杂乱的记录一下我觉得有点启发的东西。对于yolov7的代码，我也没有仔细的…

人工智能 2023年7月26日
0085
数据分类器构建

一、目的和要求要求完成分类器的代码实现二、内容 KNN分类方法的实现三、实验步骤 X=standdata; [n,m]=size(X); x=rand(1,m-1); %%x…

人工智能 2023年7月1日
0090
Python数据分析案例07——二手车估价（机器学习全流程，数据清洗、特征工程、模型选择、交叉验证、网格搜参、预测储存）

案例背景本次案例来自2021年matchcop大数据竞赛A题数据集。要预测二手车的价格。训练集3万条数据，测试集5千条。官方给了二手车的很多特征，有的是已知的，有的是匿名的。要求…

人工智能 2023年6月19日
00105
pycharm安装pygame库遇到问题怎么办？

尽管网上搜到许多篇关于pycharm如何安装pygame库，但是跟着要求做还是安装失败，在安装其他第三方库时，我目前还没有遇到任何问题。最后总结了好几篇，得出一个最简单的安装方式：…

人工智能 2023年7月29日
0085
湖南大学python头歌实训-分支语句

第二章-Python语言基础-2.2条件分支（一）任务描述本关介绍顺序结构，程序最基本的结构就是顺序结构，顺序结构就是程序按照语句顺序，从上到下依次执行各条语句。本关要求读者理…

人工智能 2023年7月4日
00141
win10环境下下载安装openpose(only cpu)并在pycharm中运行代码（超详细）

win10环境下下载安装openpose（only cpu）并在pycharm中运行代码（超详细） * – （一）前言 – （二）准备工作 – …

人工智能 2023年7月5日
0097
apex——安装方式和避免踩坑

背景：这个库的安装不是像其他的一样的直接使用 pip install XXX的形式，而是使用原始的Git方式 1、apex 这是NVIDIA开发的基于PyTorch的混合精度训练加…

人工智能 2023年7月9日
00106
ggplot2图例修改详细介绍

获取更多R语言知识，请关注公众号：医学和生信笔记医学和生信笔记，专注R语言在临床医学中的使用，R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床…

人工智能 2023年7月14日
0080
python数据分析可视化项目——游戏销售量

python数据分析可视化项目——video游戏销售量数据来源可视化 * 数据准备游戏出版年份和销量统计——折线图游戏类型、出版商、游玩平台销量统计——柱形图游戏类型比例…

人工智能 2023年7月15日
00112
【总目录】机器学习原理剖析、开源实战项目、全套学习指南（50篇合集）

; 写在前面我为了更加的高效的学习，需要不断地输入和输出相信不管此时的你是怀着好奇心打开这篇文章；还是偶然间刷到这篇博文；或者带有学习目的性走到这片领域，我都相信，面前的你一定…

人工智能 2023年6月25日
00106
SBERT之部署TF-serving和Flask服务实践详解

背景 SBERT模型是基于pytorch和transformers来实现的。如果想要通过tensorflow-serving来部署模型的话。首先，要将transformers模型转…

人工智能 2023年5月24日
0099
python视频操作：下载、选取特定帧、批量导入ppt及硬字幕提取

本次主要记录一次组会的PPT分享，大略是寻找感兴趣的话题，在会上与大家共赏。寻找到youtube上青蛙刀圣1993的《用34分钟，解决困扰我多年的问题：基督，犹太，伊斯兰教的关系》…

人工智能 2023年5月25日
00114
跟我学Python图像处理丨傅里叶变换之高通滤波和低通滤波

摘要：本文讲解基于傅里叶变换的高通滤波和低通滤波。本文分享自华为云社区《[Python图像处理] 二十三.傅里叶变换之高通滤波和低通滤波》，作者：eastmount 。一.高通…

人工智能 2023年6月17日
00103
labelImg的使用教程，快捷键，用于标注voc或者yolo格式的数据

回答1：将标签xml文件转换为标签txt文件，需要进行以下步骤： 1. 读取xml文件中的信息，包括目标类别、位置坐标等。 2. 根据的要求，将目标位置坐标转换为相对于图…

人工智能 2023年7月9日
0087
前程无忧岗位数据爬取+Tableau可视化分析

目录一、项目背景二、数据爬取 1、相关库的导入与说明 2、获取二级页面链接 1）分析一级页面url特征 2）构建一级url库 3）爬取所有二级url链接 3、获取岗位信息并保存…

人工智能 2023年7月15日
0087
12.OpenFeign 实例（springcloud）

1.OpenFeign 简介 Feign 是声明性 ( 注解 ) Web 服务客户端。它使编写 Web 服务客户端更加容易。要使用 Feign ，请创建一个接口并对其进行…

人工智能 2023年6月28日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31