U-Net论文详解

2023年6月21日上午12:44 • 人工智能 • 阅读 67

U-Net论文详解

UNet算法Pytorch实现： https://github.com/codecat0/CV/tree/main/Semantic_Segmentation/UNet

U-Net结构由一个用于捕获上下文信息的压缩路径和一个支持精确定位的对称扩展路径构成。实验结果表明可以从很少的图像进行端到端的训练，并在ISBI挑战上优于先前最优的方法(滑动窗口卷积网络)，并获得了冠军

1. 背景介绍

卷积网络的典型应用是分类任务，其中图像的输出是一个单一的类标签。然而在许多视觉任务中，特别是生物医学图像处理中，期望的输出应该包含定位，即给每一个像素点分配一个类标签。

于是滑动窗口卷积网络通过提供像素点周围的局部区域来预测每个像素的类别标签。但是这样的方法存在两个缺点：

速度特别慢，网络必须为每一个窗口单元单独运行，并且窗口单元重合而导致大量冗余
在定位精度和上下文信息之间的权衡。大的窗口单元需要更多的max pooling层，这会降低精度；而小的窗口单元捕获的上下文信息较少。

于是本文提出了U-Net网络

2. U-Net网络架构

网络是一个经典的全卷积网络。网络的输入是一张572×572经过镜像操作的图像。为了使得每次下采样后特征图的尺寸为偶数。

网络的左侧为 压缩路径，由 4个block构成， 每个block由2个未padding的卷积和一个最大池化构成，其中每次卷积特征图的尺寸为减小2，最大池化后会缩小一半。

现在大部分采用same padding的卷积，这样就不用对输入进行镜像操作，而且在拼接压缩路径与对应的扩展路径也不用进行裁剪，而且裁剪会使得特征图不对称

网络的右侧为 扩展路径，同样由 4个block构成，每个block开始之前通过 反卷积将特征图的尺寸扩大一倍，然后与压缩路径对应的特征图拼接， 由于采用未padding的卷积，左侧压缩路径的特征图的尺寸比右侧扩展路径的特征图的大，所以需要先进行裁剪，使其大小相同，然后拼接，然后 经过两次未padding的卷积进一步提取特征

最后根据自己的任务，输出对应大小的预测特征图

现在大部分采用 双线性插值代替反卷积，而且效果会更好

; 3. 数据增强

我们主要通过平移和旋转不变性以及灰度值的变化来增强模型的鲁棒性，特别地， 任意的弹性形变对训练非常有帮助。

4. Pytorch实现

import torch
import torch.nn as nn

class Encoder(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(Encoder, self).__init__()
        self.block1 = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True)
        )
        self.block2 = nn.Sequential(
            nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True)
        )
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)

    def forward(self, x):
        x = self.block1(x)
        x = self.block2(x)
        x_pooled = self.pool(x)
        return x, x_pooled

class Decoder(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(Decoder, self).__init__()
        self.up_sample = nn.ConvTranspose2d(in_channels, out_channels, kernel_size=2, stride=2)
        self.block1 = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True)
        )
        self.block2 = nn.Sequential(
            nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True)
        )

    def forward(self, x_prev, x):
        x = self.up_sample(x)
        x_shape = x.shape[2:]
        x_prev_shape = x.shape[2:]
        h_diff = x_prev_shape[0] - x_shape[0]
        w_diff = x_prev_shape[1] - x_shape[1]

        x_tmp = torch.zeros(x_prev.shape).to(x.device)
        x_tmp[:, :, h_diff//2: h_diff+x_shape[0], w_diff//2: x_shape[1]] = x
        x = torch.cat([x_prev, x_tmp], dim=1)
        x = self.block1(x)
        x = self.block2(x)
        return x

class UNet(nn.Module):

    def __init__(self, num_classes=2):
        super(UNet, self).__init__()

        self.down_sample1 = Encoder(in_channels=3, out_channels=64)
        self.down_sample2 = Encoder(in_channels=64, out_channels=128)
        self.down_sample3 = Encoder(in_channels=128, out_channels=256)
        self.down_sample4 = Encoder(in_channels=256, out_channels=512)

        self.mid1 = nn.Sequential(
            nn.Conv2d(512, 1024, 3, bias=False),
            nn.ReLU(inplace=True)
        )
        self.mid2 = nn.Sequential(
            nn.Conv2d(1024, 1024, 3, bias=False),
            nn.ReLU(inplace=True)
        )

        self.up_sample1 = Decoder(in_channels=1024, out_channels=512)
        self.up_sample2 = Decoder(in_channels=512, out_channels=256)
        self.up_sample3 = Decoder(in_channels=256, out_channels=128)
        self.up_sample4 = Decoder(in_channels=128, out_channels=64)

        self.classifier = nn.Conv2d(64, num_classes, 1)

    def forward(self, x):
        x1, x = self.down_sample1(x)
        x2, x = self.down_sample2(x)
        x3, x = self.down_sample3(x)
        x4, x = self.down_sample4(x)

        x = self.mid1(x)
        x = self.mid2(x)

        x = self.up_sample1(x4, x)
        x = self.up_sample2(x3, x)
        x = self.up_sample3(x2, x)
        x = self.up_sample4(x1, x)

        x = self.classifier(x)
        return x

if __name__ == '__main__':
    input = torch.rand(1, 3, 384, 384)
    model = UNet(2)
    out = model(input)
    print(out.shape)

Original: https://blog.csdn.net/qq_42735631/article/details/122182266
Author: 何如千泷
Title: U-Net论文详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/642158/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python数据分析】pandas数据合并

pandas数据合并使用contact，append，merge完成数据集合并自己学习用，欢迎大佬指正。 1.concat pd.concat()可以合并series和DataF…

人工智能 2023年7月15日
0079
RKNN-toolkit-1.7.1 安装踩坑记录(安装成功)

官方给出的 python 依赖： * pip install tensorflow==1.14.0 pip install torch==1.5.1 torchvision==0….

人工智能 2023年5月25日
00135
快速掌握kafka原理以及常见面试题

个人公众号『码农札记』，欢迎关注，查看更多精彩文章。简介 Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），…

人工智能 2023年6月30日
0086
通道注意力与空间注意力模块

通道注意力模块使用通道注意力模块的目的：为了让输入的图像更有意义，大概理解就是，通过网络计算出输入图像各个通道的重要性（权重），也就是哪些通道包含关键信息就多加关注，少关注没什…

人工智能 2023年6月17日
0058
CUDA（10.2）＋PyTorch安装加配置详细完整教程

以下均为博主亲测的可靠流程，其中有一些我遇到的问题及解决方法，希望能帮到大家，不再踩坑，也欢迎大家交流遇到的问题和配置方法。 CUDA（10.2）＋PyTorch安装加配置详细完…

人工智能 2023年7月20日
0046
图神经网络在推荐系统中的应用

互联网中到处都是图结构的数据，比如我们熟悉的社交网络，最近流行的知识图谱等等，这些数据中包含着大量的关系信息，这对推荐系统来说是非常有帮助的。为了能更好地利用这些信息进行推荐，各大…

人工智能 2023年6月1日
0094
SPSS安装教程

SPSS安装教程 [软件名称]：SPSS 26 [软件语言]：简体中文 [软件大小]：2.18G [安装环境]： Win10/Win8/Win7 [硬件要求]： CUP@2GHZ内…

人工智能 2023年7月15日
00101
npm包开发（whale-makelink）

whale-makelink是一个npm工具，是强业务的工具，可以将当前工程目录下的项目文件夹，在README中生成项目的链接地址。Demo。一、npm init 使用npm i…

人工智能 2023年6月4日
0075
【R语言文本挖掘】：情感分析与词云图绘制

; 【R语言文本挖掘】：情感分析与词云图绘制 🌸个人主页：JOJO数据科学 📝个人介绍：小编大四统计在读，目前保研到统计学top3高校继续攻读统计研究生 💌如果文章对你有帮助，欢…

人工智能 2023年5月27日
0094
Vision Transformer模型与预训练权重简析

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、ViT原理图二、算法实现过程三、ViT-B/16结构详图四、ViT-B/16预训练权重…

人工智能 2023年7月28日
00226
【无标题】工商银行科技菁英岗笔经面经

工商银行2022夏季招聘笔经面经投递信息笔试面试本文还发布于牛客网投递信息应聘岗位：科技菁英-珠海-后端开发工程师投递渠道：官网（中国工商银行人才招聘 (icb…

人工智能 2023年7月29日
0075
openprompt使用记录：分类，生成案例

openprompt使用记录：分类，生成案例从安装到使用官方提供了两种安装方式，我们直接使用git即可。这议严格按照官方教程（参考资料1）来，顺序不能错，有些网上教程版本较旧…

人工智能 2023年7月1日
0071
图解转置卷积原理

声明：本文大部分搬运自【机器学习】详解转置卷积 (Transpose Convolution) 感谢博主花与人间事同，本人只是在博主原创文章上做补充以及添加一些自己的理解。 1…

人工智能 2023年6月20日
0068
相机标定-机器视觉基础（理论推导、Halcon和OpenCV相机标定）

相机标定是获得目标工件精准坐标信息的基础。首先，必须进行相机内参标定，构建一个模型消除图像畸变；其次，需要对相机和机器人的映射关系进行手眼标定，构建一个模型将图像坐标系上的点映射到…

人工智能 2023年6月25日
0060
机器学习 | MATLAB实现MLP多层感知机模型设计

机器学习 | MATLAB实现MLP多层感知机模型设计目录 * – 机器学习 | MATLAB实现MLP多层感知机模型设计 – + 基本介绍 + 模型描述…

人工智能 2023年6月15日
0060
【计算机视觉】数字图像与机器视觉基础

一、位图文件分析 1. 什么是位图位图图像（bitmap），亦称为点阵图像或栅格图像，是由称作像素（图片元素）的单个点组成的。这些点可以进行不同的排列和染色以构成图样。当放大位图…

人工智能 2023年6月22日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

U-Net论文详解

1. 背景介绍

2. U-Net网络架构

; 3. 数据增强

4. Pytorch实现

大家都在看