nnUNet使用指南（三）：nnUNet对数据的预处理

2023年6月3日上午6:11 • Python • 阅读 163

数据预处理步骤

根据nnUNet框架，三维医学图像分割的通用预处理可以分为四步，分别是数据格式的转换，裁剪crop，重采样resample以及标准化normalization。

1.数据格式的转化

常见的医学图像格式有DICOM（后缀名为.dcm），MHD（后缀名为.mhd和.raw）以及NIFTY（后缀名为.nii或.nii.gz）。
这几种格式都不太方便直接进行操作，一般都使用对应的Python库将数据进行读取后，转换成numpy数组后再进行后续处理。

nnUNet中给出了一种建议的目标数据格式，将每一个病例的数据，都存成一个四维numpy数组（npz）以及与之对应的pickle文件（pkl）。
numpy的文件存储.npy .npz 文件详解

四维数组array(C、X、Y、Z)中，C维度的最后一个array[-1,:,:,:]存储的是分割标注结果。
而C维度的前面存储不同模态的数据，如MRI数据中有FLAIR, T1w, t1gd, T2w等四种模态，
array[0,:,:,:]表示FLAIR序列成像的强度数据，array[1,:,:,:]表示T1加权的强度数据，以此类推。
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:d777983d-437e-4c1a-be88-a6c282e1d07b

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:b036efe4-be30-43b4-97fc-ec287817a0b3

四维数组array的后三个维度代表x,y,z三个坐标表示的三维数据，对于原始影像数据，值大小代表强度，
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:44be2184-04c6-4a20-80ba-9db370265f9b

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:24cd61f9-3227-4398-8dca-cf0acc614345

在后续的代码中，为了简便，将不同模态的原始图像与分割标注分开，使用data(CXYZ)代表四维图像数据，使用seg(XYZ)代表三维标注数据。

而pickle文件中存储该医学影像中其它的重要信息，是对numpy数组提供信息的补充。包含spacing，direction，origin等信息。

2.图像裁剪Crop

图像裁剪就是将三维的医学图像裁剪到它的非零区域，具体方法就是在图像中寻找一个最小的三维bounding box，
该bounding box区域以外的值为0，使用这个bounding box对图像进行裁剪。
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:b1009006-77fa-4a16-8851-8f311bafbf4d

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:802907af-c166-4a3f-be1c-78ec4c5c0b6f

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:e3959761-16a1-4732-8c0f-5bafeef5e88d

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:50f1de99-0821-48dd-b84b-d25f2a75c558

裁剪在nnUNet的实现中可以分为3步。

第一步

根据四维图像数据data(C,X,Y,Z)生成三维的非零模板nonzero_mask，标示图像中哪些区域是非零的。
不同的模态都有对应的三维数据，产生不同的三维nonzero_mask，而整个四维图像的非零模板为各个模态非零模板的并集。
最后调用scipy库的binary_fill_holes函数对生成的nonzero_mask进行填充。

from scipy.ndimage import binary_fill_holes
data.shape[1:]&#x53D6;x,y,z&#x4E09;&#x7EF4;,bool&#x578B;,&#x521D;&#x59CB;&#x5168;&#x4E3A;false&#x7684;&#x4E09;&#x7EF4;&#x6846;nonzero_mask
nonzero_mask = np.zeros(data.shape[1:], dtype=bool)
&#x53D6;data&#x4E2D;&#x6BCF;&#x4E00;&#x4E2A;channel
for c in range(data.shape[0]):
    # this mask &#x8868;&#x793A;&#x5F53;&#x524D;&#x8FD9;&#x4E2A;channel&#x7684;&#x4E09;&#x7EF4;&#x56FE;&#x50CF;&#x6846;&#xFF0C;&#x5C06;data&#x4E2D;&#x8BE5;channel&#x7684;&#x56FE;&#x50CF;
    # &#x4E0D;&#x7B49;&#x4E8E;0&#x7684;&#x5730;&#x65B9;&#x6807;&#x8BB0;&#x4E3A;True&#xFF0C;&#x7B49;&#x4E8E;0&#x7684;&#x5730;&#x65B9;&#x6807;&#x8BB0;&#x4E3A;False&#xFF0C;&#x5E76;&#x8D4B;&#x7ED9;this mask
    this_mask = data[c] != 0
    # &#x5BF9;&#x4E09;&#x7EF4;&#x6846;&#x548C;&#x5F53;&#x524D;&#x6846;&#x53D6;&#x5E76;&#x96C6;&#xFF0C;&#x53EA;&#x8981;&#x6709;True&#x7684;&#x5730;&#x65B9;&#x90FD;&#x6807;&#x8BB0;&#x4E3A;True
    # nparray&#x7684;&#x5E76;&#x96C6;(|):True + True = True&#xFF0C;True + False = True&#xFF0C;False + False = False
    # nparray&#x7684;&#x4EA4;&#x96C6;(&):True + True = True&#xFF0C;True + False = False&#xFF0C;False + False = False
    nonzero_mask = nonzero_mask | this_mask
&#x6700;&#x540E;&#x5F97;&#x5230;&#x7684;&#x603B;&#x7684;&#x4E09;&#x7EF4;&#x6846;&#x5305;&#x62EC;&#x4E86;&#x5728;&#x6240;&#x6709;channel&#x4E2D;&#x6709;true&#x7684;&#x5730;&#x65B9;&#xFF0C;&#x5C31;&#x53EF;&#x4EE5;&#x5305;&#x62EC;&#x6240;&#x6709;&#x975E;0&#x533A;&#x57DF;
&#x7528;binary_fill_holes&#x5BF9;&#x8BE5;&#x975E;&#x96F6;&#x533A;&#x57DF;&#x53BB;&#x6D1E;&#x586B;&#x5145;
nonzero_mask = binary_fill_holes(nonzero_mask)

第二步

根据生成的非零模板，确定用于裁剪的bounding_box大小和位置，在代码中就是要找到nonzero_mask在x，y，z三个坐标轴上值为1的最小坐标值以及最大坐标值。

def get_bbox_from_mask(nonzero_mask, outside_value=0):
    mask_voxel_coords = np.where(nonzero_mask != outside_value)
    minzidx = int(np.min(mask_voxel_coords[0]))
    maxzidx = int(np.max(mask_voxel_coords[0])) + 1
    minxidx = int(np.min(mask_voxel_coords[1]))
    maxxidx = int(np.max(mask_voxel_coords[1])) + 1
    minyidx = int(np.min(mask_voxel_coords[2]))
    maxyidx = int(np.max(mask_voxel_coords[2])) + 1

    return [[minzidx, maxzidx], [minxidx, maxxidx], [minyidx, maxyidx]]

第三步

根据bounding_box对该张图像的每个模态依次进行裁剪，然后重新组合在一起。

bbox = [[minzidx, maxzidx], [minxidx, maxxidx], [minyidx, maxyidx]]
resizer = (slice(bbox[0][0], bbox[0][1]),
            slice(bbox[1][0], bbox[1][1]),
              slice(bbox[2][0], bbox[2][1]))
cropped_data = []
for c in range(data.shape[0]):
    cropped = data[c][resizer]
    cropped_data.append(cropped[None])
data = np.vstack(cropped_data)

在对原始数据裁剪完毕之后，使用同样的bounding box对分割标注seg进行裁剪，具体步骤与上述代码的第三步一致。

注意到，nnUNet在对标注图像seg进行裁剪之后，还额外利用了nonzero_mask的信息，将nonzero_mask区域以外的背景标签值，从0修改为-1。

non_zero_label = -1
seg[(seg == 0) & (nonzero_mask == 0)] = nonzero_label

这样一来, seg中值为0和-1的都代表背景, 只是值为0的代表图像中值不为0的背景, 值为-1的代表图像中值为0的背景.

这样做可在后续的处理中,用seg

重采样Resample

未完待续

如何针对三维医学图像分割任务进行通用数据预处理：nnUNet中预处理流程总结及代码分析

Original: https://www.cnblogs.com/xyf9474/p/16305556.html
Author: 梅雨明夏
Title: nnUNet使用指南（三）：nnUNet对数据的预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/563397/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

来啦来啦｜开源 * 安全 * 赋能 – .NET Conf China 2022

大会介绍 .NET Conf China 2022 是面向开发人员的社区峰会，延续 .NET Conf 2022 的活动，庆祝 .NET 7 的发布和回顾过去一年来 .NET 在中…

Python 2023年10月16日
0053
day21-多线程

生产者消费者模式是一个十分经典的多线程协作的模式，弄懂生产者消费者问题能够让我们对多线程编程的理解更加深刻。所谓生产者消费者问题，实际上主要是包含了两类线程：一类是生产者线…

Python 2023年11月7日
0049
解决pandas读取excel文件出错

Traceback (most recent call last):File “c:/Users/Admin/Desktop/读取文件.py”, line …

Python 2023年8月7日
0063
python教程：函数的return语句运用

return语句用于退出函数，向调用方返回一个表达式。 return在不带参数的情况下（或者没有写return语句），默认返回None。 None是一个特殊的值，它的数据类型是No…

Python 2023年11月3日
0079
docker运行tomcat报错Cannot find /usr/local/tomcat/bin/setclasspath.sh

docker运行tomcat报错 Cannot find /usr/local/tomcat/bin/setclasspath.sh This file is needed to …

Python 2023年11月7日
0037
pytest测试框架(五)—使用xfail将用例标记为失败

当因为一个确切的原因，我们知道这个用例会执行失败，比如用例所覆盖的功能还未实现，或者这个功能存在阻塞性的已知Bug时，就可以使用xfail将其标记起来。 1、@pytest.mar…

Python 2023年9月13日
0050
不想当Window的Dialog不是一个好Modal，弹窗翻身记

弹窗是我们熟视无睹的一种交互方式，经常用到，但从没好好想过这种交互行为背后的意义… 弹窗是Windows的灵魂 Windows的灵魂是什么？当然是Window，当方便快…

Python 2023年10月23日
0029
NAS数据存储之NFS搭建和使用

NFS是主流异构平台的共享文件系统之一，能够支持在不同类型的系统之间通过网络进行文件共享，允许一个系统在网络上与他人共享目录和文件。NFS传输协议用于服务器和客户机之间的文件访问和…

Python 2023年10月17日
0039
【Python】抓取基金数据

Original: https://www.cnblogs.com/123456feng/p/16077203.htmlAuthor: 蚂蚁ailingTitle: 【Python…

Python 2023年11月9日
0035
python之第三方库tenacity重试库的详细使用：Tenacity是一个通用的retry库，简化为任何任务加入重试的功能

前言 1、在实际应用中，经常会碰到在web网络请求时，因为网络的不稳定，会有请求超时的问题，这时候，一般都是自己去实现重试请求的逻辑，直到得到响应或者超时。虽然这样的逻辑并不复杂，…

Python 2023年5月25日
0064
34_Pandas对CSV文件内容的导出和添加（to_csv）

如果要将panda.DataFrame或pandas.Series数据导出为csv文件或将其添加到现有的csv文件中，请使用to_csv（）方法。由于分隔符可以更改，因此也可以将其…

Python 2023年8月18日
0040
Flask使用SQLite数据库

SQLite是一个小型的轻量数据库，特别适合个人学习使用。因为SQLite不需要额外的数据库服务器，同时它也是内嵌在Python中的。缺点就是如果有大量的写请求过来，它是串行处理的…

Python 2023年8月11日
0037
数据准备脚本：Python Pandas OR esProc SPL？

做数据分析和人工智能运算前常常需要大量的数据准备工作，也就是把各种数据源以及各种规格的数据整理成统一的格式。因为情况非常复杂多样，很难有某种可视化工具来完成此项工作，常常需要编程才…

Python 2023年8月1日
0055
pytest中conftest的scope的作用

关于scope作用：scope参数作用范围控制fixture的作用范围：session>module>class>functionfunction：每一个函数或方…

Python 2023年9月12日
0035
Python Apex YOLO V5 6.2 目标检测全过程记录

博文目录文章目录效果展示工程源码环境准备第一阶段使用自带模型实现实时目标检测 * 屏幕截图封装详见 toolkit.py 中 Capture 类目标检测封装详见…

Python 2023年7月31日
0069
17.爬虫:scrapy信号

scrapy信号就是我们事先指定在什么条件下,要调用什么方法。当条件被触发时，方法就会被执行。所谓:摔杯为号,刀斧手出动,当然这是需要事先跟手下讲明的我们一般会在spider的…

Python 2023年10月3日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

nnUNet使用指南（三）：nnUNet对数据的预处理

1.数据格式的转化

2.图像裁剪Crop

第一步

第二步

第三步

重采样Resample

大家都在看