TCGA甲基化数据（.idat）champ.load文件导入Sample Sheet构建

2023年7月15日下午7:56 • 人工智能 • 阅读 54

最近在学习对甲基化数据的分析，大部分甲基化数据都有已经处理好的beta值矩阵，少部分需要用原始的.idat文件去分析，本篇主要讲如何用champ包中的champ.load函数导入.idat文件。

myLoadchamp.load('./idat',arraytype='450k')

这个函数主要有两个参数，第一个是包含所有样本的.idat文件和一个Sample Sheet.csv文件的文件夹，第二个参数是阵列的类型。.idat在TCGA中可以直接下载，Sample Sheet.csv需要自己造一个。
TCGA数据库里面下载的数据是这个样子的：

TCGA甲基化数据（.idat）champ.load文件导入Sample Sheet构建

下载好以后

解压以后打开是这样子的

文件夹里面是.idat文件，类似于这样

还要再下载一个sample_sheet文件，我们叫它临床数据

下载来的是这样的：

打开以后是这样的：

然后把每个文件夹里面的.idat文件拿出来，刚到一个单独的文件夹里面，然后在构造一个用于导入的Sample Sheet.csv文件就可以用ChAMP包导入文件了。
ChAMP测试数据中展示的数据和Sample Sheet.csv是这样的：

上面是所有的文件，下面是Sample Sheet文件，这里面主要的是sample_name, sample_group, sentrix_id, sentrix_position.这里面的C表示control，正常样本，T表示tumour，肿瘤样本，我们下载的临床文件里面有C或T的信息，最后面两列可以看出来对应着.idat文件的名称，两列之间用_连起来就是.idat文件名的前面两部分，Sample Sheet.csv里面的样本对应文件夹里面红和绿一对.idat文件。
然后我们开始构造自己的Sample Sheet.csv文件，我下了三个病例，有六个.idat文件，所以Sample Sheet.csv里面应该有三个样本的信息，我们可以根据临床信息中的样本名字命名，临床数据里面有正常或是患病信息，但是名称不一定是sample_group，要自己分辨，Sample_Well那一行不太清楚是什么意思，可以根据测试数据随便写，最后两列的话，由于文件原本的命名不太好看，我就用临床的样本名重新命名了，这两列应该是有含义的，后面处理批次效应的时候会用倒数第二列，应该是跟批次有关的信息，那最后一列应该就是样本的编号。但是对TCGA是怎么命名的还不太了解，所以先这么做吧。

最终构造的Sample Sheet.csv是这样的

然后一定要注意，命名文件名的时候，连接Sample Sheet最后两列之间的横线一定要是”_”不然没法识别，然后就可以在R里面导入，可以做后续一系列的分析了。

library('ChAMP')
library('minfi')
myLoadchamp.load('./idat',arraytype='450k')

用原本的文件名称是否能做我已经懒得试了，我专门下了一个样本量非常小的来尝试，所以这里面各种操作都是手动操作，后期要做数据分析的话一定是需要写代码完成的。
python初学者，写了一个简单的代码，实现批量处理：

import os
import shutil
import numpy as np
import pandas as pd

def creatname(filepath):

    data = pd.read_csv(filepath, sep='\t', header=0)
    filename = data[['File Name']]
    sampleid = data[['Sample ID']]
    newsampleid = []
    n = range(sampleid.shape[0])
    sampleid = np.array(sampleid)
    filename = np.array(filename)
    for i in n:
        name = sampleid[i][0]
        newsampleid.append(name[0:7] + '_' + name[8:16])
    newsampleid = np.array(newsampleid).reshape(len(newsampleid), 1)
    match = np.concatenate((filename, newsampleid), axis=1)

    return match

def filerename(path,out_path,arr):

    i = 0
    for dirpath, dirnames, filenames in os.walk(path):

        list = os.listdir(dirpath)

        for filename in list:
            if filename.endswith('.idat'):
                for j in arr:
                    if filename == j[0]:
                        print(filename)
                        col = filename.split(".")[0][-3:]
                        i += 1
                        print(i)
                        shutil.copy(os.path.join(dirpath, filename), os.path.join(out_path, j[1] + '_'
                                                                                  + col + '.idat'))

def sample(filepath,outpath):

    data = pd.read_csv(filepath, sep='\t', header=0)

    a = data[['Sample ID']]
    a = np.array(a)
    b = data[['Sample Type']]
    b = np.array(b)
    c = []
    d = []
    for i in range(a.shape[0]):
        spid = a[i][0]

        c.append(spid[0:7])
        d.append(spid[8:16])
    a = a.flatten()
    b = b.flatten()

    frame = pd.DataFrame({'Sample_Name': a, 'Sample_Plate': None, 'Sample_Group': b, 'Pool_ID': None, 'Project': None,
                          'Sample_Well': None, 'Sentrix_ID': c, 'Sentrix_Position': d})
    frame.drop_duplicates('Sample_Name', 'first', True)
    frame.to_csv(os.path.join(outpath,'sample_sheet.csv'), index=False, sep=',')

if __name__ == '__main__':
    path = "F:\\data\\lip\\gdc_download_20220421_022123.613305"

    out_path = "F:\\data\\lip\\nidat"

    filepath = r"F:\data\lip\gdc_sample_sheet.2022-04-21.tsv"

    name = creatname(filepath)
    filerename(path,out_path,name)
    sample(filepath,out_path)

在一个266个.idat文件的文件夹里面试了一下，效果还可以。

Original: https://blog.csdn.net/weixin_46803812/article/details/124325153
Author: 阿夏啊
Title: TCGA甲基化数据（.idat）champ.load文件导入Sample Sheet构建

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694956/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习案例（四）：LSTM股价预测

预测股市是机器学习在金融领域最重要的应用之一。在本文中，我将带你了解一个使用机器学习 Python 进行股票价格预测的数据科学项目。如果投资者能够准确预测市场走势，他就能得到很多股…

人工智能 2023年7月28日
0084
图像标准化、图像白化、色彩变换

第1章导论………………………………&…

人工智能 2023年6月18日
0078
机器学习目录

在未来几个月时间里，将会逐步针对先前整理的博客文章进行分类归纳，并建立成为学习专栏区。内容将会重点从理论算法，推导过程，应用阶段，项目实战几个维度进行整理。本专栏会从理论到项目落地…

人工智能 2023年7月16日
0064
Yolov5 模型的原理及环境配置

本文首先介绍了yolov5 是什么，有什么用，以及yolo 模型的原理。再讲解了yolov5 模型的下载，及环境配置的一些问题。目录一、Yolov5 是什么？二、Yolov …

人工智能 2023年6月23日
0073
R语言dataframe计算满足筛选条件的行的个数（筛选满足条件的数据行并计数）：类似于excel的countif函数

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0092
SPSS实战应用案例50篇（一）：从SPSS的角度讲清楚卡方检验

前言卡方检验（Chi-square test）用于比较观察数与理论数的吻合程度，也称为拟合优度。实际应用中，比较几组频率或者构成是否相同，也用于分类变量的关联分析。利用SPSS的…

人工智能 2023年7月17日
0079
opencv-python 实现角点检测和棋盘角点检测

作者：RayChiu_Labloy版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处目录利用goodFeaturesToTrack()角点检测: 利用…

人工智能 2023年6月18日
0086
1.jetson与摄像头的对接

摄像头接口的种类从大类上分可以分为2类，分别是标准接口和板载接口。标准接口包括：usb，网口。板载接口包括：mipi-csi接口。本篇博客来讨论一下在实际应用过程中的各种对接方式…

人工智能 2023年7月20日
0062
高分辨率遥感图像目标检测和场景分类研究进展

本文按照西北工业大学程塨老师的高分辨率遥感图像目标检测和场景分类研究进展汇报进行整理，需要的同学可借此了解遥感图像相关知识~ 高分辨率遥感图像目标检测和场景分类一、背景介绍 * …

人工智能 2023年6月30日
0085
python pandas dataframe 排序_Pandas dataframe按数量排序

我有一个Pandas dataframe，其中每一列代表一个单独的属性，每一行保存特定日期的属性值：import pandas as pd dfstr = \ ”&#8…

人工智能 2023年7月8日
0047
GPS轨迹聚类算法TRACLUS介绍（四）

线段聚类LINE SEGMENT CLUSTERING 这篇博客将说明TRACLUS算法的归组聚类阶段。首先，先讨论线段的密度属性；其次，介绍基于密度的聚类算法DBSCAN；然后，…

人工智能 2023年6月2日
0058
pandas中的DataFrame数据结构

pd.DataFrame() DataFrame 是一种二维的数据模型，相当于EXcel表格中的数据，有横竖两种坐标，横轴用columns，竖轴用index 来确定，在建立Data…

人工智能 2023年7月7日
0065
KNN、图像分类、曼哈顿距离、图片像素、python、opencv、最近邻图片分类

KNN、图像分类、曼哈顿距离、图片像素、python、opencv、最近邻图片分类自己实现使用曼哈顿距离计算图像之间的距离，采用最近邻算法对图片经行分类，没有使用sklearn里…

人工智能 2023年6月20日
00203
COCO数据集格式解析

COCO数据集是我们经常使用的一个数据集，并且 COCO数据集格式也很受大家欢迎，但不同于 VOC数据格式，COCO是将所有的标注数据存放在一个json文件中，使得查看的时候云里雾…

人工智能 2023年6月16日
00109
聚类稳健标准误

一、为什么？对样本做回归分析的核心是使用最小二乘法去估计模型里的参数，比如核心解释变量前面的系数。我们通过最小二乘法使得残差平方和最小，求得样本估计系数。如果进行一次估计，…

人工智能 2023年5月31日
00109
用例设计（记录东西，写给自己看的）

微信发送语音的测试用例设计: 功能测试1、不说话的时候发送语音, 是否会有相关的信息提示。2、说话分贝很轻很轻, 是否可以录入语言。3、普通的语音信息是否可以正常发送。4、语音录制…

人工智能 2023年5月23日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

TCGA甲基化数据（.idat）champ.load文件导入Sample Sheet构建

大家都在看