一、筛选思路及方法
2.1 构建seurat对象,质控
In total, 2,343 cells from tumor cores were included in this analysis.
quality controlstandards:
1) genes detected in < 3 cells were excluded; 筛选基因
2) cells with < 50 total detected genes were excluded; 筛选细胞
3) cells with ≥ 5% of mitochondria-expressed genes were excluded. 筛选细胞
先设定筛选标准,需确定以下内容:
1、获取可用的细胞数
2、筛选基因:将表达太少的基因去掉(信息不够)
3、筛选细胞:将表达基因信息数量太少的细胞去掉(该基因信息不全)
4、筛选细胞:将线粒体基因表达过多的细胞去掉,认为检测到的有效基因类型不够,认为都是线粒体基因。
筛选细胞及可分析的基因。
sessionInfo()
library("Seurat")
?CreateSeuratObject
sce.meta
?可以查看seurat这个构建对象的语法的用法。这个可以自行查看。
构建creatseurateobject之前,需要先构建一个表达矩阵注释的metadata信息,这里主要是分组信息。本语句中命名为sce.meta。
creatseurateobject()语句本质上是需要一个counts矩阵,以及meta的信息
help中的文件笔记:
1、names.field以及names.delim可以在初期即设置细胞类型,需要选择相应的选择,具体需要查看详细的文档。
2、min.cells以及min.features是质控筛选的指标。
3、min.cells是筛选基因的,即该基因至少在3个细胞中表达,才认为个基因有意义。
4、min.features是筛选细胞的,即要求该种细胞必须要表达50个基因才认为是质量满意的细胞。纳入后续分析。
构建出的seurat对象是个多嵌套层级结构的对象,里面包含了许多内容。
可以通过语句查看各项信息,具体是个稀疏矩阵,包括 scRNA@assays$RNA@counts[1:4,1:4] 查看前4个样本的信息。
dim()可以看到底有多少细胞最终被筛选出来,可以看到其实只是筛选了一个细胞出去。n由2343变成了2342。
筛选线粒体基因(MT/ERCC为标记的两种基因)
#接下来根据线粒体基因表达筛选低质量细胞
#Calculate the proportion of transcripts mapping to mitochondrial genes
table(grepl("^MT-",rownames(scRNA)))
#FALSE
#20050 没有染色体基因
scRNA[["percent.mt"]]
MT开头往往是线粒体基因的标志,因此先看看有多少是MT开头的。这里使用grepl()函数来进行判断是否有MT开头的基因名。
对MT基因所占的比例进行赋值。本例中没有,但如果有就可以用其中的语言进行过滤了。
除了MT为标记的线粒体基因,还可能是ERCC为标记的基因为线粒体基因。
因此类似的方法可以再使用一遍。
table(grepl("^ERCC-",rownames(scRNA)))
#FALSE TRUE
#19961 86 发现是有ERCC基因
#External RNA Control Consortium,是常见的已知浓度的外源RNA分子spike-in的一种
#指标含义类似线粒体含量,ERCC含量大,则说明total sum变小
scRNA[["percent.ERCC"]]
给scRNA ERCC标记基因给予一个percentage的参数,观察一下ERCC基因的含量%有多少。
用rownames考察有多少个ERCC相关的染色体基因。
分别用10和40来做cutoff看看,如果ERCC基因的数量
Original: https://blog.csdn.net/weixin_47855187/article/details/124111414
Author: 学海溺子
Title: 单细胞数据挖掘 P2.2 构建Seurat对象,质控、绘图
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/639679/
转载文章受原作者版权保护。转载请注明原作者出处!