生信学习——R语言练习题-初级（附详细答案解读）

2023年6月11日下午6:11 • 人工智能 • 阅读 104

题目目录

1. 打开 Rstudio 告诉我它的工作目录。
2. 新建6个向量，基于不同的数据类型。（重点是字符串，数值，逻辑值）
3. 告诉我在你打开的rstudio里面 getwd() 代码运行后返回的是什么？
4. 新建一些数据结构，比如矩阵，数组，数据框，列表等重点是数据框，矩阵）
5. 在你新建的数据框进行切片操作，比如首先取第1，3行，然后取第4，6列
6. 使用data函数来加载R内置数据集，找到rivers的描述。
7. 下载 [https://www.ncbi.nlm.nih.gov/sra?term=SRP133642](https://www.ncbi.nlm.nih.gov/sra?term=SRP133642) 里面的 RunInfo Table 文件读入到R里面，了解这个数据框，多少列，每一列都是什么属性的元素。
8. 下载 [https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229) 里面的样本信息sample.csv读入到R里面，了解这个数据框，多少列，每一列都是什么属性的元素。
9. 把前面两个步骤的两个表（RunInfo Table 文件，样本信息sample.csv）关联起来，使用merge函数。
10. 对前面读取的RunInfo Table文件在R里面探索其MBases列。把前面读取的样本信息表格的样本名字根据下划线分割看第3列元素的统计情况。第三列代表该样本所在的plate。根据plate把关联到的RunInfo Table信息的MBases列分组检验是否有统计学显著的差异。分组绘制箱线图(boxplot)，频数图(hist)，以及密度图(density) 。
11. 使用ggplot2把上面的图进行重新绘制。
12. 使用ggpubr把上面的图进行重新绘制。

前面学习了Linux的基础操作和一些文件格式的shell练习，接下来开始学习R语言。R语言是生信学习的重要基石。我的学习路线是过一遍教学课程，然后用题目来加深自己的理解。

推荐几个优秀课程：
R语言入门与数据分析：https://www.bilibili.com/video/BV19x411X7C6
R语言与生物信息绘图：https://www.bilibili.com/video/BV1XJ411m73p
生信人应该这样学R语言：https://www.bilibili.com/video/BV1cs411j75B
建议搭配《R语言实战(第2版)》按顺序进行学习。最后一个可看可不看。

本文的题目来自Jimmy老师的R语言练习题：http://www.bio-info-trainee.com/3793.html
博主将题目进行了整理，并且对Jimmy老师的部分答案进行了适量修改。需要代码和文件的可以私信我。学就完事了…

打开 Rstudio 告诉我它的工作目录。

getwd()

新建6个向量，基于不同的数据类型。（重点是字符串，数值，逻辑值）

有两种最基本的数据类型：原子向量（atomic vector）和泛型向量（generic vector）。原子向量是包含单个数据类型的数组。原子向量是包含单个数据类型（逻辑类型、实数、复数、字符串或原始类型）的数组。泛型向量也称为列表，是原子向量的集合。

a1  c(T, F, T, F)
class(a1)

a2  c(15, 18, 25, 14, 19)
class(a2)

a3  c(1+2i, 0+1i, 39+3i, 12+2i)
class(a3)

a4  c("Bob", "Ted", "Carol", "Alice")
class(a4)

a5  matrix(1:20,4,5)
class(a5)

a6  list(1:20)
class(a6)

告诉我在你打开的rstudio里面 getwd() 代码运行后返回的是什么？

getwd()

新建一些数据结构，比如矩阵，数组，数据框，列表等重点是数据框，矩阵）

rnames   c("R1", "R2", "R3", "R4", "R5")
cnames   c("C1", "C2", "C3", "C4")
mymatrix  matrix(1:20, 5, 4, byrow=T, dimnames=list(rnames, cnames))
mymatrix

dim1  c("A1", "A2")
dim2  c("B1", "B2", "B3")
dim3  c("C1", "C2", "C3", "C4")
myarray  array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3))
myarray

dnames  c("ergou", "lisi", "zhangsan")
dages  c(12, 23, 45)
dgender  c("man", "Woman", "man")
dheight  c(160, 170, 180)
dweight  c(50, 55, 75)
dwage  c(5000, 4000, 3000)
mydataframe  data.frame(dages,dnames,dgender,dheight,dweight,dwage)
mydataframe

g  "My First List"
h  c(25, 26, 18, 39)
j  matrix(1:10, nrow=5)
k  c("one", "two", "three")
mylist  list(title=g, ages=h, j, k)
mylist

在你新建的数据框进行切片操作，比如首先取第1，3行，然后取第4，6列

data  mydataframe[c(1,3), c(4,6)]
data

  dheight dwage
1     160  5000
3     180  3000

使用data函数来加载R内置数据集，找到rivers的描述。

查看更多的R语言内置的数据集：https://mp.weixin.qq.com/s/dZPbCXccTzuj0K kOL7R31g

data()

rivers
  [1]  735  320  325  392  524  450 1459  135  465
 [10]  600  330  336  280  315  870  906  202  329
 [19]  290 1000  600  505 1450  840 1243  890  350
 [28]  407  286  280  525  720  390  250  327  230
 [37]  265  850  210  630  260  230  360  730  600
 [46]  306  390  420  291  710  340  217  281  352
 [55]  259  250  470  680  570  350  300  560  900
 [64]  625  332 2348 1171 3710 2315 2533  780  280
 [73]  410  460  260  255  431  350  760  618  338
 [82]  981 1306  500  696  605  250  411 1054  735
 [91]  233  435  490  310  460  383  375 1270  545
[100]  445 1885  380  300  380  377  425  276  210
[109]  800  420  350  360  538 1100 1205  314  237
[118]  610  360  540 1038  424  310  300  444  301
[127]  268  620  215  652  900  525  246  360  529
[136]  500  720  270  430  671 1770

（参考B站生信小技巧获取runinfo table）这是一个单细胞转录组项目的数据，共768个细胞，如果你找不到RunInfo Table 文件，可以点击下载，然后读入你的R里面也可以。


SraRunTable  read.table("practice/SraRunTable.txt", header = T, sep = "\t")

View(SraRunTable)
str(SraRunTable)

768行，31列，每一列的属性如图。

（参考 https://mp.weixin.qq.com/s/fbHMNXOdwiQX5BAlci8brA 获取样本信息sample.csv）如果你实在是找不到样本信息文件sample.csv，也可以点击下载。


sample  read.csv("practice/sample.csv", header = T)
sample1  read.table("practice/sample.csv", header = T, sep = ",")
View(sample)
str(sample)

768行，12列。各列属性如图。

把前面两个步骤的两个表（RunInfo Table 文件，样本信息sample.csv）关联起来，使用merge函数。


view(SraRunTable)
view(sample)

total  merge(SraRunTable, sample, by.x = "Sample_Name", by.y = "Accession")
View(total)

合并之后的数据，有768行，42列。

对前面读取的RunInfo Table文件在R里面探索其MBases列。把前面读取的样本信息表格的样本名字根据下划线分割看第3列元素的统计情况。第三列代表该样本所在的plate。根据plate把关联到的RunInfo Table信息的MBases列分组检验是否有统计学显著的差异。分组绘制箱线图(boxplot)，频数图(hist)，以及密度图(density) 。

newdata  total[,c("MBases","Title")]

plate  unlist(lapply(newdata[,2],function(x){
  x
  strsplit(x,'_')[[1]][3]}))

table(plate)


t.test(newdata[,1]~plate)


boxplot(newdata[,1]~plate)

hist(total$MBases)

plot(density(total$MBases))

使用ggplot2把上面的图进行重新绘制。

library(ggplot2)
newdata$Title  plate

ggplot(newdata,aes(x=plate,y=MBases))+geom_boxplot()

ggplot(newdata,aes(x=MBases))+geom_histogram()

ggplot(newdata,aes(x=MBases))+geom_density()

使用ggpubr把上面的图进行重新绘制。

library(ggpubr)
ggboxplot(newdata, x = "Title", y = "MBases")
gghistogram(newdata, x = "MBases")
ggdensity(newdata, x = "MBases")

Original: https://blog.csdn.net/narutodzx/article/details/119282538
Author: Dzfly..
Title: 生信学习——R语言练习题-初级（附详细答案解读）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600888/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

瑞芯微-交叉编译环境搭建-opencv环境搭建(基于RV1109-1126)-(基于ubuntu18.04)

本文主要介绍基于RV1109与RV1126板子编译opencv，并在其运行方法，若编译其它算法，基本也遵循该方法。为此，我将记录详细过程供读者参考：一.交叉编译我们在 x86…

人工智能 2023年6月4日
00105
航空公司客户价值分析

1. 背景 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is st…

人工智能 2023年6月3日
00139
贝叶斯与朴素贝叶斯

贝叶斯贝叶斯分类算法是统计学的一种分类方法, 它是一类利用概率统计知识进行分类的算法。贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展，…

人工智能 2023年5月28日
0088
pandas.cut()函数的使用

函数可以将数据进行分类成不同的区间值。在数据分析中，例如有一组年龄数据，现在需要对不同的年龄层次的用户进行分析，那么我们可以根据不同年龄层次所对应的年龄段来作为划分区间，例如 bi…

人工智能 2023年7月4日
0065
【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION

; 摘要知识蒸馏最初是为了利用单个教师模型的额外监督来进行学生模型培训。为了提高学生的表现，最近的一些变体试图利用来自多名教师的不同知识来源。然而，现有的研究主要通过对多个教师预…

人工智能 2023年5月28日
0085
区域增长法和连通区域标记法【小记】

区域增长法/区域生长法区域生长方法主要用于区域分割。这是一个非常简单的图像处理算法。可用于彩色图像，可用于二值图像等。 [En] The region growth method…

人工智能 2023年5月25日
0083
知识问答(KBQA)两种主流方法：基于语义解析和基于信息检索的方法介绍

什么是知识问答基于知识的问答是以知识库为认知源，在知识库的基础上回答自然语言问题。知识库（KB）是一个结构化数据库，其中包含形式 ; ‍ 例如，” Barack O…

人工智能 2023年5月27日
0083
【Python】第七篇：模块化编程及第三方模块的安装

💖少年遥想得山田，请赶在日暮下山💖 系列文章目录🍁 第一篇：基础语法与结构整理万字，秃头的路上，我们一起成为卷王第二篇：Python四大内置数据结构列表、字典、元组、集合看这一篇…

人工智能 2023年7月5日
0070
transformer包中的bert预训练模型的调用详解

文章目录 Bert调用 * 安装transformers BertTokenizer BertModel Bert调用 2018年的10月11日，Google发布的论文《Pre-t…

人工智能 2023年5月30日
0089
少儿编程之代码编程

编程是编写程序的中文简称，就是让计算机代为解决某个问题，对某个计算体系规定一定的运算方式，使计算体系按照该计算方式运行，并最终得到相应结果的过程。为了使计算机能够理解人的意图，人…

人工智能 2023年6月6日
00127
tableSizeFor

HashMap tableSizeFor() /** Returns a power of two size for the given target capacity. 1.（不…

人工智能 2023年6月4日
0069
【信号与系统】（二十一）拉普拉斯变换与复频域分析——拉普拉斯变换及其性质

文章目录拉普拉斯变换及其性质 * 1 双边拉普拉斯变换的定义 2 收敛域 – 2.1 因果信号 2.2 反因果信号 2.3 双边信号 3 （因果信号）单边拉氏变换的定…

人工智能 2023年6月16日
00116
Mediapipe实战——导出身体节点坐标并用TensorFlow搭建LSTM网络来训练自己的手势检测模型再部署到树莓派4B

一、前言在YouTube上看到up主——Nicholas Renotte的相关教程，觉得非常有用。使用他的方法，我训练了能够检测四种手势的模型，在这里和大家分享一下。附上该up主的…

人工智能 2023年5月26日
00104
ROS知识：点云文件.pcd格式

目录一、点云文件格式 PCD (Point Cloud Data) 二、为何采用新得文件格式三、PCD版本四、文件头部格式五、数据存储格式六、其它优势 Example 一…

人工智能 2023年6月2日
0083
论文阅读 Real-Time Streaming Graph Embedding Through Local Actions 11

9 Real-Time Streaming Graph Embedding Through Local Actions 11 link:https://scholar.google…

人工智能 2023年6月4日
00200
单目标跟踪算法：SiamRPN++

原文链接——SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 写在前面：这篇文章提出的…

人工智能 2023年5月26日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生信学习——R语言练习题-初级（附详细答案解读）

题目目录

大家都在看