基于R语言的Lasso回归在水稻全基因组预测中的应用

2023年6月17日下午6:53 • 人工智能 • 阅读 76

基于R语言的Lasso回归在水稻全基因组预测中的应用

0 引言

全基因组选择是 21 世纪动植物育种的一种重要的选择策略，其核心就是全基因组预测，即基于分布在整个基因组上的多样性分子标记来对育种值进行预测，为个体的选择提供依据。

全基因组选择( genomic selection，GS) 是利用分布在整个基因组上的分子标记来估算育种值的一种高效、经济的方法．它实质上是估计所有基因或染色体片段的联合效应，并结合这些效应来预测基因组估计的育种值( genomic estimated breeding value，GEBV)。

许多统计方法都可用于全基因组选择，包括贝叶斯方法( 贝叶斯 B) ，最佳线性无偏预测( BLUP) ，以及正则化线性模型( 岭回归、Lasso 回归和弹性网络) 等。但是对于预测农作物的性状而言没有一种方法是完美的，它们各有各的特点，而预测的效果取决于模型的性质与性状的特点和遗传结构。

本文基于R语言编写Lasso回归方法对水稻产量和产量相关性状进行全基因组预测分析。

1 材料与方法

1.1 实验数据

水稻的产量（yd)等形状的数据来自胡老师在qq群的分享，其最初来源是Gains in QTL detection using an ultra-high density SNP map based on population sequencing relative to traditional RFLP/SSR markers. 实验人员实验人员将珍汕 97 A 和明恢 63 两个水稻品种作为亲本，杂交产生 210 个重组自交系( recombinant inbred lines，RIL) ，从这些重组自交系中收集 4 个产量相关性状的表型数据，它们分别是水稻产量( yd) ，千粒重( kgw) ，分蘖数( tp) 和单株谷粒数 ( gn) 。将各个重复的性状的平均表型值作为响应变量。基因组数据由水稻基因组的约270 000 个 SNP 推断的 1 619 个组( bin) 表示。组内的所有 SNP 都具有完全相同的分离模式( 完全的连锁不平衡( LD) ) ，因此来自一组的一个SNP 足以代表整个组。210 个RIL 的基因型编码为: 1 代表珍汕97 A 基因型，0代表明恢 63 基因型。

1.2 统计模型

1.2.1 Lasso 回归

在全基因组选择中，预测变量的数目( p) 通常远远大于个体的数目( n) 。在这种情况下，普通最小二乘法( ordinary least-squares，OLS) 的估计值具有很差的预测能力，因为标记效应被视为固定效应，这导致预测变量之间的多重共线性和过度拟合，从而使该模型不可行。

Lasso( least absolute shrinkage and selection operator) 是统计学家 Robert Tibshirani 在 1996 年提出的一种变量选择方法，它是 OLS 的约束版本，是一种基于线性回归模型的降维方法，对高维小样本数据的稀疏模型十分有用，在基因表达谱分析中被广泛应用。Lasso 回归模型将任意选择一个并分解，而忽略其他 Lasso 模型，这使得 Lasso 的惩罚期望许多系数接近零．该方法也广泛应用于具有大量数据集的领域，例如基因组学。

2 模型代码详解


load("D:\\生信数学基础\\G.Rdata")
load("D:\\生信数学基础\\RIL.Phe.Rdata")

View(G)
View(RIL.Phe)
dim(RIL.Phe)

dim(G)

图1. View(G)

图2. View(RIL.Phe)


Gen$YD  Phe$yd
dim(Gen)

sum(is.na(Gen))

x  model.matrix(YD~.,Gen)

y  Gen$YD

建造训练集和测试集

set.seed(6)

train  sample(1:nrow(x),nrow(x)*7/10)
test  (-train)
x.train  x[train,]
dim(x.train)

x.test  x[test,]
dim(x.test)

y.train  y[train]
y.test  y[test]
length(y.train)

length(y.test)

导入相关库，并手动筛选λ \lambda λ


library(Matrix)
library(glmnet)
library(foreach)
grid  10^seq(10,-2,length=100)

LASSO.model  glmnet(x.train,y.train,lambda = grid)

str(LASSO.model)
coef(LASSO.model)[,70]

LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[70])
sqrt(mean((LASSO.pred-y.test)^2))

LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[99])
mean((LASSO.pred-y.test)^2)

LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[90])
mean((LASSO.pred-y.test)^2)

LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[94])
mean((LASSO.pred-y.test)^2)

下面用模型来筛选出最好的λ \lambda λ

cv.LASSO.model  cv.glmnet(x.train,y.train,nfolds = 5)
str(cv.LASSO.model)
plot(cv.LASSO.model)
cv.LASSO.model$lambda.min
log(cv.LASSO.model$lambda.min)
cv.LASSO.pred  predict(cv.LASSO.model,newx = x.test,s=cv.LASSO.model$lambda.min)
RMSE  sqrt(mean((cv.LASSO.pred-y.test)^2))
RMSE
mean((cv.LASSO.pred-y.test)^2)
sum((cv.LASSO.pred-y.test)^2)
SSR  sum((cv.LASSO.pred-mean(y.test))^2)
SSR
SST  sum((y.test-mean(y.test))^2)
SST
R2  SSR/SST
R2

图3. plot(cv.LASSO.model)

图4. 程序输出结果

3 结果与分析

λ m i n \lambda_{min}λm i n R M S E RMSE R M S E R 2 R^2 R 2

0.20124.47880.3927

表1. 输出结果（RMASE表示Root Mean Square Error,均方根误差）

所以由模型给出的结果是当λ \lambda λ=0.2012的时候，预测效果最好，R M S E RMSE R M S E在所进行的实验中也是最小的。

不过有意思的是，在之前手动取最小值的时候，偶然发现当λ = 0.0534 \lambda=0.0534 λ=0 .0 5 3 4时，拟合优度R 2 R^2 R 2达到了0.89！

图5、6 偶然发现的好参数

然后我就把此时λ \lambda λ的取值放到c v . L A S S O . m o d e l cv.LASSO.model c v .L A S S O .m o d e l中，算出来的结果如下：

cv.LASSO.pred  predict(cv.LASSO.model,newx = x.test,s=cv.LASSO.model$lambda.min)
cv.LASSO.pred  predict(cv.LASSO.model,newx = x.test,s=0.05336699)
RMSE  sqrt(mean((cv.LASSO.pred-y.test)^2))
RMSE
mean((cv.LASSO.pred-y.test)^2)
sum((cv.LASSO.pred-y.test)^2)
SSR  sum((cv.LASSO.pred-mean(y.test))^2)
SSR
SST  sum((y.test-mean(y.test))^2)
SST
R2  SSR/SST
R2

λ m i n \lambda_{min}λm i n R M S E RMSE R M S E R 2 R^2 R 2

0.053375.08510.9236

表2. 有意思参数的输出结果

图7. 有意思参数的输出结果

不过，模型给出的λ \lambda λ在R M S E RMSE R M S E 评价指标中还是在所有实验中排在榜首的，说明模型还是很不错的！

4 附录

完整代码如下：


load("D:\\生信数学基础\\G.Rdata")
load("D:\\生信数学基础\\RIL.Phe.Rdata")

fix(G)
fix(RIL.Phe)
typeof(RIL.Phe)
dim(RIL.Phe)
dim(G)
Phe  as.data.frame(RIL.Phe)
Phe$yd
typeof(Phe)
Gen  as.data.frame(G)
typeof(Gen)

Gen$YD  Phe$yd

dim(Gen)

sum(is.na(Gen))

x  model.matrix(YD~.,Gen)

y  Gen$YD

set.seed(6)

train  sample(1:nrow(x),nrow(x)*7/10)

test  (-train)

x.train  x[train,]

dim(x.train)
x.test  x[test,]
dim(x.test)
y.train  y[train]
y.test  y[test]
length(y)
length(y.train)
length(y.test)

library(Matrix)
library(glmnet)
library(foreach)
grid  10^seq(10,-2,length=100)

LASSO.model  glmnet(x.train,y.train,lambda = grid)

str(LASSO.model)
coef(LASSO.model)[,70]

LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[70])

SST  sum((y.test-mean(y.test))^2)
SSR  sum((LASSO.pred-mean(y.test))^2)
R2  SSR/SST
R2
sqrt(mean((LASSO.pred-y.test)^2))
LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[99])

SSR  sum((LASSO.pred-mean(y.test))^2)
R2  SSR/SST
R2
mean((LASSO.pred-y.test)^2)
sqrt(mean((LASSO.pred-y.test)^2))
LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[90])

SSR  sum((LASSO.pred-mean(y.test))^2)
R2  SSR/SST
R2
mean((LASSO.pred-y.test)^2)
sqrt(mean((LASSO.pred-y.test)^2))
LASSO.pred  predict(LASSO.model,newx = x.test,s=LASSO.model$lambda[94])
SSR  sum((LASSO.pred-mean(y.test))^2)
R2  SSR/SST
R2
sqrt(mean((LASSO.pred-y.test)^2))
mean((LASSO.pred-y.test)^2)
LASSO.model$lambda[94]

cv.LASSO.model  cv.glmnet(x.train,y.train,nfolds = 5)
str(cv.LASSO.model)
plot(cv.LASSO.model)
cv.LASSO.model$lambda.min
log(cv.LASSO.model$lambda.min)
cv.LASSO.pred  predict(cv.LASSO.model,newx = x.test,s=cv.LASSO.model$lambda.min)
cv.LASSO.pred  predict(cv.LASSO.model,newx = x.test,s=0.05336699)
RMSE  sqrt(mean((cv.LASSO.pred-y.test)^2))
RMSE
mean((cv.LASSO.pred-y.test)^2)
sum((cv.LASSO.pred-y.test)^2)
SSR  sum((cv.LASSO.pred-mean(y.test))^2)
SSR
SST  sum((y.test-mean(y.test))^2)
SST
R2  SSR/SST
R2

Original: https://blog.csdn.net/dream_of_grass/article/details/122127368
Author: Dream of Grass
Title: 基于R语言的Lasso回归在水稻全基因组预测中的应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631512/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于数据挖掘的共享单车骑行数据分析与预测

温馨提示：文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 项目背景共享单车系统在大城市越来越流行，通过提供价格合理的自行车租赁，让人们可以享受在城市里骑…

人工智能 2023年6月19日
00119
【数字图像处理课程设计】期中、期末综合考试题目整理总结（共四个图像处理算法应用题）

目录一、下面两幅图像中有几处不同，编程把它们找出来、并在图中突出显示（关键步骤不能调用内置函数）。 1.算法原理 2.解题步骤 3.程序代码 4.处理结果二、下图含有干扰条纹（…

人工智能 2023年6月17日
0056
神经网络的三种训练方法,神经网络训练全过程

matlab神经网络问题。 10 。参考一下吧P=[012345678910];T=[01234321234];net=newff([010],[51],{‘tans…

人工智能 2023年6月15日
00105
瞧瞧别人家的API接口，那叫一个优雅

在实际工作中，我们需要经常跟第三方平台打交道，可能会对接第三方平台API接口，或者提供API接口给第三方平台调用。那么问题来了，如果设计一个优雅的API接口，能够满足：安全性、可…

人工智能 2023年7月30日
0059
语义网络与知识图谱

当前的web：取得了巨大的成功产生了海量的数据有了用于结构化数据传输的标准语法（XML）大量机器可处理，人类可读的文档当前的Web存在的问题信息太多但是结构化太少信息…

人工智能 2023年6月1日
0073
用户分析与RFM模型实战｜一个可以写在简历上的项目（下）

大家好，我是芒果。接上文：用户分析与RFM模型实战｜一个可以写在简历上的项目（上）本篇会继续对此数据对产品维度和用户分层维度进行分析。依然结论先行：重要结论🏅 3、产品维度…

人工智能 2023年6月11日
0086
ROS 信息打印(INFO、 DEBUG等)

ROS Log ROS的Log等级跟平常的一样： Debug、Info、Warn、Error、Fatal； #include 一、类似C语言风格 ( printf ) ROS_IN…

人工智能 2023年6月11日
0087
LSTM分类模型

LSTM文本分类模型本文的主要目的是确定一个文本分类流程。全文共分为三个部分： [En] The main purpose of this paper is to fix a t…

人工智能 2023年5月27日
0089
DHCP协议从入门到部署DHCP服务器进行实验

目录 1、DHCP基本概念 2、DHCP的优点 3、DHCP的工作原理 4、通过抓包验证原理 5、在windows server上部署DHCP服务器 6、实验搭建实验环境配置R…

人工智能 2023年6月26日
0076
ResNet代码实现及原理——学习记录

引言论文下载地址：Deep Residual Learning for Image Recognition Pytorch版源代码下载地址：https://github.com/…

人工智能 2023年5月28日
0078
python opencv边缘检测

通过Opencv进行边缘检测可以说是十分常见了，接下来让我们聊一聊如何通过python opencv一步一步实现边缘检测重要函数讲解图片读取函数: pic = cv2.imre…

人工智能 2023年7月19日
0037
挑灯夜战800个小时，终从外包成功上岸字节！入职那一天我眼眶湿润了

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月30日
0048
Day2-基于医疗知识图谱的问答系统操作介绍

Task2 基于医疗知识图谱的问答系统操作介绍这次的项目是来自于开源项目QASystemOnMedicalGraph 从无到有搭建一个医疗领域知识图谱(知识图谱规模较小)，并基于…

人工智能 2023年6月10日
0075
【python学习】如何将所绘制的图（单张/多张）保存到文件夹，并用绘制实时时间命名图片

python图片保存到文件夹基本存储（plt.savefig()）创建文件夹并存储图片（if结构+OS模块）批量绘制图片+批量存储（for循环）图片/文件夹命名与所运行时间…

人工智能 2023年7月6日
0067
0716蔚来计算机视觉岗笔试选择题

简介蔚来的笔试时长一共90分钟，分为两部分，第一部分为15道选择题，第二部分为三道编程题。选择题 1. BERT模型 BERT是一个无监督的模型 2. Reset网络 Res…

人工智能 2023年5月26日
00143
图像处理（十一）：轮廓检测

1 图像的轮廓轮廓可以简单认为成将连续的点（连着边界）连在一起的曲线，具有相同的颜色或者灰度。轮廓是图像目标的外部特征，这种特征对于我们进行图像分析，目标识别和理解等更深层次的处…

人工智能 2023年6月25日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于R语言的Lasso回归在水稻全基因组预测中的应用

基于R语言的Lasso回归在水稻全基因组预测中的应用

0 引言

1 材料与方法

1.1 实验数据

1.2 统计模型

1.2.1 Lasso 回归

2 模型代码详解

3 结果与分析

4 附录

大家都在看