ensembl-vep/VEP 注释软件安装及测试 超简单版(conda vep、百度网盘数据库)

VEP是一款强大的注释、分析软件,在我们的变异检测中经常使用其进行SNP、INDEL、CNV和SV的注释,同时借助数据库的内容,对变异结果进行过滤。

如此一款强大和功能齐全的软件,其参数必然会非常之多,对于初次接触的人来说,过多的参数非常影响对此软件的理解和使用,甚至耗费大量时间来安装软件。

笔者也面对了此问题,耗费大量时间在软件调研和安装步骤中,为了方便后来者的快速使用,特此将安装使用心得分享给大家~~~~

一、conda 安装VEP

1、感谢conda的强大,我们可以直接使用conda来安装vep软件,省去了多余的配置问题,但是由于vep涉及到的软件版本和依赖较多,因此建议新建一个虚拟环境来安装VEP,如下:

conda create -n vep
conda activate vep

2、conda 安装VEP 具体安装方式为:(任选其中一个可以跑通的安装方式即可)

To install this package with conda run one of the following:
conda install -c bioconda ensembl-vep==101.0
conda install -c bioconda/label/cf201901 ensembl-vep==101.0

请注意:笔者下载的是 vep=101.0版本,目的是为了与已有的数据库配套,数据库会在后面详解。

3、测试一下安装的VEP是否可以运行,尝试直接在窗口上输入 vep,发现可以跑通了:

(vep) [xxx@xxx]$ vep
Possible precedence issue with control flow operator at /pwd/envs/vep/lib/site_perl/5.26.2/Bio/DB/IndexedBase.pm line 805.

#----------------------------------#
ENSEMBL VARIANT EFFECT PREDICTOR #
#----------------------------------#

Versions:
  ensembl              : 101.856c8e8
  ensembl-funcgen      : 101.b918a49
  ensembl-io           : 101.943b6c2
  ensembl-variation    : 101.819eef2
  ensembl-vep          : 101.0

Help: dev@ensembl.org , helpdesk@ensembl.org
Twitter: @ensembl

http://www.ensembl.org/info/docs/tools/vep/script/index.html

Usage:
./vep [--cache|--offline|--database] [arguments]

Basic options
=============

--help                 Display this message and quit

-i | --input_file      Input file
-o | --output_file     Output file
--force_overwrite      Force overwriting of output file
--species [species]    Species to use [default: "human"]

--everything           Shortcut switch to turn on commonly used options. See web
                       documentation for details [default: off]
--fork [num_forks]     Use forking to improve script runtime

For full option documentation see:
http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html

二、VEP相应数据库下载配置

至此为止,VEP软件安装完成了,我们可以看到VEP的运行参数,但是还不能完全运行VEP软件进行数据分析,因为VEP的运行需要下载相应的database文件,包括:

cache(可以理解成其定义的一系列数据集合,vep可以直接从中调取使用数据),cache数据集版本需需要与VEP软件版本对应,笔者选择的是VEP=101.0 、cache=101.0

参考基因组,我们分析时使用的参考基因组即可

1、cache 数据集下载:

此数据集有多种下载方式:

1)运行VEP软件自带的 INSTALL.pl 进行下载,非常之慢,pass!

仍然顽强附上使用方式,若果运气好网速好,直接都配置完成:

####下载VEP的安装包,里面有相应的下载database的脚本、测试数据
git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep
perl INSTALL.pl

2)自行从官网下载,使用wget即可下载:

需要下载cache数据集:

以及参考基因组数据(可以直接使用自己用于比对的基因组):

同样的非常之慢,但是仍然附上下载方式:

#####cache 数据库
ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/homo_sapiens_vep_101_GRCh37.tar.gz

tar xzf homo_sapiens_vep_101_GRCh37.tar.gz

#####参考基因组:
wget -c ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz

3)自制cache数据库,VEP貌似也提供了相应的脚本和说明,感兴趣的可以自己去看。

4)!!!重点来了,最快的获得数据集的方式:笔者提供了下载好的cache数据集,版本为homo_sapiens_vep_101_GRCh37.tar.gz

已经放置于百度云,感兴趣的自行下载,有需要的联系笔者要分享链接吧~~

三、VEP测试

在安装完成VEP、下载好cache文件后,即可进行vep真正的测试,测试方式如下:

####下载VEP的安装包,里面有相应的下载database的脚本、测试数据
git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep/examples
vep -i homo_sapiens_GRCh37.vcf --fork 4 -o homo_sapiens_GRCh37.out.vcf --assembly GRCh37 --cache --cache_version 101 --dir /path/envs/vep/share/ensembl-vep-101.0-1 (我们下载的cache文件的路径) --offline --fasta /path/envs/vep/share/ensembl-vep-101.0-1/homo_sapiens/101_GRCh37/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz  --force_overwrite

测试不报错,同时生成指定名称的文件:

homo_sapiens_GRCh37.out.vcf

至此安装及测试结束~

Original: https://blog.csdn.net/qq_40815731/article/details/123552762
Author: 李毛线的博客
Title: ensembl-vep/VEP 注释软件安装及测试 超简单版(conda vep、百度网盘数据库)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/770563/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球