之间介绍过annovar进行对snp注释,今天介绍snpEFF
SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of variants on genes
详细的说明请阅读:
http://snpeff.sourceforge.net/SnpEff_manual.html
1 wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
2 unzip snpEff_latest_core.zip
3
4 #会产生一个snpEff目录 所有的程序都在这里面
以菠菜(spinach)参考基因组为例子:
打开snpEFF文件夹下的snpEff.contig, 增加新的物种信息,可以在任意一行添加,个人建议在 # Databases & Genomes 添加
1 # spinach_v1
2 spinach_v1.genome : spinach
建立data文件夹并且建立名为spinach_v1的文件夹 (和上述对应)
1 mkdir -p data/spinach_v1
在该文件夹下存放两个文件:
(一定按上述名字)
用build命令进行构建
1 # 在snpEff文件夹下运行命令
2 java -jar snpEff.jar build -gff3 -v spinach_v1
3
4 ## 参数
5 -v: 版本
6 -gff3:gff文件类型
1 java -jar snpEff.jar ann spinach_v1 input.vcf.gz > snpeff.vcf
同样我们可以选择以下参数简化输出
比如说我们只关注CDS中的注释信息,不考虑上游、下游、UTR、基因间区等信息
1 java -jar snpEff.jar ann -no-utr -no-downstream -no-upstream -no-intergenic spinach_v1 input.vcf.gz > snpeff.vcf
两个文件记录总结性信息比较简单
*.ann.vcf 是一个注释结果文件,其就在vcf的info信息新添加了anno一列信息,其具体每个值含义如下:
Allele
突变之后的碱基,第一个突变位点由T碱基突变成了C碱基,对应Allel的值为C
Annotation
由sequence ontology
定义的突变类型
Annotation_Impact
对变异位点有害程度的简单评估,取值有HIGH
, MODERATE
, LOW
, MODIFIER
4种,含义如下
Gene_Name
基因名字
Gene_ID
基因ID
Feature_Type
想要分析的特征类型,transcript, motif, miRNA 等
Feature_ID
根据Feature Type
指定的特征,给出对应的ID
Transcript_BioType
转录本类型, 通常采用Ensembl数据库的转录本类型
Rank
只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12
当变异位点位于基因区域以外时,该字段的值为空
HGVS.c
采用HGVS
标准命名的基因水平的变异情况
HGVS.p
采用HGVS
标准命名的蛋白质水平的变异情况,只有当突变位点位于编码区是才会有值
cDNA.pos/cDNA.length
突变位点在cDNA上的位置/cDNA的总长度
CDS.pos/CDS.length
突变位点在CDS上的位置/CDS的总长度
AA.pos/AA.length
突变位点在氨基酸序列上的位置/氨基酸序列的总长度
Distance
变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。
ERRORS/WARNINGS/INFO
对注释结果的可靠程度进行评估,各种取值代表的含义如下图
参考
关注下方公众号可获得更多精彩
手机扫一扫
移动阅读更方便
你可能感兴趣的文章