SNPEFF snp注释 (添加自己基因组)
阅读原文时间:2023年07月10日阅读:5

之间介绍过annovar进行对snp注释,今天介绍snpEFF

SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of variants on genes

详细的说明请阅读:

http://snpeff.sourceforge.net/SnpEff_manual.html

1 wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
2 unzip snpEff_latest_core.zip
3
4 #会产生一个snpEff目录 所有的程序都在这里面

以菠菜(spinach)参考基因组为例子:

打开snpEFF文件夹下的snpEff.contig, 增加新的物种信息,可以在任意一行添加,个人建议在 # Databases & Genomes 添加

1 # spinach_v1
2 spinach_v1.genome : spinach

建立data文件夹并且建立名为spinach_v1的文件夹 (和上述对应)

1 mkdir -p data/spinach_v1

在该文件夹下存放两个文件:

  • sequences.fa
  • genes.gff            # (我用的是gff3格式,也可使gff2)

(一定按上述名字)

用build命令进行构建

1 # 在snpEff文件夹下运行命令
2 java -jar snpEff.jar build -gff3 -v spinach_v1
3
4 ## 参数
5 -v: 版本
6 -gff3:gff文件类型

1 java -jar snpEff.jar ann spinach_v1 input.vcf.gz > snpeff.vcf

同样我们可以选择以下参数简化输出

  • -no-downstream
  • -no-upstream
  • -no-utr
  • -no-intergenic
  • -no-intron

比如说我们只关注CDS中的注释信息,不考虑上游、下游、UTR、基因间区等信息

1 java -jar snpEff.jar ann -no-utr -no-downstream -no-upstream -no-intergenic spinach_v1 input.vcf.gz > snpeff.vcf

  • snpEff_genes.txt
  • snpEff_summary.html

两个文件记录总结性信息比较简单

*.ann.vcf 是一个注释结果文件,其就在vcf的info信息新添加了anno一列信息,其具体每个值含义如下:

  • Allele

      突变之后的碱基,第一个突变位点由T碱基突变成了C碱基,对应Allel的值为C

  • Annotation

      由sequence ontology定义的突变类型

  • Annotation_Impact

      对变异位点有害程度的简单评估,取值有HIGHMODERATELOWMODIFIER 4种,含义如下

  • Gene_Name

      基因名字

  • Gene_ID

      基因ID

  • Feature_Type

      想要分析的特征类型,transcript, motif, miRNA 等

  • Feature_ID

      根据Feature Type指定的特征,给出对应的ID

  • Transcript_BioType

      转录本类型, 通常采用Ensembl数据库的转录本类型

  • Rank

      只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12
    当变异位点位于基因区域以外时,该字段的值为空

  • HGVS.c

      采用HGVS标准命名的基因水平的变异情况

  • HGVS.p

      采用HGVS标准命名的蛋白质水平的变异情况,只有当突变位点位于编码区是才会有值

  • cDNA.pos/cDNA.length

      突变位点在cDNA上的位置/cDNA的总长度

  • CDS.pos/CDS.length

      突变位点在CDS上的位置/CDS的总长度

  • AA.pos/AA.length

      突变位点在氨基酸序列上的位置/氨基酸序列的总长度

  • Distance

变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。

  • ERRORS/WARNINGS/INFO

      对注释结果的可靠程度进行评估,各种取值代表的含义如下图

参考

关注下方公众号可获得更多精彩