Vcf文件怎么看?

vcf怎么看

什么是Vcf文件?

Vcf,即variant call format,是用来描述SNPINDELSV等变异结果的一种文件格式。我们在使用GATK或者samtoolsSNP calling时,得到的就是vcf格式的文件。那么这个文件该怎么看呢?

例子:

attachments-2017-04-8VMjJaHw58e6f636470f 


VCF文件是文本文件,任意一款文本编辑器都能打开,从上面的例子上看,可以分为以两个号开头的注释说明部分和剩下的主体部分。注释说明部分主要为主体部分出现的一些tag的说明,以key=value形式记录信息,如INFOFORMAT中的DPAPGT等。而主体部分包括一行以号开头的表头信息和其他的数据行,每个数据行记录一个variant的信息,我们做分析所需要的数据就在这里。主体部分每列的信息:

CHROMPOS变异位点所在的染色体名称和位置,从1开始计数,如果是INDEL的话,位置是该INDEL第一个碱基的位置。

IDvariantid。比如call出来的SNPdbSNP数据库中存在,这里就会显示相应的rs号(当然前提是已经和dbSNP数据库做了比较)。

REFALT参考序列的碱基和突变后的碱基。如果有多种不同于参考序列的基因型,在ALT列使用隔开。如变异位点在参考基因组上的碱基为“G”,样品上突变后的基因型为“A”,则REF列为“G”ALT列为“A”;如果突变后的碱基有多个如AC,则ALT可以表示为“A,C”。这里需要注意ALT是针对这个变异位点而言,不针对特定样品。

QUALPhred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性,值越高,则variant的可能性越大。计算方法:Phred= -10 * log (1-p) pvariant存在的概率。通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%

FILTER理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。

INFO这一列是variant的详细信息,格式以tag=value形式记录,而tag的说明一般包含在文件开头的注释说明部分。

FORMATNA00001NA00002...):FORMAT这列规定了后边样品每列的格式,NA00001NA00002...)等各列是对应每个样品在这个variant的信息。我们如果要看每个样品的基因型信息,就需要看这几列了。


那样品的基因型怎么看呢?

每个样品的基因型格式都是一样的,通过FORMAT列来定义,如FORMAT列为GT:GQ:DP,样品列为0/1:35:4,则相对应的样品的GT0/1GQ35DP4。那么这些又表示什么呢?我们解释一下经常出现在FORMAT中的tag,你就明白了:

GT样本的基因型(genotype)。两个数字中间用分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有refallele1表示样品中variantallele2表示有第二个variantallele。因此:0/0表示sample中该位点为纯合的,和ref一致;0/1 表示sample中该位点为杂合的,有refvariant两个基因型;1/1 表示sample中该位点为纯合的,和variant一致。如果REFAALTC的话,则0/0就表示AA0/1表示AC1/1表示CC

ADDPADAllele Depth)为sample中每一种allelereads覆盖度,diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型;DPDepth)为sample中该位点的覆盖度。

GQ基因型的质量值(Genotype Quality)Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred= -10 * log (1-p) p为基因型存在的概率。

PL指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能性越小。Phred= -10 * log (p) p为基因型存在的概率。


了解了之后,我们就知道,每个样品的基因型是通过GT部分的内容确定的,而深度信息可以通过ADDP来看。再结合CHROMPOSREFALT等,就可以知道每个variant的具体信息了。

以上就是整个vcf文件内容了,了解了上面的信息,就可以根据自己的需要对vcf文件进行查看、处理。最后给大家推荐一款vcf文件的处理工具vcftools,它专门针对vcf文件进行处理,包含过滤、提取、合并、排序、统计等各种功能,软件地址:

https://vcftools.github.io/index.html


  • 发表于 2017-04-07 10:16
  • 阅读 ( 14678 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
不写代码的码农
百迈客

测序服务提供商

12 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章