TCGA RNAseq数据中FPKM与TPM转换介绍

在新版数据中TCGA的RNAseq数据主要提供了三种数据下载,FPKM,FPKM-UQ,Counts,如果要用edgR等筛选差异的话会下载使用Counts数据,但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差...

在新版数据中TCGA的RNAseq数据主要提供了三种数据下载,FPKM,FPKM-UQ,Counts,如果要用edgR等筛选差异的话会下载使用Counts数据,但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差异基因并不理想,细思主要有两方面原因:

一、肿瘤数据本身异质性很高

二、正常样本严重偏少

基于此笔者几乎很少使用edgR等软件来筛选差异了,那么就很少下载Counts数据了,所以大多数情况下都是用RPKM,但是RPKM数据本身也是饱受诟病,像cbioportal使用的是RSEM软件做的定量即TPM,在老版TCGA中也可以直接下载到这些数据,那么新版如何得到这样的数据呢,简单的办法是从FPKM转TPM

怎么转?

首先我们需要了解一下FPKM和TPM的公式

FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千个碱基的转录每百万映射读取的fragments

TPM:TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千个碱基的转录每百万映射读取的Transcripts

他们的计算公式如下:

FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))

                    total exon reads:某个样本mapping到特定基因的外显子上的所有的reads

                    mapped reads (Millions) :某个样本的所有reads总和

                    exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)

TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)

                     Ni:mapping到基因i上的read数; Li:基因i的外显子长度的总和;m:为所有基因的总数

从以上公式我们可以进一步推导如下:

1、FPKMi*(mapped reads (Millions)= total exon reads/ (mapped reads (Millions) * exon length(KB))

2、total exon reads/ (mapped reads (Millions) * exon length(KB))=(Ni/Li)

3、FPKMi*(mapped reads (Millions)=(Ni/Li)

4、TPMi=FPKMi*(mapped reads (Millions)*1000000/(N0/L0+……..+ Nm/Lm)

5、TPMi=FPKMi*(mapped reads (Millions)*1000000/(FPKM0*(mapped reads (Millions)+……..+ FPKMm*(mapped reads (Millions))

6、TPMi=FPKMi*1000000/(FPKM0+……..+ FPKMm)

最终我们得到了TPM和FPKM的转换公公式,从公式里可以看到TPM就是等于该基因的FPKM占所有基因的FPKM的总和的比例乘以一百万,那么值得注意的是每个样本所有基因的TPM加和就等于一百万了,这很类似样本间标准化

最后你下载的TCGA FPKM数据转换TPM就不会懵逼了吧

参考文献:https://academic.oup.com/bioinformatics/article/26/4/493/243395/RNA-Seq-gene-expression-estimation-with-read

  • 发表于 2017-08-24 10:41
  • 阅读 ( 37153 )
  • 分类:软件工具

13 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章