TCGA RNAseq数据中FPKM与TPM转换介绍

在新版数据中TCGA的RNAseq数据主要提供了三种数据下载，FPKM，FPKM-UQ,Counts，如果要用edgR等筛选差异的话会下载使用Counts数据，但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差...

在新版数据中TCGA的RNAseq数据主要提供了三种数据下载，FPKM，FPKM-UQ,Counts，如果要用edgR等筛选差异的话会下载使用Counts数据，但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差异基因并不理想，细思主要有两方面原因：

一、肿瘤数据本身异质性很高

二、正常样本严重偏少

基于此笔者几乎很少使用edgR等软件来筛选差异了，那么就很少下载Counts数据了，所以大多数情况下都是用RPKM，但是RPKM数据本身也是饱受诟病，像cbioportal使用的是RSEM软件做的定量即TPM，在老版TCGA中也可以直接下载到这些数据，那么新版如何得到这样的数据呢，简单的办法是从FPKM转TPM

怎么转？

首先我们需要了解一下FPKM和TPM的公式

FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千个碱基的转录每百万映射读取的fragments

TPM：TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千个碱基的转录每百万映射读取的Transcripts

他们的计算公式如下：

FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))

total exon reads：某个样本mapping到特定基因的外显子上的所有的reads

mapped reads (Millions) :某个样本的所有reads总和

exon length(KB)：某个基因的长度（外显子的长度的总和，以KB为单位）

TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)

Ni：mapping到基因i上的read数； Li：基因i的外显子长度的总和;m：为所有基因的总数

从以上公式我们可以进一步推导如下：

1、FPKMi*(mapped reads (Millions)= total exon reads/ (mapped reads (Millions) * exon length(KB))

2、total exon reads/ (mapped reads (Millions) * exon length(KB))=(Ni/Li)

3、FPKMi*(mapped reads (Millions)=(Ni/Li)

4、TPMi=FPKMi*(mapped reads (Millions)*1000000/(N0/L0+……..+ Nm/Lm)

5、TPMi=FPKMi*(mapped reads (Millions)*1000000/(FPKM0*(mapped reads (Millions)+……..+ FPKMm*(mapped reads (Millions))

6、TPMi=FPKMi*1000000/(FPKM0+……..+ FPKMm)

最终我们得到了TPM和FPKM的转换公公式，从公式里可以看到TPM就是等于该基因的FPKM占所有基因的FPKM的总和的比例乘以一百万，那么值得注意的是每个样本所有基因的TPM加和就等于一百万了，这很类似样本间标准化

最后你下载的TCGA FPKM数据转换TPM就不会懵逼了吧

参考文献：https://academic.oup.com/bioinformatics/article/26/4/493/243395/RNA-Seq-gene-expression-estimation-with-read

发表于 2017-08-24 10:41
阅读 ( 41615 )
分类：软件工具

TCGA RNAseq数据中FPKM与TPM转换介绍

你可能感兴趣的文章

相关问题

13 条评论

作家榜 »