10 用TCGA下载二代测序的序列的话,是个什么流程呀?从下载到选择什么样的文件分析,有没有相关TCGA使用以及分析数据的书籍推荐,谢谢!

以前从来没有接触过数据库之类的科研小白,还希望大牛们不吝赐教!

请先 登录 后评论

1 个回答

祝让飞 - 生物信息工程师

这个问题很大,目前没有什么标准流程,根据每个人不同的需要,使用TCGA数据

简单举几个例子如下

1、观察某个癌症的差异基因表达

下载某个癌症的癌与癌旁的表达谱数据(RPKM)数据,然后计算基因的差异表达

2、观察某个癌症的某些基因的在不同亚型(时期)表达变化

下载某个癌症的癌与癌旁的表达谱数据(RPKM)数据,提取出自己关注的基因,然后观察基因在不同样本的表达趋势(这里考虑标准化及是否需要管家基因表达来矫正)

3、观察某些基因的预后差异

下载某个癌症的癌与癌旁的表达谱数据(RPKM)数据及临床随访信息,提取出自己关注的基因,分析他们的预后

4、建立预后模型挖掘预后关键基因
这个方法就很多了,什么lasso之类的各种降维方法
5、其他数据类型比如甲基化(胶质瘤的MGMT启动子甲基化与预后的关系也可以从TCGA数据得到验证),非编码RNA等等相关的研究都可以用TCGA来挖掘或者验证
反正例子很多很多,如果想单纯从TCGA数据库挖掘一些东西的话,现在难度还是很大的,当然关心文章的话可以看看这个https://www.shengxin.ren/question/14,但是使用TCGA数据来辅助你的研究还是很简单的,你也可以多看看那些使用TCGA的文章,这个就很多了,pubmed上关键字 TCGA。
至于TCGA案例的话目前还没整理过,不过有计划整理和分享一些案例,欢迎继续关注。

请先 登录 后评论