导语
Oncomine是肿瘤领域经典的样本数据库,可以对表达数据进行简单的处理分析,计算基因表达特征,以及聚类基因集模块,并自动从数据中进行生物学功能分析。
数据库介绍
在做肿瘤研究的时候,我们往往会想针对某一个或者几个基因入手,分析他们在疾病中的表达水平和临床的相关性,最普遍的做法是通过TCGA数据集来进行分析,如果觉得一个数据集的结果比较单薄,还可以在GEO数据库中下载一些对应疾病的测序数据去进行进一步验证,那么这样一套流程下来还是很费力的,今天小编就给大家介绍一个十分方便的肿瘤数据库--oncomine。
Oncomine数据库目前已经收录了715套数据集包括86733个样本,在目前的肿瘤研究中,如果需要进行数据分析,oncomine可以算是最优先的选择。Oncomine数据库整合了TCGA和GEO的部分数据,可用于分析基因表达差异、寻找离群值、预测共表达基因等,并可根据肿瘤分期、分级、组织类型等临床信息进行分类,还可依据已知的基因—药物分析寻找可能的分子标记物与治疗靶点。
PS:oncomine数据库对于科研工作者是免费开放的,需要大家用所在学校或研究所的个人邮箱去进行注册方可使用,系统会发送账号密码过来,使用邮件提供的账号密码登陆后,会提示修改密码。修改密码后系统会再次发送一封确认修改密码的验证邮件,包含确认链接,大家必须点击链接后才可正常使用。
(存在某些学校的edu邮箱注册后收不到邮件的情况,这个时候也可以在网上找一些共享的账号去登录使用)
数据库链接:https://www.oncomine.org/resource/login.html
数据库的使用
注册与登录:
当我们使用注册的账号登录数据库后,会看到数据库的主页,数据库主要收录了mRNA expression和DNA拷贝数的芯片数据,在主页展示了各个肿瘤的类型和样本数(正常和癌症)。对于数据的分析方法主要分为三类:Coexpression Analysis、Differential Analysis、Outlier Analysis.
接下来小编将给大家依次介绍这三类的分析结果!
01
Coexpression Analysis
首先在search栏中检索一个感兴趣的基因,选择coexpression选项,并且选择一个数据集,就可以直接看到结果界面了!结果以热图的形式展示了与检索的基因共表达的基因,以及其相关系数,我们可以选择相关性较高的一些共表达基因进行进一步实验验证。
02
Differential Analysis
进行差异分析的时候,可以现在左侧选择差异分析选项,选择数据集的类型和疾病类型。
在选择癌症类型后,中间的一列会展示数据库收录的该疾病的所有数据集,我们可以根据我们的需求勾选其中的一个或整合多个数据集进行差异表达分析。
选中数据集后便会得到差异分析的结果,图中展示了在疾病中发生差异表达的基因,以及fold_change值和对应的p值。
在选中数据集后,选择compare选项,可以对选中的多个数据集进行meta分析,结果中会展示基因在多个基因集中的表达水平比较,包括中位秩和P值。
如果用户是对单个基因感兴趣,也可以通过检索单个基因,选择对应的数据集,查看单个基因在对应疾病中的表达差异。对于单个基因也同样可以进行多个数据集的meta分析。
03
Outlier Analysis
离群值分析是基于肿瘤异质性进行的分析,如果某些基因只在肿瘤的某些亚型或特定群体中异常表达,而不是在所有样本中存在显著的差异,就可以分析存在差异的样本有什么共同点,从而找出影响基因显著变化的因素。为了识别一些在疾病中只在部分样本中高表达的原癌基因,还开发了一种离群值分析的算法--COPA,其计算的COPA值越高,证明对应的基因越有可能是一个离群基因。
单基因的离群分析
04
生存分析
如果想要研究基因在疾病中的生存结果,可以检索基因后,在clinical outcome选项中选择survival status,选择数据集后就可以看到基因的表达和疾病生存的关系,但是由于数据的下载功能是付费的,我们只能在oncomine中进行分析,如果想获取原始数据的话,可以根据oncomine中收录的数据找到其原文,在文章中下载其原始数据。
除了上述介绍的几个主要的分析功能以外,oncomine数据库还提供了功能和通路富集、通过基因-药物分析寻找潜在的标志物和靶点、基因聚类等功能,可以满足用户更多样的需求。
小编总结