对于基因表达谱数据的分析是生物信息学 的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。
基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。
然而,产物有相同功能的编码基因(例如对其它蛋白质 有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。
聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种 无监督学习方法,不需要任何先验领域知识,它 根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因 表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。
相似性度量函数
对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。
常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。 假设两个基因表达谱分别为 X = ( x 1 ,x 2 ,…,x m )和 Y = ( y 1 ,y 2 ,…,y m ) , 距离函数 d( X , Y ) 必须满足如下条件:
d( X , Y ) ≧ 0
d( X , Y ) = d( Y , X )
d( X , Y ) = 0 if X = Y
d( X , Y ) ≦ d( X , Z ) + d( Z , Y )
欧氏距离( Euclidean distance )是一个通常采用的距离定义,它是在 m 维空间中两个点之间的真实距离, 两个基因表达谱之间的欧氏距离计算公式如下:
(8-15)
相关系数也是常用的相似性度量函数,计算公式如下:
(8-16)
(8-17) 其中, Goffset 是 G 的各分量的均值,
是标准方差。用上述两种相似性度量,可以找出表达谱相似或者变化趋势相同的基因,如图 8.2(a) 、 (b) 所示。欧氏距离、相关系数可以反映基因之间的共表达关系,两个基因表达谱间的距离小于给定的阈值或相关系数大于某个给定的阈值,就可以认为它们之间是共表达的。距离和相关系数之间存在关联,在具体应用时,可以根据需要进行转换。
距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基因 A 调控 B , B 调控 C ,调控还有正性调控和负性调控之分。对于这些调控关系,它们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢? 互信息可能是一种有用的度量指标,其定义如下 :
MI ( X , Y ) =H ( X ) +H ( Y ) -H ( X , Y ) (8-18)
(8-19)
MI (X,Y) 是向量 X 和 Y 的互信息, H ( X ), H(Y) 分别是 X 和 Y 的熵, H(X,Y) 是向量 X,Y 的联合熵。 归一化互信息 NMI 定义如下:
NMI ( X , Y ) = MI ( X , Y ) /max[H ( X ), H ( Y ) ] (8-20)
NMI 独立于单个信息熵,抓住了模式上的相似性。互信息聚类分析没有规则上的约束,不象欧氏距离。
目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式空间是不存在的,选择何种度量函数依赖于我们要解决的问题。
8.4.2 聚类方法
对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以通常采用无监督学习方法。 在基因表达数据分析方面,层次式聚类、 K 均值、自组织映射神经网络在应用中是常用的方法。 下面主要介绍这几种常用的聚类方法,并简单介绍一些其它方法。
简单聚类
假设有 G 个基因,它们的表达谱分别用向量表示为
令任意一个基因的表达向量为第一个聚类的中心
假设选择
然后计算
到
的距离 D21 ,如果 D21 大于给定的阈值T ,则说明
不属于第一类,应该分到另外的类。在这种情况下,建立一个新的聚类中心
;如果D21 小于阈值 T ,则将
分到第一类中。接着处理其它基因,在处理第 i 个基因时,首先计算该基因的表达谱与现有各类中心的距离,假设与第 j 类的距离 Dij最小,并且 Dij简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值 T 以及基因表达谱在其空间的分布有关。该方法对于给定的一组基因表达数据模式进行初步分类提供了一种快速的算法。
层次聚类法
层次聚类法,在统计分析中也称为系统聚类法,原理和算法与第 6 章所介绍的系统发生树连锁构造方法类似,所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。该方法在基因表达谱聚类分析中是常用方法,它的优点是容易理解和实现,所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系,尤其是类与类之间的关系。
但是,基因表达谱的数量很多,往往要多于系统发生树分析时的物种数量,而且基因之间相互关系的信息也没有物种之间的多,所以,对聚类结果的后续分析要比系统发生树分析复杂得多。对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征,一般通过剪枝得到分类结果,而剪枝的过程往往带有更多的主观性,这会导致丢失一些重要的信息或包括一些无关的信息。此外,在构建基因表达谱聚类树时,已被合并的向量不再参与以后的分类,这会导致聚类结果与向量的次序有关,所以被认为是一种局部最优解的方法。
K 均值聚类
K 均值聚类在数据划分上不考虑类的分层结构问题,该算法使待聚类的所有向量到聚类中心的距离的平方和最小,这是在误差平方和准则的基础上得到的。 K 均值聚类算法如下:
(1) 任意选取 K 个基因表达谱向量作为初始聚类中心 Z1 , Z2 ,…, Zk ,在没有先验知识的情况下,一般选择前 K 个基因。
(2) 对所有的基因表达谱向量进行反复迭代计算。在第 l 次迭代过程中,如果
则将 X 所代表的基因归于第 j 类。
(3)经过一次迭代计算后,聚类中心可能发生变化,因此需要重新计算 K 个新聚类中心:
(8-21)
其中 fj(l) 为第 l 次迭代中第 j 个聚类的基因集合, Nj 为该集合中基因的个数。
(4)对于所有的聚类中心,如果 Z j (l+1)= Z j (l)(j=1,2,…,K) ,则迭代结束,得到最后的聚类结果;否则转第 2 步,继续进行迭代计算。
聚类中心的个数 K 、初始聚类中心的选择、基因排列的顺序 以及基因表达谱数据的分布影响聚类的结果,当基因表达谱类别之间分离较远时,该算法可以取得令人满意的聚类分析结果。
自组织映射神经网络
人工神经网络技术在模式识别方面有着独特的优势,神经网络能够进行非线性数据处理,发现复杂的数据关系,其中,自组织映射神经网络( Self-Organizing Map , SOM )可以对模式数据进行自动聚类。
自组织特征映射是 Kohonen 在 1990 年提出的类似大脑思维的一种人工神经网络方法,它是一种竞争学习算法,可以被认为是一种从 N 维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。 SOM 采用无教师学习训练,训练完成后,分类信息存储在网络各节点连接权值向量中,与权值向量相似的输入向量将分为一类。 SOM 包括一维和二维模型,二维 SOM 也称为 KFM(Kohonen Feature Mapping) 。它们的区别在于 KFM 考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。
KFM 的结构如 图 8.3 所示 ,输入网络的是一个 n 维向量的所有 n 个数值,输出单元呈二维排列,个数为 p × p, 输入层与输出层的各单元之间是全连接的,并用 W 表示连接权重。 KFM 的学习过程就是对所有的 G 个样本向量进行迭代学习,直到权值 W 的变化小于某一个确定的阈值或迭代达到一定的次数。测试过程比较简单,对于每一个样本向量,计算其获胜神经元,输出单元相同的样本向量属于同一类。虽然 KFM 有学习过程,但是可以看到这种学习是从所有的样本中自动获取特征,没有教师的参与,因此称为无监督的学习方法。
Kohonen 认为,神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。该思想来自于大脑神经元的特性,即大脑皮层的神经元成二维空间排列,不同区域分工不同,各自对输入模式的不同特征敏感,神经元之间存在信息交互,主要是侧向交互,即某个经元对周围神经元之间存在由近到远的不同的影响作用,而不是简单的侧抑制作用。对邻近神经元的交互作用函数有巴拿马草帽型 (公式 8-22 ) 或矩形型 (公式 8-23 ) 。
(8-22)
(8-23)
其中 dcj 是输出单元 c 与邻近单元 j 之间在神经元平面上的距离, R 是交互作用半径。
KFM 的学习过程如下:
学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径 R ,随着学习过程的不断推进,逐步减小 R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。
KFM 的聚类结果与 K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。 KFM 方法克服了 K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。
其它聚类方法
聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。
(1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。
(2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的 K 均值聚类方法中。对于 K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是 0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度
来确定第 i 个样本属于第 j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与 K 均值法的实现过程基本相同,所不同的是对于模糊 C 均值法并不是直接将样本向量归类,而是计算属于各类别的隶属度
;同样它没有一个明确的类界限,在计算聚类中心时,需要考虑所有的样本向量,根据隶属度μ来计算聚类中心。
(3)谱聚类:K 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果,而对于具有同心圆特征的数据样本很难得到好的分类效果,而谱聚类( Spectral clustering )能够很好的对具有这种特征的样本进行聚类。谱聚类是一种基于矩阵特征向量的方法,也是一种能根据顶点之间的权值对图进行划分的方法。用图表示基因表达谱矩阵,基因表达谱可以看作是一组顶点,连接顶点的边的权值反映了两个表达谱之间的相似性,这样就得到有权无向图 G(V , A) ,聚类过程等价于将 G 划分为不连接的子集,这可以通过简单地删除连接边来实现。
聚类过程包括两个步骤:
第 1 步是将表达谱空间转化为相似度矩阵的特征向量空间;第 2 步是应用简单的 K 均值法对特征向量空间的特征向量进行聚类,得到的结果就对应了基因表达谱的聚类结果。该方法可以根据特征值自动确定分类数目。谱聚类在聚类过程中进行了特征空间的转换,可以将大的空间转化为较小的空间,从而可以更快速地处理大规模的数据。
(4)超顺磁性聚类:
超顺磁性聚类( superparamagnetic clustering )是一种基于模拟非均匀铁磁物质的物理特性的聚类方法,将数据聚类问题视为检验不均匀 Potts 模型的平衡特性。根据表达谱向量之间的距离矩阵构建图,顶点是数据点,如果两个点之间的距离满足 K-mutual-neighbor 准则,则称为邻居。数据点的聚类等价于有权图的划分。给每一数据点分配一个 Potts 自旋子,相邻数据点间引入强度随距离下降的相互作用函数。
非均匀 Potts 模型系统随温度变化表现出三相:在低温下,所有自旋子呈现完全有序的排列,系统为铁磁相;随着温度的升高,小区域自旋子形成磁化“颗粒”,附属于同一“颗粒”者相互间产生强耦合,而无关者间相互作用很弱,不同“颗粒”的排列呈无序状态,为超顺磁相;在高温下,系统不表现任何有序性,为顺磁相。在超顺磁相的转换温度下,磁化率表现出显著的峰值。
原则上,超顺磁相可以有一系列的转换点。随着温度的升高,系统可以首先分裂为两类,其中每一类又可以分裂为更多的子类,这样,数据就分层组织为类。超顺磁性聚类算法的优点是对噪声及初始化不敏感,因为类由系统的综合性质产生。由磁化率的峰值很容易鉴别主要的分界,从而能清楚显示类的构成和分界,并且在每一个分辨率上能自动确定类数。
(5)双向聚类法:
以上所述方法主要是对基因表达谱进行聚类,或针对基因表达矩阵的行进行聚类分析,将具有相似模式的基因表达谱分为一组,这是在应用中要解决的主要问题。基因表达数据矩阵中的列表示了实验条件,可以是时间序列,也可以是不同的肿瘤样本或病人样本。
从生物学应用的角度,针对列的聚类可以发现各实验条件之间的相互关系,例如,同一肿瘤类型的样本可以聚成一类,它们具有相似的基因表达模式,这样就可以基于表达谱对肿瘤进行分类。从数学的角度,数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响,挑选部分列进行聚类的结果与选择所有列进行聚类的结果是不同的。将两者结合起来,就称为双向聚类法,在行和列两个方向上进行聚类分析,通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类,这些子矩阵中感兴趣的模式具有特定的生物学意义。在应用中,可以根据具体的目的,确定以降低基因维数还是以降低样本维数为主,通过迭代得到稳定的若干样本分类或基因分组。
基于模型的聚类方法
在基因表达数据显著性分析时,我们提到贝叶斯方法的应用,它分别对两种条件下的数据构建模型,通过比较它们的模型参数来确定表达差异的显著性。同样,基因表达谱分析也可以引入建模的方法,假定每一个基因表达谱是由一种内在的概率模型产生的,它满足一定概率分布或者分布的有限组合,例如多元正态分布,而所有的基因表达谱是由若干个概率模型混合产生的,这样就可以通过确定这些概率模型,来实现对基因表达谱聚类的目的。高斯混合模型是该聚类方法中的常用模型。
与上面所述的各种启发式聚类算法比较,基于模型的方法具有的最大优点是,不需要使用严格的方法来确定类的数目或最佳的聚类方法,但是不足是计算量非常大,对于大量数据的分析比较困难。
基于混合模型的聚类,首先假设数据中蕴含的每一类样本由一种内在的概率分布混合产生,例如高斯混合模型,独立多元观测 y1, y2 , … , yn 组成的数据Y中每一元素 yk由参数为 uk(均值向量)和Σk(协方差矩阵)的多元正态分布模拟,
(8-24) 式中的det是求矩阵行列式值的函数。算法的目标是由数据预测参数uk和Σk 并确定相应于这些参数预测的类。为了便于参数预测,对Σk 进行特征值分解:
, D 为特征向量组成的正交矩阵,确定模型的取向,A为对角矩阵,元素与Σk的特征值成正比,确定模型的形状λ为标量,确定模型的体积。约束和改变部分参数,可以得到这一概率框架下的一组模型,如 , 等体积球模型( EI :
, I 为单位矩阵)、不等体积球模型 (VI:
) 等,以适应数据特征的变化。模型参数可以通过 EM (期望最大化)方法估计。每一种协方差矩阵与类数组合情况相应于不同的概率模型,由贝叶斯信息准则 (BIC) 估计每一种模型下数据被观测到的概率,计算模型的 BIC 得分,最后选择 BIC 得分最大的模型和参数对该样本进行分类。
8.4.4 支持向量机
如上所述,对于基因表达谱数据矩阵M,在对行或列向量进行聚类分析时很少或根本没有用到生物学知识,所得到的结果是否具有生物学意义,还需要进一步的分析。然而,对于特定的数据矩阵,都有特定的生物学背景,例如,基因之间存在相关性,可以分成若干功能类,样本之间也存在某种关系,可能来自患有相同肿瘤的病人。将这些知识应用于聚类方法中,挑选部分样本作为训练样本,可以提取特征构建分类器,然后对其它的样本进行分类,实现聚类的目的。
这种方法称为有监督学习方法,支持向量机( support vector machine , SVM )就是这样一种从少量样本中提取分类信息的机器学习方法。因为 SVM 仅仅需要少量样本,而实现对大量样本的分类,这与分类问题中通常有明确类别存在的情况下对未知类别进行分类是不同的,所以,在这里将它作为一种聚类方法进行介绍。
统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,它从理论上较系统地研究了风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。支持向量机是实现统计学习理论思想的具体方法,可以用于解决小样本、非线性及高维学习问题,不需要足够的样本来构建特征空间,而仅仅需要少量的样本来构建分类界面,这些用来构建分类界面的样本就称为支持向量。
考虑 图 8.4 所示的二维两类线性可分情况,图中实心点和空心点分别表示两类训练样本点,分类线 H 能把两类正确地分开, H 1 , H 2 平行于 H ,并且分别为两类样本中离分类线 H 最近的点, H 1 、 H 2 之间的距离叫做两类的分类空隙或分类间隔,最优分类线就是要求分类线不但能将两类正确地分开,同时要求使两类的分类空隙最大,从而使真实风险最小。对于高维空间,最优分类线就成为最优分类面。
假设线性可分样本集为
是类别标号,则分类判别函数为
, 分类面方程为
。将判别函数归一化,使两类所有样本都满足
,即使离分类面最近的样本的判别值为 1 ,这样分类间隔=2/
。要使间隔最大,必须使
最小,要求分类线对所有样本能正确分类,就要求它满足:
(8-25) 因此,满足上述条件且使
最小的分类面就是最优分类面。过两类样本中离分类面最近的点且平行于最优分类面的超平面 H 1 ,H 2 上的训练样本就是使等号成立的那些样本,即支持向量。那么,如何求最优分类面?根据上述讨论,最优分类面问题可以表示成在条件 ( 8-25 ) 的约束下,求函数
的最小值。为此,可以构建 Lagrange 函数
(8-26) 其中
>0,为 Lagrange 系数,问题转化为对w和b求Lagrange函数的极小值,分别对w和b求偏微分并令它们等于0,在约束条件
(8-27) 之下,对
求解下述函数的最大值,
(8-28) 若
为最优解,则
,即最优分类面的权系数向量是训练样本向量的线性组合。
求解上述问题后得到的最优分类函数是:
(8-29) sgn() 为符号函数。由于非支持向量对应的
均为 0 ,因此,式中的求和实际上只对支持向量进行,而
是分类的阈值,可以由任意一个支持向量求得,或通过两类中任意一对支持向量取中值求得。从最终的分类判别函数中可以看到,只含有待分类样本与训练样本中的支持向量的内积运算。
对于两类情况的分类,就是要构建最优分类面或超平面。对于大多数真实世界的问题,包含不可分的数据,也就是在数据空间中不存在一个超平面可以成功的区分两类样本。一个解决办法是将数据映射到更高维的空间,在那里定义一个可分隔的超平面。这个更高维的空间称为特征空间,而对应的训练样本所在的空间叫输入空间。问题就成为如何选择一个足够维度的特征空间,使得训练数据可分。
SVM 的基本思想是首先通过非线性变换将输入空间变换到一个高维的特征空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。用于超平面分类点的决策函数仅仅包含特征空间中点之间的点积,因此寻找特征空间中可分隔超平面的算法完全可以用输入空间中的向量和特征空间中的点积来陈述。 SVM 能够定位超平面,不需要明确地表示特征空间,只需要简单地定义称为核心函数的函数 K ,它在特征空间中起着点积的作用,这个技术避免了明确表示特征向量的计算负担。
SVM 的判别函数为:
(8-30)
一些简单的核心函数有多项式形式的内积 函数( 8-31 )和核函数型内积( 8-32 )
(8-31)
(8-32)
是高斯宽度,等于正样本与最近负样本间欧氏距离的中值,得到的 SVM 是一种径向基函数分类器。
聚类结果的可视化
对微阵列基因表达谱的聚类分析得到的一般是基因的分组信息和基因表达谱的相互关系,如何进一步了解同组基因的表达谱差异?不同组基因之间是否存在相互关系?哪些基因是上调或下调的?幅度变化有多大?在何种条件下发生较大的变化?这些问题是生物学家普遍关注的问题,需要通过简单、直观的方法来给出这些答案。数据对于大多数人来说太抽象了,而文字的描述又难以反映数据的本质,采用可视化的方法可以大大方便对表达谱分析结果的理解,有利于对这些问题的回答。
在数据挖掘中,可视化方法可以用来发现数据中的固有结构,这是因为人类的眼睛和大脑具有强大的结构探测能力——这是长期进化的成果。可视化方法就是以各种可以发挥出人类在模式处理方面的特殊能力的方式来显示数据。可视化方法在数据挖掘中占有非常重要的地位,它是筛选数据寻找未知数据关系的理想方法。可视化方法是生物信息学中常用的一种表示和发现生物学知识的方法,典型的例子有蛋白质三维构象的显示、转录因子 DNA 结合位点一致序列的 logo 表示、基因调控网络的图形表示等。
基因表达谱的数据特点是基因数目多,样本少,而每一个数据点所表示的是基因在特定条件下的表达数据,经过数据预处理后,往往是与参考样本表达水平的比值的对数值,负值表示基因表达水平的下调,正值表示上调,值的绝对值反映了变化的幅度。因此,对于表达谱数据及其聚类结果通常用两种方式表示。
第一种可视化表示方式是彩色盒图和树状图 (dendrogram) 。所谓的彩色盒图是用不同的颜色小方盒来表示基因表达谱数据,一个小方盒表示一个数据,绿色表示数据小于 0 ,红色表示数据大于 0 ,相对应的生物学意义是对应的基因在相应的条件下是上调还是下调,而颜色的深浅反映了数据的绝对值大小。基因表达谱的很多聚类结果是以树状图的形式表示的,例如,对于层次聚类法、模糊聚类等方法,这些结果的可视化是通过树状图和彩色盒图相结合表达的(如 图 8.5 ( a )所示 )。
树状图是系统发生分析中常用的物种进化关系的表示方法,在这里反映了基因表达谱之间的关系,通过不同层次的剪枝,可以得到不同的基因子集。树状图和彩色盒图的结合,可以很好地反应具有不同表达特征的基因之间的相互关系,例如,对于细胞周期的基因表达检测,可以很方便地知道哪些基因是周期性表达的,它们的表达高峰分别在哪一个时期等。从这种方式的表示中,可以方便地发现相关的基因,并对它们进行深入的分析。对于 k 均值、 SOM 等聚类方法得到的结果也可以用彩色盒图表示,分在同一组的基因安排在一起,也能基本反映基因表达谱之间的相互关系。该方法的局限性在于基因的数量很大,很难对全部基因进行同时的细节观察。
第二种可视化表示方式是点线图。在直角坐标系的第一象限中用点表示基因表达数据,并用线将相邻的点连接起来。这样,一条曲线就表示了一个基因在不同条件下的表达水平,对于时间相关的数据,可以在一定程度上反应基因的动力学行为。对表达谱聚类分析后,得到的每一个基因子集可以在一个图中显示出来,如图8.5( b ) 所示。点线图比盒形图更能直观地表示基因的表达水平和不同基因在相同条件下的差异。
可视化方法对于基因表达谱聚类结果的理解非常重要,对于生物学家分析和理解生物学意义具有不可替代的作用。除了上述两种主要的表示方法外,还有一些方法可以直观地根据表达谱数据显示基因之间的相互关系,例如,多维缩放分析和主成分分析的图示结果等。将表达谱分析结果与基因序列、转录调控因子、启动子等其它数据结合起来,应用可视化技术显示这些数据及其关系,有助于深入理解基因表达调控,认识基因之间的相互作用,发现新的生物学知识。
聚类结果的定量评价
从上述对聚类算法的介绍来看,聚类方法很多,针对同一个数据集,可以选择不同的相似度函数和不同的聚类方法,自然会产生一个问题,针对特定的数据集,这么样的聚类结果是 “好”的?很显然,不同的聚类方法得到的结果是不一样的,也许它们可能会从不同的侧面来反映特定的生物学知识。但是,从目前在生物医学中的应用看,对特定的表达谱数据,最常用的还是层次式聚类、 K 均值算法或自组织特征映射法。
为什么有许多其它的方法而不用呢?这也是拥有基因表达实验数据的生物学家面临的一个主要问题,如何为他的数据集选择正确的聚类算法?要选择“好”的聚类方法,首先必须对各种聚类方法进行评价,分析其适用的数据集类型,然后才能针对特定的数据集推荐“好”的聚类方法,最后还得对聚类结果进行评价,判断所得结果是有效的,正确的。
要对聚类结果进行评价,黄金标准当属于能否发现生物学知识,即从数据出发,能够找到新的生物学知识或得到明确的对某些生物学问题的答案,例如,能够预测未知功能的基因,能够明确样本的肿瘤分型,能够获得基因之间的调控关系等等。能够在生物医学中得到应用,该方法就是有效的,就是好的方法。但是,对方法进行生物学评价是非常困难的。
聚类方法作为一种探索性的知识发现方法,它的结果是预测性的,而生物学知识还是非常不完备的,很难从理论上来证明,因此必须通过生物学实验的验证才能证明其预测的正确性。就目前的生物分子信息检测技术而言,还是非常困难的。目前,对聚类结果的评价主要从内部标准和外部标准两个方面进行。所谓的内部标准,是指利用结果的统计特征,而不借助任何外来信息进行评价,例如,类间分离度、类内紧致性等;所谓外部标准是指有一个参考标准,分析新的聚类结果与参考标准的匹配性,来判断聚类方法的好坏。聚类结果的有效性分析是聚类分析方法的瓶颈,以下介绍常用的几种聚类算法的定量评价指标。
( 1 )误差平方和准则:
假定有一组样本
,要求将这些样本分成 c 个类,由于存在多种可能的分类方案,到底哪种分法最好?这就必须定义一个准则函数,聚类问题就变成对这个准则函数求极值的问题。最简单的准则是误差平方和准则,其准则函数定义如下:
(8-33)
其中 c 为聚类数,fi表示第 i 个聚类的样本集合, mi 是集合 fi 中所有样本的中心。显然,使 J 最小化的聚类就是最好的聚类。当每类的样本都很密集,而各类之间又有明显的分离,使用这种准则进行聚类可得到最好的结果。而当各类界限不清楚时,利用这种准则得到的聚类结果往往不能令人满意。
( 2 ) Silhouette 值:
采用类间分离度和类内紧致性来评价聚类结果的好坏是常用的方法。如果在样本空间中,各个聚类彼此分隔得比较远,而每个聚类中的样本又彼此靠近,则可以认为聚类效果好。因此,可以用类间距离与类内距离的比值作为衡量聚类结果的标准。基因表达谱的分类有效性分析的另一种方法是采用最小类间距离与类内平均距离的相对差值作为判断依据,其计算公式如下:
(8-34)
其中 b(i) 为某类中的样本 i 到其它类样本的平均距离的最小值, a(i) 为某类中的样本 i 与类内其它样本的平均距离。 S(i) 的值反映了样本 i 的分类情况,一般通过某类中所有样本的平均 S(i) 值作为判断该类的好坏的标准。
( 3 ) FOM 值:
FOM(figure of merit ,量度优值 ) 法,是一种数据驱动的方法,用于比较来自基于启发式聚类算法的分类质量。本质上属于留一交叉验证方法 (leave-one-out cross validation) ,即在 G 个基因、 n 个条件中保留 {1,2,…,e-1,e+1,…,n} 进行聚类分析,留出条件 e 用于验证,聚类后有 k 个类,用 f1 , … , fk 表示每一类的基因集合。 xge 表示基因 g 在条件 e 下的表达水平,
是类 fi 中的基因在 e 条件下的平均表达水平,则
(8-35)
对 n 个条件分别计算 FOM ( e ,k )值,并求和作为聚类方法的评价指标,
(8-36)
FOM 法存在一些应用上的限制,首先是该方法并非对所用的情况都适用,如果所有的实验条件之间是相互独立的,那么取出条件 e 后的 n-1 个条件下的聚类结果就不能对 e 条件有预测效果。但是,在实际情况下, FOM 法对于许多基因表达数据集是可用的,可以应用于时间系列数据、来自不同组织样本的数据集。其次,对于比较具有不同类数目的聚类结果是不合适的。因为 FOM(e,k) 定义为类内方差在所有 k 类上的和,随着类数目的增加, FOM 会下降。因此,可以定义调整的 FOM ,将 FOM 除以一个因子,来弥补由于类数目不同而造成的统计偏差,计算公式如下:
(8-37)
( 4 ) Rand 指数:
根据生物学知识对基因的分类或用其它方法形成的聚类结果,称为外部参考分类。比较外部参考分类与当前聚类方法的结果,可以判断该聚类方法的性能。假设外部参考分类集合
,当前聚类的结果为
。令 a 是在 U 中分在同一类、同时在 V 中也分在同一类的基因数目, b 是在 U 中属于同一类而在 V 中不属于同一类的基因数目, c 是在 U 中不属于同一类而在 V 中属于同一类的基因数目, d 是在 U 和 V 中都不在同一类中的基因数目, a 和 d 可以解释为一致的,而 b , c 解释为不一致的,则 Rand 指数可以定义为 :
(8-38)
如果参考分类与当前分类很吻合,则 RI=1 。