昨天我们考察了bioplex网路的某些总体性质,但是我们对于局部的性质仍然不了解,而对于ppi interactome来说我们事实上对局部性质更感兴趣。因而这里我们使用一个简单的聚类方法,2012年发表的ClusterONE[1],来抽取这一网路中的高聚类系数的子集。

ClusterONE跟k-means类似,从一些核心往外延伸聚类,只不过空间里的点换成了图上的节点。这一演算法原本的目的是用来从interactome中发现complex。理论上一个complex对应于一个interactome中的clique(某种意义上complexome应该用一个hypergraph[2]表示,不过可能因为处理上的困难现在很少见到用这种表示的,而且不一定适用于ppi的情形(?)),但是因为实验方法的问题事实上我们需要假设有一些存在但是没有检出的interactions(应该说检出的interaction事实上只是总的interaction的冰山一角),为此ClusterONE中还引入了一个补偿项(注:应该注意到一个interactome的clique也不一定代表一个complex)。这个演算法有另外一个特性是聚类之间允许重叠,这样就更加贴近complexome实际的表示。

考虑到在网路中越大的聚类被错判为complex(就是实际上并不包含某个complex)的可能性越小,我们干脆就只考虑10个节点以上的聚类。为了减少其它节点的干扰,迭代数次删除非聚类的节点,最终可以得到63个有重复聚类,这些聚类的尺寸在47节点以下"均匀分布"。

考虑到剩下的这些聚类依然形成一个大的连通分支(根据无标度网路的特性,在删除一些节点之后无标度性质仍然会保留),那么这一个"聚类网路"或许具有某些有趣的性质。至少来说,聚团与聚团之间的关系可能仍然保留small world的性质(但是事实上有一些偏离)。首先:

度数分布的"分段更严重"了。虽然说>10部分的最小二乘直线斜率并没有太大改变,但是对于小度数节点(1-5)的度数分布斜率是相反的(可能这跟聚类的选择有关?)。

和处理前的bioplex整体不同的是,在这一"聚类网路"中的平均聚类系数分布更接近power-law关系(R^2=0.830)。这意味著这个子集具有更明显的hierarchial特性[3]。

不过这种说法事实上是有问题的。因为事实上如果考虑到事实上形成的complex的话,并没有真正意义上的hierarchy存在(从另一个层面上讲并没有真正的hub存在),或者说这种hierarchy并不具有其它的scale-free network的特性。事实上度数分布和scale-free网路的关系也是可疑的。比方说如果我们有一系列的大小以power-law分布的clique(对应于一系列的protein complex),那么我们也有可能得到一个度数的power-law分布,但是这个网路并不是一个scale-free网路。从另一个角度考虑如果我们从一系列的给定的clique出发来构造网路的话,那么我们的度数分布也不会是power-law的。这说明我们的聚类网路里面隐藏著许多小的"中间结构",这些中间结构是scale-free网路的特性所决定的,而即使生物学上complex的形成是受到进化约束的,总体ppi网路结构却是不变的。这个问题也许需要进一步的诠释。

Refs.

[1] Nepusz, T., Yu, H., and Paccanaro, A. (2012). Detecting overlapping protein complexes in protein-protein interaction networks. Nat. Methods 9: 471–472.

[2] Patro R., Kingsoford C. (2013). Predicting protein interactions via parsimonious network history inference. Bioinformatics 10-11: 237–246.

[3] Dorogovtsev SN et al. Pseudofractal scale-free web. Phys Rev E 65:066122.

推荐阅读:

相关文章