什么？你竟然还不知道t-SNE降维演算法！

在科学研究中处理高维数据的童鞋们，常常会遇到这种问题：我们明明知道自己的数据具有很好的内部特征，却无法找到合适的降维演算法展示出来。由于每一个样品特征内都可能会存在一些离散点，线性降维例如PCA、PCoA常常难以有效的区分不同的样品特征，而且忠实于相互距离的线性演算法往往难以获得满意的排序结果。这时候，你就需要更新自己的演算法库啦！

这里我们介绍一种非线性演算法，t分布随机邻域嵌入（t-distributed stochastic neighbor embedding，t-SNE），是一种用于探索高维数据的非线性降维机器学习演算法。它将多维数据映射到适合于人类观察的两个或多个维度。PCA是一种线性演算法，它不能解释特征之间的复杂多项式关系。而t-SNE是基于在邻域图上随机游走的概率分布来找到数据内的结构。线性降维演算法的一个主要问题是不相似的数据点放置在较低维度表示为相距甚远，但为了在低维度用非线性流形表示高维数据，相似数据点必须表示为非常靠近，这不是线性降维演算法所能做的。

具体原理步骤如下所示：

随机邻接嵌入（SNE）从通过将数据点之间的高维欧几里得距离转换为表示相似性的条件概率而开始，数据点xi、xj之间的条件概率pj|i由下式给出：