什麼？你竟然還不知道t-SNE降維演算法！

在科學研究中處理高維數據的童鞋們，常常會遇到這種問題：我們明明知道自己的數據具有很好的內部特徵，卻無法找到合適的降維演算法展示出來。由於每一個樣品特徵內都可能會存在一些離散點，線性降維例如PCA、PCoA常常難以有效的區分不同的樣品特徵，而且忠實於相互距離的線性演算法往往難以獲得滿意的排序結果。這時候，你就需要更新自己的演算法庫啦！

這裡我們介紹一種非線性演算法，t分佈隨機鄰域嵌入（t-distributed stochastic neighbor embedding，t-SNE），是一種用於探索高維數據的非線性降維機器學習演算法。它將多維數據映射到適合於人類觀察的兩個或多個維度。PCA是一種線性演算法，它不能解釋特徵之間的複雜多項式關係。而t-SNE是基於在鄰域圖上隨機遊走的概率分佈來找到數據內的結構。線性降維演算法的一個主要問題是不相似的數據點放置在較低維度表示為相距甚遠，但為了在低維度用非線性流形表示高維數據，相似數據點必須表示為非常靠近，這不是線性降維演算法所能做的。

具體原理步驟如下所示：

隨機鄰接嵌入（SNE）從通過將數據點之間的高維歐幾裏得距離轉換為表示相似性的條件概率而開始，數據點xi、xj之間的條件概率pj|i由下式給出：