本文主要思路如下:
PCA(主成分分析)是一種數據降維的方法,即用較少特徵地數據表達較多特徵地數據(數據壓縮,PCA屬於有損壓縮)。PCA推導有兩種主要思路:
本文採用第一種思路完成推導過程,下圖中旋轉的是新坐標軸,每個數據點在改坐標軸上垂直投影,最佳的坐標軸為數據投影后的數據之間距離最大。
要完成PCA推導過程,需要如下第 2 章部分的理論依據
坐標變換地目標是,找到一組新的正交單位向量,替換原來的正交單位向量。下面通過具體例子說明。
假設存在向量 ,要變換導以 為新基底地坐標上,求在心坐標系中的坐標
向量 在向量 上的投影距離 s:
其中: 表示兩個向量之間的夾角
向量 在新坐標系中的坐標可以表示為:
如果矩陣 A 的列向量分別表示原來坐標系中的點,那麼在新坐標系中的坐標為:
如果 表示一系列數據點的中心,那麼可以證明:
經過上面的變換之後,新坐標系相比原坐標系順時針旋轉了45度; 相對新坐標系位置和相對原坐標系位置發生了逆時針旋轉45度。即:上述變換過程為向量的旋轉過程,旋轉的角度=-坐標系旋轉角度
如果 ,那麼:
即: 相比 ,2個坐標分別放大了 倍和 倍。即向量發生了伸縮。
拉格朗日乘子法主要提供了一種求解函數在約束條件下極值的方法。下面還是通過一個例子說明。
假設存在一個函數 ,求該函數在 下的極值(可以是極大,也可以極小)
通過觀察我們發現,在極值點的時候兩個函數必然相切,即此時各自的導數成正比,從而:
通過聯立上述三個公式,既可以求出最終結果。拉格朗日運算元的主要思路同上,不過他假設了一個新的函數:
然後分解求:
從而完成求解過程
假設有一組數據:
協方差研究的目的是變數(特徵)之間的關係,也就是上表中的發傳單數量、購買數量、購買總額之間的相關情況
上表數據用矩陣表示為:
那麼兩兩變數之間的關係:
如果E(x)=E(y)=E(z)=0(可以通過數據初始化實現),那麼上述的協方差關係可以用如下矩陣乘法表示:
如果把對角線上的數據加起來會發現:
也就是說每個樣本點到樣本中心距離的平方和的平均 = 樣本各個特徵方差和(自身協方差)= ? ,即樣本的方差
參考:
假設:左側矩形由 定義,右側矩形由 定義。
根據 2.1 矩陣拉伸變換的結果,變換矩陣 ,即:
在應用變換矩陣變換時,我們發現存在與上圖中紅色向量平行的向量 ,他們總滿足:
即:
所以:紅色的特徵向量不受變換矩陣的影響,仍保持原來的方向,我們稱這類向量為變換矩陣A的特徵向量,對應的 為特徵值。又因為特徵向量有很多個,即:
所以:
其中:Q的列向量都是A變換矩陣的特徵向量
另外,在做旋轉變換時,要求變換前後的坐標維度不發生改變,即A須為方陣
綜上:如果方陣A滿足 ,那麼Q為特徵向量, 為對應的特徵值
奇異值分解(svd: singular value decomposition)定義:對於任意的矩陣A,存在:
其中:
即:U的列向量兩兩正交且模為1,V列向量兩兩正交且模為1,即:
對於任意矩陣 ,對A做svd有:
令 ,則:
所以 能實現特徵分解,又因為:
因此:對 做SVD,那麼得到的U列向量為特徵向量(對應A的U矩陣), 為特徵值對角陣
同理:對 做SVD,那麼得到的U列向量為特徵向量(對應A的V矩陣), 為特徵值對角矩陣
PCA的目標是找到一組新的正交基 (從n維下降到k維),使得數據點在該正交基構成的平面上投影后,數據間的距離最大,即數據間的方差最大。如果數據在每個正交基上投影后的方差最大,那麼同樣滿足在正交基所構成的平面上投影距離最大。
根據2.1,設正交基 ,數據點 在該基底上的投影距離為 ,所以所有數據在該基底上投影的方差 為:
其中:m為樣本數量,在數據運算之前對數據 x 進行0均值初始化,即 ,從而:
由於 為常數,這裡假設 ,則: ,根據PCA目標,我們需要求解 最大時對應的
根據 2.2 中的拉格朗日運算元(求極值)求解:
則構造函數:
求解 ,得:
結合2.4.1則:當 分別為S矩陣的特徵向量、特徵值時, 有極值,把上述結果帶回公式得:
所以對於任意滿足條件的正交基,對應的數據在上面投影后的方差值為S矩陣的特徵向量,從而:
所以投影正交基為S的特徵向量中的前k個最大特徵值對應的特徵向量。
接下來對S進行特徵分解,根據2.4.3特徵向量和svd的關係結論,S的特徵向量集合:
另外,由於 由於X已0均值處理,根據2.3 協方差矩陣定義:S為數據集X的協方差矩陣。
綜上,即可得到滿足投影后數據距離最大的新的正交基
因此:
PCA流程如下:
根據之前的公式,做PCA投影后,投影數據的方差:
又因為:數據從n維投影新的n維的坐標系,方差不會發生改變(向量的模長度相等且為1,可以用2D坐標系投影到45-135度坐標系驗證),即:
即:X的協方差矩陣的特徵值和對應X的方差
PCA使得數據從n維降低為k維度,接下來介紹如何選擇合適的k。一般選擇標準為:投影前後方差比例值,作為k值的選擇標準。距離來說,我們期望:
其中q一般選擇0.99。根據PCA總結中特徵協方差矩陣和X方差的關係得:
因此主成份數量k根據上述公式求得滿足條件的最小k
本文同時發佈於CSDN博客: