模式識別 | 數學回顧
線性代數
向量
定義 是實數集,實數集內的數稱為標量。
一系列的數字組成向量,用 表示。
默認的向量是列向量,向量的元素用 表示。全1向量和全0向量用 以及 表示。
向量的內積用 表示,且有 。
誰來轉置不影響計算結果: 。
向量的範數: 。除了這種形式的範數,還存在其它的範數。我們這裡寫出來的是2範數。有時候向量的2範數又叫做向量的長度。
長度為1的向量稱為單位向量,它通常用來表明方向。
角度
如果 ,我們說這兩個向量正交。或者寫為 。
向量的角度 可以由 來定義。所以有:
後面的一個不等式平方一下,就是柯西施瓦茲不等式。
投影
在 上的投影記做 。
投影的方向與 相同: 。
投影的長度: 。
方向與長度相乘,正是投影向量: 。
矩陣
一個m行n列的矩陣可以表示為:
第i行第j列的元素用 表示。
的矩陣稱為方陣(square matrix)
的矩陣稱為列向量, 的矩陣則是行向量。
默認情況下,向量指的都是列向量。
對於除對角線,其它元素都為0的矩陣,稱為對角矩陣,表示為:
如果對角線元素全為1,這樣的矩陣稱為單位矩陣,記為。
矩陣的轉置記為 ,也就是每個元素的行列數字互換。
如果轉置矩陣和原矩陣相同,則稱矩陣為對稱矩陣。
矩陣相乘
矩陣的相加和相減需要大小相同,然後就是單純的對應位置元素相加減。
標量乘矩陣就是每個元素都乘上這個標量。
矩陣乘法則需要兩個矩陣 滿足其大小為 。
此外,通常 。
矩陣轉置後與自己相乘是一個對稱方陣。 的大小是 ,而 的大小是 。
方陣的行列式與逆矩陣
寫成 或者 ,它是一個標量。只有方陣能定義行列式。
行列式有以下性質:
對於一個矩陣 ,若存在另一個矩陣 使得 ,就說 是 的逆矩陣,又記為 。
此外, 。
逆矩陣有著以下性質:
特徵值eigenvalue,特徵向量eigenvector,秩rank和跡trace
如果有非零向量 和標量 使得對矩陣 滿足:
那麼 就是 的特徵值, 則是特徵向量。
n階方陣有n個特徵值,特徵值可能是複數,而且特徵值之間可以相等。
對矩陣來說,特徵值的和等於對角線元素的和,特徵值的積等於矩陣的行列式:
矩陣的跡就是對角線元素相加,同時也就是特徵值相加: 。此外,方陣相乘的順序不影響結果的跡。
關於實對稱矩陣,所有的特徵值都是實數。我們定義特徵值的下標決定它們的大小關係,有 。
此外,所有特徵值都對應一個特徵向量 。所有的特徵向量是實向量,經過歸一化後長度都為1。
特徵向量之間互相垂直,即 。
將特徵向量排列組成一個矩陣 ,則秩為n,且 。此外還有 ,以及 。
我們定義 ,則可以進行譜分解:
正定(半正定)實對稱矩陣
稱為二次型。如果矩陣的特徵值全部為非負實數,那麼二次型半正定。如果全為正數,那麼二次型正定。
矩陣求導
矩陣求導的道理其實很簡單,差不多就是在逐元素求導。想要實際應用去求導的話,應該去查Matrix Cookbook。裡面都是矩陣求導相關的等式。
概率論與統計
概率論的基礎討論對象是隨機變數。隨機變數可以是離散的,連續的,或者混合在一起。
古典概型有可數的不相容事件,每個事件有對應發生的概率,所有事件發生的概率相加等於1。 稱為概率質量函數
對於連續的隨機變數, 稱為概率密度函數,且
分布函數
聯合分布意味著討論範圍擴展到了隨機向量: 。其中,
條件分布則是討論 。 ,後者稱為邊際分布。
多維分布的期望。對於隨機向量 ,函數 的期望記為 。
考慮連續的情形,有 。
方差和協方差定義為
通常來說,對於在線記錄數據的情況,方差的後一個計算方式效率比較高,但是會累積計算機的浮點誤差,所以要仔細考慮。
對於一系列訓練樣本 ,其估計均值為 。而協方差的估計則為 。這個式子好像會多出一個偏差項,因此有無偏估計 。
兩個隨機變數相關一定不獨立,不相關不一定獨立。獨立一定不相關。判斷獨立的方法是看是否 。
兩個隨機變數的相關性可以用Pearson相關係數 來衡量。 且絕對值越大相關性越強。當 則兩個變數存在線性關係。
高斯分布
多維高斯分布的表達式為:
其中 是維數, 是協方差矩陣, 是均值。整個式子記為 。
對於單維的隨機變數,我們可以令維數為1,協方差矩陣為隨機變數本身的方差 ,均值為 ,即可得到隨機變數的高斯分布:
雖然對別的隨機向量不一定成立,但對於多維高斯分布,不相關就等價於獨立。
高斯分布的條件分布還是高斯分布,邊際分布也同樣是高斯分布,兩個高斯分布的加權和還是高斯分布。
推薦閱讀: