模式識別 | 數學回顧

線性代數

向量

定義是實數集，實數集內的數稱為標量。

一系列的數字組成向量，用表示。

默認的向量是列向量，向量的元素用表示。全1向量和全0向量用以及表示。

向量的內積用 $oldsymbol{x}^Toldsymbol{y}$ 表示，且有 $oldsymbol{x}^Toldsymbol{y} = sum^d_{i=1}x_iy_i$ 。

誰來轉置不影響計算結果：。

向量的範數： $||oldsymbol x||=sqrt{oldsymbol x^T oldsymbol x}$ 。除了這種形式的範數，還存在其它的範數。我們這裡寫出來的是2範數。有時候向量的2範數又叫做向量的長度。

長度為1的向量稱為單位向量，它通常用來表明方向。

角度

如果，我們說這兩個向量正交。或者寫為。

向量的角度可以由來定義。所以有：

後面的一個不等式平方一下，就是柯西施瓦茲不等式。

投影

在上的投影記做 $m {proj}_oldsymbol yoldsymbol x$ 。

投影的方向與相同： $frac{y}{| y|}$ 。

投影的長度： $frac{oldsymbol x^T oldsymbol y}{|y|}$ 。

方向與長度相乘，正是投影向量： $m {proj}_oldsymbol yoldsymbol x = frac{oldsymbol x^Toldsymbol y}{|oldsymbol y|^2}oldsymbol y$ 。

矩陣

一個m行n列的矩陣可以表示為：

$X=egin{bmatrix} x_{11} &dots &x_{1n}\ vdots & ddots&vdots\x_{m1}&dots&x_{mn}end{bmatrix}$

第i行第j列的元素用 $[X]_{ij}$ 表示。

的矩陣稱為方陣（square matrix）

的矩陣稱為列向量，的矩陣則是行向量。

默認情況下，向量指的都是列向量。

對於除對角線，其它元素都為0的矩陣，稱為對角矩陣，表示為：

$X={ m diag}(x_{11},x_{22},dots,x_{nn})$

如果對角線元素全為1，這樣的矩陣稱為單位矩陣，記為。

矩陣的轉置記為，也就是每個元素的行列數字互換。

如果轉置矩陣和原矩陣相同，則稱矩陣為對稱矩陣。

矩陣相乘

矩陣的相加和相減需要大小相同，然後就是單純的對應位置元素相加減。

標量乘矩陣就是每個元素都乘上這個標量。

矩陣乘法則需要兩個矩陣滿足其大小為。

此外，通常。

矩陣轉置後與自己相乘是一個對稱方陣。的大小是，而的大小是。

方陣的行列式與逆矩陣

寫成或者，它是一個標量。只有方陣能定義行列式。

行列式有以下性質：

$|X|=|X^T| \|XY|=|X||Y| \|lambda X|=lambda^n|X|$

對於一個矩陣，若存在另一個矩陣使得，就說是的逆矩陣，又記為 $X^{-1}$ 。

此外，。

逆矩陣有著以下性質：

$(X^{-1})^{-1}=X \ (cX)^{-1} = frac{1}{c}X^-1 \ (XY)^{-1}=Y^{-1}X^{-1} \ X^{-T}=(X^{-1})^T = (X^T)^{-1}$

特徵值eigenvalue，特徵向量eigenvector，秩rank和跡trace

如果有非零向量和標量使得對矩陣滿足：

那麼就是的特徵值，則是特徵向量。

n階方陣有n個特徵值，特徵值可能是複數，而且特徵值之間可以相等。

對矩陣來說，特徵值的和等於對角線元素的和，特徵值的積等於矩陣的行列式：

$sum lambda_i=sum a_{ii}\ prodlambda_i=|A|$

矩陣的跡就是對角線元素相加，同時也就是特徵值相加： ${ m tr}(X)=sum x_{ii}$ 。此外，方陣相乘的順序不影響結果的跡。

關於實對稱矩陣，所有的特徵值都是實數。我們定義特徵值的下標決定它們的大小關係，有。

此外，所有特徵值都對應一個特徵向量。所有的特徵向量是實向量，經過歸一化後長度都為1。

特徵向量之間互相垂直，即。

將特徵向量排列組成一個矩陣，則秩為n，且。此外還有 $E^{-1}=E^T$ ，以及。

我們定義 $Lambda={ m diag}(lambda_1,lambda_2,dots,lambda_n)$ ，則可以進行譜分解：

正定（半正定）實對稱矩陣

稱為二次型。如果矩陣的特徵值全部為非負實數，那麼二次型半正定。如果全為正數，那麼二次型正定。

矩陣求導

矩陣求導的道理其實很簡單，差不多就是在逐元素求導。想要實際應用去求導的話，應該去查Matrix Cookbook。裡面都是矩陣求導相關的等式。

概率論與統計

概率論的基礎討論對象是隨機變數。隨機變數可以是離散的，連續的，或者混合在一起。

古典概型有可數的不相容事件，每個事件有對應發生的概率，所有事件發生的概率相加等於1。稱為概率質量函數

對於連續的隨機變數，稱為概率密度函數，且

分布函數 $F(x)=int_{x}^{+infty}p(x)dx.$

聯合分布意味著討論範圍擴展到了隨機向量：。其中，

條件分布則是討論。，後者稱為邊際分布。

多維分布的期望。對於隨機向量，函數的期望記為。

考慮連續的情形，有。

方差和協方差定義為 ${ m Var}(X)=E[(X-E[X])^2]=E[X^2]-E^2[X]\ { m Cov}(X)=E[(X-E[X])(X-E[X])^T]$

通常來說，對於在線記錄數據的情況，方差的後一個計算方式效率比較高，但是會累積計算機的浮點誤差，所以要仔細考慮。

對於一系列訓練樣本，其估計均值為 $oldsymbol {ar x}=frac{1}{n}sum^n_{i=1}oldsymbol x_i$ 。而協方差的估計則為 $Cov(x)=frac{1}{n}sum(oldsymbol x_i-oldsymbol {ar x})(oldsymbol x_i-oldsymbol {ar x})^T$ 。這個式子好像會多出一個偏差項，因此有無偏估計 $Cov(x)=frac{1}{n-1}sum(oldsymbol x_i-oldsymbol {ar x})(oldsymbol x_i-oldsymbol {ar x})^T$ 。

兩個隨機變數相關一定不獨立，不相關不一定獨立。獨立一定不相關。判斷獨立的方法是看是否。

兩個隨機變數的相關性可以用Pearson相關係數 $ho_{XY}=frac{cov(X,Y)}{sqrt{Var(x)Var(Y)}}$ 來衡量。且絕對值越大相關性越強。當則兩個變數存在線性關係。

高斯分布

多維高斯分布的表達式為：

$p(oldsymbol x)=(2pi)^{-frac{D}{2}}|Sigma|^{-frac{1}{2}}exp{-frac{1}{2}(oldsymbol x-oldsymbol mu)^TSigma^{-1}(oldsymbol x-oldsymbol mu)}$

其中是維數，是協方差矩陣，是均值。整個式子記為。

對於單維的隨機變數，我們可以令維數為1，協方差矩陣為隨機變數本身的方差，均值為，即可得到隨機變數的高斯分布：

$egin{align}p(x)=&(2pi)^{-frac{1}{2}}(sigma^2)^{-frac{1}{2}}exp{-frac{1}{2}(x-mu)(sigma^2)^{-1}(x-mu)}\=&frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})end{align}$