線性代數

向量

定義 mathbb{R} 是實數集,實數集內的數稱為標量。

一系列的數字組成向量,用 oldsymbol{x} 表示。

默認的向量是列向量,向量的元素用 oldsymbol x _i 表示。全1向量和全0向量用 oldsymbol1 以及 oldsymbol0 表示。

向量的內積用 oldsymbol{x}^Toldsymbol{y} 表示,且有 oldsymbol{x}^Toldsymbol{y} = sum^d_{i=1}x_iy_i

誰來轉置不影響計算結果: oldsymbol x ^ T oldsymbol y = oldsymbol y^Toldsymbol x

向量的範數: ||oldsymbol x||=sqrt{oldsymbol x^T oldsymbol x} 。除了這種形式的範數,還存在其它的範數。我們這裡寫出來的是2範數。有時候向量的2範數又叫做向量的長度。

長度為1的向量稱為單位向量,它通常用來表明方向。

角度

如果 oldsymbol x^Toldsymbol y=0 ,我們說這兩個向量正交。或者寫為 oldsymbol x ot oldsymbol y

向量的角度 	heta 可以由 oldsymbol x^Toldsymbol y=|x||y|cos	heta 來定義。所以有:

oldsymbol x^Toldsymbol yle|oldsymbol x^T oldsymbol y|le|oldsymbol x||oldsymbol  y|

後面的一個不等式平方一下,就是柯西施瓦茲不等式。

投影

oldsymbol xoldsymbol y 上的投影記做 
m {proj}_oldsymbol yoldsymbol x

投影的方向與 oldsymbol y 相同: frac{y}{| y|}

投影的長度: frac{oldsymbol  x^T oldsymbol y}{|y|}

方向與長度相乘,正是投影向量: 
m {proj}_oldsymbol yoldsymbol x = frac{oldsymbol x^Toldsymbol y}{|oldsymbol y|^2}oldsymbol y

矩陣

一個m行n列的矩陣可以表示為:

X=egin{bmatrix} x_{11} &dots &x_{1n}\ vdots & ddots&vdots\x_{m1}&dots&x_{mn}end{bmatrix}

第i行第j列的元素用 [X]_{ij} 表示。

m=n 的矩陣稱為方陣(square matrix)

m=1 的矩陣稱為列向量, n=1 的矩陣則是行向量。

默認情況下,向量指的都是列向量。

對於除對角線,其它元素都為0的矩陣,稱為對角矩陣,表示為:

X={
m diag}(x_{11},x_{22},dots,x_{nn})

如果對角線元素全為1,這樣的矩陣稱為單位矩陣,記為I

矩陣的轉置記為 X^T ,也就是每個元素的行列數字互換。

如果轉置矩陣和原矩陣相同,則稱矩陣為對稱矩陣。

矩陣相乘

矩陣的相加和相減需要大小相同,然後就是單純的對應位置元素相加減。

標量乘矩陣就是每個元素都乘上這個標量。

矩陣乘法則需要兩個矩陣 X,Y 滿足其大小為 m	imes n, n 	imes p

此外,通常 XY
e YX

矩陣轉置後與自己相乘是一個對稱方陣。 X^TX 的大小是 n	imes n ,而 XX^T 的大小是 m	imes m

方陣的行列式與逆矩陣

寫成 |X| 或者 det(X) ,它是一個標量。只有方陣能定義行列式。

行列式有以下性質:

|X|=|X^T| \|XY|=|X||Y| \|lambda X|=lambda^n|X|

對於一個矩陣 X ,若存在另一個矩陣 Y 使得 X Y=YX=I ,就說 YX 的逆矩陣,又記為 X^{-1}

此外, X {
m  is invertible} Leftrightarrow |X|
e 0

逆矩陣有著以下性質:

(X^{-1})^{-1}=X \ (cX)^{-1} = frac{1}{c}X^-1 \ (XY)^{-1}=Y^{-1}X^{-1} \ X^{-T}=(X^{-1})^T = (X^T)^{-1}

特徵值eigenvalue,特徵向量eigenvector,秩rank和跡trace

如果有非零向量 oldsymbol x 和標量 lambda 使得對矩陣 A 滿足:

Aoldsymbol x=lambdaoldsymbol x

那麼 lambda 就是 A 的特徵值, oldsymbol x 則是特徵向量。

n階方陣有n個特徵值,特徵值可能是複數,而且特徵值之間可以相等。

對矩陣來說,特徵值的和等於對角線元素的和,特徵值的積等於矩陣的行列式:

sum lambda_i=sum a_{ii}\ prodlambda_i=|A|

矩陣的跡就是對角線元素相加,同時也就是特徵值相加: {
m tr}(X)=sum x_{ii} 。此外,方陣相乘的順序不影響結果的跡。

關於實對稱矩陣,所有的特徵值都是實數。我們定義特徵值的下標決定它們的大小關係,有 lambda_1gelambda_2gedotsgelambda_n

此外,所有特徵值都對應一個特徵向量 oldsymbol xi_i 。所有的特徵向量是實向量,經過歸一化後長度都為1。

特徵向量之間互相垂直,即 oldsymbol xi_i^Toldsymbol xi_j = 0 
m  if i
e j

將特徵向量排列組成一個矩陣 E ,則秩為n,且 E^TE=EE^T=I 。此外還有 E^{-1}=E^T ,以及 |E|=pm1

我們定義 Lambda={
m diag}(lambda_1,lambda_2,dots,lambda_n) ,則可以進行譜分解:

X=ELambda E^T=sumlambda_ioldsymbol xi_ioldsymbol xi_i^T

正定(半正定)實對稱矩陣

oldsymbol x^TAoldsymbol x 稱為二次型。如果矩陣的特徵值全部為非負實數,那麼二次型半正定。如果全為正數,那麼二次型正定。

矩陣求導

矩陣求導的道理其實很簡單,差不多就是在逐元素求導。想要實際應用去求導的話,應該去查Matrix Cookbook。裡面都是矩陣求導相關的等式。

概率論與統計

概率論的基礎討論對象是隨機變數。隨機變數可以是離散的,連續的,或者混合在一起。

古典概型有可數的不相容事件,每個事件有對應發生的概率,所有事件發生的概率相加等於1。 p(x=x_i)=c_i, sum c_i=1. p 稱為概率質量函數

對於連續的隨機變數, p(x) 稱為概率密度函數,且 p(x)ge0, int p(x)dx=1.

分布函數 F(x)=int_{x}^{+infty}p(x)dx.

聯合分布意味著討論範圍擴展到了隨機向量: p(X=oldsymbol x) 。其中, p(oldsymbol x)ge 0, int p(oldsymbol x)doldsymbol x = 1.

條件分布則是討論 p(X=x|Y=y)p(x,y)=p(x|y)p(y),p(x)=int_yp(x,y)dy ,後者稱為邊際分布。

多維分布的期望。對於隨機向量 oldsymbol x sim p(oldsymbol x) ,函數 f(oldsymbol x) 的期望記為 E[f(X)]

考慮連續的情形,有 E[f(X)]=int f(oldsymbol x)p(oldsymbol x)doldsymbol x

方差和協方差定義為 {
m Var}(X)=E[(X-E[X])^2]=E[X^2]-E^2[X]\ {
m Cov}(X)=E[(X-E[X])(X-E[X])^T]

通常來說,對於在線記錄數據的情況,方差的後一個計算方式效率比較高,但是會累積計算機的浮點誤差,所以要仔細考慮。

對於一系列訓練樣本 oldsymbol x_1,oldsymbol x_2,dots,oldsymbol x_n ,其估計均值為 oldsymbol {ar x}=frac{1}{n}sum^n_{i=1}oldsymbol x_i 。而協方差的估計則為 Cov(x)=frac{1}{n}sum(oldsymbol x_i-oldsymbol {ar x})(oldsymbol x_i-oldsymbol {ar x})^T 。這個式子好像會多出一個偏差項,因此有無偏估計 Cov(x)=frac{1}{n-1}sum(oldsymbol x_i-oldsymbol {ar x})(oldsymbol x_i-oldsymbol {ar x})^T

兩個隨機變數相關一定不獨立,不相關不一定獨立。獨立一定不相關。判斷獨立的方法是看是否 p(x,y)=p(x)p(y)

兩個隨機變數的相關性可以用Pearson相關係數 
ho_{XY}=frac{cov(X,Y)}{sqrt{Var(x)Var(Y)}} 來衡量。 |
ho|le1 且絕對值越大相關性越強。當 
ho=pm1 則兩個變數存在線性關係。

高斯分布

多維高斯分布的表達式為:

p(oldsymbol x)=(2pi)^{-frac{D}{2}}|Sigma|^{-frac{1}{2}}exp{-frac{1}{2}(oldsymbol x-oldsymbol mu)^TSigma^{-1}(oldsymbol x-oldsymbol mu)}

其中 D 是維數, Sigma 是協方差矩陣, oldsymbol mu 是均值。整個式子記為 oldsymbol xsim N(oldsymbol mu,Sigma)

對於單維的隨機變數,我們可以令維數為1,協方差矩陣為隨機變數本身的方差 sigma^2 ,均值為 mu ,即可得到隨機變數的高斯分布:

egin{align}p(x)=&(2pi)^{-frac{1}{2}}(sigma^2)^{-frac{1}{2}}exp{-frac{1}{2}(x-mu)(sigma^2)^{-1}(x-mu)}\=&frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})end{align}

雖然對別的隨機向量不一定成立,但對於多維高斯分布,不相關就等價於獨立。

高斯分布的條件分布還是高斯分布,邊際分布也同樣是高斯分布,兩個高斯分布的加權和還是高斯分布。

推薦閱讀:

相关文章