SVD奇異值分解的數學涵義及其應用實例

摘要

SVD(Singular Value Decomposition, 奇異值分解)是線性代數中既優雅又強大的工具, 它揭示了矩陣最本質的變換. 使用SVD對矩陣進行分解, 能得到代表矩陣最本質變化的矩陣元素. 這就好比一個合數能表示為若干質數之積, 分解合數能得到表示該合數的質因數

; 複雜周期信號可以表示為若干簡單的正弦波和餘弦波之和, 使用傅里葉變換能得到表示該信號的簡單波; 複雜矩陣所代表的線性變換可由若干個簡單矩陣所代表的線性變換組合起來, 使用SVD能找到這些簡單矩陣. 本文由以下章節, 對SVD進行闡述:

闡述SVD的數學涵義;
闡述SVD的幾何涵義;
闡述SVD的求解過程;
闡述SVD的具體應用;
總結.

SVD的數學涵義

矩陣在線性代數系統中是一個核心的概念, 其從不同的角度出發都能擁豐富的內涵. 對於矩陣 $mathbf{A_{m imes n}}$ , 當其參與運算

時, 我們可以從以下三個角度看待其角色:

矩陣是線性方程組(1)的係數組成的矩陣, 其每一行是(1)中每一個方程式的係數部分, 通過分析矩陣的秩和其極大線性無關組的情況, 我們可以了解(1)的解的情況, 同時, 對於使用高斯消元法等進行求解也比較方便;
當時, 矩陣是 $R^{n}$ 空間中的一個基, 在這個基上面, 有向量 $vec{x} = mathbf{[x_{1}, cdots, x_{n}] ^ op}$ , 而此向量在標準正交基上表示為 $vec{b} = mathbf{[b_{1}, cdots, b_{m}]^ op}$ , 此時(1)隱含著一個基變換的關係, 即 , 為標準正交基;
矩陣本身表示一個線性變換, (1)表示其對向量進行線性變換得到向量的過程.

上述的關於矩陣的各種角色與我們闡述SVD有什麼關係呢? 當我們將矩陣視為一種線性變換時, SVD可以幫我們揭示組成該線性變換的最本質的變換, 具體地, SVD揭示了這樣的一個事實: 對於任意的矩陣 , 我們總能找到一組單位正交基, 使得 對其進行變換之後, 得到的向量組仍然是正交的. 這樣的表述還是相當地晦澀, 我們不妨在二維平面中舉一個例子.

設有矩陣 , 其對單位正交基 $mathbf{vec{upsilon}_1}, mathbf{vec{upsilon}_2}$ 進行線性變換, 得到的向量仍然是彼此正交的, 即 $mathbf{A} mathbf{vec{upsilon_1}}, mathbf{A} mathbf{vec{upsilon_2}}$ 仍然是正交的. 設 $mathbf{A} mathbf{vec{upsilon_1}}, mathbf{A} mathbf{vec{upsilon_2}}$ 方向上的單位向量是 $mathbf{vec{mu}_1}, mathbf{vec{mu}_2}$ , 長度是 , 則我們可得

$egin{align} mathbf{A} mathbf{vec{upsilon_1}} = sigma_1 vec{mu_1} ag2 \ mathbf{A} mathbf{vec{upsilon_2}} = sigma_2 vec{mu_2} ag3 end{align}$

現在利用矩陣對向量進行線性變換. 我們先將向量在單位正交基 $mathbf{vec{upsilon}_1}, mathbf{vec{upsilon}_2}$ 上進行表示, 即

$egin{align} mathbf{vec{x}} & = [mathbf{upsilon_1}, mathbf{upsilon_2}] cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot mathbf{vec{x}} \ & = [mathbf{upsilon_1}, mathbf{upsilon_2}] cdot egin{bmatrix} mathbf{upsilon_1^ op} mathbf{vec{x}} \ mathbf{upsilon_2^ op} mathbf{vec{x}} end{bmatrix} ag4 end{align}$

由(2), (3), (4), 我們有

$egin{align} ecause mathbf{A} mathbf{vec{x}} & = mathbf{A} cdot [mathbf{upsilon_1}, mathbf{upsilon_2}] cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot mathbf{vec{x}} \ & = [mathbf{A} upsilon_1, mathbf{A} upsilon_2] cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot mathbf{vec{x}} \ & = [sigma_1 mu_1, sigma_2 mu_2] cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot mathbf{vec{x}} \ & = [mu_1, mu_2] cdot egin{bmatrix} sigma_1 & 0 \ 0 & sigma2 end{bmatrix} cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot mathbf{vec{x}} \ & = mathbf{U} mathbf{Sigma} mathbf{V^ op} cdot mathbf{vec{x}} ag5 \ herefore mathbf{A} & = mathbf{U} mathbf{Sigma} mathbf{V^ op} ag6 end{align}$

至此, 我們由"對於任意的矩陣 , 我們總能找到一組單位正交基, 使得 對其進行變換之後, 得到的向量組仍然是正交的", 即(2)(3)出發, 得到了矩陣最終的分解形式(6). (6)表達了這樣一個事實, 對於任意的矩陣 , 我們總可以將其分解為一個酉矩陣 , 一個對角矩陣和另一個酉矩陣的轉置 $mathbf{V^ op}$ 的乘積, 這便是SVD的核心內容.

SVD的幾何涵義

現在我們知道, 對於任意的矩陣 , 我們總可以將其分解為一個酉矩陣 , 一個對角矩陣和另一個酉矩陣的轉置 $mathbf{V^ op}$ 的乘積, 即等式(6)所表述的內容. $mathbf{A} = mathbf{U} mathbf{Sigma} mathbf{V^ op}$ 表示矩陣所代表的線性變換可以由更簡單的旋轉, 拉伸變換進行合成. 這些更簡單的變換是怎麼進行生效的呢? 我們還是在二維平面中舉例說明.

當使用矩陣對向量進行變化時, 我們可以先將向量在單位正交基 $mathbf{vec{upsilon}_1}, mathbf{vec{upsilon}_2}$ 上進行表示, 即(4)所表述. 我們不妨令 $mathbf{xi_1} = mathbf{upsilon_1^ op} mathbf{vec{x}}, mathbf{xi_2} = mathbf{upsilon_2^ op} mathbf{vec{x}}$ , 則是向量在單位正交基 $mathbf{vec{upsilon}_1}, mathbf{vec{upsilon}_2}$ 上的坐標, 即

由(6), (7)我們有

$egin{align} mathbf{A} mathbf{vec{x}} & = mathbf{U} mathbf{Sigma} mathbf{V^ op} cdot mathbf{vec{x}} \ & = [mu_1, mu_2] cdot egin{bmatrix} sigma_1 & 0 \ 0 & sigma_2 end{bmatrix} cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot mathbf{vec{x}} \ & = [mu_1, mu_2] cdot egin{bmatrix} sigma_1 & 0 \ 0 & sigma_2 end{bmatrix} cdot egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix} cdot [mathbf{upsilon_1}, mathbf{upsilon_2}] cdot egin{bmatrix} xi_1 \ xi_2end{bmatrix} ag8 end{align}$

現在我們仔細地來分析(8)中各矩陣的具體操作效果.

$egin{align} mathbf{A} mathbf{vec{x}} & = underbrace{underbrace{[mu_1, mu_2]}_{旋轉} underbrace{cdot underbrace{egin{bmatrix} sigma_1 & 0 \ 0 & sigma_2 end{bmatrix}}_{拉伸} cdot underbrace{underbrace{egin{bmatrix} mathbf{upsilon_1^ op} \ mathbf{upsilon_2^ op} end{bmatrix}}_{旋轉} cdot underbrace{underbrace{[mathbf{upsilon_1}, mathbf{upsilon_2}]}_{單位正交基mathbf{V}} cdot underbrace{egin{bmatrix} xi_1 \ xi_2end{bmatrix}}_{x在mathbf{V}坐標}}_{x用單位正交基mathbf{V}表示}}_{對單位正交基mathbf{V}進行旋轉, \ 使之變為標準正交基mathbf{I}}}_{對標準正交基進行拉伸}}_{對拉伸後的正交基進行旋轉} ag9 end{align}$

如(9)所示, 矩陣對向量進行線性變換, 其先將向量用單位正交基進行表示. 然後使用酉矩陣 $mathbf{V^ op}$ 進行旋轉, 由酉矩陣的性質我們可知 $mathbf{V}mathbf{V^ op} = mathbf{V^ op}mathbf{V} = mathbf{I}$ , 所以旋轉之後我們可得到標準正交基 . 然後使用矩陣對標準正交基進行拉伸, 使得分別拉伸倍的長度. 最後再使用酉矩陣對拉伸之後的正交基進行旋轉, 得到最終的基, 從而得到最終的向量為

$egin{align} mathbf{A} mathbf{vec{x}} & = [sigma_1 mu_1, sigma_2 mu_2] cdot egin{bmatrix} xi_1 \ xi_2 end{bmatrix} \ & = xi_1 sigma_1 mu_1 + xi_2 sigma_2 mu_2 ag{10} end{align}$