自己動手寫深度神經網路框架（五）

前幾篇的鏈接如下：

永遠在你身後：自己動手寫深度神經網路框架（一）

永遠在你身後：自己動手寫深度神經網路框架（二）

永遠在你身後：自己動手寫深度神經網路框架（三）

永遠在你身後：自己動手寫深度神經網路框架（四）

然後是：完整實現

在前面幾篇中已經介紹了一些Layer的正反向計算過程及其推導，並且用它們構建了一個網路

雖然推導的過程是建立在單個訓練樣本的基礎上的，但對於同時使用多個訓練樣本同樣有效，下面來簡單的證明一下：

首先回顧一下線性層的forward計算過程，輸入是一個向量

$x=left[egin{array}{llll}{x_{1}} & {x_{2}} & {cdots} & {x_{k}}end{array} ight]$

所有神經元的權重是一個矩陣： $W in R^{k imes m}$

輸出同樣是一個向量

$a=left[egin{array}{llll}{a_{1}} & {a_{2}} & {cdots} & {a_{m}}end{array} ight]$

計算過程為：

現在將其改成每次訓練多個樣本，先看訓練批量為1的情況；另外，的符號要做下改動

$x^{1}=left[egin{array}{llll}{x_{1,1}} & {x_{1,2}} & {cdots} & {x_{1, k}}end{array} ight]$

$a^{1}=left[egin{array}{llll}{a_{1,1}} & {a_{2,1}} & {cdots} & {a_{m, 1}}end{array} ight]$

然後，將輸入輸出都寫成矩陣形式

$X=left[x^{1} ight]$

$A=left[a^{1} ight]$

很容易可以得到下面的計算過程

$A=X W=left[x^{1} W ight]=left[a^{1} ight]$

現在，設每次訓練n個樣本，這些新增的訓練樣本表示為

$x^{2}=left[egin{array}{llll}{x_{2,1}} & {x_{2,2}} & {cdots} & {x_{2, k}}end{array} ight]$

……

$x^{n}=left[egin{array}{lll}{x_{n, 1}} & {x_{n, 2}} & {cdots} & {x_{n, k}}end{array} ight]$

所以輸入的矩陣就變成了：

$X=left[egin{array}{c}{x^{1}} \ {x^{2}} \ {vdots} \ {x^{n}}end{array} ight]$

輸出的計算過程就變成了：

$A=X W=left[egin{array}{c}{x^{1} W} \ {x^{2} W} \ {vdots} \ {x^{n} W}end{array} ight]=left[egin{array}{c}{a^{1}} \ {a^{2}} \ {vdots} \ {a^{n}}end{array} ight]$

可以看到，即使每次訓練多個樣本，它們之間的計算都是相互獨立的，並不會糾纏在一起

這個是線性層的證明，其他的Layer就不一一說明瞭，再看看backward計算過程，同樣，我們先看訓練樣本數為1的情況

backward中傳進來的參數是損失關於輸出的梯度

$frac{partial L}{partial a}=left[frac{partial L}{partial a_{1}} quad dots quad frac{partial L}{partial a_{m}} ight]$

為了方便表示，這裡令 $frac{partial L}{partial a}= abla a$

同時已知： $frac{partial a}{partial x}=W^{T}$

為了將損失繼續傳回上一層，所以需要計算 $frac{partial L}{partial x}$ ，根據鏈式法則可得：

$frac{partial L}{partial x}=frac{partial L}{partial a} frac{partial a}{partial x}= abla a W^{T}=left[frac{partial L}{partial x_{1}} quad cdots quad frac{partial L}{partial x_{k}} ight]$

同樣令 $frac{partial L}{partial x}= abla x$

上面是訓練樣本數為1時的情況，第（三）篇有詳細的推導，這裡只是簡單的回顧一下

現在來看訓練樣本數為n的情況，將損失關於輸出的梯度表示成矩陣形式有：

$abla A=left[egin{array}{c}{ abla a^{1}} \ {vdots} \ { abla a^{n}}end{array} ight]$

利用和上面相同的計算過程有：

$abla X= abla A W^{T}=left[egin{array}{c}{ abla a^{1} W^{T}} \ {vdots} \ { abla a^{n} W^{T}}end{array} ight]=left[egin{array}{c}{ abla x^{1}} \ {vdots} \ { abla x^{n}}end{array} ight]$

所以，在反向傳播過程中，多個訓練樣本之間的梯度計算也是獨立的，不會相互影響

其實這個在證明forward以後結論已經很明顯了，不過backward的任務不僅僅是把損失傳給上一層，主要是計算參數的梯度，而且，這個與之前的計算還是有一些不同的，來看一下：

$abla W=x^{T} abla a=left[egin{array}{c}{x_{1}} \ {x_{2}} \ {vdots} \ {x_{k}}end{array} ight]left[egin{array}{ccc}{frac{partial L}{partial a_{1}}} & {frac{partial L}{partial a_{2}}} & {cdots} & {frac{partial L}{partial a_{m}}}end{array} ight]$

$abla W in R^{mathrm{k} imes m}$

這是之前推導過的權重關於損失的梯度的公式，計算出來這個梯度矩陣的單個元素的值為：

$abla W_{k, m}=x_{k} frac{partial L}{partial a_{m}}$

現在看多個訓練樣本的情況：

$abla W=X^{T} abla A=left[egin{array}{ccc}{x_{1,1}} & {cdots} & {x_{1, n}} \ {vdots} & {ddots} & {vdots} \ {x_{k, 1}} & {cdots} & {x_{k, n}}end{array} ight]left[egin{array}{ccc}{frac{partial L}{partial a_{1,1}}} & {cdots} & {frac{partial L}{partial a_{1, m}}} \ {vdots} & {ddots} & {vdots} \ {frac{partial L}{partial a_{n, 1}}} & {cdots} & {frac{partial L}{partial a_{n, m}}}end{array} ight]$

雖然變成矩陣與矩陣相乘了，但是算一下維度就可以發現，的各維度大小並沒有改變，依然是： $abla W in R^{mathrm{k} imes m}$

不過它其中的元素的值肯定是變了：

$abla W_{k, m}=sum_{n} x_{k, n} frac{partial L}{partial a_{n, m}}$

通過公式可以知道，其中每一個梯度的值都變成了多個訓練樣本梯度的總和，所以在更新參數時，應該將梯度除以訓練樣本的數量，如下：

$W=W-frac{eta}{n} abla W$

以上是權重的一些變化，偏置也有一些變化，不過也差不過，就不細說了，下面把修改的代碼貼上：

def backward(self, eta): if self.require_grad: batch_size = eta.shape[0] self.W.grad = np.dot(self.x.T, eta) / batch_size if self.b is not None: self.b.grad = np.sum(eta, axis=0) / batch_size return np.dot(eta, self.W.T)