前言

這期視頻是關於學習和記憶中的重複遺忘混淆現象。會解答大家對於先前視頻中的部分疑惑。本想把所有重要的內容都講解到,但內容實在太多。最終還是分成了兩期來解釋學習觀02。公眾號中的知識不是快餐雞湯,所有知識點之間都有關聯且相互驗證,在以後也會反覆出現。希望大家可以反覆理解。

視頻(B站地址 av54874176)

視頻封面

10:10為何人類沒有變成過目不忘:上視頻封面

06:44為何人類沒有變成過目不忘:下

視頻觀看方法

視頻封面

04:00學習觀第三季觀看方法

目錄

1. 問題背景

2. 生命穩態維持3. 移動演化危機4. 高等生命挑戰

5. 網路記憶學習

文字稿

一、問題背景

1.1.現象

現在的學生至少要在學校接受十多年的教育,

每天記憶和學習,多麼希望自己可以過目不忘。

1.2. 問題

可既然記憶如此重要,為什麼人類沒有演化成過目不忘?

為什麼我們要靠不斷重複來記憶?

為什麼好不容易記住的信息又會被遺忘?

為什麼我們的記憶還會混淆信息?

1.3. 假說

傳統觀點對此的解釋有消退說和幹擾說,

認為遺忘是信息在腦中不可避免的消退結果,而混淆是不同信息幹擾記憶所造成的。

1.4. 疑點

可是計算機就能瞬間記憶,長期保存,再相似的信息也不會混淆。

加之患有超憶症的人羣也可以過目不忘,說明演化了數億年的生命完全有條件產生像計算機這樣既沒有消退也沒有記憶幹擾的大腦。

同時越來越多的研究也表明,遺忘恐怕並不是被動的,而是大腦的一種主動行為。

1.5. 提問

那究竟是出於什麼原因,才會讓大腦去遺忘辛苦記憶的信息呢?

我們只有搞清大腦是如何演化出來的,才能針對其原理來正確的學習和記憶。

那麼我們最初為什麼要演化出一個大腦呢?

二、生命穩態維持

這個問題看似很奇怪,但生命是一種特殊的狀態維持方式,能被留下來的原因只有一個:

那就是通過預測信息,在不斷變化的環境中維持了自身的狀態。

而單靠應激反應就可以達成這一目的,並不需要一個大腦來體驗世界。

2.1. 應激物理視角

比如草履蟲(單細胞生物)細胞膜上的每個蛋白質(離子通道),

一般狀態:在一般狀態時,會消耗能量,通過控制離子的進出,讓細胞膜內外保持 -40 mV濃度差。

預測危險:當觸碰(以觸覺來感知外界信息)到障礙物時,細胞膜的變形(物理輸入信息)會讓這些蛋白質(離子通道)開門,允許特定離子通過,這些離子就形成能讓草履蟲向反方向遊動的電信號避開危險。

2.2. 應激數學視角

從數學視角來理解單個蛋白質的功能:

輸入:則外界的物理擠壓相當於輸入,

輸出:蛋白質對應的開關門操作相當於輸出,

模型:而決定了什麼樣的輸入該對應哪一種輸出的蛋白質相當於模型(函數)。

2.3. 應激性的作用

別看單個蛋白質僅有開關門的功能,但它實際上把無數種情況都壓縮進了一個函數(模型)。

類比:如果要靠計算機來記憶每一種物理擠壓對應的開關門情況,就相當於讓計算機去記憶 π 小數點後的每個數字。

2.4. 應激性的實現

而應激反應這是這些蛋白質並行工作後,湧現出的結果,可允許草履蟲在狀態被破壞之前躲避危險。

任何生命都會感知外界信息並做出維持自身狀態的對應行為。

能體驗這個世界的個體並不會比不能體驗世界的個體更容易被留下來。

那麼大腦究竟是幹什麼用的呢?

三、移動演化危機

這個問題的答案,在我們顧及應激反應的代價後,便能顯現。

雖然草履蟲單靠應激反應就能存活,

不過草履蟲怎麼知道該生成什麼樣的蛋白質才能產生可躲避危險的應激反應的?

3.1. 應激性的學習

它需要靠演化來學習應激模型:

通過大量克隆帶有不同 DNA 的自己來生成不同的蛋白質,增加備選模型。

由自然選擇篩選掉那些不能躲避危險的模型。

在篩選後的模型的基礎上再不斷重複上述過程。

只要種羣基因庫的更新速度快過環境的變化速度,整個種羣就能相對穩定的形成可躲避危險的模型。

也就是為什麼生物要一代一代的繁衍,又並非完美複製自己。

雖然生物想要(擬人化)一直延續下去,但又只能通過構建模型來預測危險,而繁衍和變異就是構建模型的過程。

然而多細胞生物的演化卻面臨一個兩難問題。

3.2. 穩定性的保證

因為多細胞生物是由大量細胞所組成的,如果這些細胞都可隨時變異,那就無法形成一個穩定的整體。

3.3. 差異性的需求

雖然自然產生了很多能保證穩定性的機制,可演化所需要的差異性又成了問題。

而有性生殖的出現允許了個體在保證穩定性的基礎上增加差異性,但條件卻是需要充分移動來洗牌。

3.4. 學習速度需求

然而一旦大範圍移動後,演化的學習速度又跟不上移動所造成的環境變化速度。

類比:這就好比懷胎三年的哪吒出生後還沒等產生後代,就因為試錯而死亡了,兩三胎下來李家就滅絕了。

多細胞生物想要演化就不得不讓個體在生命週期內擁有學習能力。而大腦最初的作用就在於此。

四、高等生命挑戰

想要明白為什麼大腦會演化出遺忘,必須先要搞清個體學習所面臨的困難。

以蟾蜍喫蟲子為例:

模型:為了獲得能量,蟾蜍必須要構建一個模型,當看到蟲子就捕捉,否則不動。

輸入:這時,輸入為蟾蜍接收到的反光信號,

輸出:輸出為是否伸舌頭捕捉,

4.1. 影響輸出因素

而蟾蜍看到了什麼不僅取決於反光這個輸入信號。

模型

同時還取決於蟾蜍自身的模型是如何將輸入計算成輸出的。

例子:因此不同的生物看同一幅畫面會有不同的感知,而即便是同一物種之間也會有差異。

比如,對這張圖片,有的人看到的是灰色和綠色;有的人看到的卻是粉色和白色。

輸入

同樣的,單有模型也不能決定輸出。

例子:比如,即使某人帶有致病基因,若沒有觸發該基因環境輸入,則該人並不會得此病。

例子:也是為什麼不要看字幕來練習聽力。因為當沒有字幕這個輸入信號時,所構建的模型就無法使用了。

真實

由於生物所看到的事物會隨自身的模型而改變,所以人類看到的也並不是世界的真實樣貌。

4.2. 模型泛化能力

任何感知都是通過學習所構建的,也都有它的缺陷。

比如蟾蜍會把所有移動的橫條都識別為蟲子,而即使是真的蟲子,只要不動,或者豎立起來,就無法識別。

這是因為蟲子的大小、形態、顏色以及太陽光照強度等不同,使得輸入信號是蟲子的情況有無數種,個體一生都無法見到所有情況。

但個體想要存活就不得不從」有限的例子「中,構建一個也能識別從未見過的情況的模型。而這就是學習。

比如,高考實際上就是 學生在從有限的練習題中構建可解出從未見過的高考題的模型,每個模型就是考生要學習的一個知識。

模型可識別從未見過的情況的能力叫做泛化能力,也就是「舉一反三」。

例子:所以驗證學習的方式是考從未見過的問題。

4.3. 過擬合欠擬合

但有時考生只會做學校出的模擬題,而不會做高考真題;

有時我們只能看懂自己的字,卻看不懂別人寫的字。

這種僅僅記住了學習時所見過的情況,卻無法解決未見過情況(泛化能力不足)的現象被稱作過擬合;

相對的,學習時所見過的例子也無法記住的現象被稱作欠擬合。

4.4. 泛化能力需求

多細胞生物想要生存就不能僅記憶所見過的個別情況。

比如,蟾蜍視覺模型的泛化能力就無法顧及到不動的蟲子,如果把它關進有大量死蟲子的罐中,它會活活餓死。

又如,不能根據喬布斯和比爾蓋茨都輟學了,就構建一個認為輟學就能成功的模型,然後輟學回家。

那就必須要抑制過擬合,提高泛化能力。

但問題是,草履蟲是靠自然選擇來篩選模型的,

可自然選擇無法幹預生命週期內的學習,這時多細胞生物又該如何篩選模型,如何提高模型的泛化能力呢?

不僅如此,生命週期內的學習還需要新的記憶能力。

4.5. 個體記憶需求

單靠演化來學習的生命並不需要生命週期內的記憶能力。

拿草履蟲來說,它就好比一個老式鐘錶,並不能像手機鬧鐘一樣記憶起牀時間。

然而個體學習就需要有把曾經見過的例子記憶下來。

等蒐集到足夠的數據時,用於學習。

所以記憶最初的產生並不是為了讓生物懷舊過去,而是允許生物從歷史經驗中學習。

4.6. 高等生命目標

多細胞生物只要確保自己在產生後代之前不死,就可以讓演化機制在該層級上繼續工作。

這就好比在遊戲中,一旦到了存檔點,即使死了也可以讓後代繼續冒險,但前提是要有允許個體走到存檔點的學習能力。

而面對這些新挑戰,我們的祖先又靠什麼保證繁衍前不死的呢?

五、網路記憶學習

當我們思考生命該如何對抗未知的時候,便能體會到,為什麼當初生物的底層並沒有選擇像計算機一樣的過目不忘。

這裡將通過一個簡單的例子,來比較兩種不同的記憶方式。

輸入:假設有兩個輸入,都可為0或1。

輸出:當兩個輸入不一樣時,就輸出1,否則輸出0。

一共有四種情況。

5.1. 查找記憶

第一種記憶方式與九九乘法表一樣,就是將所有情況都記錄下來,隨後根據輸入去查找對應的輸出。

特點是:

  • 記憶迅速
  • 保存穩定
  • 不會混淆

這是我們意識層面比較熟悉的記憶。恐怕不少人也認為人腦的長期記憶就是這種方式。

5.2. 網路記憶

而第二種記憶方式是構建一個網路,根據輸入直接計算出對應的輸出。

這裡的輸入和輸出都是一種狀態。

輸入狀態由兩個因素(dimension)所表達(represent),好比一個物體的長和寬,因此也叫二維向量。

而輸出狀態是一維向量。

如果只記憶這種情況:

那可以忽略第一個維度,只取第二個維度的原值。

圓圈中的數值表示每個維度的狀態,這些控制著取多少狀態的連接表示權重(weights)。

而若是隻記憶這種情況:

那可以讓第一個維度乘以負一,與第二個維度的原值相加。

5.2.1. 網路記憶的位置

不同於第一種記憶,網路的記憶並不是存儲在某個特定位置,而是由所有權重共同存儲的,無法直接查看,只能根據輸入計算輸出。

不過若要同時記憶這四種情況:

那之前任何一種直接從輸入狀態變換到輸出狀態的方式都不行。

但可以先變換到一個非線性(意為變化速率是常量)的中間狀態,再從中間狀態變到輸出狀態。

5.2.2. 網路記憶的保證

但如果要記憶的情況特別多怎麼辦?

實際上,只要中間狀態的維度足夠大,就可以記憶任意函數。

因為大不了給每個情況都在中間狀態中分配一個維度。

這也叫做 通用近似定理(Universalapproximation theorem)。

不過通用近似定理僅僅保證了網路可以記憶,並不保證網路一定可以學習。

因為如果需要見到所有情況的話,那就與第一種記憶方式沒有什麼區別了。

所以將這四個情況存儲到網路中的行為依然被稱為記憶,

但如果通過這三種情況可推測第四種情況的話,便稱為學習。

也就是說,在網路中,記憶可被視為過擬合的學習(比如,只學習這一種情況),

而學習可被視為泛化的記憶(比如,同時記憶這三種情況來推出第四種情況)。

5.2.3. 這種記憶的特點

記憶耗時:這種記憶方式因為需要不斷調整網路的權值,直到能納入所有情況為止,所以會比較耗時。

會有幹擾:而這種調整也會影響先前情況的記憶。比如記憶完這種情況,再記憶剩下三種情況時,就會影響第一種情況的記憶。

會有混淆:同時,網路的記憶就會出現混淆兩個相似情況的現象。就是我們俗稱的「模糊記憶」。

記憶可穩定:不過,只要保證權值的大小不變,這種記憶一樣可以穩定存在,並不會出現快速遺忘的現象。

5.3. 生物記憶

根據我們平時的記憶特點,能夠感覺出來,生物底層所採用的是網路記憶方式。

可網路記憶明明有那麼多弊端,為什麼不採用查找記憶呢?

的確,查找記憶可更快捷的記憶信息,比如計算機的記憶就幾乎是瞬間的,然而前提卻是要有人提供給它所有情況的信息。

可在自然中,誰來提供給生物這些情況的信息呢?查找記憶完全沒有解決我們在上一節中所描述的生存困難,並不能從有限的例子中學習模型,來對抗生命最大的敵人:未知。

不僅如此,對於在信息不斷增加的環境中所生存的生物而言,查找記憶也意味著需要近乎無限的存儲空間。

而網路記憶雖然慢,還會混淆,但它實際上是在尋找所有見到(相似)情況的共同規律,將它們都壓縮進一個網路中,無需記住所有情況,而是根據輸入得到輸出,節省了存儲空間。

更重要的是,所找到的共同規律就可以用來預測從未見到的情況。

5.4. 網路學習

但既然網路的記憶也可以穩定存在,為什麼會出現遺忘呢?

問題就在於個體該如何篩選模型,如何提高模型的泛化能力。

因為網路學習會從所見到的情況中尋找相同的規律,

但生物每次見到的情況都是隨機的,部分隨機情況之間也會有特殊規律。

比如,連續學習喬布斯和比爾蓋茨的情況,就會找到輟學的規律。

而連續學習這兩種情況,就會找到忽略第一個維度,只取第二個維度的規律。

但這種局部規律僅記住了部分情況,卻失去了預測其他情況的能力。

不過根據概率:

若有一種規律只出現過一次,那麼該規律是普遍規律的概率就很低,而學到這個規律的個體很難存活。

但若有一種規律反覆出現,那麼該規律是普遍規律的概率就比較大,而學到這個規律的個體就更有可能存活。

於是在眾多個體當中,部分個體產生了一種基於概率的模型篩選機制:

當網路的某個連接被高頻率使用時,就強化該連接的形成(回答了:為什麼需要不斷重複來記憶);

但當網路的某個連接被低頻率使用的話,就弱化該連接的形成(回答了:為什麼好不容易記住的信息會被遺忘)。

這種篩選機制會使得特殊規律的模型難以存留,只有那些所有情況都有的規律才會被生物學習。

隨後擁有該機制的個體在殘酷的自然選擇中存活了下來,繼續繁衍,成了我們的祖先。

而這,便是為什麼我們要靠不斷重複來記憶,為什麼好不容易記住的信息又會被遺忘。


推薦閱讀:
相關文章