深入理解進程和線程-1

深入理解進程和線程

Q: 什麼是進程？

進程其實是一個比較抽象的概念，它是用來描述多道程序設計系統中的一個工作單元。單純的給進程下一個定義是沒有任何意義的。比如現在所謂的標準答案：進程是操作系統中運行的程序。對於進程，我們更多的要理解它是一個「複合體」，它是一系列活動的組合。它是一個邏輯上的概念，並不是一個現實世界中具體的事物。這一點和 k8s 中的 pod很像。所以，我更傾向於將進程理解為操作系統中的一個複雜且基本的工作單元。

Q: 子進程被創建之後和父進程是如何隔離的？

通常情況下，在 Linux 系統當中，一旦子進程被創建，那麼子進程和父進程就會分別佔有兩塊獨立的地址空間。相互之間是隔離的，並且可以通過一些方式來進行通信或者共享某些資源。但是，在之後操作系統發展的過程當中，對於父子進程的創建過程可能會有一些優化，而不僅僅是粗暴的將父進程地址空間中所有的東西都 copy 一份給子進程。這裡也是有一個比較重要的機制：COW（寫時複製機制）。

Q: Linux 中的進程和 Windows 中有哪些不同？

Linux 系統中的進程是有嚴格的「父子關係」的，並且所有的進程會以樹形的層次結構組織起來。其中祖先進程可認為是 Init，它是進程樹中的根。而 Windows 中的進程，無論父子，都是靠一個叫做「句柄」的概念對一個進程進行標識的，並且這個句柄是可以傳遞的。所以在 Windows 中，進程間沒有嚴格的父子關係。

Q: 什麼是線程？

線程是輕量級的進程。進程由操作系統來管理而線程由進程來管理。不同進程之間的地址空間是隔離的，但是不同線程之間的地址空間是共享的。一般來說，一個進程通常會有一個主線程，進程負責向內核申請線程運行所需要的資源和環境，而線程才是真正執行程序的單位。

Q: 有了進程為什麼還需要線程？

從程序性能的角度來說，很多程序在一個進程中都會做很多任務。這些任務可以大致的被劃分為兩類，一類是 I_O, 一類是計算。I_O 通常消耗的時間會比較長，對於只有主線程的進程來說，它會一直處於等待狀態，內核分配給他的 CPU 時間片也會被白白的消耗。計算類的任務則會直接消耗 CPU 資源，最大限度的利用了已分配的時間片。所以，如果一個程序中同時包含這兩類任務的話，計算類的任務很可能被 I_O 類的任務阻塞，最終導致整個程序的效率下降。因為線程是存在於進程的地址空間中的，如果可以在進程地址空間中創建多個線程，並且讓這些線程重疊執行，分別去運行不同類型的任務，就可以在一定的 CPU 時間片內，將程序的效率儘可能的提高。通過上面的一些思考，我們甚至可以延伸出另外一個問題：多線程技術一定會對我們的程序產生積極的影響么？其實也不盡然。如果我們的程序中既包含大量的 I_O 操作，也包含大量的計算操作，那麼多線程技術是可以提升我們程序的效率的。因為此時由於多個線程重疊的進行，最大限度的利用了 CPU 的時間片。如果我們的程序基本都是計算類的任務，很少有 I/O 操作，那麼多線程的引入可能不會對提升程序的效率有太大的幫助。因為即使線程間的切換消耗再小，也還是有的。同樣，這個問題的思考方式還可以延伸到：多進程技術一定會對我們的程序有積極的影響么？

從資源共享的角度來說，不同進程間的地址是不同的，所以它們在共享一些資源的時候就會比較麻煩，可能需要藉助第三方的東西，比如文件。然而對於同一個進程中的不同的線程來說，這種內存上的隔離是不存在的，它們可以很方便的去共享一些資源。看到這裡你可能會說，在地址空間不隔離的條件下，多個線程對同一個資源可能會出現競爭的想像。對於這個問題，我們要明確兩點：首先，線程間共享資源的初衷是讓多個線程合作，而不是讓它們競爭。其次，如果不可避免的發生了競爭，也可以通過一些互斥的機制來解決。

最後還要提及一點的就是，大多數操作系統對於多線程的實現都是在「用戶態」下，且線程中維護的必要信息會較進程少很多。這就造成了線程是比進程更輕量級的。如果不可避免的發生頻繁和切換操作，那麼很明顯線程在這種場景下會更具優勢。

Q: 進程和線程之間的關係是什麼？

進程更傾向於從操作系統申請資源，並對這些資源進行統一的管理，提供一個良好的運行環境。線程則更注重利用已經分配好的資源運行程序。也就是說，實際上在 CPU 上調度執行的並不是進程而是線程。

Q: 如何實現線程？

實現線程有兩種思路：在用戶態實現 or 在內核態實現。

當我們想在用戶態實現「線程」的時候，就意味著「線程」或者說是「多線程」對於內核來講應該是透明的。內核與具有單個控制線程的主進程還是按照原來的模式運行（進程模型）。所以，我們很自然的就能夠想到，在用戶態下需要一系列「過程」的集合來實現和線程有關的操作以及「多線程」技術。這個「過程」的集合可以被稱作為是一種 Runtime 系統。

用戶態 Runtime 系統數和進程數成正比。每一個進程中都有一個 Runtime 去管理進程中的多個線程。它負責線程的創建，銷毀。同時也要負責維護一張「線程表」，用於保存進程內部線程的運行狀態。更重要的是，這個 Runtime 系統需要藉助「線程表」進行線程間的切換，因為同一時刻只有一個線程可以獲得 CPU 的時間片。

其實，這樣看起來，Runtime 運行的方式很像一個有限狀態機。它將進程內的線程的狀態保存至「線程表」中，當一個線程被調度到 CPU 上執行的時候，Runtime 就需要在線程表中讀取和這個線程有關的信息；當一個線程要被調度離開 CPU 的時候，同樣需要 Runtime 將此時的狀態保存到線程表中，以便下一次復原運行的上下文環境。如果再類比一下進程和操作系統內核的關係就可以得知，用輕量級的進程來描述線程，真的是再合適不過了。

對於線程間的切換來說，它和進程間的切換的實現有所不同。進程間的切換，要不就是依靠中斷機制，強行將進程從 CPU 上拿下來；要不就是等到該進程的 CPU 時間片被消耗完，調度系統切換新的進程上來。由於我們現在是在用戶態實現線程，操作系統內核無法干預線程的相關操作。所以，我們需要在 Runtime 中實現一個過程，這個過程在調用之後可以主動的將 CPU 時間片讓給其他處於就緒態的線程。這也就是 POSIX 線程標準中定義的 Pthread_yield 所要實現的功能。

在用戶態實現 Runtime 的好處其實很明顯：1. 之前看起來比較複雜的操作，如線程間的切換，都是在用戶態下完成的，不需要內核的參與，所以肯定要比內核實現的版本效率要高 2. 由於這個 Runtime 是我們自己來實現的，所以它的可定製性是非常強的。我們甚至可以開發出自己的一套「線程調度策略」來保證我們的程序效率最大化。

在用戶態實現 Runtime 的壞處其實都可以歸結到一個問題上：阻塞。阻塞是指：當一個線程執行了一些阻塞系統調用的時候，不僅僅是其他的線程沒有運行的機會了，整個進程都會因為進入阻塞態而被調離 CPU。這是一個非常嚴重的事情。而觸發這種問題的 Case 也很常見：缺頁中斷（線程所需要的數據或者代碼沒有在內存頁中找到而是在硬碟中）。此外，由於多線程間只能夠通過主動調用 Pthread_yield 過程來實現切換操作，如果你的代碼寫的有 bug 的話，其他的線程就會處於「飢餓」或者「餓死」的狀態。

內核態實現的 Runtime 系統的數量不再隨著進程數的變化而變化。事實上，如果真的把線程拿到內核態來實現的話，線程和進程基本就沒什麼區別了。線程會和進程一樣，在內核中有一個線程表，用來維護線程的運行情況。通過對比之前在用戶態實現線程的缺點可以知道，如果將所有阻塞線程的調用全都以系統調用的形式來實現的話，線程間的切換就統一由內核來進行管理，它會選取一個合適的線程繼續使用剩餘的 CPU 時間片。這種阻塞調用既包括線程之間的阻塞也包括阻塞的系統調用。

雖然說，內核態實現 Runtime 開銷比較大的問題是不可避免的。但是仍然可以做出一些優化，比如在線程的銷毀操作上，如果一個線程需要被銷毀，內核可以不進行真正的銷毀操作，而是打上一個空閑線程的標記，並且由它統一管理。這樣如果有線程創建需求的時候，有可以直接復用之前已經分配的資源。

很顯然，內核態實現 Runtime 也是有很多缺點的。其中最被大家詬病的就是「開銷」變大了。這個開銷不僅僅是指時間上面的，還包括空間上面的。如：線程的數量一般都是要比進程多的，所以線程表的規模的增長速度會遠遠大於進程表。當規模大起來之後如何保證一個高效的讀取和寫入操作呢？畢竟引入線程和多線程相關概念的初衷是在合適的場景下能夠提升程序的效率而不是拉低。

既然兩者各有優劣，那麼根據操作系統的一貫思想，就是最大化的將這兩個方案的優點結合起來，產出一個普適性更強的方案：調度程序激活機制。它藉助了用戶態 Runtime 系統的優勢：高效的進行線程間的切換。同時，在用戶態下模擬「內核」線程的功能，防止因線程使用阻塞的系統調用而發生進程的切換。

調度程序激活機制啟用後，內核會為每一個進程分配一個或多個的虛擬 CPU，用戶態 Runtime 系統可以將線程分配到這些虛擬的 CPU 上。虛擬 CPU 代表這個進程可以使用的 CPU 核心數。當一個線程被同進程的另外一個線程所阻塞，它會被用戶態 Runtime 系統處理，並調度新的進程運行。此時，不會發生用戶態和內核態的切換，對於內核來說，這些操作都是透明的。當一個線程被進程之外的因素阻塞住時（阻塞的系統調用，缺頁中斷等），內核會感知到這個問題，它會通知用戶態 Runtime 系統，需要重新調度一個就緒的線程運行。而當阻塞的事件被完成的時候，內核也會將這個事件通知給用戶態 Runtime 系統，讓它自己來決定，下一步應該調度哪個線程運行。

這種內核調用用戶態 Runtime 系統的機制被稱作為「上行調用」。在CPU中用戶空間為上層，內核為下層層，常規調用應該是上層調用下層，下層不應該調用上層，上行調用就是指內核調用用戶空間的 Runtime 系統。