Java虛擬線程

Java虛擬線程

翻譯自 screencapture-pradeesh-kumar-medium-an-era-of-virtual-threads-java

flowchart LR introduction-->a(why thread)-->b(parallel and concurrent execution)-->c(why threads?)-->d(how does thread work)-->e(java thread model)-->f(virtual thread)-->g(why virtual thread)-->h(comparasion) a-->c d-->f

簡介

“虛擬線程”的概念越來越火，很多編程語言都嘗試將其加入到線程庫中，Java也不例外。JDK19中便加入了虛擬線程（預覽版）JEP425。本文主要深入淺出介紹線程的前世今身，以及虛擬線程帶來的全新體驗和優勢，最后會對幾種不同的線程實現方式進行對比

線程(Thread)簡介

一個電腦程序，本質上就是實現特定任務任務的一系列指令。當你加載一個程序時，操作系統加載程序文件，并將其放置在一個指定區域（地址空間），然后執行它所包含的指令。這時候，它就被作為了一個“進程”。換句話說，一個進程就是一個程序運行在電腦中的實例。

一個線程就是進程里的一系列可以獨立運行的指令，通常線程在CPU的一個核上運行。一個進程可以擁有多個線程，允許多個線程同時執行即同時執行多個任務，這樣可以更好的利用CPU資源，提高任務吞吐量。例如，當你加載谷歌瀏覽器，系統便創建了一個谷歌瀏覽器的進程。你可以同事做很多事情，比如說同時下載文件和瀏覽網頁，因為這些功能運行在不同的線程之上。線程也可以叫做輕量級進程，因為線程之間共享了進程的地址空間。

flowchart LR disk--load-->memory--assign-->process process--include-->thread1 process--include-->thread2 process--include-->thread3 process--include-->thread4

并行(parallel)與并發(concurrent)執行

并行執行：同時執行多個任務。例如，一臺四核的機器，可以每個核執行一個任務。所有的任務是同時執行的。

并發執行：：電腦制造了一種同時執行任務數比CPU核數更多的錯覺。例如，一個四核的電腦，可以執行8個不同的任務。因為你只有四核，所以必須做上下文切換來執行8個任務。在這里操作系統制造了一種并行執行8個任務的錯覺。然而，實際上只有四個任務可以并行執行，因為只有四核。

并行執行圖例：

flowchart LR core1-->thread1 core2-->thread2 core3-->thread3 core4-->thread4

并發執行圖例：

flowchart LR core1-->a1(thread1)-->a2(thread4)-->a3(thread1)-->a4(thread8)-->a5(thread4) core2-->b1(thread2)-->b2(thread7)-->b3(thread2)-->b4(thread7)-->b5(thread2) core3-->c1(thread3)-->c2(thread5)-->c3(thread10)-->c4(thread3)-->c5(thread5) core4-->d1(thread5)-->d2(thread9)-->d3(thread5)-->d4(thread11)-->d5(thread1)

為什么要使用多線程？

首先，讓我們研究一下線程是怎樣提高我們的系統效率的。

假如你現在有一臺四核的電腦，你要寫一個兩數之和的程序，同時要求必須執行在12個線程中。

代碼如下：

public class SumOfNums {
    static void sum() {
        int a = 1;
        int b = 2;
        int sum = a + b;
        System.out.println(sum);
    }

    public static void main(String[] args) {
        for (int i = 0; i < 12; i++) {
            Thread t = new Thread(SumOfNums::sum);
            t.start();
        }
    }
}

那么有多少線程可以并行執行呢？是否12個線程都可以并行執行？我們創建了12個線程，是否意味著12個線程是同時開始執行的？答案是否定的。我們的CPU只有四核，意味著我們并行執行的線程數上線就是四核。每個線程都必須分配到一個指定的核去執行，通過上下文切換來完成12個線程的并發執行。

那么為什么一個應用會有數百個線程？有什么用處？為什么我們不創建恰好等于CPU核數的線程？讓我們更深入的研究一下。

任務通常有兩種類型：CPU密集型以及IO密集型。

CPU密集型：任務執行高度依賴CPU，例如算術，邏輯，關聯關系等，這些任務都是CPU密集型；

IO密集型：任務執行高度依賴輸入/輸出操作，例如網絡交互，讀取/存儲文件，這些任務都是IO密集型；

那么我們上面提到的sum任務屬于哪一種呢？我們創建并初始化了兩個變量a和b，將他們求和并輸出到命令行。從始至終都沒有任何的IO操作，數值計算是一個CPU操作，將結果寫到兩一個文件就是一個IO操作了。

通常來說，一個任務會混合CPU和IO操作。例如讀取一個文本文件，并計算出其中所有的不同的單詞，然后將結果寫入到另一個文本文件。在這種情況下，讀取和寫入文件是一個IO操作，計算不同的單詞是一個CPU操作。

多線程如何影響系統的效率？

再思考一下上面的CPU密集型求和代碼。我們使用了12個線程并發執行這段代碼。CPU內部切換前后臺線程，這樣就可以用4個核心完成12個線程的任務。如果還沒有完成一個任務的時候，CPU會切換到另一個線程。

12個線程真的會提升效率嗎？并非如此。當前的情況下，這里浪費了很多時間在切換上下文上。對于CPU密集型任務，最好使用和核心數統統的并發線程數，以達到最高的效率。

對于唯一詞計算效率又該如何呢？

考慮這樣一種情況，需要讀取20個文本文件。CPU在讀取文件時處于空閑狀態，因為文件讀取發生在硬盤驅動器上。所以只有當文件上下文都獲取到了之后，CPU才會開始計算然后將結果寫入到另一個文件。再寫入過程中，CPU始終處于空閑狀態，等待硬盤驅動器。

也就是說，我們執行的是如下圖所示的單線程操作。

flowchart LR a(CPU)--wait-->b(__________IO__________)--hook-->c(CPU calculation)--wait-->d(____________IO__________)--hook-->e(CPU)

如上圖所示，CPU在IO進行的時候都是空閑的。這導致了CPU的核心始終跑不滿100%占用率。

現在，我們考慮一下當我們在4核心CPU上跑4個線程。如下圖所示：

flowchart LR a1(CPU)--wait-->b1(__________IO__________)--hook-->c1(CPU calculation)--wait-->d1(____________IO__________)--hook-->e1(CPU) a2(CPU)--wait-->b2(__________IO__________)--hook-->c(CPU calculation)--wait-->d2(____________IO__________)--hook-->e2(CPU) a3(CPU)--wait-->b3(__________IO__________)--hook-->c3(CPU calculation)--wait-->d3(____________IO__________)--hook-->e3(CPU) a4(CPU)--wait-->b4(__________IO__________)--hook-->c4(CPU calculation)--wait-->d4(____________IO__________)--hook-->e4(CPU)

每一個線程被賦予了一個指定的核以并發執行。結果就導致了四核出現了與上面單核一樣占用率不滿的問題，IO期間核心依然是空閑的。

增加線程是否可以解決這個問題呢？

然我們來看一下如果我們使用八個線程會怎樣：

flowchart LR core1-->a1(thread1)-->a2(thread2__)-->a3(_____thread1______)-->a4(__thread2__)-->a5(thread1) core2-->b1(thread3)-->b2(____thread4____)-->b3(thread3)-->b4(thread4)-->b5(thread2) core3-->c1(thread6)-->c2(thread5)-->c3(thread10)-->c4(thread3)-->c5(thread5) core4-->d1(thread5)-->d2(thread6)-->d3(thread5)-->d4(thread8)-->d5(thread1)

首先來看第一個核core1，當thread1進行IO操作時，core1此時是空閑的。然而，當存在多個未執行線程時，核心會切換到另一個線程開始執行，直到thread1完成了IO操作。這種方式可以最大化利用資源，提升多線程時的表現。

所以，在我們的第一個求和任務中，我們使用了比核心更多的線程數量沒有獲得效率提升，是因為浪費了過多的資源在上下文切換上。但是這里，8個線程提高了執行效率。我們從中可以學到，選擇線程的數量，取決于IO操作頻率和時間占用。IO操作占比越高，就需要越多的線程來提高執行效率。

線程內部是怎樣工作的？

在我們繼續研究虛擬線程前，必須要知道線程有哪些分類，以及他們怎么工作。

通常，現在操作系統中有兩種不同的線程：核心線程以及用戶線程

1. 核心線程

通常也叫做系統線程。核心線程通常由操作系統內核來安排管理。每個內核中的線程線程有一個TCB（Thread Control Block)，其中包括了線程的優先級，狀態，以及其它配置信息。核心線程是重量級的，需要系統調用來創建，調度，以及同步。

2. 用戶線程

用戶線程一般使用用戶線程庫進行管理和調度，不需要操作系統內核的干涉。內核不能意識到用戶線程的變化。每個用戶線程代表了一個應用中不同的數據結構，包括線程的狀態信息和配置信息。用戶線程是輕量級的，創建和銷毀比系統線程更快。但是，依然會收到一些明確的限制，例如不能夠享受到多處理器或者多核的優秀性能。

簡單講，當一個進程啟動時，會啟動一個默認線程，執行應用入口的main方法。隨后，進程會創建自己需要的額外線程。用戶線程是不能直接執行的，必須映射到一個指定的內核線程，然后通過內核線程執行執行。用戶線程和內核線程的映射關系有以下三種：

M:1：所有的用戶線程對應到一個內核線程上，通過庫調度器進行調度；
1:1：每個用戶線程對應一個內核線程；
M:M：所有的用戶線程映射到了一個內核線程池；

Java內部線程實現模式

綠色線程（Green Thread）：遠古時期，Java使用綠色線程模式。這個模式下，多線程的調度和管理有JVM完成。綠色線程模式才作用M:1線程映射模型。這里就有一個問題，Java不能夠規?；芾磉@種線程，也就無法充分發揮硬件性能。同樣的實現綠色線程也是一件非常有挑戰性的事情，因為它需要非常底層的支持才能夠良好運行。隨后java移除了綠色線程，轉而使用本地線程。這使得Java的線程執行比綠色線程更慢。

本地線程（Native Thread）：從Java1.2開始從綠色線程切換到了本地線程模式。在操作系統的幫助下，JVM得以控制本地線程。本地線程的執行效率很高，但是開啟和關閉他們的資源消耗較大。這就是為什么我們現在要使用線程池。這個模型遵循著1：1線程映射，即一個Java線程映射到一個內核線程。當一個java線程被創建時，相應的一個對應的內核線程也會被創建，用來執行線程代碼。自此之后，本地線程模型的做法就延續到了今天。

當前Java線程模型有什么問題嗎？

上面的章節中中，我們知道Java已經使用了本地線程模式。讓哦我們看看這個模式有什么問題：

Java的線程庫已經很老舊了；
只是對于本地線程的一個簡單包裝；
本地線程的創建和管理資源消耗較大；
本地線程需要保存他們的調用棧在內存中，大概2MB~20MB的預留空間。如果你有4GB內存，如果每個線程占用20MB內存，那么你就只能創建大概200個線程；
因為本地線程是一種系統資源，加載一個新的本地線程大概需要1毫秒；
上下文切換代價昂貴，需要一個到內核的系統調用；
上面這些強制性的限制會限制線程創建的數量，同時會導致性能下降和過度的內存消耗。因為我們不能創建更多的線程；
我們不能通過增加更多的線程來增應用規模，因為上下文切換和內存占用的代價高昂；

現實世界的例子

考慮一臺16GB內存的網絡服務器。對于每個服務請求，都分配一個不同的線程。我們假設每個線程需要20MB內存空間，那么這臺機器可以支持800個線程。當前，后端的API一般使用REST/SOAP調用方式，例如數據庫操作和API信息轉發這些IO密集型操作。由此可見，后端服務的主要是IO密集型而不是CPU密集型。

接著假設一下，一個IO操作需要100微秒，請求執行（IO密集型）需要100微秒，以及返回結果也需要100微秒。同時，當每秒有800個請求時，線程數得到了最大容量。

讓我們來計算一下單個請求的CPU占用時間

CPU時間　＝　請求準備時間 +　返回結果準備時間
		＝　0.1ms +　0.1ms
		= 0.2ms

對于800個請求呢？

800個線程的請求時間= 800 * 0.2ms
				= 160ms

受限于我們的內存容量，我們只能創建800個請求，也就導致了我們CPU使用率并不高

PUC使用率=160ms / 1000ms
		= 16%

那么如何才能使CPU的利用率到達90%呢？

16% = 800個線程
90% = X個線程
X = 4500

但是我們當前因為內存的限制不能創建那么多的線程，除非我們能突破這個限制，擁有90G內存。

90G的內存是一個比較離譜的數字，所以說創建本地線程很明顯不能充分利用硬件資源。

虛擬線程（Virtual Thread)

虛擬線程是一個Java線程的輕量級實現版本，最早于JDK19中出現，當前仍是預覽狀態，可以通過Jvm配置項開啟。

虛擬線程是JVM項目loom的一部分

虛擬線程解決了傳遞和維護本地線程的瓶頸問題，同時可以用之編寫高吞吐的并發應用，榨干硬件資源的潛力。

與本地線程不同，虛擬線程并不有操作系統控制，虛擬線程是一個有JVM管理的用戶態線程。對比于本地線程的高資源占用，每個虛擬線程只需要幾個字節的內存空間。這是的它更適合控制管理大量的用戶訪問，或者說處理IO密集型任務。

在創建虛擬線程的數量上幾乎沒有限制，甚至可以創建一百萬個，因為虛擬線程并不需要來自內核的系統調用。

在虛擬線程如此輕量化的條件下，線程池不再成為必須品，只需要在需要的時候盡情創建虛擬線程就好。

虛擬線程和傳統的本地線程操作完全兼容，例如本地線程變量，同步塊，線程中斷，等等。

虛擬線程如何工作

JVM管理著一個本地線程的線程池。一個虛擬線程想要進行CPU操作時，就把自己關聯到一個池中本地線程的隊列中。當虛擬線程中的CPU操作執行完畢后，JVM會自動解除關聯并掛起該虛擬線程，同時切換到并執行另一個虛擬線程。這就是為什么我們可以創建很多的虛擬線程，并且他們是如此的輕量級。

JVM使用M:N來完成虛擬線程與本地線程的映射。