一. 簡介

Linux 操作系統和驅動程序運行在內核空間，應用程序運行在用戶空間。兩者不能簡單地使用指針傳遞數據，因為Linux使用的虛擬內存機制，用戶空間的數據可能被換出，當內核空間使用用戶空間指針時，對應的數據可能不在內存中。用戶空間的內存映射采用段頁式，而內核空間有自己的規則；本文旨在探討內核空間的地址映射。
os分配給每個進程一個獨立的、連續的、虛擬的地址內存空間，該大小一般是4G（32位操作系統，即2的32次方），其中將高地址值的內存空間分配給os占用，linux os占用1G，window os占用2G；其余內存地址空間分配給進程使用。
通常32位Linux內核虛擬地址空間劃分0~3G為用戶空間，3~4G為內核空間(注意，內核可以使用的線性地址只有1G)。注意這里是32位內核地址空間劃分，64位內核地址空間劃分是不同的。

詳解Linux的用戶空間與內核空間

進程尋址空間0~4G
進程在用戶態只能訪問0~3G，只有進入內核態才能訪問3G~4G ?
進程通過系統調用進入內核態
每個進程虛擬空間的3G~4G部分是相同的 ?
進程從用戶態進入內核態不會引起CR3的改變但會引起堆棧的改變

二.?Linux內核高端內存

1. 由來

當內核模塊代碼或線程訪問內存時，代碼中的內存地址都為邏輯地址，而對應到真正的物理內存地址，需要地址一對一的映射，如邏輯地址0xc0000003對應的物理地址為0×3，0xc0000004對應的物理地址為0×4，… …，邏輯地址與物理地址對應的關系為

物理地址 = 邏輯地址 – 0xC0000000：這是內核地址空間的地址轉換關系，注意內核的虛擬地址在“高端”，但是ta映射的物理內存地址在低端。

邏輯地址	物理內存地址
0xc0000000	0×0
0xc0000001	0×1
0xc0000002	0×2
0xc0000003	0×3
…	…
0xe0000000	0×20000000
…	…
0xffffffff	0×40000000 ??

假設按照上述簡單的地址映射關系，那么內核邏輯地址空間訪問為0xc0000000 ~ 0xffffffff，那么對應的物理內存范圍就為0×0 ~ 0×40000000，即只能訪問1G物理內存。若機器中安裝8G物理內存，那么內核就只能訪問前1G物理內存，后面7G物理內存將會無法訪問，因為內核的地址空間已經全部映射到物理內存地址范圍0×0 ~ 0×40000000。即使安裝了8G物理內存，那么物理地址為0×40000001的內存，內核該怎么去訪問呢？代碼中必須要有內存邏輯地址的，0xc0000000 ~ 0xffffffff的地址空間已經被用完了，所以無法訪問物理地址0×40000000以后的內存。

顯然不能將內核地址空間0xc0000000 ~ 0xfffffff全部用來簡單的地址映射。因此x86架構中將內核地址空間劃分三部分：ZONE_DMA、ZONE_NORMAL和 ZONE_HIGHMEM。ZONE_HIGHMEM即為高端內存，這就是內存高端內存概念的由來。

在x86結構中，三種類型的區域（從3G開始計算）如下：

ZONE_DMA??????? 內存開始的16MB

ZONE_NORMAL ??? ? 16MB~896MB

ZONE_HIGHMEM?? ? ? 896MB ~ 結束（1G）

詳解Linux的用戶空間與內核空間

2. 理解

前面我們解釋了高端內存的由來。 Linux將內核地址空間劃分為三部分ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM，高端內存HIGH_MEM地址空間范圍為 0xF8000000 ~ 0xFFFFFFFF（896MB～1024MB）。那么如內核是如何借助128MB高端內存地址空間是如何實現訪問可以所有物理內存？

當內核想訪問高于896MB物理地址內存時，從0xF8000000 ~ 0xFFFFFFFF地址空間范圍內找一段相應大小空閑的邏輯地址空間，借用一會。借用這段邏輯地址空間，建立映射到想訪問的那段物理內存（即填充內核PTE頁面表），臨時用一會，用完后歸還。這樣別人也可以借用這段地址空間訪問其他物理內存，實現了使用有限的地址空間，訪問所有所有物理內存。如下圖。

詳解Linux的用戶空間與內核空間

例如內核想訪問2G開始的一段大小為1MB的物理內存，即物理地址范圍為0×80000000 ~ 0x800FFFFF。訪問之前先找到一段1MB大小的空閑地址空間，假設找到的空閑地址空間為0xF8700000 ~ 0xF87FFFFF，用這1MB的邏輯地址空間映射到物理地址空間0×80000000 ~ 0x800FFFFF的內存。映射關系如下：

邏輯地址	物理內存地址
0xF8700000	0×80000000
0xF8700001	0×80000001
0xF8700002	0×80000002
…	…
0xF87FFFFF	0x800FFFFF

當內核訪問完0×80000000 ~ 0x800FFFFF物理內存后，就將0xF8700000 ~ 0xF87FFFFF內核線性空間釋放。這樣其他進程或代碼也可以使用0xF8700000 ~ 0xF87FFFFF這段地址訪問其他物理內存。

從上面的描述，我們可以知道高端內存的最基本思想：借一段地址空間，建立臨時地址映射，用完后釋放，達到這段地址空間可以循環使用，訪問所有物理內存。

看到這里，不禁有人會問：萬一有內核進程或模塊一直占用某段邏輯地址空間不釋放，怎么辦？若真的出現的這種情況，則內核的高端內存地址空間越來越緊張，若都被占用不釋放，則沒有建立映射到物理內存都無法訪問了。

3. 劃分

內核將高端內存劃分為3部分：VMALLOC_START~VMALLOC_END、KMAP_BASE~FIXADDR_START和FIXADDR_START~4G。

詳解Linux的用戶空間與內核空間

對于高端內存，可以通過 alloc_page() 或者其它函數獲得對應的 page，但是要想訪問實際物理內存，還得把 page 轉為線性地址才行（為什么？想想 MMU 是如何訪問物理內存的），也就是說，我們需要為高端內存對應的 page 找一個線性空間，這個過程稱為高端內存映射。

對應高端內存的3部分，高端內存映射有三種方式：
映射到”內核動態映射空間”（noncontiguous memory allocation）
這種方式很簡單，因為通過 vmalloc() ，在”內核動態映射空間”申請內存的時候，就可能從高端內存獲得頁面（參看 vmalloc 的實現），因此說高端內存有可能映射到”內核動態映射空間”中。

持久內核映射（permanent kernel mapping）
如果是通過 alloc_page() 獲得了高端內存對應的 page，如何給它找個線性空間？
內核專門為此留出一塊線性空間，從 PKMAP_BASE 到 FIXADDR_START ，用于映射高端內存。在 2.6內核上，這個地址范圍是 4G-8M 到 4G-4M 之間。這個空間起叫”內核永久映射空間”或者”永久內核映射空間”。這個空間和其它空間使用同樣的頁目錄表，對于內核來說，就是 swapper_pg_dir，對普通進程來說，通過 CR3 寄存器指向。通常情況下，這個空間是 4M 大小，因此僅僅需要一個頁表即可，內核通過來 pkmap_page_table 尋找這個頁表。通過 kmap()，可以把一個 page 映射到這個空間來。由于這個空間是 4M 大小，最多能同時映射 1024 個 page。因此，對于不使用的的 page，及應該時從這個空間釋放掉（也就是解除映射關系），通過 kunmap() ，可以把一個 page 對應的線性地址從這個空間釋放出來。

臨時映射（temporary kernel mapping）
內核在 FIXADDR_START 到 FIXADDR_TOP 之間保留了一些線性空間用于特殊需求。這個空間稱為”固定映射空間”在這個空間中，有一部分用于高端內存的臨時映射。

這塊空間具有如下特點：
（1）每個 CPU 占用一塊空間
（2）在每個 CPU 占用的那塊空間中，又分為多個小空間，每個小空間大小是 1 個 page，每個小空間用于一個目的，這些目的定義在 kmap_types.h 中的 km_type 中。

當要進行一次臨時映射的時候，需要指定映射的目的，根據映射目的，可以找到對應的小空間，然后把這個空間的地址作為映射地址。這意味著一次臨時映射會導致以前的映射被覆蓋。通過 kmap_atomic() 可實現臨時映射。