0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

linux內(nèi)核是怎么管理物理內(nèi)存的呢?

Linux閱碼場 ? 來源:黑客與攝影師 ? 作者:黑客與攝影師 ? 2023-03-16 09:46 ? 次閱讀

1, 介紹

我們可以把物理內(nèi)存簡單地看成一個大的數(shù)組,其中每個字節(jié)都可以通過物理地址進(jìn)行訪問。

前面的文章《一文搞懂DDR SDRAM工作原理》介紹過物理內(nèi)存的物理結(jié)構(gòu),及怎么通過控制器、PHY讀、寫SDRAM芯片獲取、寫入數(shù)據(jù),讓我們明白物理內(nèi)存在硬件原理方面的實(shí)現(xiàn)是什么樣的。

在《一文搞懂CPU的工作原理》介紹過CPU訪問物理內(nèi)存的全過程,總結(jié)下來就是:

CPU寫物理內(nèi)存的過程:CPU先給出要寫入數(shù)據(jù)的物理地址對應(yīng)的虛擬地址,通過MMU轉(zhuǎn)化為物理地址,若cache中沒有命中,則將要寫入數(shù)據(jù)的物理地址放到系統(tǒng)總線上。DDR的控制器感受到總線上的地址信號以及寫控制信號,將物理地址從總線上讀出來,并等待數(shù)據(jù)的到達(dá)。CPU將數(shù)據(jù)發(fā)送到系統(tǒng)總線上,DDR控制器感受到總線上的數(shù)據(jù)信號,將數(shù)據(jù)從總線上讀取出來。DDR控制器通過物理地址找到相應(yīng)的存儲模塊,然后將數(shù)據(jù)寫入到物理地址對應(yīng)的存儲模塊。

CPU讀物理內(nèi)存的過程:CPU給出要讀數(shù)據(jù)的物理地址對應(yīng)的虛擬地址,通過MMU轉(zhuǎn)化為物理地址,若cache中沒有命中,則將物理地址放到系統(tǒng)總線上。DDR控制器感受到總線上的地址型號及讀控制信號,將物理地址從總線上讀取出來,DDR控制器根據(jù)物理地址找到存儲模塊中數(shù)據(jù)的位置,并從SDRAM芯片中取出物理地址對應(yīng)的數(shù)據(jù),DDR控制器將數(shù)據(jù)放到總線上,CPU從總線上獲取數(shù)據(jù),并存放到寄存器上。

之前已經(jīng)講述過CPU讀、寫物理內(nèi)存的過程,本文主要講述linux內(nèi)核是怎么管理物理內(nèi)存,包括物理內(nèi)存涉及的數(shù)據(jù)結(jié)構(gòu)、內(nèi)存模型、內(nèi)存架構(gòu)、物理內(nèi)存的管理流程。

2, 數(shù)據(jù)結(jié)構(gòu)

與物理內(nèi)存相關(guān)的數(shù)據(jù)結(jié)構(gòu)有內(nèi)存節(jié)點(diǎn)(pglist_data)、內(nèi)存管理區(qū)(zone)、物理頁面(page)、mem_map數(shù)組、頁表項(PTE)、頁幀號(PFN)、物理地址(paddress)。

Linux內(nèi)核通過struct page來管理物理內(nèi)存中的一個頁。內(nèi)核為每個物理頁定義了一個索引編號PFN(Page Frame Number,頁幀號),這個PFN與struct page是一一對應(yīng)的。通過page_to_pfn/pfn_to_page兩個宏實(shí)現(xiàn)物理頁和struct page之間的相互轉(zhuǎn)換。

pYYBAGQSdUuAcc7cAAGTa3_BsYU801.jpg

3, 框架

3.1 內(nèi)存架構(gòu)

在當(dāng)前的計算機(jī)、嵌入式系統(tǒng)中,以內(nèi)存為研究對象可以分成兩種架構(gòu)。一種是UMA(Uniform Memory Access,統(tǒng)一內(nèi)存訪問)架構(gòu),另外一種是NUMA(Non-Uniform Memory Access,非統(tǒng)一內(nèi)存訪問)架構(gòu)。

1) UMA內(nèi)存架構(gòu)

pYYBAGQSdVyAVUCAAADXShJ1ew4713.jpg

內(nèi)存可以被其他模塊統(tǒng)一尋址,有統(tǒng)一的結(jié)構(gòu)。目前,大部分嵌入式系統(tǒng)及計算機(jī)系統(tǒng)都采用UMA架構(gòu)。如上圖所示,是一個UMA架構(gòu)的系統(tǒng),有兩個cpu位于同一個cluster中,cpu分別有自己的L1D、L1I cache及L2 cache。兩個cpu共享L3 cache,通過系統(tǒng)總線可以訪問物理內(nèi)存DDR,SRAM、SSD等模塊,并且兩個CPU對物理內(nèi)存的訪問消耗是一樣的。這種訪問模式的處理器被成為SMP(Aymmetric Multiprocessing,對稱多處理器)

2) NUMA內(nèi)存架構(gòu)

pYYBAGQSdWyABcunAACBccWIKY8708.jpg

系統(tǒng)中有多個內(nèi)存節(jié)點(diǎn)和多個cpu cluster,CPU訪問本地內(nèi)存節(jié)點(diǎn)的時間開銷最小,訪問遠(yuǎn)端的內(nèi)存節(jié)點(diǎn)的時間開銷要大。如上圖所示,是一個NUMA架構(gòu)的系統(tǒng),其中cpu0、cpu1在cluster0中,與相應(yīng)的L1I/L1D cache、L2 cache、L3 cache及DDR組成node0節(jié)點(diǎn)。同樣的,CPU2、CPU3在cluster1中,與相應(yīng)的L1I/L1D cache、L2 cache、L3 cache及DDR組成node1節(jié)點(diǎn)。兩個node節(jié)點(diǎn),通過UPI(Ultra Path Interconnect,超路徑互聯(lián))總線連接。CPU0可以通過這個UPI訪問遠(yuǎn)端node1上的物理內(nèi)存,但是要比本地node0的內(nèi)存訪問慢得多。

3.2 內(nèi)存模型

內(nèi)核是以頁為單位使用struct page數(shù)據(jù)結(jié)構(gòu)來管理物理內(nèi)存的。內(nèi)核通過物理內(nèi)存模型來實(shí)現(xiàn)組織管理這些物理內(nèi)存頁,不同的物理內(nèi)存模型,應(yīng)對的場景及頁幀號與物理頁之間的計算方式也不一樣。

1) 平坦內(nèi)存模型:FLATMEM

Linux早期使用的物理內(nèi)存比較小,比如幾十MB,并且這些物理內(nèi)存是一片連續(xù)的存儲空間,這樣物理地址也是連續(xù)的,按固定頁大小劃分出來的物理頁也是連續(xù)的。Linux內(nèi)核會用一個mem_map全局?jǐn)?shù)組來組織管理所有的物理頁,其中物理頁是通過struct page來管理,這樣每個數(shù)組的下標(biāo)便是PFN。這種連續(xù)的物理內(nèi)存便是平坦內(nèi)存模型。

pYYBAGQSdYCAKpDPAACj24GyKDk042.jpg

2) 非連續(xù)內(nèi)存模型:DISCONTIGMEM

對于PLATMEM適合管理一整塊連續(xù)的物理內(nèi)存,但是對于多塊非連續(xù)的物理內(nèi)存,若使用FLATMEM來管理,這時mem_map全局?jǐn)?shù)組中會有不連續(xù)內(nèi)存地址區(qū)的內(nèi)存空洞,這會造成內(nèi)存空間的浪費(fèi)。為了管理這種不連續(xù)的物理內(nèi)存,內(nèi)核引入了DISCONTIGMEM非連續(xù)內(nèi)存模型來管理,以便消除不連續(xù)的內(nèi)存地址空洞對mem_map全局?jǐn)?shù)組造成的空間浪費(fèi)。

DISCONTIGMEM非連續(xù)內(nèi)存模型的思路是:將物理內(nèi)存從宏觀上劃分成一個個節(jié)點(diǎn)node,但是微觀上還是以物理頁為單位,每個node節(jié)點(diǎn)管理一塊連續(xù)的物理內(nèi)存,這樣這些非連續(xù)的內(nèi)存,會以連續(xù)的內(nèi)存方式劃分到node節(jié)點(diǎn)中管理起來,這樣便可以避免內(nèi)存空洞造成的空間浪費(fèi)。

poYBAGQSdZGAZgJEAAFCeqD8I8w426.jpg

3) 稀疏內(nèi)存模型:SPARSEMEM

由于物理內(nèi)存在使用的時候,會有很多空洞,這樣物理內(nèi)存存在多處不連續(xù)。如果利用上面講的DISCONTIGMEM內(nèi)存模型,會造成node眾多,這樣開銷就大了。為了能夠更靈活、更高效的、更小的管理連續(xù)物理內(nèi)存。SPARSEMEM系數(shù)內(nèi)存模型就是為了對粒度更小的連續(xù)內(nèi)存塊進(jìn)行精細(xì)的管理,用于管理連續(xù)內(nèi)存塊的單元被稱為section。在內(nèi)存中用struct mem_section結(jié)構(gòu)體表示SPARSEMEM模型中的section。

由于section被用作管理小粒度的連續(xù)內(nèi)存塊,這些小的連續(xù)物理內(nèi)存在section中也是通過數(shù)組的方式被組織管理,其中mem_section結(jié)構(gòu)體中的section_mem_map指針用于指向section中管理連續(xù)內(nèi)存的page數(shù)組。SPARSEMEM內(nèi)存模型中的mem_section會存在放在一個全局的數(shù)組中,并且每個mem_section都可以在系統(tǒng)運(yùn)行的時候進(jìn)行內(nèi)存的offline/online,這樣便可以支持內(nèi)存的熱拔插。

pYYBAGQSdaaAIL46AACxS7uosmM226.jpg

4, 物理內(nèi)存初始化

4.1 內(nèi)存大小初始化

物理內(nèi)存的大小會在DTS(Device Tree Source,設(shè)備樹)中描述,如下dts的描述:

memory { device_type = "memory"; reg = <0x000000000 0x80000000 0x00000000 0x40000000>; };

起始地址為0x80000000,大小為0x40000000

內(nèi)存在啟動的過程中,會解析上面的DTS,相應(yīng)的調(diào)用過程如下:

poYBAGQSdbiAb18cAACfTtH0FBc614.jpg

4.2 memblock內(nèi)存分配器

在伙伴系統(tǒng)沒有初始化前,在內(nèi)核中需要一套機(jī)制管理內(nèi)存的申請與釋放。在啟動的過程中,會解析設(shè)備樹中的memory節(jié)點(diǎn),把所有物理內(nèi)存添加到memblock中。后面會通過一篇文章講解memblock分配器。這里先把結(jié)構(gòu)體及函數(shù)接口列出來。

poYBAGQSddaARRifAACwsQfN6sY998.jpg
pYYBAGQSdd2AFzEnAACEqliUppw585.jpg

4.3 ZONE初始化

在對頁表初始化后,內(nèi)核就會對內(nèi)存進(jìn)行管理。內(nèi)核會將這些物理內(nèi)存分配成不同的內(nèi)存管理區(qū)(ZONE),分別針對這些內(nèi)存管理區(qū)進(jìn)行管理。

常見的內(nèi)存管理區(qū)如下:

ZONE_DMA:用于inter X86 ISA設(shè)備的DMA操作,范圍是0~16MB,ARM沒有這個內(nèi)存管理區(qū)。

ZONE_DMA32:用于最低4GB的內(nèi)存訪問的設(shè)備,如只支持32位的DMA設(shè)備。

ZONE_NORMAL:4GB 以后的物理內(nèi)存,用于線性映射物理內(nèi)存。若系統(tǒng)內(nèi)存小于4GB,則沒有這個內(nèi)存管理區(qū)。

ZONE_HIGHMEM:用于管理高端內(nèi)存,這些高端內(nèi)存是不能線性映射到內(nèi)核地址空間的。64位Linux是沒有這個內(nèi)存管理區(qū)的。

其中ZONE是利用struct zone數(shù)據(jù)結(jié)構(gòu)進(jìn)行管理的,zone數(shù)據(jù)結(jié)構(gòu)經(jīng)常會被訪問,因此為了提升性能,這個數(shù)據(jù)結(jié)構(gòu)要求以L1高速緩存對齊。數(shù)據(jù)結(jié)構(gòu)zone中關(guān)鍵的成員如下:

Watermark:每個zone在系統(tǒng)啟動時會計算出3個水位,分別是WMARK_MIN(最低警戒水位)、WMARK_LOW(低水位)、WMARK_HIGH(高水位),這些在頁面分配器和kswapd頁面回收中會用到。

Lowemem_reserve:防止頁面分配器過渡使用低端zone的內(nèi)存。

Zone_pgdat:指向內(nèi)存節(jié)點(diǎn)。

Pageset:用于維護(hù)每個cpu上的一些列頁面,以減少自旋鎖的使用

Zone_start_pfn:zone的起始頁幀號。

Managed_pages:zone中被伙伴系統(tǒng)管理的頁面數(shù)量。

Spanned_pages:zone中包含的頁面數(shù)量。

Present_pages:zone里實(shí)際管理的頁面數(shù)量。對于一些架構(gòu)來說,它和spanned_pages數(shù)量一致。

Free_area:伙伴系統(tǒng)核心的數(shù)據(jù)結(jié)構(gòu),管理空閑也快鏈表的數(shù)組。

Lock:并行訪問時用于保護(hù)zone的自旋鎖。

Lruvec:LRU鏈表集合。

poYBAGQSde6AaBG2AABIq1jowFY070.jpg

4.4 伙伴系統(tǒng)

內(nèi)核啟動完成后,物理內(nèi)存的頁面就要添加到伙伴系統(tǒng)中來管理了。伙伴系統(tǒng)(buddy system)是操作系統(tǒng)中常用的動態(tài)內(nèi)存管理方法。用戶提出申請時,分配一個大小合適的物理內(nèi)存,當(dāng)用戶釋放后,回收相應(yīng)的物理內(nèi)存。后面會專門寫一篇介紹伙伴系統(tǒng)的文章,這里只做簡單的介紹。

在伙伴系統(tǒng)中,內(nèi)存塊的大小是2的order次冪個頁幀。Linux中order的最大值是11?;锇橄到y(tǒng)大致的思想是,將所有空閑的物理內(nèi)存頁面分組成11個內(nèi)存塊的鏈表,每個內(nèi)存塊的鏈表分別包含1、2、4、8、16、32、…、1024個連續(xù)的物理頁面。1024個物理頁面對應(yīng)著4MB大小的連續(xù)物理內(nèi)存。

由上一節(jié)我們了解到,物理內(nèi)存在linux中分出了幾個ZONE來管理空閑物理頁塊。ZONE可以根據(jù)內(nèi)核的配置來劃分。每個ZONE又是利用伙伴系統(tǒng)來管理。ZONE的數(shù)據(jù)結(jié)構(gòu)有一個free_area數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)的大小是MAX_ORDER(11)。free_area數(shù)據(jù)結(jié)構(gòu)中包含了MIGRATE_TYPES個鏈表??梢岳斫獬蒢ONE根據(jù)order的大小由0~(MAX_ORDER-1)個free_area,每個free_area根據(jù)MIGRATE_TYPES類型,由幾個相應(yīng)的鏈表組成。

pYYBAGQSdgOAYCKCAABwb_ng0iM487.jpg





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 控制器
    +關(guān)注

    關(guān)注

    112

    文章

    15885

    瀏覽量

    175357
  • DDR
    DDR
    +關(guān)注

    關(guān)注

    11

    文章

    697

    瀏覽量

    64934
  • Linux
    +關(guān)注

    關(guān)注

    87

    文章

    11123

    瀏覽量

    207908
  • LINUX內(nèi)核
    +關(guān)注

    關(guān)注

    1

    文章

    315

    瀏覽量

    21556
  • MMU
    MMU
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    18167

原文標(biāo)題:一文搞懂linux物理內(nèi)存管理

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Linux內(nèi)存管理是什么,Linux內(nèi)存管理詳解

    Linux內(nèi)存管理 Linux內(nèi)存管理是一個非常復(fù)雜的過程,主要分成兩個大的部分:
    的頭像 發(fā)表于 05-11 17:54 ?5827次閱讀
    <b class='flag-5'>Linux</b>的<b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>是什么,<b class='flag-5'>Linux</b>的<b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>詳解

    關(guān)于Linux內(nèi)存管理的詳細(xì)介紹

    Linux內(nèi)存管理是指對系統(tǒng)內(nèi)存的分配、釋放、映射、管理、交換、壓縮等一系列操作的管理。在
    發(fā)表于 03-06 09:28 ?1018次閱讀

    Linux內(nèi)核物理內(nèi)存組織結(jié)構(gòu)詳解

    Linux內(nèi)存管理子系統(tǒng)使用 節(jié)點(diǎn)(node)、區(qū)域(zone)和頁(page) 三級結(jié)構(gòu)描述物理內(nèi)存
    發(fā)表于 08-21 15:35 ?479次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>的<b class='flag-5'>物理</b><b class='flag-5'>內(nèi)存</b>組織結(jié)構(gòu)詳解

    Linux內(nèi)核內(nèi)存管理詳解

    內(nèi)存管理的主要工作就是對物理內(nèi)存進(jìn)行組織,然后對物理內(nèi)存的分配和回收。但是
    發(fā)表于 08-31 14:46 ?622次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>的<b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>詳解

    Linux內(nèi)核內(nèi)存管理架構(gòu)解析

    內(nèi)存管理子系統(tǒng)可能是linux內(nèi)核中最為復(fù)雜的一個子系統(tǒng),其支持的功能需求眾多,如頁面映射、頁面分配、頁面回收、頁面交換、冷熱頁面、緊急頁面、頁面碎片
    的頭像 發(fā)表于 01-04 09:24 ?554次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b><b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>架構(gòu)解析

    Linux內(nèi)核內(nèi)存管理內(nèi)核非連續(xù)物理內(nèi)存分配

    的主要優(yōu)點(diǎn)是避免了外部碎片,而缺點(diǎn)是需要修改內(nèi)核頁表。顯然,非連續(xù)內(nèi)存區(qū)域的大小必須是4096的倍數(shù)。Linux使用非連續(xù)物理內(nèi)存區(qū)的場景有
    的頭像 發(fā)表于 02-23 09:44 ?750次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b><b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>之<b class='flag-5'>內(nèi)核</b>非連續(xù)<b class='flag-5'>物理</b><b class='flag-5'>內(nèi)存</b>分配

    Linux內(nèi)核地址映射模型與Linux內(nèi)核高端內(nèi)存詳解

    的數(shù)據(jù)可能不在內(nèi)存中。 Linux內(nèi)核地址映射模型 x86 CPU采用了段頁式地址映射模型。進(jìn)程代碼中的地址為邏輯地址,經(jīng)過段頁式地址映射后,才真正訪問物理
    發(fā)表于 05-08 10:33 ?3401次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>地址映射模型與<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>高端<b class='flag-5'>內(nèi)存</b>詳解

    Linux虛擬內(nèi)存物理內(nèi)存的深刻分析

    和vmalloc機(jī)制。物理內(nèi)存管理機(jī)制基于物理內(nèi)存在內(nèi)核空間中的映射原理,物理
    發(fā)表于 05-31 08:00

    linux內(nèi)存管理機(jī)制淺析

    本內(nèi)容介紹了arm linux內(nèi)存管理機(jī)制,詳細(xì)說明了linux內(nèi)核內(nèi)存
    發(fā)表于 12-19 14:09 ?73次下載
    <b class='flag-5'>linux</b><b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>機(jī)制淺析

    LINUX源代碼分析-內(nèi)存管理

    操作系統(tǒng)管理系統(tǒng)所有的物理空間, 現(xiàn)代大多數(shù)操作系統(tǒng)都采取多級管理, 即頁面級分配與內(nèi)核內(nèi)存分配。就LI
    發(fā)表于 12-19 16:38 ?102次下載
    <b class='flag-5'>LINUX</b>源代碼分析-<b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>

    如何避免Linux物理內(nèi)存碎片化

    Linux buddyy系統(tǒng)是linux kernel比較穩(wěn)定的一個模塊,但是并不是說它沒有缺陷,Linux內(nèi)存管理系統(tǒng)自誕生之日,就一直存
    的頭像 發(fā)表于 05-01 16:43 ?5380次閱讀
    如何避免<b class='flag-5'>Linux</b>的<b class='flag-5'>物理</b><b class='flag-5'>內(nèi)存</b>碎片化

    鴻蒙內(nèi)核源碼分析: 虛擬內(nèi)存物理內(nèi)存是怎么管理

    到哪是屬于什么段。這些值大小取決實(shí)際項目內(nèi)存條的大小,不同的內(nèi)存條,地址肯定會不一樣,所以必須由外部提供,鴻蒙內(nèi)核采用了Linux的段管理
    發(fā)表于 11-23 11:45 ?19次下載
    鴻蒙<b class='flag-5'>內(nèi)核</b>源碼分析: 虛擬<b class='flag-5'>內(nèi)存</b>和<b class='flag-5'>物理</b><b class='flag-5'>內(nèi)存</b>是怎么<b class='flag-5'>管理</b>的

    Linux內(nèi)核虛擬內(nèi)存管理中的mmu_gather操作

    本文講解Linux內(nèi)核虛擬內(nèi)存管理中的mmu_gather操作,看看它是如何保證刷tlb和釋放物理頁的順序的,又是如何將更多的頁面聚集起來統(tǒng)
    的頭像 發(fā)表于 05-20 14:37 ?1835次閱讀

    Linux內(nèi)核實(shí)現(xiàn)內(nèi)存管理的基本概念

    本文概述Linux內(nèi)核實(shí)現(xiàn)內(nèi)存管理的基本概念,在了解基本概念后,逐步展開介紹實(shí)現(xiàn)內(nèi)存管理的相關(guān)技
    發(fā)表于 06-23 11:56 ?719次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>實(shí)現(xiàn)<b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>的基本概念

    Linux 內(nèi)存管理總結(jié)

    一、Linux內(nèi)存管理概述 Linux內(nèi)存管理是指對系統(tǒng)內(nèi)存
    的頭像 發(fā)表于 11-10 14:58 ?431次閱讀
    <b class='flag-5'>Linux</b> <b class='flag-5'>內(nèi)存</b><b class='flag-5'>管理</b>總結(jié)