作者簡介: 黃偉亮(Huang weller),畢業(yè)于蘇州大學(xué),就職于蘇州博世汽車部件汽車多媒體事業(yè)部,從事汽車多媒體娛樂系統(tǒng)的平臺開發(fā)工作六年有余, 接觸Linux 系統(tǒng)近10年。感興趣的方向有Linux系統(tǒng)性能優(yōu)化,多媒體框架, 文件系統(tǒng)和存儲器件, USB以及虛擬化等。
前言
我們的學(xué)習(xí)習(xí)慣基本都是由淺入深的, 比如我們先學(xué)習(xí)如何使用fdisk工具來給磁盤分區(qū), 之后才想到去看看fdisk到底對磁盤做了什么, 許久以后看到除了fdisk還有別的分區(qū)工具可以給磁盤分區(qū). 通常我們只需要知道怎么用就可以了, 也有很多原因促使我們?nèi)ニ伎妓谋澈蟮降装l(fā)生了什么,這些原因可能是你碰到了具體問題, 不得不讓你往下去看, 去看你認(rèn)為肯定不會出問題的那一部分, 也有可能是你覺得現(xiàn)在的自己技術(shù)太浮于表面, 想深入一些, 也可能是受周圍人的影響, 一起學(xué)習(xí).
佛家講究因果, 使用者往往接觸的是果, 因為使用者在乎的是可用性, 開發(fā)者或者說設(shè)計者則要考慮因, 因為什么樣的因就會導(dǎo)致什么樣的果, 因為這樣的設(shè)計, 所以就有那樣的bug, 就像黑客帝國中的Neo 要找到architecture!
本文由來于心中的兩個疑問,即平凡的存儲器件是怎么從分區(qū)變成一個個塊設(shè)備的, 根是怎么被mount的.
Romcode 說
通常,在processor上電后, 最早執(zhí)行的代碼是固化在CPU ROM中的程序, 它其實就是最早被執(zhí)行的bootloader, 它的終極目的是從存儲介質(zhì)(包含uart, USB)加載另外一個bootloader, 比如u-boot. 拿啟動介質(zhì)是eMMC或者SD的例子來說, romcode一般會從offset = sector_size * 1的位置開始讀取程序, 這么做的原因其實是為了跳開分區(qū)表.
當(dāng)然筆者也見過一個奇葩的例子, 海思的一款ARM9的芯片, ROMCODE直接從eMMC data partition offset 0的位置開始讀取程序, 這就導(dǎo)致當(dāng)你從emmc 上的u-boot啟動, 興沖沖的進(jìn)到ramdisk對eMMC進(jìn)行分區(qū), 格式化, 燒寫系統(tǒng)之后, 發(fā)現(xiàn)系統(tǒng)再也起不來了, 那是因為分區(qū)表已經(jīng)覆蓋了第一個分區(qū),破壞了bootloader. 整個系統(tǒng)沒有使用分區(qū)工具來劃分分區(qū), 而是通過u-boot的boot arguments描述分區(qū)信息. 不管怎樣, 本文描述的是前者,而非這個特例.
從分區(qū)表到塊設(shè)備: 我不是表, 我是塊設(shè)備
Linux 下Storage device 通常是作為塊設(shè)備被訪問的,例如mtdblock, mmcblock 和宇宙第一強(qiáng)的nandblk 塊設(shè)備(實在太崇拜該設(shè)備了,將NAND發(fā)揮到了極致). Storage device的設(shè)備驅(qū)動作為底層支撐, 負(fù)責(zé)注冊塊設(shè)備并且直接和存儲器件打交道, 接受, 執(zhí)行和響應(yīng)塊設(shè)備層的過來的訪問請求. 比如說, 一次文件讀取的操作會變成文件系統(tǒng)提交到塊設(shè)備的塊讀取請求, 該塊設(shè)備的讀訪問請求, 在塊設(shè)備驅(qū)動和Host controller driver會把它被轉(zhuǎn)化為MMC協(xié)議的CMD17或者CMD18指令給到EMMC物理設(shè)備.
Storage device的設(shè)備驅(qū)動注冊到塊設(shè)備層,并且掃描分區(qū)表, 識別分區(qū)表, 然后解析分區(qū)表, 把磁盤上的分區(qū)注冊為塊設(shè)備. 所以, 當(dāng)你奇怪為什么沒有mmcblkp0這個設(shè)備時, 其實不是沒有mmcblk0p0,而是p0被定義為就是mmcblk0. 代表了整個磁盤. 下面從代碼上來看一下一個塊設(shè)備驅(qū)動的初始化過程:
根: 木葉的根
我們知道u-boot的boot argument 會把root device的設(shè)備名稱帶給內(nèi)核, 例如通過參數(shù)root=/dev/mmcblk0p2來告知內(nèi)核, 根目錄所在的分區(qū). 事情真的那么簡單嗎?
原來這里面有一點點小彎彎:
原來在天地混沌的時候, 內(nèi)核已經(jīng)為了自己的未來初始化了一個ramfs, 并在ramfs中創(chuàng)建了一些必要的目錄和設(shè)備節(jié)點, 例如/dev , /dev/console, /root.
然后, 為了mount mmcblk0p2, 它又根據(jù)設(shè)備文件名/dev/mmcblk0p2查找設(shè)備變量, 在ramfs下創(chuàng)建設(shè)備節(jié)點/dev/root, 這個設(shè)備文件指向的就是設(shè)備mmcblk0p2. 然后把ramfs下的設(shè)備/dev/mmcblk0p2掛載到ramfs的/root下. 切換當(dāng)前路徑到ramfs的/root下. 至此已經(jīng)完成了設(shè)備mmcblk0p2的掛載工作, 但是此時它還不是根.
接著, 內(nèi)核掛載devtmpfs到dev目錄, 然后調(diào)用sys_chroot(“.”)把change root 到當(dāng)前路徑, 也就是ramfs的/root.
反映到代碼上:
因此在系統(tǒng)起來后, cat /proc/mounts, 我們可以看到以下信息:
可以看到有一個文件系統(tǒng)的類型是rootfs, 它被mount到了“/”.
這個文件系統(tǒng)在init/do_mount.c中被定義, 它就是ramfs的一個實例,
該類型的文件系統(tǒng)在init_rootfs()中被注冊.
從mount命令的輸出上, 我們可以看到/dev/mmcblk0p2被掛載在了”/”, 殊不知這里的根已經(jīng)不是原來的根.
結(jié)束語
本文沒有對代碼的細(xì)節(jié)作過多的分析, 一方面本文不是為了做代碼分析的, 另一方面網(wǎng)絡(luò)上有很多朋友也做過塊設(shè)備的代碼分析, 本文羅列了代碼的脈絡(luò)是為了來更好的表達(dá)分析的結(jié)果. Block layer是個很復(fù)雜的子系統(tǒng), 有很多關(guān)于它的內(nèi)容,比如IO-schecduler, buffer cache等, 相信自己可以越來越深入的研究這個子系統(tǒng).
-
Linux
+關(guān)注
關(guān)注
87文章
11212瀏覽量
208721
原文標(biāo)題:黃偉亮: 探秘Linux的塊設(shè)備和根
文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論