0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CPU的硬件運(yùn)行效率

dyquk4xk2p3d ? 來源:良許Linux ? 2023-05-17 10:48 ? 次閱讀

提到CPU性能,大部分同學(xué)想到的都是CPU利用率,這個(gè)指標(biāo)確實(shí)應(yīng)該首先被關(guān)注。但是除了利用率之外,還有很容易被人忽視的指標(biāo),就是指令的運(yùn)行效率。如果運(yùn)行效率不高,那CPU利用率再忙也都是瞎忙,產(chǎn)出并不高。

這就好比人,每天都是很忙,但其實(shí)每天的效率并不一樣。有的時(shí)候一天干了很多事情,但有的時(shí)候只是瞎忙了一天,回頭一看,啥也沒干!

一、CPU 硬件運(yùn)行效率

那啥是CPU的運(yùn)行效率呢?介紹這個(gè)之前我們得先來簡(jiǎn)單回顧下CPU的構(gòu)成和工作原理。CPU在生產(chǎn)過程結(jié)束后,在硬件上就被***刻成了各種各樣的模塊。

在上面的物理結(jié)構(gòu)圖中,可以看到每個(gè)物理核和L3 Cache的分布情況。另外就是在每個(gè)物理核中,還包括了更多組件。每個(gè)核都會(huì)集成自己獨(dú)占使用的寄存器和緩存,其中緩存包括L1 data、L1 code 和L2。

8ff6911e-f44f-11ed-90ce-dac502259ad0.png

服務(wù)程序在運(yùn)行的過程中,就是CPU核不斷地從存儲(chǔ)中獲取要執(zhí)行的指令,以及需要運(yùn)算的數(shù)據(jù)。這里所謂的存儲(chǔ)包括寄存器、L1 data緩存、L1 code緩存、L2 緩存、L3緩存,以及內(nèi)存。 當(dāng)一個(gè)服務(wù)程序被啟動(dòng)的時(shí)候,它會(huì)通過缺頁(yè)中斷的方式被加載到內(nèi)存中。當(dāng) CPU 運(yùn)行服務(wù)時(shí),它不斷從內(nèi)存讀取指令和數(shù)據(jù),進(jìn)行計(jì)算處理,然后將結(jié)果再寫回內(nèi)存。

900aa140-f44f-11ed-90ce-dac502259ad0.png

不同的 CPU 流水線不同。在經(jīng)典的 CPU 的流水線中,每個(gè)指令周期通常包括取指、譯碼、執(zhí)行和訪存幾個(gè)階段。

在取指階段,CPU 從內(nèi)存中取出指令,將其加載到指令寄存器中。

在譯碼階段,CPU 解碼指令,確定要執(zhí)行的操作類型,并將操作數(shù)加載到寄存器中。

在執(zhí)行階段,CPU 執(zhí)行指令,并將結(jié)果存儲(chǔ)在寄存器中。

在訪存階段,CPU 根據(jù)需要將數(shù)據(jù)從內(nèi)存寫入寄存器中,或?qū)⒓拇嫫髦械臄?shù)據(jù)寫回內(nèi)存。

但,內(nèi)存的訪問速度是非常慢的。CPU一個(gè)指令周期一般只是零點(diǎn)幾個(gè)納秒,但是對(duì)于內(nèi)存來說,即使是最快的順序 IO,那也得 10 納秒左右,如果碰上隨機(jī)IO,那就是 30-40 納秒左右的開銷。

所以CPU為了加速運(yùn)算,自建了臨時(shí)數(shù)據(jù)存儲(chǔ)倉(cāng)庫(kù)。就是我們上面提到的各種緩存,包括每個(gè)核都有的寄存器、L1 data、L1 code 和L2緩存,也包括整個(gè)CPU共享的L3,還包括專門用于虛擬內(nèi)存到物理內(nèi)存地址轉(zhuǎn)換的TLB緩存。

拿最快的寄存器來說,耗時(shí)大約是零點(diǎn)幾納秒,和CPU就工作在一個(gè)節(jié)奏下了。再往下的L1大約延遲在 2 ns 左右,L2大約 4 ns 左右,依次上漲。

但速度比較慢的存儲(chǔ)也有個(gè)好處,離CPU核更遠(yuǎn),可以把容量做到更大。所以CPU訪問的存儲(chǔ)在邏輯上是一個(gè)金字塔的結(jié)構(gòu)。越靠近金字塔尖的存儲(chǔ),其訪問速度越快,但容量比較小。越往下雖然速度略慢,但是存儲(chǔ)體積更大。

901ac89a-f44f-11ed-90ce-dac502259ad0.png

基本原理就介紹這么多?,F(xiàn)在我們開始思考指令運(yùn)行效率。根據(jù)上述金字塔圖我們可以很清楚地看到,如果服務(wù)程序運(yùn)行時(shí)所需要的指令存儲(chǔ)都位于金字塔上方的話,那服務(wù)運(yùn)行的效率就高。如果程序?qū)懙牟缓茫蛘邇?nèi)核頻繁地把進(jìn)程在不同的物理核之間遷移(不同核的L1和L2等緩存不是共享的),那上方的緩存就會(huì)命中率變低,更多的請(qǐng)求穿透到L3,甚至是更下方的內(nèi)存中訪問,程序的運(yùn)行效率就會(huì)變差。

那如何衡量指令運(yùn)行效率呢?指標(biāo)主要有以下兩類

第一類是CPI和IPC。

CPI全稱是cycle per instruction,指的是平均每條指令的時(shí)鐘周期個(gè)數(shù)。IPC的全稱是instruction per cycle,表示每時(shí)鐘周期運(yùn)行多少個(gè)指令。這兩個(gè)指標(biāo)可以幫助我們分析我們的可執(zhí)行程序運(yùn)行的快還是慢。由于這二位互為倒數(shù),所以實(shí)踐中只關(guān)注一個(gè)CPI就夠了。

CPI 指標(biāo)可以讓我們從整體上對(duì)程序的運(yùn)行速度有一個(gè)把握。假如我們的程序運(yùn)行緩存命中率高,大部分?jǐn)?shù)據(jù)都在緩存中能訪問到,那 CPI 就會(huì)比較的低。假如說我們的程序的局部性原理把握的不好,或者是說內(nèi)核的調(diào)度算法有問題,那很有可能執(zhí)行同樣的指令就需要更多的CPU周期,程序的性能也會(huì)表現(xiàn)的比較的差,CPI 指標(biāo)也會(huì)偏高。

第二類是緩存命中率。

緩存命中率指標(biāo)分析的是程序運(yùn)行時(shí)讀取數(shù)據(jù)時(shí)有多少?zèng)]有被緩存兜住,而穿透訪問到內(nèi)存中了。穿透到內(nèi)存中訪問速度會(huì)慢很多。所以程序運(yùn)行時(shí)的 Cachemiss 指標(biāo)就是越低越好了。

二、如何評(píng)估CPU硬件效率

上一小節(jié)我們說到CPU硬件工作效率的指標(biāo)主要有 CPI 和緩存命中率。那么我們?cè)撊绾潍@取這些指標(biāo)呢?

2.1 使用 perf 工具

第一個(gè)辦法是采用 Linux 默認(rèn)自帶的 perf 工具。使用 perf list 可以查看當(dāng)前系統(tǒng)上支持的硬件事件指標(biāo)。

#perflisthwcache
Listofpre-definedevents(tobeusedin-e):

branch-instructionsORbranches[Hardwareevent]
branch-misses[Hardwareevent]
bus-cycles[Hardwareevent]
cache-misses[Hardwareevent]
cache-references[Hardwareevent]
cpu-cyclesORcycles[Hardwareevent]
instructions[Hardwareevent]
ref-cycles[Hardwareevent]

L1-dcache-load-misses[Hardwarecacheevent]
L1-dcache-loads[Hardwarecacheevent]
L1-dcache-stores[Hardwarecacheevent]
L1-icache-load-misses[Hardwarecacheevent]
branch-load-misses[Hardwarecacheevent]
branch-loads[Hardwarecacheevent]
dTLB-load-misses[Hardwarecacheevent]
dTLB-loads[Hardwarecacheevent]
dTLB-store-misses[Hardwarecacheevent]
dTLB-stores[Hardwarecacheevent]
iTLB-load-misses[Hardwarecacheevent]
iTLB-loads[Hardwarecacheevent]

上述輸出中我們挑幾個(gè)重要的來解釋一下

cpu-cycles: 消耗的CPU周期

instructions: 執(zhí)行的指令計(jì)數(shù),結(jié)合cpu-cycles可以計(jì)算出CPI(每條指令需要消耗的平均周期數(shù))

L1-dcache-loads: 一級(jí)數(shù)據(jù)緩存讀取次數(shù)

L1-dcache-load-missed: 一級(jí)數(shù)據(jù)緩存讀取失敗次數(shù),結(jié)合L1-dcache-loads可以計(jì)算出L1級(jí)數(shù)據(jù)緩存命中率

dTLB-loads:dTLB緩存讀取次數(shù)

dTLB-load-misses:dTLB緩存讀取失敗次數(shù),結(jié)合dTLB-loads同樣可以算出緩存命中率

使用 perf stat 命令可以統(tǒng)計(jì)當(dāng)前系統(tǒng)或者指定進(jìn)程的上面這些指標(biāo)。直接使用 perf stat 可以統(tǒng)計(jì)到CPI。(如果要統(tǒng)計(jì)指定進(jìn)程的話只需要多個(gè) -p 參數(shù),寫名 pid 就可以了)

#perfstatsleep5
Performancecounterstatsfor'sleep5':
......
1,758,466cycles#2.575GHz
871,474instructions#0.50insnpercycle

從上述結(jié)果 instructions 后面的注釋可以看出,當(dāng)前系統(tǒng)的 IPC 指標(biāo)是 0.50,也就是說平均一個(gè) CPU 周期可以執(zhí)行 0.5 個(gè)指令。前面我們說過 CPI 和 IPC 互為倒數(shù),所以 1/0.5 我們可以計(jì)算出 CPI 指標(biāo)為 2。也就是說平均一個(gè)指令需要消耗 2 個(gè)CPU周期。

我們?cè)賮砜纯?L1 和 dTLB 的緩存命中率情況,這次需要在 perf stat 后面跟上 -e 選項(xiàng)來指定要觀測(cè)的指標(biāo)了,因?yàn)檫@幾個(gè)指標(biāo)默認(rèn)都不輸出。

#perfstat-eL1-dcache-load-misses,L1-dcache-loads,dTLB-load-misses,dTLB-loadssleep5
Performancecounterstatsfor'sleep5':
22,578L1-dcache-load-misses#10.22%ofallL1-dcacheaccesses
220,911L1-dcache-loads
2,101dTLB-load-misses#0.95%ofalldTLBcacheaccesses
220,911dTLB-loads

上述結(jié)果中 L1-dcache-load-misses 次數(shù)為22,578,總的 L1-dcache-loads 為 220,911。可以算出 L1-dcache 的緩存訪問失敗率大約是 10.22%。同理我們可以算出 dTLB cache 的訪問失敗率是 0.95。這兩個(gè)指標(biāo)雖然已經(jīng)不高了,但是實(shí)踐中仍然是越低越好。

2.2 直接使用內(nèi)核提供的系統(tǒng)調(diào)用

雖然 perf 給我們提供了非常方便的用法。但是在某些業(yè)務(wù)場(chǎng)景中,你可能仍然需要自己編程實(shí)現(xiàn)數(shù)據(jù)的獲取。這時(shí)候就只能繞開 perf 直接使用內(nèi)核提供的系統(tǒng)調(diào)用來獲取這些硬件指標(biāo)了。

開發(fā)步驟大概包含這么兩個(gè)步驟

第一步:調(diào)用 perf_event_open 創(chuàng)建 perf 文件描述符

第二步:定時(shí) read 讀取 perf 文件描述符獲取數(shù)據(jù)

其核心代碼大概如下。為了避免干擾,我只保留了主干。完整的源碼我放到咱們開發(fā)內(nèi)功修改的 Github 上了。

Github地址:https://github.com/yanfeizhang/coder-kung-fu/blob/main/tests/cpu/test08/main.c

intmain()
{
//第一步:創(chuàng)建perf文件描述符
structperf_event_attrattr;
attr.type=PERF_TYPE_HARDWARE;//表示監(jiān)測(cè)硬件
attr.config=PERF_COUNT_HW_INSTRUCTIONS;//標(biāo)志監(jiān)測(cè)指令數(shù)

//第一個(gè)參數(shù)pid=0表示只檢測(cè)當(dāng)前進(jìn)程
//第二個(gè)參數(shù)cpu=-1表示檢測(cè)所有cpu核
intfd=perf_event_open(&attr,0,-1,-1,0);

//第二步:定時(shí)獲取指標(biāo)計(jì)數(shù)
while(1)
{
read(fd,&instructions,sizeof(instructions));
...
}
}

在源碼中首先聲明了一個(gè)創(chuàng)建 perf 文件所需要的 perf_event_attr 參數(shù)對(duì)象。這個(gè)對(duì)象中 type 設(shè)置為 PERF_TYPE_HARDWARE 表示監(jiān)測(cè)硬件事件。config 設(shè)置為 PERF_COUNT_HW_INSTRUCTIONS 表示要監(jiān)測(cè)指令數(shù)。

然后調(diào)用 perf_event_open系統(tǒng)調(diào)用。在該系統(tǒng)調(diào)用中,除了 perf_event_attr 對(duì)象外,pid 和 cpu 這兩個(gè)參數(shù)也是非常的關(guān)鍵。其中 pid 為 -1 表示要監(jiān)測(cè)所有進(jìn)程,為 0 表示監(jiān)測(cè)當(dāng)前進(jìn)程,> 0 表示要監(jiān)測(cè)指定 pid 的進(jìn)程。對(duì)于 cpu 來說。-1 表示要監(jiān)測(cè)所有的核,其它值表示只監(jiān)測(cè)指定的核。

內(nèi)核在分配到 perf_event 以后,會(huì)返回一個(gè)文件句柄fd。后面這個(gè)perf_event結(jié)構(gòu)可以通過read/write/ioctl/mmap通用文件接口來操作。

perf_event 編程有兩種使用方法,分別是計(jì)數(shù)和采樣。本文中的例子是最簡(jiǎn)單的技術(shù)。對(duì)于采樣場(chǎng)景,支持的功能更豐富,可以獲取調(diào)用棧,進(jìn)而渲染出火焰圖等更高級(jí)的功能。這種情況下就不能使用簡(jiǎn)單的 read ,需要給 perf_event 分配 ringbuffer 空間,然后通過mmap系統(tǒng)調(diào)用來讀取了。在 perf 中對(duì)應(yīng)的功能是 perf record/report 功能。

將完整的源碼編譯運(yùn)行后。

#gccmain.c-omain
#./main
instructions=1799
instructions=112654
instructions=123078
instructions=133505
...

三、perf內(nèi)部工作原理

你以為看到這里本文就結(jié)束了?大錯(cuò)特錯(cuò)!只講用法不講原理從來不是咱們開發(fā)內(nèi)功修煉公眾號(hào)的風(fēng)格。

所以介紹完如何獲取硬件指標(biāo)后,咱們接下來也會(huì)展開聊聊上層的軟件是如何和CPU硬件協(xié)同來獲取到底層的指令數(shù)、緩存命中率等指標(biāo)的。展開聊聊底層原理。

CPU的硬件開發(fā)者們也想到了軟件同學(xué)們會(huì)有統(tǒng)計(jì)觀察硬件指標(biāo)的需求。所以在硬件設(shè)計(jì)的時(shí)候,加了一類專用的寄存器,專門用于系統(tǒng)性能監(jiān)視。關(guān)于這部分的描述參見Intel官方手冊(cè)的第18節(jié)。這個(gè)手冊(cè)你在網(wǎng)上可以搜到,我也會(huì)把它丟到我的讀者群里,還沒進(jìn)群的同學(xué)加我微信 zhangyanfei748527。

這類寄存器的名字叫硬件性能計(jì)數(shù)器(PMC: Performance Monitoring Counter)。每個(gè)PMC寄存器都包含一個(gè)計(jì)數(shù)器和一個(gè)事件選擇器,計(jì)數(shù)器用于存儲(chǔ)事件發(fā)生的次數(shù),事件選擇器用于確定所要計(jì)數(shù)的事件類型。例如,可以使用PMC寄存器來統(tǒng)計(jì) L1 緩存命中率或指令執(zhí)行周期數(shù)等。當(dāng)CPU執(zhí)行到 PMC 寄存器所指定的事件時(shí),硬件會(huì)自動(dòng)對(duì)計(jì)數(shù)器加1,而不會(huì)對(duì)程序的正常執(zhí)行造成任何干擾。

有了底層的支持,上層的 Linux 內(nèi)核就可以通過讀取這些 PMC 寄存器的值來獲取想要觀察的指標(biāo)了。整體的工作流程圖如下

902884e4-f44f-11ed-90ce-dac502259ad0.png

接下來我們?cè)購(gòu)脑创a的視角展開看一下這個(gè)過程。

3.1 CPU PMU 的初始化

Linux 的 PMU (Performance Monitoring Unit)子系統(tǒng)是一種用于監(jiān)視和分析系統(tǒng)性能的機(jī)制。它將每一種要觀察的指標(biāo)都定義為了一個(gè) PMU,通過 perf_pmu_register 函數(shù)來注冊(cè)到系統(tǒng)中。

其中對(duì)于 CPU 來說,定義了一個(gè)針對(duì) x86 架構(gòu) CPU 的 PMU,并在開機(jī)啟動(dòng)的時(shí)候就會(huì)注冊(cè)到系統(tǒng)中。

//file:arch/x86/events/core.c
staticstructpmupmu={
.pmu_enable=x86_pmu_enable,
.read=x86_pmu_read,
...
}

staticint__initinit_hw_perf_events(void)
{
...
err=perf_pmu_register(&pmu,"cpu",PERF_TYPE_RAW);
}

3.2 perf_event_open 系統(tǒng)調(diào)用

在前面的實(shí)例代碼中,我們看到是通過 perf_event_open 系統(tǒng)調(diào)用來創(chuàng)建了一個(gè) perf 文件。我們來看下這個(gè)創(chuàng)建過程都做了啥?

//file:kernel/events/core.c
SYSCALL_DEFINE5(perf_event_open,
structperf_event_attr__user*,attr_uptr,
pid_t,pid,int,cpu,int,group_fd,unsignedlong,flags)
{
...

//1.為調(diào)用者申請(qǐng)新文件句柄
event_fd=get_unused_fd_flags(f_flags);

...
//2.根據(jù)用戶參數(shù)attr,定位pmu對(duì)象,通過pmu初始化event
event=perf_event_alloc(&attr,cpu,task,group_leader,NULL,
NULL,NULL,cgroup_fd);
pmu=event->pmu;

//3.創(chuàng)建perf_event_contextctx對(duì)象,ctx保存了事件上下文的各種信息
ctx=find_get_context(pmu,task,event);


//4.創(chuàng)建一個(gè)文件,指定perf類型文件的操作函數(shù)為perf_fops
event_file=anon_inode_getfile("[perf_event]",&perf_fops,event,
f_flags);

//5.把event安裝到ctx中
perf_install_in_context(ctx,event,event->cpu);

fd_install(event_fd,event_file);
returnevent_fd;
}

上面的代碼是 perf_event_open 的核心源碼。其中最關(guān)鍵的是 perf_event_alloc 的調(diào)用。在這個(gè)函數(shù)中,根據(jù)用戶傳入的 attr 來查找 pmu 對(duì)象?;貞洷疚牡膶?shí)例代碼,我們指定的是要監(jiān)測(cè)CPU硬件中的指令數(shù)。

structperf_event_attrattr;
attr.type=PERF_TYPE_HARDWARE;//表示監(jiān)測(cè)硬件
attr.config=PERF_COUNT_HW_INSTRUCTIONS;//標(biāo)志監(jiān)測(cè)指令數(shù)

所以這里就會(huì)定位到我們3.1節(jié)提到的 CPU PMU 對(duì)象,并用這個(gè) pmu 初始化 新event。接著再調(diào)用 anon_inode_getfile 創(chuàng)建一個(gè)真正的文件對(duì)象,并指定該文件的操作方法是 perf_fops。perf_fops 定義的操作函數(shù)如下:

//file:kernel/events/core.c
staticconststructfile_operationsperf_fops={
...
.read=perf_read,
.unlocked_ioctl=perf_ioctl,
.mmap=perf_mmap,
};

在創(chuàng)建完 perf 內(nèi)核對(duì)象后。還會(huì)觸發(fā)在perf_pmu_enable,經(jīng)過一系列的調(diào)用,最終會(huì)指定要監(jiān)測(cè)的寄存器。

perf_pmu_enable
->pmu_enable
->x86_pmu_enable
->x86_assign_hw_event
//file:arch/x86/events/core.c
staticinlinevoidx86_assign_hw_event(structperf_event*event,
structcpu_hw_events*cpuc,inti)
{
structhw_perf_event*hwc=&event->hw;
...
if(hwc->idx==INTEL_PMC_IDX_FIXED_BTS){
hwc->config_base=0;
hwc->event_base=0;
}elseif(hwc->idx>=INTEL_PMC_IDX_FIXED){
hwc->config_base=MSR_ARCH_PERFMON_FIXED_CTR_CTRL;
hwc->event_base=MSR_ARCH_PERFMON_FIXED_CTR0+(hwc->idx-INTEL_PMC_IDX_FIXED);
hwc->event_base_rdpmc=(hwc->idx-INTEL_PMC_IDX_FIXED)|1<<30;
????}?else?{
????????hwc->config_base=x86_pmu_config_addr(hwc->idx);
hwc->event_base=x86_pmu_event_addr(hwc->idx);
hwc->event_base_rdpmc=x86_pmu_rdpmc_index(hwc->idx);
}
}

3.3 read 讀取計(jì)數(shù)

在實(shí)例代碼的第二步中,就是定時(shí)調(diào)用 read 系統(tǒng)調(diào)用來讀取指標(biāo)計(jì)數(shù)。在 3.2 節(jié)中我們看到了新創(chuàng)建出來的 perf 文件對(duì)象在內(nèi)核中的操作方法是 perf_read。

//file:kernel/events/core.c
staticconststructfile_operationsperf_fops={
...
.read=perf_read,
.unlocked_ioctl=perf_ioctl,
.mmap=perf_mmap,
};

perf_read 函數(shù)實(shí)際上支持可以同時(shí)讀取多個(gè)指標(biāo)出來。但為了描述起來簡(jiǎn)單,我只描述其讀取一個(gè)指標(biāo)時(shí)的工作流程。其調(diào)用鏈如下:

perf_read
__perf_read
perf_read_one
__perf_event_read_value
perf_event_read
__perf_event_read_cpu
perf_event_count

其中在 perf_event_read 中是要讀取硬件寄存器中的值。

staticintperf_event_read(structperf_event*event,boolgroup)
{
enumperf_event_statestate=READ_ONCE(event->state);
intevent_cpu,ret=0;
...

again:
//如果event正在運(yùn)行嘗試更新最新的數(shù)據(jù)
if(state==PERF_EVENT_STATE_ACTIVE){
...
data=(structperf_read_data){
.event=event,
.group=group,
.ret=0,
};
(void)smp_call_function_single(event_cpu,__perf_event_read,&data,1);
preempt_enable();
ret=data.ret;
}elseif(state==PERF_EVENT_STATE_INACTIVE){
...
}
returnret;
}

smp_call_function_single 這個(gè)函數(shù)是要在指定的 CPU 上運(yùn)行某個(gè)函數(shù)。因?yàn)榧拇嫫鞫际?CPU 專屬的,所以讀取寄存器應(yīng)該要指定 CPU 核。要運(yùn)行的函數(shù)就是其參數(shù)中指定的 __perf_event_read。在這個(gè)函數(shù)中,真正讀取了 x86 CPU 硬件寄存器。

__perf_event_read
->x86_pmu_read
->intel_pmu_read_event
->x86_perf_event_update

其中 __perf_event_read 調(diào)用到 x86 架構(gòu)這塊是通過函數(shù)指針指過來的。

//file:kernel/events/core.c
staticvoid__perf_event_read(void*info)
{
...
pmu->read(event);
}

在3.1中我們介紹過CPU 的這個(gè)pmu,它的read函數(shù)指針是指向 x86_pmu_read的。

//file:arch/x86/events/core.c
staticstructpmupmu={
...
.read=x86_pmu_read,
}

這樣就會(huì)執(zhí)行到 x86_pmu_read,最后就會(huì)調(diào)用到 x86_perf_event_update。在 x86_perf_event_update 中調(diào)用 rdpmcl 匯編指令來獲取寄存器中的值。

//file:arch/x86/events/core.c
u64x86_perf_event_update(structperf_event*event)
{
...
rdpmcl(hwc->event_base_rdpmc,new_raw_count);
returnnew_raw_count
}

最后返回到 perf_read_one 中會(huì)調(diào)用 copy_to_user 將值真正拷貝到用戶空間中,這樣我們的進(jìn)程就讀取到了寄存器中的硬件執(zhí)行計(jì)數(shù)了。

//file:kernel/events/core.c
staticintperf_read_one(structperf_event*event,
u64read_format,char__user*buf)
{

values[n++]=__perf_event_read_value(event,&enabled,&running);
...

copy_to_user(buf,values,n*sizeof(u64))
returnn*sizeof(u64);
}

總結(jié)

雖然內(nèi)存很快,但它的速度在 CPU 面前也只是個(gè)弟弟。所以 CPU 并不直接從內(nèi)存中獲取要運(yùn)行的指令和數(shù)據(jù),而是優(yōu)先使用自己的緩存。只有緩存不命中的時(shí)候才會(huì)請(qǐng)求內(nèi)存,性能也會(huì)變低。

那觀察 CPU 使用緩存效率高不高的指標(biāo)主要有 CPI 和緩存命中率幾個(gè)指標(biāo)。CPU 硬件在實(shí)現(xiàn)上,定義了專門 PMU 模塊,其中包含專門用戶計(jì)數(shù)的寄存器。當(dāng)CPU執(zhí)行到 PMC 寄存器所指定的事件時(shí),硬件會(huì)自動(dòng)對(duì)計(jì)數(shù)器加1,而不會(huì)對(duì)程序的正常執(zhí)行造成任何干擾。有了底層的支持,上層的 Linux 內(nèi)核就可以通過讀取這些 PMC 寄存器的值來獲取想要觀察的指標(biāo)了。

我們可以使用 perf 來觀察,也可以直接使用內(nèi)核提供的 perf_event_open 系統(tǒng)調(diào)用獲取 perf 文件對(duì)象,然后自己來讀取。

902884e4-f44f-11ed-90ce-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10698

    瀏覽量

    209324
  • 硬件
    +關(guān)注

    關(guān)注

    11

    文章

    3112

    瀏覽量

    65841
  • 光刻機(jī)
    +關(guān)注

    關(guān)注

    31

    文章

    1136

    瀏覽量

    46886

原文標(biāo)題:人人都應(yīng)該知道的CPU緩存運(yùn)行效率

文章出處:【微信號(hào):良許Linux,微信公眾號(hào):良許Linux】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    怎么提高labview的運(yùn)行效率

    怎么提高labview的運(yùn)行效率?那位給出點(diǎn)建議
    發(fā)表于 02-25 10:09

    DSP程序運(yùn)行效率

    程序在MATLAB里運(yùn)行速度很快,我改成C程序以后在DSP里運(yùn)行速度非常慢,MATLAB和DSP環(huán)境這兩者有什么區(qū)別啊,電腦主頻和DSP時(shí)鐘頻率相差幾倍吧,自己改的程序效率怎么這么低啊
    發(fā)表于 04-28 10:49

    CPU主頻降到極低到1Hz,系統(tǒng)還能運(yùn)行

    整體降頻是可以的,時(shí)鐘是各類數(shù)字相關(guān)的硬件前進(jìn)的指揮棒,在哪個(gè)時(shí)鐘周期是什么狀態(tài)不會(huì)受絕對(duì)時(shí)間影響,要使CPU以1赫茲頻率運(yùn)行需要其他硬件以同樣的速度配合,包括總線以及總線上的各類設(shè)備
    發(fā)表于 12-23 14:07 ?2269次閱讀

    使用智能外設(shè)提高CPU效率

    現(xiàn)代微控制器添加了一個(gè)范圍廣泛的新功能,在正確使用時(shí)可以大大提高應(yīng)用效率。特別是,可以使用獨(dú)立于CPU獨(dú)立操作的智能外設(shè)和外圍設(shè)備,允許CPU并行執(zhí)行其他任務(wù),或者進(jìn)入低功耗睡眠模式。使用這兩種技術(shù)都將提高整體處理
    發(fā)表于 06-09 14:32 ?7次下載
    使用智能外設(shè)提高<b class='flag-5'>CPU</b><b class='flag-5'>效率</b>

    配電網(wǎng)運(yùn)行效率評(píng)價(jià)

    對(duì)配電網(wǎng)運(yùn)行效率的評(píng)價(jià)有利于把握電網(wǎng)運(yùn)營(yíng)現(xiàn)狀、提高決策水平、引導(dǎo)投資方向。針對(duì)目前對(duì)配電網(wǎng)運(yùn)行效率評(píng)價(jià)存在的一些問題,首先對(duì)影響配電網(wǎng)運(yùn)行
    發(fā)表于 02-28 10:21 ?17次下載
    配電網(wǎng)<b class='flag-5'>運(yùn)行</b><b class='flag-5'>效率</b>評(píng)價(jià)

    Intel Graphics上提高CPU效率的DX12

    DX12提高了幀速率解鎖模式下的CPU效率,允許更多功率用于額外的圖形性能。 在幀速率鎖定模式下,額外的CPU效率可提供整體較低的CPU
    的頭像 發(fā)表于 11-07 06:03 ?3009次閱讀

    CPU的概念是什么

    CPU是Central Processing Unit中央處理器的簡(jiǎn)稱,作為計(jì)算機(jī)系統(tǒng)的運(yùn)算和控制核心,是信息處理、程序運(yùn)行的最終執(zhí)行單元。CPU 自產(chǎn)生以來,在邏輯結(jié)構(gòu)、運(yùn)行
    發(fā)表于 06-17 11:01 ?1.3w次閱讀

    影響微型電機(jī)運(yùn)行效率的因素

    ?微型直流電機(jī)應(yīng)用廣泛,在微型電機(jī)運(yùn)行過中,效率(微型電機(jī)的消耗的電能與轉(zhuǎn)換成機(jī)械動(dòng)能之比)是十分重要的數(shù)據(jù),在微型直流電動(dòng)機(jī)中,運(yùn)行效率最高時(shí)應(yīng)是不變損耗與機(jī)械損耗相等。
    發(fā)表于 06-25 16:45 ?1278次閱讀

    cpu的程序是如何運(yùn)行起來的

    作者:良知猶存 轉(zhuǎn)自:羽林君 1 CPU硬件最小原子 計(jì)算機(jī)從上世紀(jì)四十年代發(fā)展到現(xiàn)在有八十多年了,我們現(xiàn)在開發(fā)應(yīng)用以及很少會(huì)涉及到底層的部分,硬件設(shè)計(jì)的電子專業(yè)在學(xué)校里面會(huì)學(xué)習(xí)模電數(shù)電這兩門課
    的頭像 發(fā)表于 09-11 09:26 ?9366次閱讀

    CPU運(yùn)行模式S7-CPU工作的原理

    S7-CPU 工作模式的原理 操作模式描述了 CPU 的行為。有下列操作模式: ● STARTUP ● RUN ● STOP 如果 CPU 沒有準(zhǔn)備好運(yùn)行,則它處于以下兩種操作模式之一
    的頭像 發(fā)表于 08-25 17:17 ?3202次閱讀

    CPU工作過程——MCU

    的頻率來源,但是我們的目標(biāo)是讓CPU工作在168MHz的頻率,這樣才可以讓CPU工作得更快,運(yùn)行代碼更快,效率更高。當(dāng)然,如果你想讓CPU
    發(fā)表于 10-25 16:51 ?21次下載
    <b class='flag-5'>CPU</b>工作過程——MCU

    程序是如何在 CPU運(yùn)行的(二)

    在上一篇文章中《程序是如何在 CPU運(yùn)行的(一)》筆者講述了程序中一條一條指令以及一條一條數(shù)據(jù)是如何在 CPU運(yùn)行的,在本文筆者將...
    發(fā)表于 02-07 11:10 ?1次下載
    程序是如何在 <b class='flag-5'>CPU</b> 中<b class='flag-5'>運(yùn)行</b>的(二)

    信創(chuàng)基礎(chǔ)硬件CPU、GPU、存儲(chǔ)和整機(jī)

    CPU指令集(Instruction Set)是CPU中計(jì)算和控制計(jì)算機(jī)系統(tǒng)所有指令的集合。計(jì)算機(jī)的程序最終需要轉(zhuǎn)化為“指令”才能在CPU運(yùn)行。
    的頭像 發(fā)表于 12-12 11:32 ?4873次閱讀

    如何評(píng)估CPU硬件效率?CPU硬件運(yùn)行效率介紹

    提到CPU性能,大部分同學(xué)想到的都是CPU利用率,這個(gè)指標(biāo)確實(shí)應(yīng)該首先被關(guān)注。但是除了利用率之外,還有很容易被人忽視的指標(biāo),就是指令的運(yùn)行效率。
    的頭像 發(fā)表于 05-17 10:04 ?1372次閱讀
    如何評(píng)估<b class='flag-5'>CPU</b><b class='flag-5'>硬件</b><b class='flag-5'>效率</b>?<b class='flag-5'>CPU</b><b class='flag-5'>硬件</b><b class='flag-5'>運(yùn)行</b><b class='flag-5'>效率</b>介紹

    npu運(yùn)行需要cpu協(xié)助嗎

    npu運(yùn)行需要cpu協(xié)助嗎? 為了回答這個(gè)問題,我們需要首先了解什么是NPU和CPU以及它們之間的關(guān)系。 NPU是神經(jīng)處理單元(Neural Processing Unit)的縮寫,是一種專用于處理
    的頭像 發(fā)表于 08-27 17:03 ?968次閱讀