最近為了測試一款Cortex-M33產品性能達標,驗證團隊將coremark基準測試程序當作了一個測試用例,而在RTL環(huán)境里指定的 C 編譯器是標準GCC,當發(fā)現跑出來的 coremark程序測試結果與Arm給的Cortex-M33參考值4.02 CoreMark/MHz有一定差距,因此對這個問題進行了調查。
在Arm的Cortex-M33主頁,其備注了4.02 CoreMark/MHz參考值來自于 EEMBC官網上的一款恩智浦LPC55S69JBD100芯片跑出來的結果,頁面里備注了跑分結果是在Arm Clang Compiler v6.12下開啟最高優(yōu)化等級 -Omax 下得到的,而驗證團隊用得是GCC,由此斷定問題大概率是由不同編譯器優(yōu)化性能差異引起的,借著這個實際問題,今天就跟大家聊一聊MCUXpresso IDE下編譯優(yōu)化等級設置方法。
注:本文使用的MCUXpresso IDE軟件版本是 v11.6.0_8187。
一、查看MCUXpresso的GCC版本
有朋友可能會覺得奇怪,文章開頭里明明聊得是GCC下coremark跑分問題,為何要引出MCUXpresso IDE?其實MCUXpresso IDE是恩智浦推出的免費集成開發(fā)環(huán)境,其底層編譯器就是標準GCC工具鏈,使用MCUXpresso IDE,我們就不用像使用GCC那樣手動準備相應Makefile去做編譯了。
因為我們是借助MCUXpresso IDE來測試GCC編譯優(yōu)化性能,所以需要了解當前 GCC版本,可以在MCUXpresso IDE安裝目錄的如下路徑下找到GCC版本信息。
執(zhí)行 arm-none-eabi-gcc.exe -v 命令即可知道其版本,MCUXpresso IDE v11.6 使用得是 GCC v10.3.1。
MCUXpressoIDE_11.6.0_8187ide oolsinarm-none-eabi-gcc.exe
MCUXpressoIDE_11.6.0_8187ide oolslibgccarm-none-eabi10.3.1
二、GCC支持的優(yōu)化等級
既然咱們聊得是優(yōu)化等級設置方法,首先我們得知道GCC下支持哪些優(yōu)化等級,我們可以在MCUXpresso IDE安裝目錄或者GCC官網找到用戶手冊(gcc.pdf),手冊里面 Section 3.11 Options that Control Optimization 章節(jié)有詳細的解釋。
MCUXpressoIDE_11.6.0_8187ide oolssharedocgcc-arm-none-eabipdfgcc.pdf
https://gcc.gnu.org/onlinedocs/gcc-10.3.0/gcc.pdf
GCC本身支持非常多的優(yōu)化策略小項,大概有如下 100 多個,可以在手冊里去看每個小項的具體解釋,了解了這些小項,我們在編譯時當然可以把這些策略參數按需加上去,不過這種方式顯然比較繁瑣。
GCC為了化繁為簡,將這些策略小項做了分類整理,形成了如下8個等級(基于代碼大小和運行速度兩個方向逐步加檔),我們在實際編譯時一般直接用這8個優(yōu)化等級即可。
優(yōu)化等級 | 策略解釋 |
-O0 | 不進行任何優(yōu)化(如果沒有指定優(yōu)化級別,即為此默認設置)。 |
-O或者-O1 |
在不影響編譯速度的前提下,盡量采用一些優(yōu)化算法降低代碼大小和提高可執(zhí)行代碼的運行速度。 - 此等級執(zhí)行了 45 個策略小項。 |
-O2 |
犧牲部分編譯速度,采用幾乎所有的目標配置支持的優(yōu)化算法,用以提高目標代碼的運行速度。 -此等級在-O1所有優(yōu)化策略小項之上增加了 48 個策略小項。? |
-O3 |
采取很多向量化算法,提高代碼的并行執(zhí)行程度,比如利用現代CPU中的流水線,Cache等,目標是寧愿增加目標代碼的大小,也要拼命的提高運行速度。 -此等級在-O2所有優(yōu)化策略小項之上增加了16個策略小項。 |
-Os |
與-O3有異曲同工之妙,但兩者的目標不一樣,這個等級是為了盡量的降低目標代碼的大小,這對于存儲容量很小的設備來說非常重要。 -此等級在-O2所有優(yōu)化策略小項之上減掉了 6 個策略小項,然后使能了 -finline-functions 策略。 |
-Ofast |
不會嚴格遵循語言標準,會針對某些語言啟用部分優(yōu)化,以達到最快的運行速度。 -此等級在-O3所有優(yōu)化策略小項之上增加了 -ffast-math 和 -fallow-store-data-races 策略。 |
-Og | 在保持快速編譯和良好調試體驗的同時,提供合理的優(yōu)化級別。 |
-Oz | 比-Os更激進的去降低目標代碼的大小,GCC v12.x之后的版本才引入。 |
三、MCUX下設置優(yōu)化等級的三種方法
在 MCUXpresso IDE 工程里,我們有三種方法來設置優(yōu)化等級,分別針對單個函數、單個源文件、整個工程源文件。
3.1 在源文件中設置
第一種優(yōu)化等級設置方法主要針對單個函數,即使用 __attribute__ 來修飾函數(這其實是GCC下通用做法,與MCUX關系不大),經過修飾的函數可以不受 MCUXpresso IDE工程整體優(yōu)化等級設置影響。
void __attribute__((optimize("O3"))) function(void) { ... }
第二種優(yōu)化等級設置方法主要針對多個相鄰函數或者整個源文件,即使用如下 #pragma組合語句來修飾代碼(這也是GCC下通用做法,與MCUX關系不大),經過修飾的代碼也同樣不受MCUXpresso IDE工程整體優(yōu)化等級設置影響。
#pragma GCC push_options // 代碼作用范圍起始處 #pragma GCC optimize("O3") // 代碼優(yōu)化等級設置 void function1(void) { ... } void function2(void) { ... } ... #pragma GCC pop_options // 代碼作用范圍結尾處
3.2 在IDE選項中設置
第三種優(yōu)化等級設置方法主要針對工程全部源文件,即在MCUXpresso IDE工程選項里Optimization Level一欄項目里做切換選擇,這里基本上與 GCC v10.3 優(yōu)化等級定義是一致的,但是缺少了 -Ofast 選項。
四、MCUX下設置-Ofast等級
使用一塊MIMXRT595-EVK開發(fā)板(主芯片為Cortex-M33內核),在其配套SDK 里的hello world工程基礎之上移植了coremark程序,在IAR v9.10最高優(yōu)化等級下(High-Size No size constraints)得到了3.94 CoreMark/MHz的跑分,這很接近Arm基準值,但是在MCUXpresso IDE最高優(yōu)化等級下(-O3)僅得到了2.76 CoreMark/MHz。
莫非是必須要在MCUXpresso IDE下開啟GCC的最快運行優(yōu)化等級 -Ofast 才能得到理想coremark跑分,但是MCUXpresso IDE選項里并沒有 -Ofast 怎么辦?
別著急,剛才工程選項下還有Other optimization flags后門,我們在這里手動添加上 -Ofast 比 -O3 多的那兩個優(yōu)化策略小項,以及MCUX團隊要求的 -fno-semantic-interposition 小項,這樣基本就等于 - Ofast 效果。
-ffast-math -fallow-store-data-races -fno-semantic-interposition
重新編譯,再跑一次 -Ofast 等級下的MCUXpresso IDE工程,發(fā)現coremark跑分結果并沒有比 -O3 等級下有多大提升。
想了想雖然跑不到IAR 上 3.94 CoreMark/MHz的高分有點不甘心,但是這也很正常嘛,免費的GCC編譯器如果能達到商業(yè)IAR編譯器那樣的效果,那人家商業(yè)編譯器還怎么收費呢,理解萬歲!
原文標題:MCUXpresso IDE下設置代碼編譯優(yōu)化等級的幾種方法
文章出處:【微信號:NXP_SMART_HARDWARE,微信公眾號:恩智浦MCU加油站】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論