2021 年嵌入式處理器報告:隨著晶體管擴展的可靠每瓦性能增益接近尾聲,未來幾代處理器將如何訪問有效執(zhí)行要求苛刻的工作負(fù)載所需的計算?我的答案來自異構(gòu) SoC 上的并行處理。
“我們已經(jīng)在 7 nm 上工作了很長時間,在那段時間里,我們不僅看到了摩爾定律的終結(jié),而且還看到了阿姆達(dá)爾定律和丹納德縮放的終結(jié),”硅營銷總監(jiān) Manuel Uhm 說在賽靈思?!斑@意味著,如果我們所做的只是采用 FPGA 并將這些晶體管從我們之前的節(jié)點(即 16 納米)縮小到 7 納米,然后收工,許多試圖遷移完全相同的設(shè)計的客戶可能很可能最終得到的設(shè)計坦率地說沒有任何性能提升,實際上可能會增加功耗。
“很明顯,這是完全錯誤的方式?!?/p>
需要明確的是,將硅晶體管縮小到 7 nm 以下并非不可能;5nm 器件已經(jīng)投入生產(chǎn)。這是因為底層金屬沒有更快地運行,并且電流泄漏正在上升。
同時,在另一個方向上,傳統(tǒng)的多核設(shè)備自身也遇到了擴展限制。當(dāng)然,這些并行處理器在歷史上一直是同質(zhì)的,“而現(xiàn)實情況是,沒有一個處理器架構(gòu)可以優(yōu)化地完成每項任務(wù),”Uhm 爭辯道。“不是 FPGA,不是 CPU,不是 GPU?!?/p>
這并不是說并行性在處理現(xiàn)代應(yīng)用程序呈現(xiàn)的復(fù)雜處理任務(wù)方面沒有優(yōu)勢。事實上,除了摩爾定律和丹納德定標(biāo)之外,并行計算可能是我們在高性能計算 (HPC) 和其他要求苛刻的用例中的最佳選擇。
是的,我們?nèi)匀恍枰⑿刑幚怼5珜儆诋愵悺?/p>
異構(gòu)處理:不僅適用于數(shù)據(jù)中心
如前所述,異構(gòu)并行處理技術(shù)的前沿是對高端應(yīng)用中性能壁壘的回應(yīng)。但這些架構(gòu)在嵌入式計算環(huán)境中也變得越來越普遍。
VDC Research 高級分析師 Dan Mandell 指出,雖然“許多異構(gòu)處理架構(gòu)確實專注于高端應(yīng)用,特別是數(shù)據(jù)中心和 HPC……FPGA SoC 和其他異構(gòu)加速芯片的小型化是最重要的。讓 Microsemi 和 Xilinx 等公司將更多此類設(shè)備帶入智能邊緣基礎(chǔ)設(shè)施,如邊緣/工業(yè)服務(wù)器和物聯(lián)網(wǎng)網(wǎng)關(guān)。”
根據(jù) Mandell 的說法,嵌入式市場中通用異構(gòu)計算平臺的一個關(guān)鍵驅(qū)動因素“是當(dāng)今 OEM 和其他廠商對硬件架構(gòu)的承諾猶豫不決?!?他說,這種猶豫是專用加速芯片快速發(fā)展的產(chǎn)物,以及未來幾年邊緣軟件和人工智能生態(tài)系統(tǒng)將產(chǎn)生的框架和工作負(fù)載的不確定性。
他預(yù)計所有這些情況都會“對未來的半導(dǎo)體采購產(chǎn)生重大影響”,以及芯片供應(yīng)商如何處理他們的處理器路線圖。
“當(dāng)今大多數(shù) FPGA SoC 的價格和功率范圍將迫使供應(yīng)商最初專注于相對高端、資源豐富的嵌入式和邊緣應(yīng)用,”Mandell 假設(shè)。“然而,正在積極努力使 FPGA SoC ‘尺寸不可知’,最終甚至支持電池供電的連接設(shè)備。”
因此,隨著異構(gòu)并行處理變得越來越多常見的問題是,嵌入式工程師是否應(yīng)該為系統(tǒng)設(shè)計的范式轉(zhuǎn)變做好準(zhǔn)備?英偉達(dá)副總裁兼嵌入式與邊緣計算總經(jīng)理 Deepu Talla 不這么認(rèn)為。
“如果你仔細(xì)想想,嵌入式處理器總是使用加速器,”Talla 說?!凹词乖?20 年前,也有 Arm CPU,有 DSP,然后在特定硬件中完成視頻編碼/解碼,對吧?它們在某種意義上是固定功能的,但它們都在并行處理事物。
“你需要這樣做的原因是成本、功率、尺寸,”他繼續(xù)說道?!安⑿刑幚砥鞯男时?CPU 高出幾個數(shù)量級?!?/p>
Nvidia 的 Xavier SoC 是其 Jetson Xavier 嵌入式平臺的核心設(shè)備,以及公司將于 2021 年底或 2022 年推出的下一代 Orin 架構(gòu),均配備 GPU、Arm CPU、深度學(xué)習(xí)加速器、視覺加速器、編碼器/解碼器和其他專門的處理模塊(圖 3)。
【圖3 | Nvidia Xavier SoC 配備了基于 Arm 的 Carmel CPU、Volta GPU、深度學(xué)習(xí)和視覺加速器以及其他可以并行處理工作負(fù)載的固定功能計算模塊。]
然而,隨著高級異構(gòu) SoC 變得越來越普遍,嵌入式開發(fā)人員可以期待的一個變化是使用片上網(wǎng)絡(luò) (NoC) 互連,在過去十年中,這種互連從傳統(tǒng)的片上總線(如 AMBA 接口)發(fā)展而來。這提供了“控制如何連接 CPU、GPU、視頻編碼器、深度學(xué)習(xí)加速器、顯示處理器、相機處理器、安全處理器,所有這些東西,”Talla 說。
NoC 有助于加速和優(yōu)化跨 SoC 的塊到塊的數(shù)據(jù)流,這有助于盡可能高效地執(zhí)行工作負(fù)載。例如,NXP 在其多功能 i.MX SoC 系列中利用了 NoC 和傳統(tǒng)總線架構(gòu)。
“異構(gòu)計算是我們多年來一直在實施的東西。NXP Semiconductors, Inc. 邊緣處理業(yè)務(wù)和技術(shù)戰(zhàn)略主管 Gowrishankar Chindalore 博士說,我相信現(xiàn)在是我們真正開始達(dá)到最佳使用點的地方。機器學(xué)習(xí),因為我們今天使用的是 CPU、GPU、DSP 和神經(jīng)處理單元 (NPU)。
“但優(yōu)化的一部分,不僅僅是計算元素。系統(tǒng)周圍的一切都需要發(fā)生,”他繼續(xù)說道?!耙虼耍水悩?gòu)計算之外,我們專注于提高效率的地方,正在關(guān)注芯片分割流水線、視頻流水線、圖形流水線中整個流程的浪費。
“因為我們做得越多,我們在性能方面獲得的效率就越高,顯然,用于執(zhí)行相同功能的能量就越少,”他補充道。
(編者按:閱讀《異構(gòu)多核實現(xiàn)十倍嵌入式內(nèi)存性能的三種方法》)
走向異質(zhì)世界
Mandell引用 VDC Research 的 2020 年物聯(lián)網(wǎng)、嵌入式和移動處理器技術(shù)報告,預(yù)計嵌入式 SoC 的全球市場將“在未來幾年繼續(xù)超過 MPU、MCU、GPU 等分立半導(dǎo)體的商業(yè)市場”,因為 OEM 看起來整合計算資源和多芯片實現(xiàn)。他說,從長遠(yuǎn)來看,對工作負(fù)載加速和處理器優(yōu)化的需求只會“推動進(jìn)一步增長”。
與此同時,我們衡量性能和功耗的方式將不得不改變。正如 The Linley Group 的高級分析師 Mike Demler 在其公司的《深度學(xué)習(xí)處理器指南》中所說,即使是像 TOPS/W 這樣的以 AI 為中心的新基準(zhǔn)測試也“具有誤導(dǎo)性,因為真正的 AI 工作負(fù)載從未達(dá)到接近 100% 的利用率?!?/p>
他說,我們將不得不用“一個真實的工作負(fù)載,比如 Bert NLP 模型,而不是一個基于理論的、基于架構(gòu)的規(guī)范”來衡量諸如電源效率之類的東西。
但是,孤立地測量處理器復(fù)合體是否有意義?它真的很重要嗎?一如既往,重點將放在它在您的系統(tǒng)環(huán)境中提供的內(nèi)容上。
“在使用每個流程節(jié)點之前,就像‘哦,太好了。我得到兩倍的性能,一半的功耗!‘”Uhm 說?!澳切┤兆右呀?jīng)一去不復(fù)返了。那些日子對每個人來說都已經(jīng)一去不復(fù)返了。在 7 nm 時,這些晶體管現(xiàn)在開始泄漏。你只會遇到其他類型的問題在許多情況下,我們認(rèn)為這是無法克服的。
“因此,在意識到這一點后,我們現(xiàn)在正在研究系統(tǒng)級問題,”他繼續(xù)說道,“我們將所有這些東西放在一起,了解所有這些權(quán)衡,并確保我們能夠涵蓋以允許滿足性能和功率預(yù)算的方式進(jìn)行盡可能多的處理。再說一次,這些不再是容易的事情了。我們意識到我們將能夠提供更高的性能或降低功耗,在某些情況下它是非此即彼的。你會得到兩者并不總是給定的。
“再說一次,沒有任何處理器是最適合所有事情的。您不能總是提高性能并降低功耗,”Uhm 繼續(xù)說道?!暗珜W⒂谶@種新架構(gòu),一種異構(gòu)處理器,基本上可以讓他們做到這一點。”
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
19118瀏覽量
228864 -
晶體管
+關(guān)注
關(guān)注
77文章
9613瀏覽量
137684 -
AI
+關(guān)注
關(guān)注
87文章
29862瀏覽量
268152
發(fā)布評論請先 登錄
相關(guān)推薦
評論