芯片企業(yè)正在借助不斷演進(jìn)和革命性技術(shù),以在功耗相同或更低的情況下顯著提高性能,這標(biāo)志著從制造驅(qū)動設(shè)計(jì)到半導(dǎo)體架構(gòu)師驅(qū)動設(shè)計(jì)的根本性轉(zhuǎn)變。
01.?計(jì)算任務(wù)改變對計(jì)算架構(gòu)的需求
過去大多數(shù)芯片只包含一到兩項(xiàng)先進(jìn)技術(shù),主要是為了跟上每隔幾年新工藝節(jié)點(diǎn)的光刻技術(shù)改進(jìn),是根據(jù)行業(yè)路線圖進(jìn)行的,要求在未來能夠獲得可預(yù)測但不顯著的收益。隨著大型語言模型和傳感器數(shù)據(jù)的爆炸式增長,以及自行設(shè)計(jì)芯片的系統(tǒng)公司之間的競爭加劇,以及國際競爭在人工智能領(lǐng)域不斷激烈,芯片設(shè)計(jì)的規(guī)則正在發(fā)生重大變化。
漸進(jìn)式改進(jìn)與性能的巨大飛躍相結(jié)合,雖然這些改進(jìn)將計(jì)算和分析能力提升到全新水平,但也需要全新的權(quán)衡考慮。這些變革的核心在于高度定制的芯片架構(gòu),芯片是在最先進(jìn)的工藝節(jié)點(diǎn)開發(fā)的。并行處理變得幾乎是必然的,加速器用于特定數(shù)據(jù)類型和操作。在某些情況下,這些微型系統(tǒng)可能不會商業(yè)銷售,因?yàn)樗鼈優(yōu)閿?shù)據(jù)中心提供了競爭優(yōu)勢。
也可能包括其他商業(yè)技術(shù),如處理核心、加速器、減少延遲的內(nèi)存內(nèi)或近內(nèi)存計(jì)算技術(shù),以及不同的緩存策略、共同封裝的光學(xué)器件和更快速的互連。其中許多進(jìn)展多年來一直處于研究或擱置狀態(tài),現(xiàn)在正在全面部署。
在最近的Hot Chips 2023會議上,谷歌研究院的工程研究員兼機(jī)器學(xué)習(xí)系統(tǒng)副總裁Amin Vahdat指出,現(xiàn)在的芯片可以解決十年前無法想象的問題,機(jī)器學(xué)習(xí)正在承擔(dān)越來越多的任務(wù)。需要改變對系統(tǒng)設(shè)計(jì)的看法。過去五、六、七年中計(jì)算需求的增長令人震驚...雖然在[算法]稀疏性方面出現(xiàn)了許多創(chuàng)新,10倍每個模型的參數(shù)數(shù)量持續(xù)一年。計(jì)算成本隨著參數(shù)數(shù)量的增加而超線性增長。必須構(gòu)建一種不同的計(jì)算基礎(chǔ)設(shè)施來應(yīng)對這一挑戰(zhàn)。值得注意的是,如果嘗試在通用計(jì)算上做到這一點(diǎn),就不會取得今天的成就,在過去50或60年間開發(fā)的傳統(tǒng)計(jì)算智慧已被拋棄?!?/p>
舊問題并沒有解決,功耗和散熱一直是設(shè)計(jì)團(tuán)隊(duì)頭疼的問題,并且隨著處理速度和數(shù)量的增加,問題變得更加難以解決。在大約3GHz之后,由于熱密度更高且芯片無法散發(fā)熱量,僅僅提高時(shí)鐘頻率就不再是一個簡單的選擇。雖然稀疏數(shù)據(jù)模型和軟硬件協(xié)同設(shè)計(jì)提高了在各種處理元件上運(yùn)行的軟件效率,以及每個計(jì)算周期處理更多數(shù)據(jù)的能力,但不再需要轉(zhuǎn)動一個旋鈕來提高每瓦性能。隨著數(shù)據(jù)的增加和架構(gòu)創(chuàng)新的轉(zhuǎn)變,這些經(jīng)濟(jì)學(xué)發(fā)生了巨大的變化,這一點(diǎn)在今年的Hot Chips會議上顯而易見。
解決的辦法包括內(nèi)存中/近內(nèi)存處理,以及更接近數(shù)據(jù)源的處理。移動大量數(shù)據(jù)需要大量的系統(tǒng)資源——帶寬、電力和時(shí)間——這對計(jì)算有直接的經(jīng)濟(jì)影響。一般來說,收集和處理的大部分?jǐn)?shù)據(jù)都是無用的。汽車或安全系統(tǒng)中的視頻輸入中的相關(guān)數(shù)據(jù)可能僅持續(xù)一兩秒,而可能需要數(shù)小時(shí)的數(shù)據(jù)進(jìn)行整理。對靠近源頭的數(shù)據(jù)進(jìn)行預(yù)處理,并使用人工智能來識別感興趣的數(shù)據(jù),意味著只需發(fā)送一小部分?jǐn)?shù)據(jù)進(jìn)行進(jìn)一步處理和存儲。
三星首席工程師Jin Hyun Kim表示:“大部分能源消耗來自移動數(shù)據(jù)?!?他指出了三種提高效率和提升績效的解決方案:使用HBM進(jìn)行內(nèi)存處理,實(shí)現(xiàn)極高的帶寬和功耗;使用LPDDR對需要高容量的低功耗設(shè)備進(jìn)行內(nèi)存處理;使用CXL進(jìn)行近內(nèi)存處理,以適中的成本實(shí)現(xiàn)極高的容量。
內(nèi)存處理已經(jīng)醞釀了很多年,直到最近才出現(xiàn)太大進(jìn)展。大型語言模型已經(jīng)極大地推動了這項(xiàng)技術(shù)的發(fā)展。大部分?jǐn)?shù)據(jù)處理中的計(jì)算都是稀疏的,這意味著許多數(shù)值是零。利用這一點(diǎn)需要另一種類型的處理單元,這種處理單元要比通用計(jì)算單元快,也要節(jié)省能源。沒有人會完全放棄通用處理器,在大部分的應(yīng)用中具有多樣性需求的硬件。
內(nèi)存加速對于 AI/ML 的乘法累加 (MAC) 函數(shù)特別有用,因?yàn)樾枰焖偬幚淼臄?shù)據(jù)量呈爆炸式增長。使用生成式預(yù)訓(xùn)練 Transformer 3 (GPT-3) 和 GPT4,僅加載數(shù)據(jù)就需要大量帶寬。與此相關(guān)的挑戰(zhàn)有很多,包括如何有效地做到這一點(diǎn),同時(shí)最大限度地提高性能和吞吐量,如何擴(kuò)展它以處理大型語言模型中參數(shù)數(shù)量的快速增加,以及如何建立靈活性以適應(yīng)未來的變化。
SK hynix America 高級技術(shù)經(jīng)理 Yonkwee Kwon 在 Hot Chips 2023 上的演講中表示:“一開始的想法是將內(nèi)存作為加速器,第一個目標(biāo)是實(shí)現(xiàn)高效擴(kuò)展,擁有高性能也很重要。設(shè)計(jì)的系統(tǒng)架構(gòu)易于編程,同時(shí)最大限度地減少系統(tǒng)結(jié)構(gòu)開銷,但仍然允許軟件堆棧實(shí)現(xiàn)靈活性。
02.?CPU的改進(jìn)
計(jì)算的開銷也是一個重要的內(nèi)容,計(jì)算要求大量的能量,隨著數(shù)據(jù)的增加,處理元素的數(shù)量將越來越多。要找到這些計(jì)算元素,需要大量的互連,而這些互連要么會增加成本,要么會增加功耗,或者兩者兼而有之。從計(jì)算工作負(fù)載的核心到核心移動數(shù)據(jù)意味著不僅需要互連,還需要一種具有高度可擴(kuò)展性和能夠使用低功耗傳輸大量數(shù)據(jù)的技術(shù)。這需要更復(fù)雜的網(wǎng)絡(luò)拓?fù)?,需要在整個系統(tǒng)級別進(jìn)行管理,以確保能夠處理大量數(shù)據(jù)。
03.?CPU計(jì)算-提高速度
下一個挑戰(zhàn)是提高主要CPU處理單元的速度。
一種方法是分支預(yù)測,類似于預(yù)測下一個操作的方式,就像互聯(lián)網(wǎng)搜索引擎一樣。然而,與任何并行架構(gòu)一樣,關(guān)鍵是確保各種處理單元充分運(yùn)行,以最大限度地提高性能和效率。
Arm通過其Neoverse V2設(shè)計(jì)對這一概念進(jìn)行了改進(jìn),將分支預(yù)測與獲取分離。這導(dǎo)致了通過減少停頓來提高效率,并更快地從錯誤預(yù)測中恢復(fù)。Arm的首席CPU架構(gòu)師Magnus Bruce表示:“動態(tài)饋送機(jī)制允許內(nèi)核調(diào)節(jié)攻擊性,并主動防止系統(tǒng)擁塞。這些基本概念使我們能夠推動機(jī)器的寬度和深度,保持較短的管道以快速恢復(fù)錯誤預(yù)測?!?/p>
這些改進(jìn)是通過在多個架構(gòu)點(diǎn)進(jìn)行微調(diào)而實(shí)現(xiàn)的,而不是進(jìn)行大規(guī)模改變。例如,分離分支預(yù)測和獲取可以將分支目標(biāo)緩沖區(qū)拆分為兩個級別,使其能夠處理多50%的條目。增加了預(yù)測器中存儲的歷史記錄三倍,并將獲取隊(duì)列中的條目數(shù)量增加一倍,從而顯著提高了實(shí)際性能。綜合考慮各種改進(jìn),Neoverse V2的性能是V1的兩倍,具體取決于其在系統(tǒng)中的角色。
AMD的下一代Zen 4核心通過微架構(gòu)的改進(jìn),每周期的指令數(shù)增加了約14%。由于工藝擴(kuò)展,5nm下的頻率提高了16%。由于微架構(gòu)和技術(shù)的改進(jìn),功耗降低了約60%。物理設(shè)計(jì)也得到了改進(jìn)。
與Arm一樣,AMD也致力于改進(jìn)分支預(yù)測和獲取。AMD的研究員兼Zen 4首席架構(gòu)師Kai Troester表示,通過更多的分支、每周期更多的分支預(yù)測以及允許更多條目和每個條目更多操作的更大操作緩存,分支預(yù)測的準(zhǔn)確性得到了提高。此外,Zen 4增加了3D V高速緩存,將每個內(nèi)核的L3高速緩存提升至高達(dá)96 MB,并在256位數(shù)據(jù)路徑上使用兩個連續(xù)周期提供對512位操作的支持。這一設(shè)計(jì)擴(kuò)大了數(shù)據(jù)管道的規(guī)模,并盡可能縮短數(shù)據(jù)傳輸距離。
04.?平臺系統(tǒng)架構(gòu)平臺系統(tǒng)架構(gòu)
平臺架構(gòu)方面的主要趨勢是領(lǐng)域特定性的不斷增加,這對通用處理器的傳統(tǒng)開發(fā)模式造成了破壞?,F(xiàn)在的挑戰(zhàn)是如何提供本質(zhì)上大規(guī)模的定制,有兩種主要方法:
1)通過添加硬件或可編程邏輯來實(shí)現(xiàn)可編程性
2)開發(fā)可互換的平臺部件。
英特爾引入了一個將小芯片集成到先進(jìn)封裝中的框架,利用其嵌入式多芯片互連橋來連接高速I/O、處理器內(nèi)核和內(nèi)存。英特爾的目標(biāo)是提供足夠的定制和性能,以滿足客戶需求,但交付這些系統(tǒng)的速度比完全定制的架構(gòu)要快得多,并且結(jié)果是可預(yù)測的。
英特爾首席至強(qiáng)架構(gòu)師Chris Gianos表示?!斑@將是一個多芯片架構(gòu),可以使用這些小芯片構(gòu)建結(jié)構(gòu),具有很大的靈活性,只是互操作,為我們提供了專門優(yōu)化產(chǎn)品核心的維度之一。將創(chuàng)建E核(超高效)的小芯片和P核(高性能)的小芯片?!?/p>
英特爾還創(chuàng)建了一個模塊化網(wǎng)狀結(jié)構(gòu)來將各種組件連接在一起,以及一個支持DDR或MCR內(nèi)存以及通過CXL連接的內(nèi)存的通用控制器。
05.?神經(jīng)處理器和光學(xué)互連
這是研究的重要方向,新方法和新技術(shù)的清單也是前所未有的。業(yè)界正在廣泛尋找增加性能、降低功耗的新方法,同時(shí)仍然關(guān)注面積和成本。對于AI/ML應(yīng)用程序來說,精度也至關(guān)重要。光子學(xué)在機(jī)架內(nèi)的服務(wù)器之間發(fā)揮著作用,但是否將其應(yīng)用到芯片層面仍不確定。這領(lǐng)域的工作仍在繼續(xù),光子學(xué)受到了許多公司的關(guān)注。
整個行業(yè)正在積極尋找提高性能并降低功耗的全新方法,同時(shí)關(guān)注成本和芯片尺寸。PPAC(性能、功耗、面積、成本)仍然是關(guān)注的核心,但不同應(yīng)用和用例可能會對這些方面的權(quán)衡提出不同的要求。IBM的研究員Dharmendra Modha指出:“人工智能的運(yùn)營支出和資本支出正變得難以維持。”他進(jìn)一步表示:“架構(gòu)勝過摩爾定律。”這強(qiáng)調(diào)了架構(gòu)創(chuàng)新在應(yīng)對當(dāng)前挑戰(zhàn)方面的重要性。
對于AI/ML應(yīng)用程序來說,精度至關(guān)重要。IBM的設(shè)計(jì)包括支持混合精度的向量矩陣乘法器、具有FP16精度的向量計(jì)算單元和激活函數(shù)單元。處理是在距離內(nèi)存幾微米的范圍內(nèi)完成的,避免了依賴于數(shù)據(jù)的條件分支、緩存未命中、停頓和推測執(zhí)行等問題。
復(fù)雜芯片所面臨的一個關(guān)鍵挑戰(zhàn)不僅在于內(nèi)存和處理器之間的數(shù)據(jù)傳輸,還包括芯片周圍的數(shù)據(jù)傳輸。片上網(wǎng)絡(luò)和其他互連結(jié)構(gòu)簡化了這一過程。盡管硅光子學(xué)在高速網(wǎng)絡(luò)芯片中已有所應(yīng)用,光子學(xué)在芯片層面的使用仍不確定。然而,光子學(xué)在許多公司中引起了廣泛關(guān)注,特別是在服務(wù)器之間的機(jī)架內(nèi)。
Lightelligence工程副總裁Maurice Steinman表示,已經(jīng)開發(fā)了基于光子學(xué)的專門加速器,速度比GPU快100倍,同時(shí)功耗顯著降低。該公司還研發(fā)了片上光學(xué)網(wǎng)絡(luò),使用硅介質(zhì)層作為連接小芯片的媒介,而不是電子連接。
06.?可持續(xù)性和可靠性
隨著所有這些變化,出現(xiàn)了兩個未解決的問題。
首先是可持續(xù)性問題。隨著越來越多的數(shù)據(jù)由芯片處理,能源消耗成為一個日益突出的挑戰(zhàn),而制造這些設(shè)備也需要大量能源。盡管在數(shù)據(jù)中心方面已經(jīng)取得了一些進(jìn)展,但能源問題仍然存在。芯片制造商正積極尋找可持續(xù)發(fā)展的解決方案。
第二個未解決的問題是可靠性?,F(xiàn)代芯片設(shè)計(jì)更加復(fù)雜,因此確保結(jié)果的準(zhǔn)確性和一致性變得更加困難。這一挑戰(zhàn)涉及到數(shù)據(jù)的分區(qū)、處理、重新聚合和分析,尤其是當(dāng)設(shè)備老化程度不同并以意想不到的方式交互時(shí)??煽啃詥栴}需要深入研究和解決。
有關(guān)人工智能訓(xùn)練和CO2排放的數(shù)據(jù)可能具有誤導(dǎo)性。正確的數(shù)據(jù)分析對于理解問題的嚴(yán)重性至關(guān)重要。與此同時(shí),模型從單一模態(tài)轉(zhuǎn)向多種模態(tài),這包括圖像、文本、聲音和視頻,因此動力、可持續(xù)性和可靠性仍然是至關(guān)重要的關(guān)注點(diǎn)。
編輯:黃飛
?
評論
查看更多