成人免费观看片久久,欧美麻豆久久久久久中文

后摩爾定律時(shí)代，單靠制程工藝的提升帶來(lái)的性能受益已經(jīng)十分有限，Dennard Scaling規(guī)律約束，芯片功耗急劇上升，晶體管成本不降反升；單核的性能已經(jīng)趨近極限，多核架構(gòu)的性能提升亦在放緩。AIoT時(shí)代來(lái)臨，下游算力需求呈現(xiàn)多樣化及碎片化，通用處理器難以應(yīng)對(duì)。

1）從通用到專用：面向不同的場(chǎng)景特點(diǎn)定制芯片，XPU、FPGA、DSA、ASIC應(yīng)運(yùn)而生。

2）從底層到頂層：軟件、算法、硬件架構(gòu)。架構(gòu)的優(yōu)化能夠極大程度提升處理器性能，例如AMD Zen3將分離的兩塊16MB L3 Cache合并成一塊32MB L3 Cache，再疊加改進(jìn)的分支預(yù)測(cè)、更寬的浮點(diǎn)unit等，便使其單核心性能較Zen2提升19%。

3）異構(gòu)與集成：蘋果M1 Ultra芯片的推出帶來(lái)啟迪，利用逐步成熟的3D封裝、片間互聯(lián)等技術(shù)，使多芯片有效集成，似乎是延續(xù)摩爾定律的最佳實(shí)現(xiàn)路徑。

主流芯片廠商已開始全面布局：intel已擁有CPU、FPGA、IPU產(chǎn)品線，正加大投入GPU產(chǎn)品線，推出最新的Falcon Shores架構(gòu)，打磨異構(gòu)封裝技術(shù)；NvDIA則接連發(fā)布多芯片模組（MCM，Multi-Chip Module）Grace系列產(chǎn)品，預(yù)計(jì)即將投入量產(chǎn)；AMD則于近日完成對(duì)塞靈思的收購(gòu)，預(yù)計(jì)未來(lái)走向CPU+FPGA的異構(gòu)整合。

此外，英特爾、AMD、Arm、高通、臺(tái)積電、三星、日月光、Google云、Meta、微軟等十大行業(yè)主要參與者聯(lián)合成立了Chiplet標(biāo)準(zhǔn)聯(lián)盟，正式推出通用Chiplet的高速互聯(lián)標(biāo)準(zhǔn)通用小芯片互連（簡(jiǎn)稱“UCIe”）。

在UCIe的框架下，互聯(lián)接口標(biāo)準(zhǔn)得到統(tǒng)一。各類不同工藝、不同功能的Chiplet芯片，有望通過(guò)2D、2.5D、3D等各種封裝方式整合在一起，多種形態(tài)的處理引擎共同組成超大規(guī)模的復(fù)雜芯片系統(tǒng)，具有高帶寬、低延遲、經(jīng)濟(jì)節(jié)能的優(yōu)點(diǎn)。

以多核提升性能功耗比：多核處理器把多個(gè)處理器核集成到同一個(gè)芯片之上，每個(gè)單元的計(jì)算性能密度得以大幅提升。

同時(shí)，原有的外圍部件可以被多個(gè)CPU系統(tǒng)共享，可帶來(lái)更高的通信帶寬和更短的通信時(shí)延，多核處理器在并行性方面具有天然的優(yōu)勢(shì)，通過(guò)動(dòng)態(tài)調(diào)節(jié)電壓/頻率、負(fù)載優(yōu)化分布等，可有效降低功耗，提升性能。

以多線程提升總體性能：通過(guò)復(fù)制處理器上的結(jié)構(gòu)狀態(tài)，讓同一個(gè)處理器上的多個(gè)線程同步執(zhí)行并共享處理器的執(zhí)行資源，可以極小的硬件代價(jià)獲得相當(dāng)比例的總體性能和吞吐量提高。

制程的提升：根據(jù)摩爾定律，集成電路芯片上、所集成的電路數(shù)目每隔18個(gè)月翻一番，微處理器性能每隔18個(gè)月提高一倍。CPU的制程工藝越小，意味著單個(gè)晶體管的尺寸越小，同樣的內(nèi)核面積可以放下更多的晶體管，同樣的空間內(nèi)可以增加更多內(nèi)核；同時(shí)制程工藝越小，元件的電容就越小，電流在晶體管中的傳輸距離越短，CPU的主頻可以進(jìn)一步提升，功耗也能不斷降低。

微架構(gòu)的改進(jìn)：眾多算數(shù)單元、邏輯單元、寄存器在三態(tài)總線和單項(xiàng)總線，以及各個(gè)控制線的連接下共同組成CPU微架構(gòu)。不同的微架構(gòu)設(shè)計(jì)，對(duì)CPU性能和效能的提升發(fā)揮著直觀重要的作用。

微架構(gòu)的升級(jí)，一般涉及到指令集拓展、硬件虛擬化、大內(nèi)存、亂序執(zhí)行等等一系列復(fù)雜的工作，還涉及到編譯器、函數(shù)庫(kù)等軟件層次的修改，牽一發(fā)而動(dòng)全身。

“Tick-Tock”模式失效：摩爾定律于上世紀(jì)60年代提出，直至2011年前，計(jì)算機(jī)元器件的小型化是提升處理性能的主要因素。2011年后，摩爾定律開始放緩，制硅工藝的改進(jìn)將不再提供顯著的性能提升。

自2007年開始，英特爾開始實(shí)施“Tick-Tock”發(fā)展模式，以兩年為周期，在奇數(shù)年（Tick）推出新制成工藝，在偶數(shù)年（Tock）推出新架構(gòu)的微處理器。

在14nm轉(zhuǎn)10nm接連推遲后，英特爾自2016年起宣布停止 “Tick-Tock”處理器升級(jí)周期，改為處理器升級(jí)的三步戰(zhàn)略：制程工藝（Process）-架構(gòu)更新（Architecture）-優(yōu)化（Optimization）。

后摩爾時(shí)代，頂層優(yōu)化或更為重要：新的「底層」優(yōu)化路徑被提出，例如3D堆疊、量子計(jì)算、光子學(xué)、超導(dǎo)電路、石墨烯芯片等，技術(shù)目前仍處于起步階段，但后續(xù)有望突破現(xiàn)有想象空間。

根據(jù)MIT在《Science》發(fā)布的文章，后摩爾定律時(shí)代，算力提升將更大程度上來(lái)源于計(jì)算堆棧的「頂層」，即軟件、算法和硬件架構(gòu)。

通用指令集為了覆蓋更多應(yīng)用，往往需要支持上千條指令，導(dǎo)致流水線前端設(shè)計(jì)（取指、譯碼、分支預(yù)測(cè)等變得十分復(fù)雜），對(duì)性能功耗會(huì)產(chǎn)生負(fù)面影響。

領(lǐng)域?qū)Ｓ弥噶罴纱蟠鬁p少指令數(shù)量，并且能夠增大操作粒度，融合訪存優(yōu)化，實(shí)現(xiàn)數(shù)量級(jí)提高性能功耗比。

新興場(chǎng)景出現(xiàn)，CPU從通用向?qū)Ｓ冒l(fā)展：1972年，戈登·貝爾（Gordon Bell）提出，每隔10年，會(huì)出現(xiàn)新一類計(jì)算機(jī)（新編程平臺(tái)、，新網(wǎng)絡(luò)連接、新用戶接口，新使用方式且更廉價(jià)），形成新的產(chǎn)業(yè)。

1987 年，原日立公司總工程師牧村次夫（Tsugio Makimoto）提出，半導(dǎo)體產(chǎn)品未來(lái)可能將沿著“標(biāo)準(zhǔn)化”與“定制化”交替發(fā)展的路線前進(jìn)，大約每十年波動(dòng)一次。

經(jīng)歷了桌面PC、互聯(lián)網(wǎng)時(shí)代和移動(dòng)互聯(lián)網(wǎng)時(shí)代后，“萬(wàn)物智聯(lián)”已成為新的風(fēng)向標(biāo)，AIoT正掀起世界信息產(chǎn)業(yè)革命第三次浪潮。而AIoT最明顯的特征是需求碎片化，現(xiàn)有的通用處理器設(shè)計(jì)方法難以有效應(yīng)對(duì)定制化需求。

通用與性能，難以兼得：CPU是最通用的處理器引擎，指令最為基礎(chǔ)，具有最好的靈活性。Coprocessor，是基于CPU的擴(kuò)展指令集的運(yùn)行引擎，如ARM的NEON、Intel的AVX、AMX擴(kuò)展指令集和相應(yīng)的協(xié)處理器。

GPU本質(zhì)上是很多小CPU核的并行，因此NP、Graphcore的IPU等都和GPU處于同一層次的處理器類型。

FPGA，從架構(gòu)上來(lái)說(shuō)，可以用來(lái)實(shí)現(xiàn)定制的ASIC引擎，但因?yàn)橛布删幊痰哪芰?，可以切換到其他ASIC引擎，具有一定的彈性可編程能力。

DSA，是接近于ASIC的設(shè)計(jì)，但具有一定程度上的可編程。覆蓋的領(lǐng)域和場(chǎng)景比ASIC要大，但依然存在太多的領(lǐng)域需要特定的DSA去覆蓋。

ASIC，是完全不可編程的定制處理引擎，理論上最復(fù)雜的“指令”以及最高的性能效率。因?yàn)楦采w的場(chǎng)景非常小，因此需要數(shù)量眾多的ASIC處理引擎，才能覆蓋各類場(chǎng)景。

后摩爾時(shí)代，異構(gòu)與集成：海外芯片巨頭積極布局異構(gòu)計(jì)算：英特爾現(xiàn)已布局CPU、FPGA、IPU、GPU產(chǎn)品線，并接連公Alder Lake、Falcon Shores等新架構(gòu)；英偉達(dá)接連發(fā)布多芯片模組（MCM，Multi-Chip Module）Grace系列產(chǎn)品，預(yù)計(jì)即將投入量產(chǎn)；AMD則于近日完成對(duì)塞靈思的收購(gòu)，預(yù)計(jì)未來(lái)走向CPU+FPGA的異構(gòu)整合。

晶圓廠和封裝廠亦積極投入異構(gòu)集成：異構(gòu)計(jì)算需要有先進(jìn)的集成封裝技術(shù)，得益于近十年來(lái)先進(jìn)封裝與芯片堆疊技術(shù)的發(fā)展，例如3D堆疊、SiP等，也使得異構(gòu)集成成為了大幅存在可能。

目前，2.5D封裝技術(shù)已發(fā)展較為成熟，例如臺(tái)積電的CoWoS，三星的I-Cube，3D封裝成為各大晶圓廠發(fā)力方向。英特爾已開始量產(chǎn)Foveros技術(shù)，三星已完成X-Cube的驗(yàn)證，臺(tái)積電亦提出了SoiC的整合方案。

CPU+XPU已廣泛應(yīng)用，但仍有優(yōu)化空間。傳統(tǒng)的異構(gòu)計(jì)算架構(gòu)存在IO路徑較長(zhǎng)，輸入輸出資源損耗等固有問(wèn)題，并且仍然無(wú)法完全兼顧極致性能與靈活性。

Chiplet聯(lián)盟組建，探索超異構(gòu)可能性。2022年3月3日，英特爾、AMD、Arm、高通、臺(tái)積電、三星、日月光、Google云、Meta、微軟等十大行業(yè)巨頭聯(lián)合成立了Chiplet標(biāo)準(zhǔn)聯(lián)盟，正式推出了通用Chiplet的高速互聯(lián)標(biāo)準(zhǔn)“Universal Chiplet Interconnect Express”（通用小芯片互連，簡(jiǎn)稱“UCIe”）。

邊緣計(jì)算服務(wù)器是解決AIoT時(shí)代“算力荒”的必備產(chǎn)物：云計(jì)算無(wú)法滿足海量、實(shí)時(shí)的處理需求。伴隨人工智能、5G、物聯(lián)網(wǎng)等技術(shù)的逐漸成熟，算力需求從數(shù)據(jù)中心不斷延伸至邊緣，以產(chǎn)生更快的網(wǎng)絡(luò)服務(wù)響應(yīng)，滿足行業(yè)在實(shí)時(shí)業(yè)務(wù)、應(yīng)用智能、安全與隱私保護(hù)等方面的基本需求。

市場(chǎng)規(guī)模爆發(fā)式增長(zhǎng)。根據(jù)IDC，中國(guó)邊緣計(jì)算服務(wù)器整體市場(chǎng)規(guī)模達(dá)到33.1億美元，較2020年增長(zhǎng)23.9%，預(yù)計(jì)2020-2025年CAGR將達(dá)到22.2%，高于全球的20.2%。

定制服務(wù)器快速增加。當(dāng)前通用服務(wù)器和邊緣定制服務(wù)器占比分別為87.1%和12.9%，隨著邊緣應(yīng)用場(chǎng)景的逐漸豐富，為適應(yīng)復(fù)雜多樣的部署環(huán)境和業(yè)務(wù)需求，對(duì)于具有特定外形尺寸、低能耗、更寬工作溫度以及其他特定設(shè)計(jì)的邊緣定制服務(wù)器的需求將快速增加。IDC預(yù)計(jì)邊緣定制服務(wù)器將保持76.7%的復(fù)合增速，2025年滲透率將超過(guò)40%。

根據(jù)業(yè)務(wù)場(chǎng)景多樣定制，集成化是趨勢(shì)：區(qū)別于數(shù)據(jù)中心服務(wù)器，邊緣服務(wù)器配置并不一味追求最高計(jì)算性能、最大存儲(chǔ)、最大擴(kuò)展卡數(shù)量等參數(shù)，而是在有限空間里面盡量提供配置靈活性。當(dāng)前邊緣服務(wù)器多用于工業(yè)制造等領(lǐng)域，根據(jù)具體環(huán)境（高壓、低溫、極端天氣）等選擇主板、處理器等，下游需求呈現(xiàn)碎片化，未有一的標(biāo)準(zhǔn)。

伴隨越來(lái)越多的計(jì)算、存儲(chǔ)需求被下放至邊緣端，當(dāng)前趨勢(shì)通常涉及更緊密的加速集成，以滿足包括AI算力在內(nèi)的多種需求。超大規(guī)模云提供商正在開始研究分類體系結(jié)構(gòu)，為了減少熟悉的多租戶方法不可避免的碎片化，其中計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和內(nèi)存成為一組可組合的結(jié)構(gòu)，機(jī)柜式架構(gòu)（RSA）分別部署了CPU、GPU、硬件加速、RAM、存儲(chǔ)和網(wǎng)絡(luò)容量。

云服務(wù)器正在全球范圍內(nèi)取代傳統(tǒng)服務(wù)器：云服務(wù)器的發(fā)展使中國(guó)成為全球服務(wù)器大國(guó)。隨著移動(dòng)終端、云計(jì)算等新一代信息技術(shù)的發(fā)展和應(yīng)用，企業(yè)和政府正陸續(xù)將業(yè)務(wù)從傳統(tǒng)數(shù)據(jù)中心向云數(shù)據(jù)中心遷移。雖然目前中國(guó)云計(jì)算領(lǐng)域市場(chǎng)相比美國(guó)相對(duì)落后，但近年來(lái)我國(guó)的云計(jì)算發(fā)展速度顯著高于全球云計(jì)算市場(chǎng)增長(zhǎng)速度，預(yù)計(jì)未來(lái)仍將保持這一趨勢(shì)。

面向不同需求，提供多樣性算力。一般小型網(wǎng)站請(qǐng)求處理數(shù)據(jù)較少，多采用1、2核CPU；地方門戶、小型行業(yè)網(wǎng)站，需要4核以上的CPU；而電商平臺(tái)，影視類網(wǎng)站等，則需要16核以上的CPU。此外，云服務(wù)器亦提供靈活的擴(kuò)容、升級(jí)等服務(wù)，一般均支持異構(gòu)類算力的加載

CPU+ASIC，云服務(wù)器異構(gòu)趨勢(shì)明顯：在傳統(tǒng)的計(jì)算機(jī)虛擬化架構(gòu)中，業(yè)務(wù)層為虛擬機(jī)，管理層為宿主機(jī)，業(yè)務(wù)和管理共存于CPU運(yùn)行，導(dǎo)致CPU大概只有七成的資源能夠提供給用戶。

AWS創(chuàng)造性進(jìn)行架構(gòu)重構(gòu)，將業(yè)務(wù)和管理分離到兩個(gè)硬件實(shí)體中，業(yè)務(wù)運(yùn)行在CPU，管理則運(yùn)行在NITRO芯片中，既將虛擬化的損耗挪到定制的Nitro系統(tǒng)上，又提高了安全性。

Nitro架構(gòu)不僅性能強(qiáng)大，而且特別靈活，可以基于一些常用的Hypervisor（如qemu-kvm，vmware）運(yùn)行虛擬機(jī)，甚至可以直接裸跑操作系統(tǒng)，可節(jié)省30%CPU資源。

ARM或成重要挑戰(zhàn)者，英偉達(dá)推出首款數(shù)據(jù)中心專屬CPU GRACE：公有云巨頭價(jià)格競(jìng)爭(zhēng)激烈，國(guó)內(nèi)一線城市能耗管控嚴(yán)格，ARM移動(dòng)端的優(yōu)勢(shì)和低能耗特征是大型數(shù)據(jù)中心解決節(jié)能和成本問(wèn)題的重要方案之一；國(guó)內(nèi)自主可控趨勢(shì)背景下，若能夠搭建強(qiáng)有力的生態(tài)聯(lián)盟，是未來(lái)可能顛覆原有格局的最有力挑戰(zhàn)者。

英偉達(dá)宣布推出首款面向AI基礎(chǔ)設(shè)施和高性能計(jì)算的數(shù)據(jù)中心專屬CPU——NvDIA Grace，由兩個(gè)CPU芯片通過(guò)最新一代NVLink-C2C技術(shù)互聯(lián)組成。

Grace基于最新的ARMv9架構(gòu)，單個(gè)socket擁有144個(gè)CPU核心，利用糾錯(cuò)碼（ECC）等機(jī)制提供當(dāng)今領(lǐng)先服務(wù)器芯片兩倍的內(nèi)存帶寬和能效，兼容性亦十分突出，可運(yùn)行NvDIA所有的軟件堆棧和平臺(tái)，包括NvDIA RTX、HPC、Omniverse等。

從CPU到CPU+DPU：DPU，即數(shù)據(jù)處理單元（Data Processing Unit），主要作為CPU的卸載引擎，主要處理網(wǎng)絡(luò)數(shù)據(jù)和IO數(shù)據(jù)，并提供帶寬壓縮、安全加密、網(wǎng)絡(luò)功能虛擬化等功能，以釋放CPU的算力到上層應(yīng)用。

2013年，AWS研發(fā)的的Nitro和阿里云研發(fā)的X-Dragon均可看作DPU前身；英偉達(dá)在2020年正式發(fā)布一款命名為“DPU”的產(chǎn)品，將其定義為CPU和GPU之后的第三顆主力芯片，DPU的出現(xiàn)是異構(gòu)計(jì)算的另一個(gè)階段性標(biāo)志。

DPU是CPU和GPU的良好補(bǔ)充，據(jù)英偉達(dá)預(yù)測(cè)，每臺(tái)服務(wù)器可能沒(méi)有GPU，但必須有DPU，用于數(shù)據(jù)中心的DPU的量將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級(jí)別。

AI算力已成為驅(qū)動(dòng)人工智能發(fā)展的核心動(dòng)力：目前，全球AI服務(wù)器占AI基礎(chǔ)設(shè)施市場(chǎng)的84.2%以上，是AI基礎(chǔ)設(shè)施的主體。未來(lái)AI服務(wù)器將保持高速增長(zhǎng)，預(yù)計(jì)在2024年全球市場(chǎng)規(guī)模將達(dá)到251億美元。浪潮聯(lián)合IDC發(fā)布的《2020全球計(jì)算力指數(shù)評(píng)估報(bào)告》顯示，AI計(jì)算在整體計(jì)算市場(chǎng)占比正逐年提高，全球增長(zhǎng)的AI計(jì)算支出50%來(lái)自中國(guó)。

從CPU到CPU+XPU：AI模型通過(guò)數(shù)千億的參數(shù)進(jìn)行訓(xùn)練，增強(qiáng)包含數(shù)萬(wàn)億字節(jié)的深度推薦系統(tǒng)，其復(fù)雜性和規(guī)模正呈現(xiàn)爆炸式增長(zhǎng)。這些龐大的模型正在挑戰(zhàn)當(dāng)今系統(tǒng)的極限，僅憑CPU的優(yōu)化難以滿足其性能需求。

因此，AI服務(wù)器主要采用異構(gòu)形式，表現(xiàn)形態(tài)多為機(jī)架式。在異構(gòu)方式上，可以為CPU＋GPU、CPU＋FPGA、CPU＋TPU、CPU＋ASIC或CPU＋多種加速卡。

現(xiàn)在市面上的AI服務(wù)器普遍采用CPU+GPU的形式，因?yàn)镚PU與CPU不同，采用的是并行計(jì)算的模式，擅長(zhǎng)梳理密集型的數(shù)據(jù)運(yùn)算，如圖形渲染、機(jī)器學(xué)習(xí)等。繼續(xù)擴(kuò)展模型以實(shí)現(xiàn)高度準(zhǔn)確性和實(shí)用性，需要能夠快速訪問(wèn)大型內(nèi)存池并使 CPU 和 GPU 緊密耦合。

從CPU到CPU+TPU：TPU，即張量處理單元（Tensor Processing Unit），是Google為加速深度學(xué)習(xí)所開發(fā)的專用集成電路（DSA），采用專用CISC指令集，自定義改良邏輯、線路、運(yùn)算單元、內(nèi)存系統(tǒng)架構(gòu)、片上互聯(lián)等，并針對(duì)Tensorflow等開源框架進(jìn)行優(yōu)化。

2015年起，谷歌發(fā)布TPUv1，應(yīng)用于Alpha Go等特定內(nèi)部項(xiàng)目；2018年，谷歌發(fā)布TPUv3，開始向第三方出售，TPU開始逐漸走向商用。

2021年，谷歌發(fā)布TPUv4i，其性能相較第三代TPU提升2.7倍；256塊TPU僅用1.82分鐘便完成NLP領(lǐng)域著名的“BERT”模型訓(xùn)練，而同樣條件下，利用Nvdia A100 GPU則需要3.36分鐘。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴