0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)時(shí)代有一個(gè)時(shí)代的計(jì)算架構(gòu)

傳感器技術(shù) ? 來(lái)源:量子位 ? 2023-01-06 11:25 ? 次閱讀

Can Machines Think?

這是阿蘭·圖靈在1950年論文《計(jì)算機(jī)器和智能》中的經(jīng)典提問(wèn),圍繞著圖靈的目標(biāo),軟件和硬件開(kāi)啟了分頭行動(dòng)。

軟件,以算法為核心,衍生出了神經(jīng)網(wǎng)絡(luò),并在深度學(xué)習(xí)的加持下,讓人工智能浪潮實(shí)現(xiàn)全面洶涌。

硬件,以芯片為載體,從CPU、GPU到各類(lèi)AI芯片,從執(zhí)行人的計(jì)算程序,到像人一樣計(jì)算。芯片和AI,硬件和軟件,一個(gè)源頭流出的兩條大河,終于在此刻合流交匯。

但背后的驅(qū)動(dòng)力也越來(lái)越明顯:

一個(gè)時(shí)代有一個(gè)時(shí)代的架構(gòu)。

現(xiàn)在,面向AI時(shí)代的計(jì)算架構(gòu),呼之欲出。

讓機(jī)器執(zhí)行人的思考和計(jì)算:從CPU到GPU

要想知道未來(lái)到哪去,必先知道自己從哪兒來(lái)。

今天,一切智能機(jī)器無(wú)論大小,都少不了一塊CPU。正是這個(gè)好比“大腦”的東西,讓大大小小的硬件可以執(zhí)行人寫(xiě)好的規(guī)則,實(shí)現(xiàn)各式各樣的功能。

世界首塊CPU誕生于1971年,但它的概念可以追溯到世界上第一臺(tái)具有現(xiàn)代意義的通用計(jì)算機(jī)——EDVAC身上。

EDVAC是ENIAC(世界第一臺(tái)電子計(jì)算機(jī))的小老弟,由馮·諾伊曼設(shè)計(jì)。EDVAC最大的改變之一,就是將計(jì)算機(jī)劃由運(yùn)算器、控制器、存儲(chǔ)器、輸入和輸出這五個(gè)部分組成。

這就是著名的馮·諾伊曼架構(gòu)。從這個(gè)架構(gòu)里,我們就可以看到CPU的雛形。

——從彼時(shí)至今,無(wú)論CPU的具體實(shí)現(xiàn)怎么變、晶體管數(shù)量翻多少番,它的構(gòu)成始終由運(yùn)算器、控制器和寄存器這三大部分組成。

其中,運(yùn)算器也叫算術(shù)邏輯單元(ALU),負(fù)責(zé)算術(shù)運(yùn)算和邏輯運(yùn)算。寄存器細(xì)分為指令寄存器和數(shù)據(jù)寄存器等,負(fù)責(zé)暫存指令、ALU所需的操作數(shù)、ALU算出的結(jié)果等。

控制器則負(fù)責(zé)整體調(diào)度工作,包括對(duì)要執(zhí)行的指令進(jìn)行譯碼、從內(nèi)存中調(diào)取數(shù)據(jù)給寄存器、向運(yùn)算器和寄存器發(fā)出具體操作指令等。

從上面這個(gè)分工我們也能看出CPU的大概工作流程,簡(jiǎn)單來(lái)說(shuō)就是這四步:

1、從內(nèi)存提取指令;2、解碼;3、執(zhí)行;4、寫(xiě)回。

其中寫(xiě)回到寄存器的結(jié)果,可供后續(xù)指令快速訪問(wèn)。

看起來(lái),整個(gè)流程沒(méi)有什么bug。

但仔細(xì)回看一下CPU三大組成的各自分工,可以發(fā)現(xiàn)控制器和寄存器是這里面要負(fù)責(zé)的東西最多、要存的東西最多的兩部分。

從下面這張CPU的簡(jiǎn)略架構(gòu)圖也能看出,運(yùn)算器“偏居一隅”,幾乎80%的空間都被控制單元和存儲(chǔ)單元占據(jù)。

b50e2932-8d4b-11ed-bfe3-dac502259ad0.png

這樣的設(shè)計(jì)就造成CPU最擅長(zhǎng)的是邏輯控制,而非計(jì)算。

同時(shí),依照馮·諾依曼架構(gòu)“順序執(zhí)行”的原則,“古板”的CPU只能執(zhí)行完一條指令再來(lái)下一條,計(jì)算能力進(jìn)一步受限。

當(dāng)然,你說(shuō)CPU靈活性高、通用性強(qiáng),我們可以將它進(jìn)行同構(gòu)并行。

但別忘了,單個(gè)CPU的性能上限就那么高、能容納的核數(shù)也有限,這種方法能挖掘的潛能實(shí)在有限。

所以,要是讓CPU來(lái)完成計(jì)算量動(dòng)輒上億的AI任務(wù),實(shí)在是“愛(ài)莫能助”。就比如在自動(dòng)駕駛領(lǐng)域,系統(tǒng)需要同時(shí)查看人行道、紅綠燈等路況,如果交給CPU來(lái)計(jì)算,總不能車(chē)都撞上了還沒(méi)算出來(lái)結(jié)果吧。

所以,針對(duì)CPU“拉垮”的計(jì)算能力,GPU站在了浪潮之巔。

正如其全稱“圖形計(jì)算單元”,GPU的初衷主要是為了接替CPU進(jìn)行圖形渲染的工作。

因?yàn)閳D像上的每一個(gè)像素點(diǎn)都需要處理,這項(xiàng)任務(wù)計(jì)算量相當(dāng)大。尤其遇上一個(gè)復(fù)雜的三維場(chǎng)景,就需要在一秒內(nèi)處理幾千萬(wàn)個(gè)三角形頂點(diǎn)和光柵化幾十億的像素。

不過(guò),由于每個(gè)像素點(diǎn)處理的過(guò)程和方式相差無(wú)幾,這項(xiàng)艱巨的任務(wù)可以靠并行計(jì)算來(lái)化解。

而這恰好就是GPU最得天獨(dú)厚的優(yōu)勢(shì),尤其以處理這種邏輯簡(jiǎn)單、類(lèi)型統(tǒng)一的瑣碎計(jì)算任務(wù)為甚。

GPU之所以擅長(zhǎng)并行計(jì)算,從其架構(gòu)里就決定了。

GPU幾乎主要由計(jì)算單元ALU組成,僅有少量的控制單元和存儲(chǔ)單元。

這也就意味著,GPU可以擁有數(shù)百、數(shù)千甚至上萬(wàn)核心來(lái)同時(shí)處理計(jì)算任務(wù),使計(jì)算的并行度得到成千上萬(wàn)倍的提升——相比現(xiàn)在普通電腦最多8核CPU同時(shí)工作,這是一個(gè)多么恐怖的數(shù)字。

再舉一個(gè)最簡(jiǎn)單的例子來(lái)直觀感受一下。

比如現(xiàn)在我們來(lái)計(jì)算一下5000個(gè)數(shù)相加之后的總和。

如果我們用CPU來(lái)算,即使派上8核CPU,每個(gè)核也需要計(jì)算625個(gè)數(shù);假設(shè)每計(jì)算一個(gè)數(shù)需要1s,即使8核并行計(jì)算,總共也需要625s。(這里暫時(shí)不考慮支持向量指令的CPU)而GPU,核心數(shù)成千上萬(wàn),計(jì)算5000個(gè)數(shù)字只需每核算1個(gè)數(shù),1s就能搞定。

625sVS1s,這是何等的差距。

除了并行計(jì)算能力,GPU的內(nèi)存帶寬也是CPU的幾十倍 ,決定了它將數(shù)據(jù)從內(nèi)存移動(dòng)到計(jì)算核心的速度更快,整體計(jì)算性能更加讓CPU望塵莫及。

由于GPU的設(shè)計(jì)并沒(méi)有專門(mén)跟圖形綁定的邏輯,屬于一種通用的并行計(jì)算架構(gòu),所以除了圖像處理,它其實(shí)也非常適用于科學(xué)計(jì)算,乃至復(fù)雜的AI任務(wù)。

所以在2012年,當(dāng)Hinton及其弟子Alex Krizhevsky將其作為深度學(xué)習(xí)模型AlexNet的計(jì)算芯片,一舉贏得Image Net圖像識(shí)別大賽之后,GPU在AI領(lǐng)域的名聲就一炮打響。

而早就基于自家GPU推出了CUDA系統(tǒng)的英偉達(dá),又憑借著三年時(shí)間里將GPU性能提升65倍,并提供后端模型訓(xùn)練和前端推理應(yīng)用的全套深度學(xué)習(xí)解決方案,奠定了自己在該領(lǐng)域的王者地位。

直到今天,GPU也還是AI時(shí)代算力的核心、人工智能硬件領(lǐng)域的霸主。

然而,GPU屬于通用計(jì)算芯片和架構(gòu),并非專門(mén)為AI打造,無(wú)法實(shí)現(xiàn)性能和功耗的統(tǒng)一。它的計(jì)算能力越強(qiáng)代表核心越多,功耗也就越大。

比如RTX 4090,450W;比如今年9月剛上市的H100,直接史無(wú)前例,700W。這種情況還大有逐年攀升之勢(shì)。

還是拿自動(dòng)駕駛舉例,在電車(chē)基本成為主流的當(dāng)下,如此高的功耗勢(shì)必對(duì)續(xù)航里程造成困擾。更別提越來(lái)越多的終端也開(kāi)始具備AI能力(比如手機(jī)、智能音箱),它們不僅要求計(jì)算能力,對(duì)功耗的要求也更加嚴(yán)格,再?gòu)?qiáng)的GPU在這里也顯得很弱勢(shì)。

另外,一些更復(fù)雜的AI場(chǎng)景(如云端推理、模型訓(xùn)練等),常常動(dòng)輒就需要上百塊GPU一起運(yùn)算,這讓整個(gè)計(jì)算平臺(tái)的功耗控制也是相當(dāng)棘手。很多機(jī)構(gòu)不得不考慮能源和環(huán)保問(wèn)題。

這不,今年7月誕生的目前最大的多語(yǔ)言開(kāi)源模型BLOOM,就動(dòng)用了384塊A100煉成,釋放的熱量最終都用來(lái)給學(xué)校供暖了。

所以,綜上來(lái)看,CPU和GPU的出現(xiàn),雖然幫助機(jī)器擁有了執(zhí)行人的思考和計(jì)算的能力,尤其后者讓AI計(jì)算任務(wù)得到了相當(dāng)大的加速,但一些缺點(diǎn)還是讓它們無(wú)法大展身手。

因此要想讓機(jī)器像人一樣思考和計(jì)算,通用計(jì)算芯片的架構(gòu)決定了不會(huì)是最佳方案。

讓機(jī)器像人一樣思考和計(jì)算:AI芯片大爆發(fā)

數(shù)據(jù)驅(qū)動(dòng)的方式方法,讓機(jī)器像人一樣思考和計(jì)算展現(xiàn)了可能。

但背后的計(jì)算需求,也讓過(guò)去的計(jì)算架構(gòu)越顯強(qiáng)弩之末。

據(jù)統(tǒng)計(jì),光是在2012年到2018年的六年時(shí)間里,人們對(duì)于算力的需求增長(zhǎng)了就超過(guò)30萬(wàn)倍。也就說(shuō),每3.5個(gè)月AI算力就大約翻一倍。如今這個(gè)數(shù)字還在繼續(xù)攀升。

所謂“通不如精”,以CPU和GPU為代表的通用計(jì)算芯片架構(gòu),已經(jīng)無(wú)法很好地匹配和滿足這一需求,所以在各類(lèi)新AI技術(shù)層出不窮的同時(shí),新計(jì)算、新架構(gòu)、新芯片在過(guò)去幾年也迎來(lái)了前所未有的大爆炸。

因此這幾年,我們看到了很多除了CPU和GPU以外的各種“xPU”,諸如谷歌TPU、Graphcore IPU、特斯拉NPU、英偉達(dá)DPU……

盡管它們的分類(lèi)不同,有的屬于半定制化的FPGA,有的屬于全定制化的ASIC,有的應(yīng)用于終端,有的應(yīng)用于云端……但作為專門(mén)為AI任務(wù)和需求而生的新芯片,它們都有著比CPU/GPU功耗低、計(jì)算性能高、成本更低等優(yōu)勢(shì),落地到哪里就給哪里帶去了翻天覆地的變化,比如最近幾年的智能手機(jī)、自動(dòng)駕駛、機(jī)器人、VR等領(lǐng)域。

按照能力和用途,這些AI芯片們?cè)谶@個(gè)過(guò)程中上演了這樣兩個(gè)階段:

首先是僅作為加速器,輔助CPU完成HPC、模型訓(xùn)練/推理等AI任務(wù)。

(AI芯片幾乎都不具有圖靈完備,所以必須要和CPU一起搭配使用,這也是所謂的“異構(gòu)融合”大趨勢(shì)。)

它們的結(jié)構(gòu)類(lèi)似串聯(lián),可以用“CPU+xPU”這樣的公式來(lái)表達(dá)。

這一組合最經(jīng)典的其實(shí)就是CPU+GPU,它倆到現(xiàn)在其實(shí)也還在流行。

b532a92e-8d4b-11ed-bfe3-dac502259ad0.png

只不過(guò)如前面所說(shuō),GPU不算專門(mén)為AI設(shè)計(jì)的芯片,無(wú)法在這一領(lǐng)域發(fā)揮出極致的性能,所以這里的xPU更多的指TPU、IPU、DPU等AI加速芯片。

(當(dāng)然,GPU還是自有它的用處,所以它有時(shí)也會(huì)加入進(jìn)來(lái),形成“CPU+GPU+xPU”的結(jié)構(gòu)。)

這一模式最大的特點(diǎn)就是,CPU只負(fù)責(zé)少量的計(jì)算,一般為那些情況比較復(fù)雜、計(jì)算難度不確定、靈活性要求高的部分;大部分“臟活累活”都由計(jì)算能力超強(qiáng)、能耗又沒(méi)那么高的xPU來(lái)完成。

就如下圖所示,在實(shí)際情況中,它們的分工很可能遵守“二八定律”——xPU負(fù)責(zé)整個(gè)系統(tǒng)80%的計(jì)算任務(wù),剩下的20%由CPU+GPU分擔(dān),其中GPU的比例又高達(dá)16%,留給CPU的只剩下4%。

b540a2cc-8d4b-11ed-bfe3-dac502259ad0.png

如果進(jìn)行軟硬件融合的進(jìn)一步優(yōu)化,三者之間的比例還可能變動(dòng)為90%、9%和1%。

這樣各司其職、各揮所長(zhǎng)的安排可以保證最極致的性能和性價(jià)比,做到從前CPU和GPU單上無(wú)法企及的高度。

其次,AI芯片作為專用芯片,針對(duì)專門(mén)的領(lǐng)域推出,負(fù)責(zé)某一特定AI任務(wù)的計(jì)算。

(說(shuō)通俗點(diǎn),就是某一塊專用芯片能在自動(dòng)駕駛領(lǐng)域使用,換了機(jī)器人領(lǐng)域就不行)。

在這種模式下,各xPU已成為各系統(tǒng)的主角,決定該系統(tǒng)的整體性能和效果。

這就導(dǎo)致一些自動(dòng)駕駛公司,在宣傳它們的技術(shù)時(shí),只把xPU拉出來(lái)大肆宣傳,基本不提CPU和GPU的事兒了。

那么CPU在干嘛?當(dāng)然是利用自己擅長(zhǎng)的邏輯控制來(lái)把控整個(gè)流程。

因此此時(shí),CPU和AI芯片的關(guān)系更像一種并聯(lián)結(jié)構(gòu),我們就可以用“CPU、xPU”的公式來(lái)表達(dá)(當(dāng)然,GPU也仍然可能參與其中)。

如前面所說(shuō),由于CPU基本不決定計(jì)算性能,我們也就不用再寄希望于CPU的戰(zhàn)斗力有多強(qiáng)。

進(jìn)一步地,我們可以認(rèn)為,這種模式其實(shí)是將通用計(jì)算芯片的核心地位削減了——CPU的地位又變了。

那么,成為“中流砥柱”的AI芯片們究竟有多大威力?我們來(lái)看3個(gè)案例。

首先是云端。

在這個(gè)領(lǐng)域,互聯(lián)網(wǎng)巨頭們有著“本土作戰(zhàn)”的優(yōu)勢(shì),因此大多可以不依賴英偉達(dá)等傳統(tǒng)巨頭。

如谷歌2015年就推出了自己的云端加速AI芯片TPU。

它的中文名叫張量處理器,屬于ASIC芯片的一種,專為加速深度學(xué)習(xí)框架TensorFlow而設(shè)計(jì)。

得益于用量化技術(shù)進(jìn)行8位整數(shù)運(yùn)算、脈動(dòng)陣列、基于復(fù)雜指令集(CISC)等設(shè)計(jì),它與同期的CPU和GPU相比(英特爾至強(qiáng)E5-2699 v3與Tesla K80 GPU),可以提供大約15-30倍的性能提升。

如下圖所示,當(dāng)將延遲全部控制在7毫秒之內(nèi)時(shí),TPU每秒可運(yùn)行的MLP0預(yù)測(cè)可達(dá)22.5萬(wàn)次。同等情況下,CPU只有5000多,GPU也僅為1.3萬(wàn)+。

b54f81c0-8d4b-11ed-bfe3-dac502259ad0.png

效率方面(性能/瓦特)的提升也高達(dá)30-80倍:

b559b14a-8d4b-11ed-bfe3-dac502259ad0.png

(谷歌第一代TPU功耗約為40W,性能最強(qiáng)的第四代也只有175W,而同時(shí)期的A100已達(dá)400W。)

這樣的成績(jī)意味著它既可以大規(guī)模運(yùn)行于最先進(jìn)的神經(jīng)網(wǎng)絡(luò),也可以同時(shí)把成本控制在可接受的程度上。

b562e51c-8d4b-11ed-bfe3-dac502259ad0.png

△TPU在以上6種神經(jīng)網(wǎng)絡(luò)中的CNN1上表現(xiàn)最好,性能是GPU的26倍

它的出現(xiàn),不僅打破了深度學(xué)習(xí)硬件執(zhí)行的瓶頸,也在一定程度上撼動(dòng)了英偉達(dá)等傳統(tǒng)巨頭的地位。

谷歌也對(duì)它重用有加,搜索、街景、照片、翻譯等服務(wù)以及AlphaGo背后的神經(jīng)網(wǎng)絡(luò)計(jì)算,都交由它來(lái)完成。TPU的出現(xiàn),成為了AI時(shí)代云端計(jì)算需求的代表性解決方案。

終端方面,最具代表性的場(chǎng)景是AI司機(jī)變革下的汽車(chē)領(lǐng)域,即自動(dòng)駕駛。

目前,自動(dòng)駕駛芯片有兩條主要技術(shù)路線:

一是英偉達(dá)Orin靠“魔改”GPU所走的通用架構(gòu)路線;另一個(gè)是特斯拉、高通、Mobileye等青睞的專用芯片技術(shù)路線,也就是CPU+(GPU)+xPU的形式。

比如特斯拉FSD芯片就是主要由CPU、GPU和NPU組成。

b5701188-8d4b-11ed-bfe3-dac502259ad0.png

△圖源wikichip,特斯拉FSD芯片die shot圖

其中,NPU是里面占比最大的處理器,是整個(gè)架構(gòu)的重點(diǎn)。

它是由特斯拉硬件團(tuán)隊(duì)自研的一種ASIC芯片,主要用來(lái)對(duì)視覺(jué)算法中的卷積運(yùn)算和矩陣乘法運(yùn)算進(jìn)行有效加速。

具體來(lái)看,每塊NPU的運(yùn)行頻率為2GHz,峰值性能可達(dá)每秒36.86萬(wàn)億次運(yùn)算(TOPs),總功耗卻僅為7.5W。

所以,正是從特斯拉開(kāi)始,專為自動(dòng)駕駛所需的神經(jīng)網(wǎng)絡(luò)打造的NPU開(kāi)始成為汽車(chē)芯片的主要組成部分,傳統(tǒng)的通用芯片CPU、GPU開(kāi)始退居輔助位置。

國(guó)內(nèi)方面,唯一實(shí)現(xiàn)車(chē)載智能芯片大規(guī)模前裝量產(chǎn)的地平線,其代表芯片征程系列,也是采用“CPU+ASIC”的技術(shù)路線,ASIC部分用的是自研的BPU。

它的使用使最新的征程5芯片算力達(dá)到了128TOPS,功耗也只有30W。

由此,征程5靠4.3TOPS/W能耗比,一舉超過(guò)了特斯拉FSD(2TOPS/W)、也超過(guò)了2022年高端智能電動(dòng)車(chē)標(biāo)配的英偉達(dá)Orin(3.9TOPS/W)。

這種性能和功耗展現(xiàn)出的對(duì)比,甚至是標(biāo)志性的。背后是芯片架構(gòu)在AI時(shí)代正在發(fā)生的變化趨勢(shì):

CPU在其中的作用和地位一直在變化,而這其實(shí)反映的是AI時(shí)代計(jì)算架構(gòu)客觀需求的進(jìn)化——

一開(kāi)始是完全規(guī)則驅(qū)動(dòng),只有CPUGPU等通用計(jì)算芯片進(jìn)行發(fā)力,但由于架構(gòu)的規(guī)則都是被寫(xiě)死的,無(wú)法適應(yīng)越來(lái)越快的算力需求;

于是開(kāi)始了半規(guī)則驅(qū)動(dòng),CPUGPU等通用計(jì)算芯片的核心能力繼續(xù)發(fā)力,但已開(kāi)始有專用芯片的介入,讓AI計(jì)算架構(gòu)不再依賴于完全寫(xiě)死的規(guī)則,相對(duì)靈活地發(fā)揮出價(jià)值;

再到后來(lái),便開(kāi)啟了自定義規(guī)則驅(qū)動(dòng)的階段,此時(shí)專用型AI芯片占據(jù)核心地位,CPU/GPU僅僅作輔助之用,AI計(jì)算架構(gòu)獲得最大的自由度。

而我們的機(jī)器也終于能夠從執(zhí)行人的思考和計(jì)算,越來(lái)越接近像人一樣思考和計(jì)算。

但這還不是終點(diǎn)。

終極計(jì)算架構(gòu):Neural Computing

終點(diǎn)是什么?不同視角會(huì)有不同的答案。

最近正在被更多人認(rèn)同的是:Neural Computing,神經(jīng)網(wǎng)絡(luò)架構(gòu),或者說(shuō)神經(jīng)網(wǎng)絡(luò)統(tǒng)一架構(gòu)。

即一個(gè)大一統(tǒng)的神經(jīng)網(wǎng)絡(luò)計(jì)算架構(gòu),一套架構(gòu)驅(qū)動(dòng)所有場(chǎng)景、領(lǐng)域或任務(wù),比如圖像處理、視頻編解碼、圖像的生成、渲染,只需要很少的一點(diǎn)點(diǎn)改動(dòng)或者一點(diǎn)點(diǎn)算法的調(diào)優(yōu),就能解決各式各樣的問(wèn)題。

其特點(diǎn),就是用技術(shù)驅(qū)動(dòng)的方式去集成少量的規(guī)則,讓硬件因軟件而打造,軟件為實(shí)現(xiàn)算法而生,這樣更符合AI算法模型和任務(wù)的特點(diǎn),也才能真正讓模型躍遷驅(qū)動(dòng)性能躍遷。而不再是傳統(tǒng)的用硬件迭代解決問(wèn)題。

而且這種方法論,不只是單純的展望,因?yàn)檎诒粚?shí)踐。

比如智能車(chē)載芯片,不僅用神經(jīng)網(wǎng)絡(luò)做了分割、檢測(cè)和識(shí)別等語(yǔ)義級(jí)信息,而且能夠清晰地看到一個(gè)趨勢(shì),包括ISP(Image Signal Processing)這樣的圖像處理任務(wù),也都能夠用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了。

而業(yè)內(nèi),視頻編解碼相關(guān)的方法,神經(jīng)網(wǎng)絡(luò)也比傳統(tǒng)方式實(shí)現(xiàn)得更好,信噪比更優(yōu)異。

這兩年火爆的NeRF,涉及到過(guò)去非??简?yàn)硬件能力的圖像渲染,需要基于光線追蹤等等圖形學(xué)理論建立復(fù)雜規(guī)則的算法,也都被證明神經(jīng)網(wǎng)絡(luò)可以做得更好。

甚至用的還是很簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)計(jì)算方法,通過(guò)學(xué)習(xí)再推理的方式重構(gòu)整個(gè)過(guò)程,把過(guò)去花費(fèi)大力氣求解的3D點(diǎn)云恢復(fù)重建等問(wèn)題,更直接高效解決,實(shí)力和潛力,都不言自明了。

更重要的是,這種實(shí)踐被放到了一個(gè)更具時(shí)代變革的趨勢(shì)上:計(jì)算架構(gòu)領(lǐng)域到了一個(gè)分久必合的時(shí)候,到了一個(gè)傳統(tǒng)馮諾依曼架構(gòu)亟待突破的時(shí)候。

這是兩個(gè)時(shí)代的劃分,背后是人與機(jī)器關(guān)系的兩種范式。

1.0時(shí)代,依賴于經(jīng)驗(yàn)和規(guī)則,把人類(lèi)理性分析轉(zhuǎn)換成計(jì)算機(jī)可具體執(zhí)行的規(guī)則代碼,不僅定義目標(biāo),也定義整個(gè)執(zhí)行的過(guò)程。

這個(gè)時(shí)代里有很多經(jīng)典的算法排序,會(huì)告訴機(jī)器每一步做什么,以及怎么做。CPU和GPU都是這個(gè)時(shí)代里的集大成者。

2.0時(shí)代,依靠的是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和迭代,人類(lèi)提目標(biāo)、要求,有時(shí)目標(biāo)甚至?xí)且粋€(gè)大致的方向和框架,但機(jī)器會(huì)在神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)下,搞清楚如何去執(zhí)行,如何圍繞目標(biāo)求解最優(yōu)解——機(jī)器有了自主性。于是就得從算法、架構(gòu)到芯片確保機(jī)器的這種自主性。

1.0時(shí)代可以很多精細(xì)的規(guī)則、后處理、后融合,把所有人類(lèi)對(duì)于具體場(chǎng)景任務(wù)的know-how變成計(jì)算機(jī)可嚴(yán)格執(zhí)行的代碼,再與“摩爾定律”和硬件革新配合,做到極致的高效。

然而AI模型范式下對(duì)數(shù)據(jù)的需求,以及先進(jìn)制程的瀕臨極限,摩爾定律失效已然是再明顯不過(guò)的事實(shí)。

所以計(jì)算架構(gòu)和范式,一定會(huì)進(jìn)入2.0時(shí)代,人類(lèi)架構(gòu)的是神經(jīng)網(wǎng)絡(luò)模型,模型自己去求解目標(biāo)和結(jié)果,整個(gè)過(guò)程不再依賴人寫(xiě)死的規(guī)則和經(jīng)驗(yàn)。這會(huì)是軟件、硬件到認(rèn)知方法方方面面的根本性改變——傳統(tǒng)的計(jì)算架構(gòu)不再適用。

這種對(duì)自主機(jī)器到來(lái)的判斷,實(shí)際也能理解很多新現(xiàn)象。

比如馬斯克為什么把特斯拉的下一步,定在機(jī)器人形態(tài)上。

百度創(chuàng)始人李彥宏,把自動(dòng)駕駛、智能車(chē),放在了“汽車(chē)機(jī)器人”的維度上思考和談?wù)摗?/p>

以及當(dāng)前以智能車(chē)載芯片知名的地平線,全名里為啥是“機(jī)器人技術(shù)”。

因?yàn)橐坏┭刂鳤I落地展開(kāi)思考和推演,最后能作為獨(dú)立品類(lèi)、物種展現(xiàn)AI核心變革力的,有且只有機(jī)器人,或者說(shuō)就是自主機(jī)器人。

它可以是家里掃地的那種,可以是提供自動(dòng)駕駛出行的那種,也可以是仿照人類(lèi)形體而生的那種——從感知到控制都有自主權(quán),會(huì)是邊緣的而非云端的,會(huì)是去中心化的而非中心化的。

而既然自主機(jī)器人是AI最終的歸屬,那更本質(zhì)的要打造的產(chǎn)品,就是驅(qū)動(dòng)這個(gè)自主機(jī)器人的大腦,就是處理器,或者更本質(zhì)地說(shuō)是計(jì)算架構(gòu)。

這個(gè)本質(zhì)問(wèn)題的搞清楚,也能理解整個(gè)芯片半導(dǎo)體、信息計(jì)算產(chǎn)業(yè)的興衰規(guī)律。

按照經(jīng)濟(jì)學(xué)的觀點(diǎn)說(shuō),需求決定了供應(yīng),經(jīng)濟(jì)基礎(chǔ)決定了上層建筑。

這也是為什么一個(gè)時(shí)代會(huì)有一個(gè)時(shí)代的芯片,因?yàn)橐粋€(gè)時(shí)代會(huì)有一個(gè)時(shí)代的計(jì)算架構(gòu)。

既然神經(jīng)網(wǎng)絡(luò)已經(jīng)開(kāi)啟了“機(jī)器像人一樣思考和計(jì)算”的變革,那固化執(zhí)行人類(lèi)思考和計(jì)算過(guò)程的架構(gòu),注定讓出中心地位,通用計(jì)算芯片也會(huì)逐漸失去主導(dǎo)權(quán)。

One more thing

這種無(wú)情的歷史變遷,也讓另一個(gè)知名類(lèi)比更具現(xiàn)實(shí)骨感。

在AI浪潮洶涌的熱潮中,CPU一而再被質(zhì)疑,一而再被挑戰(zhàn),后來(lái)英特爾的高管給出了極具中國(guó)色彩的比喻——

“CPU是所有XPU平臺(tái)的中央神經(jīng)系統(tǒng),這就有點(diǎn)像中國(guó)人的主食米飯,別的XPU都是菜,不同地方的人喜歡不同的菜,但他們都需要和大米來(lái)搭配。”

這個(gè)類(lèi)比,彼時(shí)彼刻,不得不承認(rèn)既形象又巧妙。

只是比喻后來(lái)也跟此時(shí)此刻一樣精準(zhǔn):追求低碳水的新時(shí)代里,誰(shuí)也沒(méi)想到,米飯竟然不再必要了。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10702

    瀏覽量

    209361
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100007
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    234991

原文標(biāo)題:一個(gè)時(shí)代有一個(gè)時(shí)代的計(jì)算架構(gòu)

文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大模型時(shí)代的算力需求

    現(xiàn)在AI已進(jìn)入大模型時(shí)代,各企業(yè)都爭(zhēng)相部署大模型,但如何保證大模型的算力,以及相關(guān)的穩(wěn)定性和性能,是個(gè)極為重要的問(wèn)題,帶著這個(gè)極為重要的問(wèn)題,我需要在此書(shū)中找到答案。
    發(fā)表于 08-20 09:04

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

    更好的開(kāi)發(fā)和運(yùn)行平臺(tái);第12章講解基于云平臺(tái)的GPU集群的管理與運(yùn)營(yíng),涉及云運(yùn)維平臺(tái)、云運(yùn)營(yíng)平臺(tái)和云審計(jì)平臺(tái);第13章基于個(gè)服務(wù)機(jī)器學(xué)習(xí)的GPU計(jì)算平臺(tái)落地案例,展示如何針對(duì)機(jī)器學(xué)習(xí)應(yīng)用進(jìn)行需求分析
    發(fā)表于 08-16 18:33

    個(gè)socket對(duì)應(yīng)個(gè)連接嗎

    的接口,允許在不同計(jì)算機(jī)之間建立連接,進(jìn)行數(shù)據(jù)交換。個(gè)socket可以看作是兩個(gè)程序之間的通信端點(diǎn),由IP地址和端口號(hào)唯標(biāo)識(shí)。
    的頭像 發(fā)表于 08-16 10:55 ?236次閱讀

    寧德時(shí)代調(diào)整組織架構(gòu),曾毓群親自掌舵制造與采購(gòu)

    近日,動(dòng)力電池巨頭寧德時(shí)代宣布了新輪的組織架構(gòu)調(diào)整,以更好地支持其全球化戰(zhàn)略。據(jù)消息透露,寧德時(shí)代將其所有工廠重整為國(guó)內(nèi)和海外兩個(gè)大區(qū),分別由安國(guó)平和華夏擔(dān)任海外和國(guó)內(nèi)制造運(yùn)營(yíng)負(fù)責(zé)人
    的頭像 發(fā)表于 06-21 11:49 ?945次閱讀

    華為云函數(shù)工作流:引領(lǐng)未來(lái)無(wú)服務(wù)器計(jì)算時(shí)代

    在當(dāng)今數(shù)字化飛速發(fā)展的時(shí)代,企業(yè)和個(gè)人對(duì)于計(jì)算資源的需求越來(lái)越高,但傳統(tǒng)的服務(wù)器架構(gòu)帶來(lái)的管理成本和資源浪費(fèi)問(wèn)題也愈發(fā)凸顯。為解決這難題,華為云引領(lǐng)著無(wú)服務(wù)器
    的頭像 發(fā)表于 05-27 10:50 ?243次閱讀
    華為云函數(shù)工作流:引領(lǐng)未來(lái)無(wú)服務(wù)器<b class='flag-5'>計(jì)算</b><b class='flag-5'>時(shí)代</b>

    芯盾時(shí)代深度參編的行業(yè)標(biāo)準(zhǔn)《總體架構(gòu)》即將施行

    近日,工信部發(fā)布公告,芯盾時(shí)代深度參與編寫(xiě)的行業(yè)標(biāo)準(zhǔn):YD/T 4598.1-2024《面向云計(jì)算的零信任體系 第1部分:總體架構(gòu)》(以下簡(jiǎn)稱《總體架構(gòu)》)將于2024年7月1日正式施
    的頭像 發(fā)表于 04-29 14:30 ?273次閱讀
    芯盾<b class='flag-5'>時(shí)代</b>深度參編的行業(yè)標(biāo)準(zhǔn)《總體<b class='flag-5'>架構(gòu)</b>》即將施行

    個(gè)錨點(diǎn)到座港灣:華為加速“巨幕手機(jī)”時(shí)代到來(lái)

    “巨幕手機(jī)”進(jìn)入萬(wàn)元級(jí)時(shí)代,千帆過(guò)盡處,藍(lán)海在舟前;從技術(shù)上看,華為在電視交互技術(shù)上的創(chuàng)新,為行業(yè)探明了技術(shù)迭代的實(shí)現(xiàn)方式,解決了行業(yè)面臨的最大技術(shù)痛點(diǎn)。
    的頭像 發(fā)表于 04-11 09:15 ?1412次閱讀
    從<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>錨點(diǎn)到<b class='flag-5'>一</b>座港灣:華為加速“巨幕手機(jī)”<b class='flag-5'>時(shí)代</b>到來(lái)

    半導(dǎo)體發(fā)展的四個(gè)時(shí)代

    臺(tái)積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導(dǎo)體行業(yè)的第四個(gè)時(shí)代”的主題演講。Suk Lee表示,任何試圖從半導(dǎo)體行業(yè)傳奇而動(dòng)蕩的歷史中發(fā)掘出些意義的事情都會(huì)引起我的注意。正如臺(tái)積電所解釋
    發(fā)表于 03-27 16:17

    半導(dǎo)體發(fā)展的四個(gè)時(shí)代

    臺(tái)積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導(dǎo)體行業(yè)的第四個(gè)時(shí)代”的主題演講。Suk Lee表示,任何試圖從半導(dǎo)體行業(yè)傳奇而動(dòng)蕩的歷史中發(fā)掘出些意義的事情都會(huì)引起我的注意。正如臺(tái)積電所解釋
    發(fā)表于 03-13 16:52

    寧德時(shí)代市值天暴增千億

    寧德時(shí)代市值天暴增千億 就在業(yè)界討論AI的盡頭是光伏和儲(chǔ)能之時(shí),摩根士丹利上調(diào)寧德時(shí)代的評(píng)級(jí)至“超配”,并將寧德時(shí)代的目標(biāo)價(jià)上調(diào)14%,寧德時(shí)代
    的頭像 發(fā)表于 03-12 17:43 ?791次閱讀

    聯(lián)發(fā)科發(fā)布天璣9300,全大核計(jì)算時(shí)代來(lái)了!

    和顛覆性的全大核CPU架構(gòu),宣告了“高智能、高性能、高能效、低功耗”的全新時(shí)代的來(lái)臨。從CPU性能到GPU強(qiáng)大、AI處理能力到游戲體驗(yàn),它無(wú)愧坐上了“最強(qiáng)旗艦芯片”的寶座,為智能手機(jī)的下一個(gè)飛躍奠定了堅(jiān)實(shí)的基礎(chǔ)。 劃
    的頭像 發(fā)表于 11-07 09:05 ?738次閱讀
    聯(lián)發(fā)科發(fā)布天璣9300,全大核<b class='flag-5'>計(jì)算</b><b class='flag-5'>時(shí)代</b>來(lái)了!

    液晶商顯,個(gè)時(shí)代的潮流展示

    科技改變生活,也塑造著這個(gè)時(shí)代的繁榮景象,特別是液晶拼接墻的應(yīng)用作為新時(shí)代科技創(chuàng)造的典型代表,是橫串大街小巷的標(biāo)識(shí),越來(lái)越普及于日常的生活和生產(chǎn)活動(dòng)中,也折射出液晶顯示應(yīng)用對(duì)社會(huì)創(chuàng)造力的積極意義
    的頭像 發(fā)表于 11-03 16:38 ?262次閱讀

    異構(gòu)計(jì)算時(shí)代,RISC-V架構(gòu)發(fā)展應(yīng)該更大膽

    Intelligence X390 NPU 處理器,我們也在第時(shí)間進(jìn)行了報(bào)道。 從SiFive的介紹不難看出,這是個(gè)組合型產(chǎn)品,通過(guò)將P870高性能通用計(jì)算SoC與由X390和客
    的頭像 發(fā)表于 10-24 00:23 ?1607次閱讀
    異構(gòu)<b class='flag-5'>計(jì)算</b><b class='flag-5'>時(shí)代</b>,RISC-V<b class='flag-5'>架構(gòu)</b>發(fā)展應(yīng)該更大膽<b class='flag-5'>一</b>些

    Python 梯度計(jì)算模塊如何實(shí)現(xiàn)個(gè)邏輯回歸模型

    AutoGrad 是個(gè)老少皆宜的 Python 梯度計(jì)算模塊。 對(duì)于初高中生而言,它可以用來(lái)輕易計(jì)算條曲線在任意
    的頭像 發(fā)表于 10-21 11:01 ?418次閱讀
    Python 梯度<b class='flag-5'>計(jì)算</b>模塊如何實(shí)現(xiàn)<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>邏輯回歸模型

    一個(gè)時(shí)代的船舵,李彥宏握住AI原生應(yīng)用

    “舵手”李彥宏,和他望向的AI大航海時(shí)代
    的頭像 發(fā)表于 09-22 09:18 ?1375次閱讀
    下<b class='flag-5'>一個(gè)</b><b class='flag-5'>時(shí)代</b>的船舵,李彥宏握住AI原生應(yīng)用