高性能計(jì)算(HPC)是近兩年比較火的概念。HPC的主要作用其實(shí)就是為數(shù)據(jù)中心的運(yùn)行提供其所需的計(jì)算能力。
10年前的數(shù)據(jù)中心數(shù)據(jù)中心是專門用于存儲、處理和分發(fā)數(shù)據(jù)的物理設(shè)施,隨著時(shí)間推移和科技發(fā)展,數(shù)據(jù)中心所處理的數(shù)據(jù)類型和數(shù)據(jù)量也在不斷演進(jìn)。過去,數(shù)據(jù)中心處理的數(shù)據(jù)就是某個(gè)特定組織業(yè)務(wù)運(yùn)營的輸出,比如交易、客戶檔案、銷售詳情等等,其目標(biāo)是從海量的數(shù)據(jù)中獲取商業(yè)智能(BI),即通過對數(shù)據(jù)進(jìn)行測量、推理和分析從而最終實(shí)現(xiàn)商業(yè)價(jià)值,創(chuàng)造更多利潤。此類數(shù)據(jù)處理的典型示例還有藥物研發(fā)、油田分析、天氣預(yù)報(bào)等等。此類數(shù)據(jù)中心有兩大關(guān)鍵特點(diǎn):第一,要處理的數(shù)據(jù)均由實(shí)際事件生成,銷售、交易和用于研究的物理觀察數(shù)據(jù)都是與人工交互同步生成的數(shù)據(jù);第二,處理數(shù)據(jù)以創(chuàng)建信息的任務(wù)是使用由人工編寫和調(diào)試的程序軟件系統(tǒng)完成的。數(shù)據(jù)量增長超乎想象在過去10年,數(shù)據(jù)處理的方式和數(shù)據(jù)量都發(fā)生了根本性轉(zhuǎn)變。數(shù)據(jù)不再由人類事件所生成。隨著傳感器的廣泛部署,以及“萬物互聯(lián)”的發(fā)展環(huán)境,各種類型的設(shè)備所生成的數(shù)據(jù)量都在以指數(shù)級增長。比如智能手表可以捕捉有關(guān)運(yùn)動健身和健康狀況的詳細(xì)數(shù)據(jù),一輛自動駕駛汽車每行駛一小時(shí)可生成5TB數(shù)據(jù)…未來投入使用的自動駕駛汽車的數(shù)量仍會持續(xù)增長,由此而產(chǎn)生的龐大數(shù)據(jù)量可見一斑。下圖為2010年到2025年全球范圍內(nèi)創(chuàng)建、采集、復(fù)制、使用的數(shù)據(jù)量預(yù)測情況。以ZB為單位,1ZB大約為1,000EB,也就是10億TB。我們可以看到,2010年的全球數(shù)據(jù)量為2ZB,而這一數(shù)據(jù)到2025年預(yù)計(jì)將增長至181ZB。▲資料來源:Statista隨著數(shù)據(jù)量的爆炸式增長,從數(shù)據(jù)中獲取商業(yè)智能的方式也在發(fā)生轉(zhuǎn)變。人們開始使用人工智能(AI)來分析數(shù)據(jù)。AI不但能夠分辨出語音和視頻模式,強(qiáng)化學(xué)習(xí)技術(shù)還能夠從大量的可能性中識別出最佳結(jié)果,從而為使用者提供最有價(jià)值的分析。這種處理方法與傳統(tǒng)軟件有所不同,它并非人工編寫的代碼。相反,它需要對大量被執(zhí)行操作的事件進(jìn)行處理,并從對大量信息和結(jié)果的檢驗(yàn)中進(jìn)行學(xué)習(xí)。數(shù)據(jù)中心將承載更大使命在過去10年,信息的生成、處理和存儲方式也發(fā)生了根本性轉(zhuǎn)變。數(shù)據(jù)中心的架構(gòu)也因此發(fā)生了重大變化,通過對存儲、計(jì)算和通信等信息進(jìn)行復(fù)制的策略已無法實(shí)現(xiàn)現(xiàn)有需求。由于數(shù)據(jù)量的爆炸式增長,依托于分布式網(wǎng)絡(luò)的新存儲方式應(yīng)運(yùn)而生。計(jì)算不再由中央處理器(CPU)完成,而是由定制處理器來對特定工作負(fù)載進(jìn)行優(yōu)化。通信方面也發(fā)生了很大變化。從性能(延遲)來看,獨(dú)立網(wǎng)卡(NIC)和服務(wù)器機(jī)架上的架頂式交換機(jī)等概念,對于在數(shù)據(jù)中心內(nèi)部高效移動數(shù)據(jù)而言也不再適用。對于某些數(shù)據(jù)中心的超大規(guī)模用戶來說,大數(shù)據(jù)分析就是這些企業(yè)的核心業(yè)務(wù)之一。比如谷歌、亞馬遜、Meta、微軟、阿里巴巴、百度等,他們引領(lǐng)了數(shù)據(jù)中心的革新浪潮,重新定義著數(shù)據(jù)中心的架構(gòu)。谷歌開發(fā)了張量處理器,亞馬遜開發(fā)了AWS Trainium,他們都為運(yùn)行AI算法提出了新架構(gòu),從而為他們的數(shù)據(jù)中心提供更強(qiáng)大的算力。數(shù)據(jù)中心的配置方式也在改變。內(nèi)存、存儲、處理能力和網(wǎng)絡(luò)帶寬等關(guān)鍵要素目前已經(jīng)集中共用。這些資源可以根據(jù)特定工作負(fù)載的需求進(jìn)行組合及部署,而不是在一臺服務(wù)器中固定地配置這些資源組合。數(shù)據(jù)中心的架構(gòu)將隨著工作負(fù)載的變化而變化。這種方法被稱為可組合數(shù)據(jù)中心。數(shù)據(jù)中心的商業(yè)模式同樣在變化。雖然本地的私有數(shù)據(jù)中心仍然相當(dāng)普遍,但構(gòu)建和運(yùn)行下一代數(shù)據(jù)中心的成本可能令人望而卻步。因此,一些能夠構(gòu)建數(shù)據(jù)中心的企業(yè)開始將容量賣給那些無法構(gòu)建數(shù)據(jù)中心的企業(yè),云計(jì)算就是這么產(chǎn)生的。這個(gè)過程與以往芯片制造的發(fā)展歷程十分相似。以前,很多公司都擁有自己的晶圓廠,但后來成本不斷攀升,技術(shù)也變得越發(fā)復(fù)雜。因此,晶圓廠開始崛起,專門為需要制造芯片的企業(yè)提供晶圓制造能力。如何應(yīng)對SysMoore時(shí)代的挑戰(zhàn)數(shù)據(jù)中心要想要實(shí)現(xiàn)上述計(jì)算能力,將會面臨一系列挑戰(zhàn)。由于摩爾定律正在放緩,開發(fā)者在向下一個(gè)工藝節(jié)點(diǎn)進(jìn)軍的過程中未必能夠?qū)崿F(xiàn)他們所期望的性能、功耗以及成本目標(biāo)。除了摩爾定律的規(guī)模復(fù)雜性外,還有一系列策略會增加系統(tǒng)復(fù)雜性。比如:
- 挑戰(zhàn)一是用專用的定制芯片執(zhí)行特定AI算法,谷歌的TPU和亞馬遜的Trainium是很好的例子
- 挑戰(zhàn)二是創(chuàng)建multi-die設(shè)計(jì),將芯片或高密度內(nèi)存或者小芯片集成到單個(gè)系統(tǒng)中
-
挑戰(zhàn)三是讓高度復(fù)雜的大型軟件堆棧和通過3D堆疊方式所增加的大量內(nèi)存在新架構(gòu)上運(yùn)行
數(shù)據(jù)中心經(jīng)歷了漫長的發(fā)展?,F(xiàn)在,它們不再只是一種基礎(chǔ)設(shè)施,先進(jìn)的數(shù)據(jù)中心可以產(chǎn)生有價(jià)值的數(shù)據(jù)分析,從健康、安全、環(huán)保、生活等多方面,幫助改善我們生活的世界。現(xiàn)在,它們已經(jīng)真正成為了宇宙中心。
原文標(biāo)題:Sysmoore時(shí)代來臨,數(shù)據(jù)中心將承載更大使命
文章出處:【微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
HPC
+關(guān)注
關(guān)注
0文章
309瀏覽量
23651 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8854瀏覽量
137212
原文標(biāo)題:Sysmoore時(shí)代來臨,數(shù)據(jù)中心將承載更大使命
文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論