在深度學習、元宇宙的迅速推動下,大數據分析、高性能計算、人工智能、CAE仿真等領域得到快速發(fā)展。
僅2021年上半年,中國新增的人工智能企業(yè)就超過30多萬家,一是可見的人工智能公司數量增長,二是越發(fā)膨脹的算力需求。
信通院發(fā)布的中國算力發(fā)展指數白皮書顯示2020年中國智能計算的算力占算力規(guī)模的41%。預測到2030年,占比將迅速攀升到70%。
智算中心概念內涵及功能定位
概念界定
智算中心是基于最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的公共算力新型基礎設施,通過算力的生產、聚合、調度和釋放,高效支撐數據開放共享、智能生態(tài)建設、產業(yè)創(chuàng)新聚集,有力促進AI產業(yè)化、產業(yè)AI化及政府治理智能化。
主要內涵
一. 算力公共基礎設施
智算中心面向政府、行業(yè)、企業(yè)等多用戶群體提供人工智能應用所需算力服務、數據服務和算法服務,能夠匯聚各行業(yè)領域數據資源、支撐各行業(yè)領域AI計算需求,智算中心作為公共算力基礎設施,通過提供共性的算力、數據及算法服務,讓算力服務更為易用,使得智慧計算像水電一樣能成為基本公共服務。
二. 計算架構技術領先、生態(tài)成熟
智算中心基于AI模型提供高強度的數據處理、智能計算能力,集成先進的智能軟件系統(tǒng)和智能計算編程框架,實現云端一體化,形成技術領先、可持續(xù)發(fā)展的高性能、高可靠計算架構。智算中心核心計算單元采用先進的人工智能芯片,面向新型的人工智能場景,采用異構計算,能大幅提升對基礎算力的使用效率和算法的迭代效率。同時集成生態(tài)成熟的智能軟件系統(tǒng)和智能計算編程框架,便于不斷迭代升級。
三. 算力、數據和算法的融合平臺
智算中心以融合架構計算系統(tǒng)為平臺,以數據為資源,以強大算力驅動AI模型對數據進行深度加工,使算力、數據、算法三個基本要素成為一個有機整體和融合平臺。智算中心為AI算法研發(fā)提供大規(guī)模數據處理能力,也為AI產業(yè)應用提供充足的計算資源,全面支撐各類人工智能技術的應用和演進。
四. 以產業(yè)創(chuàng)新升級為目標
圍繞智算中心基礎設施建設,以數據流引導技術流、業(yè)務流、資金流、人才流聚集,實現以數據驅動產業(yè)創(chuàng)新發(fā)展新模式是智算中心的核心目標。通過打造人工智能開放服務平臺,面向AI產業(yè)、傳統(tǒng)產業(yè)提供基于深度學習技術的人工智能算法能力、算法框架和相關接口,全面匯聚并賦能各產業(yè)領域AI應用,助力加速孵化新業(yè)態(tài),推進數字經濟與傳統(tǒng)產業(yè)深度融合,實現AI與產業(yè)的聚合并帶動形成一個多層級的AI產業(yè)生態(tài)體系,全面賦能產業(yè)創(chuàng)新升級。
功能定位
智算中心是智能時代面向社會全域多主體的新型公共基礎設施,集算力生產供應、數據開放共享、智慧生態(tài)建設和產業(yè)創(chuàng)新聚集四大功能于一體,為有海量數據存儲、處理、分析及應用支撐需求的各類場景提供載體支撐。
一. 算力生產供應平臺
AI計算是智能時代發(fā)展的核心動力。智算中心以數據為資源,以強大算力驅動AI模型對數據進行深度加工,源源不斷產生各種智慧計算服務,面向全行業(yè)領域提供基于深度學習技術的人工智能算法能力、算法框架和相關接口,為政府、企業(yè)及科研院所等多方用戶提供生產生活各領域智慧服務,發(fā)揮新型基礎設施的社會價值,降低社會服務成本,讓智慧計算服務更快的普及到每個人、每個企業(yè)。
二. 數據開放共享平臺
智算中心是新型公共基礎設施,通過全量匯聚各行業(yè)領域數據資源,開放共享全面提升AI算法訓練數據質量。同時,隨著數據匯聚共享能力的提升,通過跨領域數據的多次開發(fā)利用,以數據流引領技術流、業(yè)務流、資金流、人才流等聚集,深度分析挖掘應用需求,使沉淀的數據資源在各個應用場景中實現價值最大化。
三. 智能生態(tài)建設平臺
智算中心是集人工智能、大數據、云計算等多種技術和AI算力服務、數據服務和模型服務于一體的新型IT基礎設施。其廣泛應用將加速推動產業(yè)AI化和AI產業(yè)化,以智能算力生態(tài)聚合帶動形成多層級產業(yè)生態(tài)體系,賦能多個產業(yè)、惠及多類主體,助推數字經濟與傳統(tǒng)產業(yè)深度融合,加速孵化新業(yè)態(tài)。
四. 產業(yè)創(chuàng)新聚集平臺
以AI算力生產供給為核心的智算中心,面向政府、企業(yè)及科研機構等多主體,圍繞數據、算法和算力三大要素著力構建AI全產業(yè)鏈。其通過生產、聚合、調度和釋放算力推動AI 產業(yè)要素資源聚集,匯聚不同主體資源優(yōu)勢打造產業(yè)創(chuàng)新聚集平臺,在政府主導下,科創(chuàng)企業(yè)、科研機構和傳統(tǒng)企業(yè)發(fā)揮各自在AI方面的技術優(yōu)勢、研發(fā)優(yōu)勢和場景優(yōu)勢,加速AI應用場景落地,助力傳統(tǒng)產業(yè)轉型升級,催生經濟新業(yè)態(tài)新模式,優(yōu)化公共服務供給。
智算中心基礎設施
隨著旺盛的需求和建設迅速發(fā)展,新的問題被提出來。歸納起來為開放、融合、綠色、普惠、服務。
開放
目前,智算中心面臨的首要問題是開放性。AI應用數量的增加和迭代速度對智算中心的生命力提出挑戰(zhàn)。
智算中心作為一種新型基礎設施,不能僅僅解決材料或基因等某一領域的問題。
同時,智算中心的建設要避免在斥巨資建設智算中心一兩年之后,智算中心的功能就大幅衰減的情況。
關于業(yè)界智算中心的建設的兩種思路:
一. 垂直一體化整合模式
每一層由建設者獨立實現,優(yōu)點是避免不同技術路線之間的適配過程。
二. 多元協(xié)作模式
適配難度會大一點,但對開發(fā)者更友好,更有利于產業(yè)發(fā)展。通過芯片、算法、框架和模型的全面開放和兼容,構建多元集成基礎架構,實現計算基礎的最大易用性,降低遷移成本,為未來開發(fā)者帶來更好的環(huán)境,進而通過建設智算中心,促進整個產業(yè)鏈的健康發(fā)展。
融合
隨著AI技術的不斷發(fā)展,各行業(yè)對智能化、數字化轉型的認識和需求不斷增強,從產業(yè)橫向來看,AI賦能的領域越來越多,從智慧城市到工業(yè)制造再到農業(yè)生產、科學計算等等。從行業(yè)縱向角度來看,AI應用正在從垂直領域逐步向縱深領域發(fā)展,以解決行業(yè)內部的關鍵問題。
AI應用多樣,對算力的需求同樣多樣。有些應用需要高精度的算力,而有些則需要低精度算力?;旌暇群投嘣懔Τ蔀橹撬慊A設施發(fā)展的必然趨勢。
綠色
除了AI的應用越來越多,AI模型的參數和智算中心的算力也在逐年上升。
尤其是現在大模型越來越多,以GTP-3為例,相關數據顯示,如果GPT-3的所有程序都運行一次,該模型產生的碳排放量相當于一輛車行駛70萬公里,大約是從地球到月球的兩倍距離。
在雙碳目標下,智算中心的節(jié)能減排形勢相當嚴峻。
藍海大腦冷板式液態(tài)智算中心通過將需要散熱的設備固定在一塊冷板上(通常為銅鋁等導熱金屬構成的封閉腔體),將發(fā)熱器件的熱量間接傳遞給循環(huán)流動的冷卻液體,液體在通過冷板的時候將設備熱量帶走,以達到散熱的目的。
技術特點
散熱能力強:局部熱流密度達150W/CM2
維護方便,技術成熟
環(huán)境適應性強:適用于軍民領域各種應用環(huán)境
冷卻介質多為導電液體,存在泄漏安全隱患
關鍵技術
系統(tǒng)匹配設計
流量分配設計
冷板流道優(yōu)化設計
焊接
自密封連接
基于藍海大腦冷板式液態(tài)技術已經完全達到了國家要求數據中心碳排放標準,實現從規(guī)劃設計、中心建設、到平臺運營的完整配套服務,貫穿智算基礎設施的全生命周期。
普惠
目前,智算中心的價格有兩個特點:
一. 貴
作為一種新型的算力基礎設施,如果通過將建設成本轉換為算力單價來計算,算力成本較高。
二. 亂
這是一個新興市場,而算力的價格與智算中心所在地區(qū)等多方面因素有關。
從長遠來看,一定要有非常普惠的算力提供給AI用戶和開發(fā)者,讓AI產業(yè)持續(xù)發(fā)展,也能降低各地政府的投資建設壓力。
服務
目前大部分智算中心采用取建、運分離的模式,運營方面還沒有成熟的商業(yè)模式,運營主體普遍處于模糊地帶,有可能出現運營缺乏的情況。
但是,對于要建設智算中心服務區(qū)域經濟各地政府來說,智算中心的運營是剛需,是必須要解決的問題。
總結
智算中心的建設仍處于初期階段,要從開放、融合、綠色、普惠、服務五個方面進行智算基礎設施的建設,提高智算中心的運營效益。
隨著AI產業(yè)和產業(yè)AI的不斷發(fā)展,智算基礎設施建設熱度持續(xù)升高。與傳統(tǒng)的數據中心相比,智算中心在當地產業(yè)經濟發(fā)展可能會帶來更明顯的作用,如何建好、管好、用好智算中心是一個持續(xù)迭代更新的命題。
液冷智算中心案例
隨著數字經濟高速發(fā)展,數據量與日俱增,海量的數據處理、存儲、傳輸的過程都離不開智算中心。智算中心作為新基建的重要組成部分,數字經濟的堅實底座,其重要性已上升到國家戰(zhàn)略層面。
從需求量上看,在數字經濟時代,全國的數據量平均每兩年翻一番,數據處理剛需依然存在,可預見智算中心規(guī)模也將相應地增長。截止至 2019 年,全國數據中心產值已達 1,562.5 億元,與 2018 年相比,增長27.2%。預計 2035 年產值將達 6,057.5 億元。
利用高性能服務器的人工智能集群技術。多個液冷機器可以聚集在一起,以擴大吞吐量,以進一步訓練和推理加速,并支持數十億至數萬億參數模型。大型數據中心和高性能服務器通常有數百到數千個節(jié)點,需要數月或數年時間才能建成,占用數據中心機柜空間及增加耗電量,并且通常吸引超過 10MW 的設備。相比之下,每臺液冷GPU服務器提供相當于10s-100s傳統(tǒng)節(jié)點的計算等價物。此外,冷卻系統(tǒng)、供配電、空調功耗和資源池虛擬化技術的發(fā)展和優(yōu)化,推動PUE 值持續(xù)降低,數據中心總體能效水平有所提高。
在以前的20多年里,大多數智算解決方案都采用行業(yè)標準互連的大規(guī)模服務器集群。隨著人工智能、大數據等技術和應用的日益成熟落地,實際業(yè)務對數據中心等底層基礎設施的性能要求越來越高。性能提高直接導致服務器功耗不斷增加,尤其是芯片制程提升變慢導致功耗提升加速,通用 CPU 的 TDP(Thermal Design Power ,散熱設計功耗)持續(xù)增加,已從最初的 100W 左右逐步增加到最高可達 400W。單臺通用服務器滿載功率已逼近 1 kW,用于 AI 訓練的機器單機功率甚至高達 2.6kW,未來AI 訓練 GPU 單機預計最高可達 10kW。
另一方面,云計算數據中心的單體規(guī)模越來越大。截止至 2020 年,全國數據中心總機架數約 428.6 萬架。數據中心總機架數增長規(guī)律與總產值相似,均以相對穩(wěn)定地增幅逐步上漲,預計至 2035 年全國數據中心總機架數約 1,491.1 萬架。無論是對于局部散熱還是整個數據中心散熱而言,風冷技術均趨于能力極限,且每年會產生大量的電力消耗,增加了數據中心的運維成本。
液冷技術通過液體作為熱量傳輸媒介,達到降低設備溫度的目的。液體可以直接導向熱源帶走熱量,不像風冷一樣間接通過空氣制冷。對于密度高、規(guī)模大、散熱需求高的數據中心優(yōu)勢明顯。
液冷數據中心解決方案
對于需要最大性能、密度和效率的大型系統(tǒng)的客戶,高性能服務器提供液冷機柜,高性能服務器提供液冷機柜,支持高性能計算配置中所有組件的液體冷卻系統(tǒng)。
這種架構包含許多支持高瓦數CPU和GPU(超過500W)的創(chuàng)新功能,極大地減少了互連布線需求,降低了操作成本。液冷式基礎設施還帶來了更緊湊的系統(tǒng)結構,減少使用昂貴的光互連電纜。
此外,其基礎設施經過精心設計,支持多處理器體系結構和加速器選項,至少在未來十年內與下一代CPU、GPU和互連技術保持向前兼容。
機柜架構
液冷機柜的計算和交換機基本構件包括:
服務器機柜:一臺機柜可容納8臺機箱,最多支持64個計算刀片和512個處理器。
計算刀片:刀片是機箱中的模塊,包括CPU、結構連接、印刷電路板,以及冷卻和電源組件。預裝四個雙插座節(jié)點。從機柜前部插入機箱。
交換機機箱:可容納8臺交換機箱,最多支持64個交換機。從機柜后部插入機箱。
交換機刀片:包含光纖交換機,電路板,用于連接計算刀片和冷卻所需的所有組件和電源。
每個機柜包含8個服務器機箱和8個交換機機箱,直接從交換機連到刀片上,無需布線。交換機和交換機端口都是直接液冷冷卻。刀片垂直放置,交換機水平放置,交換機可以直接與刀片相連接。
預裝的液冷計算刀片配備四臺雙處理器服務器。所有組件均采用直接液體冷卻方式。機柜未配置風扇。
64 口交換機,提供 ?12.8 Tb/s 帶寬
每個交換機機箱最多支持8個交換機刀片,每個計算刀片最多支持8個光纖連接
每個機箱2個交換機,用于向32個計算節(jié)點(8個計算刀片)單點連接 (每個節(jié)點一個網絡連接)
每個機柜有16個交換機,用于向256個計算節(jié)點(64個計算刀片)單點連接 (每個節(jié)點一個網絡連接)
任何端點間,最多3次連接
電源
液冷機柜可以支持高達300千瓦的功率。
每面機柜都有一系列PDU和整流器,將輸入的480V或400V三相交流電源轉換為380V直流電源,分配給單獨的計算和交換機刀片。計算和交換機刀片上的直流到直流轉換器將輸入的380V直流電源首先轉換為48V直流電源,然后轉換為各種組件的直流電壓。機柜支持頂部或底部供電。
冷卻
機柜和所有組件冷卻由貫穿整個計算設施的循環(huán)液體完成。冷卻分配單元(CDU)通過數據中心的熱交換器冷卻液體將熱水循環(huán)。整個冷卻回路是一個源自CDU的閉環(huán)。一個CDU最多可以支持四臺液冷機柜。CDU將冷卻液保持在一定溫度,并通過熱傳遞機制將熱量轉移到數據中心的水里。
液體冷卻通過一系列流管到達液冷柜中的各個刀片和部件,這些流管將冷卻液從主管道分配到各個刀片和交換機,然后將熱的液體回流管道。機柜前面配備計算刀片的冷卻管,后面配備交換機的冷卻管。計算刀片和交換機刀片之間的連接快速且無滴漏,可在不關閉整個系統(tǒng)的情況下卸下刀片對服務器進行維護。冷板直接去除CPU中的熱量。當NIC夾層卡位于CPU上方時,由CPU冷板冷卻。液冷高性能服務器的功率和冷卻預算大大小于風冷裝置。
總結
擴展:機柜內的無電纜網絡減少外部電纜和光纜。
總體擁有成本TCO:在產品使用壽命內節(jié)省電力和水的運營成本。
靈活性:靈活高度集成的液冷基礎設施提供廣泛的計算平臺、可升級的網絡解決方案及未來的兼容性。
在“marketing@lanhy.cn”獲取完整版《智能計算中心規(guī)劃建設指南》完整版。
END
?
審核編輯:鄢孟繁
評論
查看更多