0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

河套IT TALK90:(原創(chuàng))智能算力新篇章:智算中心構(gòu)建智能算力的大腦和神經(jīng)中樞

共熵服務(wù)中心 ? 來源:未知 ? 2023-06-05 10:40 ? 次閱讀

c07fd256-0349-11ee-90ce-dac502259ad0.png

上篇我們聊到了人工智能算力(Computing Power),以及對應(yīng)的那些算力芯片。如果我們把算力芯片理解為神經(jīng)元的話,智算中心就是智慧大腦和神經(jīng)中樞。今天智愿君就來聊聊智算中心。

1. 戰(zhàn)略性的選擇

智能算力水平是國家智能化、數(shù)字化發(fā)展水平的集中體現(xiàn),是數(shù)字化應(yīng)用建設(shè)及發(fā)展的底層基礎(chǔ)?!?021-2022全球計(jì)算力指數(shù)評估報告》數(shù)據(jù)顯示,美國、日本、德國、英國等15個國家在AI算力上的支出占總算力支出比重從2016年的9%增加到了12%,預(yù)計(jì)到2025年AI算力占比將達(dá)到25%。按照當(dāng)前發(fā)展趨勢,在人均算力中智能算力所占的比重將會逐年增長,人均智能算力水平的高低與國家經(jīng)濟(jì)社會發(fā)展將會是緊耦合的綁定關(guān)系,成為綜合國力發(fā)展的重要表現(xiàn)。

c0cd5472-0349-11ee-90ce-dac502259ad0.png

根據(jù)IDC聯(lián)合浪潮信息發(fā)布的《2022-2023中國人工智能計(jì)算力發(fā)展評估報告》,中國人工智能計(jì)算力保持快速增長,2022年智能算力規(guī)模達(dá)到268百億億次/秒(EFLOPS),超過通用算力規(guī)模。預(yù)計(jì)未來5年中國智能算力規(guī)模的年復(fù)合增長率將達(dá)52.3%。算力指數(shù)平均每提高1點(diǎn),數(shù)字經(jīng)濟(jì)和GDP將分別增長3.5‰和1.8‰。

毫無疑問,算力已成為挖掘數(shù)據(jù)要素價值,推動數(shù)字經(jīng)濟(jì)發(fā)展的重要驅(qū)動力,智算中心的戰(zhàn)略性地位愈發(fā)凸顯。規(guī)模部署智算中心是迎接未來技術(shù)挑戰(zhàn)、加速城市智能化建設(shè)的必然選擇。

2. 智算中心的系統(tǒng)架構(gòu)

上篇,我們其實(shí)已經(jīng)談過了智算中心和超算中心、云計(jì)算中心的差異性,本篇不再贅述。

在國家信息中心發(fā)布的《智能計(jì)算中心創(chuàng)新發(fā)展指南》中,明確給出了智算中心的定義:“智算中心是基于最新人工智能理論,采用領(lǐng)先的人工智能計(jì)算架構(gòu),提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施,通過算力的生產(chǎn)、聚合、調(diào)度和釋放,高效支撐數(shù)據(jù)開放共享、智能生態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集,有力促進(jìn)AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化及政府治理智能化。智智算中心以多種異構(gòu)方式共同發(fā)展的AI服務(wù)器算力機(jī)組為算力底座,不斷提升智能計(jì)算能力和速度,滿足人工智能應(yīng)用場景下大規(guī)模、多線并行的計(jì)算需求。智算中心圍繞“算力生產(chǎn)、算力聚合、算力調(diào)度、算力釋放”四個核心業(yè)務(wù)功能,為各行業(yè)各領(lǐng)域人工智能應(yīng)用提供穩(wěn)定的技術(shù)支撐,打造可持續(xù)發(fā)展的算力生態(tài)。”

智算中心,如果要充分發(fā)揮智算的能量,從整體架構(gòu)上要分為四層:

  • 算力應(yīng)用層:作為智算中心的最上層,負(fù)責(zé)接收用戶的計(jì)算任務(wù)和應(yīng)用需求。當(dāng)然為了更好做好算力運(yùn)營,這一層還需要有算力封裝、算力統(tǒng)計(jì)、監(jiān)控和交易計(jì)費(fèi)、算力并網(wǎng)等管理功能。

  • 算力調(diào)度層:負(fù)責(zé)智能資源調(diào)度和任務(wù)分配。包括算力感知和度量、算力解構(gòu)、算力編排和分配,算力路由和調(diào)度等。

  • 算力資源層:這是智算中心的核心,包括多個算力資源中心和計(jì)算節(jié)點(diǎn),這些節(jié)點(diǎn)可以是具體的物理服務(wù)器,也可以是虛擬機(jī)部署,還要考慮分布式和分層架構(gòu),以實(shí)現(xiàn)立體計(jì)算的效果。資源層會直接接受來自調(diào)度層的任務(wù)分配并執(zhí)行計(jì)算任務(wù)。算力資源層也需要監(jiān)控和管理本地算力資源的狀態(tài),負(fù)載和性能,并將這些信息實(shí)時回饋到調(diào)度層。

  • 算力網(wǎng)絡(luò)通信:負(fù)責(zé)智算中心內(nèi)部和智算中心間的數(shù)據(jù)傳輸與通信。提供高速可靠的數(shù)據(jù)傳輸保障。包括互聯(lián)互通,云邊互聯(lián),邊邊互聯(lián)。數(shù)據(jù)的安全性和完整性的保障,一般也在這一層。

接下來,我們就會針對上述的分層,分別來展開說明。先談最下面的網(wǎng)絡(luò)層,再逐級向上,最后來說應(yīng)用層。

3. 算力網(wǎng)絡(luò)通信層

算力網(wǎng)絡(luò)通信層是智算網(wǎng)絡(luò)的底座。算力網(wǎng)絡(luò)對網(wǎng)絡(luò)傳輸提出更為苛刻的要求,所以提出確定性網(wǎng)絡(luò)(Deterministic Networking)的概念,也就是說:具有嚴(yán)格時間保證和低延遲的網(wǎng)絡(luò)通信,以確保任務(wù)的及時響應(yīng)和數(shù)據(jù)的準(zhǔn)確傳輸。

確定性網(wǎng)絡(luò)要求網(wǎng)絡(luò)中的數(shù)據(jù)包傳輸要具有可預(yù)測性、穩(wěn)定的傳輸速度,不會受到隨機(jī)波動或者擁塞的影響,做到最小化阻塞和抖動性。要達(dá)到至少微秒級(Microsecond Level),甚至是納秒級(Nanosecond Level)的硬實(shí)時要求。要想達(dá)到確定性網(wǎng)絡(luò),硬件上就必須采用高速的交換機(jī)、路由器、全光網(wǎng)絡(luò)(All-Optical Network)的傳輸設(shè)備。同時,還需要在高精度原子鐘的支持下,做到精準(zhǔn)的任務(wù)調(diào)度和協(xié)調(diào),并采用硬實(shí)時調(diào)度算法來避免資源競爭,達(dá)到實(shí)時性保障。同時在路由算法上,要采用低延遲路由技術(shù),以減少數(shù)據(jù)包的傳輸時間和網(wǎng)絡(luò)中的排隊(duì)延遲。

除了時延之外,確定性網(wǎng)絡(luò)還要求數(shù)據(jù)傳輸過程中絕對不能出現(xiàn)丟失。這就需要無損路由(Lossless Routing)技術(shù)的運(yùn)用。在傳統(tǒng)的網(wǎng)絡(luò)中,當(dāng)網(wǎng)絡(luò)擁塞或緩沖區(qū)溢出時,可能會發(fā)生數(shù)據(jù)包的丟失。而在無損路由中,采用一系列擁塞控制和緩沖管理機(jī)制,確保所有的數(shù)據(jù)包都能夠被成功傳輸,避免數(shù)據(jù)丟失。

網(wǎng)絡(luò)層除了滿足確定性網(wǎng)絡(luò)要求外,還需要配合上層的資源調(diào)度提供信息保證,這就需要遵守資源感知路由協(xié)議(Resource-Aware Routing Protocol)。根據(jù)網(wǎng)絡(luò)中的資源狀態(tài)和拓?fù)?、算力資源的負(fù)載、性能指標(biāo)和能耗等信息,智能地動態(tài)選擇最佳的網(wǎng)絡(luò)路徑和節(jié)點(diǎn),以實(shí)現(xiàn)資源的高效利用和任務(wù)的優(yōu)化調(diào)度。

4. 算力資源層

傳統(tǒng)的云計(jì)算、和超算中心,由于業(yè)務(wù)的特殊屬性,更傾向于集中計(jì)算。但是智算中心會更加強(qiáng)調(diào)立體計(jì)算的模式。立體計(jì)算將云、邊不同位置的設(shè)備橫向和縱向進(jìn)行協(xié)同拉通,實(shí)現(xiàn)優(yōu)勢互補(bǔ)。解決業(yè)務(wù)體驗(yàn)不好、算力分布不均、算力利用率低、信息孤島等一系列的問題與挑戰(zhàn)。

邊緣計(jì)算(Edge Computing)這個話題,之前我們專門出過一期聊過。詳細(xì)參見:《河套IT TALK 82: (原創(chuàng)) 解鎖邊緣的力量:邊緣計(jì)算的崛起和未來(萬字長文)》。邊緣計(jì)算就是將計(jì)算和數(shù)據(jù)處理功能移動到離數(shù)據(jù)產(chǎn)生源頭更近的邊緣設(shè)備、邊緣節(jié)點(diǎn)或邊緣服務(wù)器上進(jìn)行處理。邊緣計(jì)算的目標(biāo)是減少數(shù)據(jù)的傳輸延遲、提高應(yīng)用的實(shí)時性和響應(yīng)性,并減輕云計(jì)算中心的負(fù)載。智算中心也同樣可以分為集中部署節(jié)點(diǎn)和分布式的邊緣部署節(jié)點(diǎn)。這就會牽扯到什么時候采用集中部署節(jié)點(diǎn)的算力來計(jì)算,什么時候用邊緣計(jì)算的問題。

一般而言,邊緣計(jì)算將計(jì)算和數(shù)據(jù)處理推向離數(shù)據(jù)源頭更近的邊緣,可以在接近數(shù)據(jù)產(chǎn)生的地方進(jìn)行實(shí)時處理,減少數(shù)據(jù)傳輸?shù)难舆t。這對于需要即時響應(yīng)的應(yīng)用非常重要。制造、電力、城市、交通、金融等垂直行業(yè)的智能化升級與改造,是邊緣計(jì)算在這些行業(yè)規(guī)模應(yīng)用的重要驅(qū)動因素,將帶來爆發(fā)式的增長。例如,物聯(lián)網(wǎng)設(shè)備產(chǎn)生的傳感器數(shù)據(jù)、智能城市的實(shí)時監(jiān)測數(shù)據(jù)、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)應(yīng)用、在線游戲等。邊緣算力的設(shè)備因未來業(yè)務(wù)發(fā)展多樣化的訴求,逐漸向小型化、移動化、低功耗的方向發(fā)展。

在某些極端情況下,在沒有持續(xù)互聯(lián)網(wǎng)連接或有網(wǎng)絡(luò)限制的環(huán)境下,邊緣計(jì)算可以在本地進(jìn)行計(jì)算和數(shù)據(jù)處理,降低對云端資源的依賴,提供離線環(huán)境下的支持。例如,邊緣設(shè)備在偏遠(yuǎn)地區(qū)、海上平臺或工廠車間等環(huán)境中的計(jì)算需求。而云端算力更適合于處理大規(guī)模數(shù)據(jù)集合、進(jìn)行復(fù)雜的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法訓(xùn)練。當(dāng)業(yè)務(wù)需要根據(jù)需求進(jìn)行彈性擴(kuò)展和高可靠性部署時,云端算力的虛擬化和自動化特性能夠快速分配和調(diào)整計(jì)算資源,提供高可用性和可伸縮性。

當(dāng)然不能簡單的二分法,從安全角度來看,算力集中云端部署會充分發(fā)揮數(shù)據(jù)潛能價值,但是數(shù)據(jù)容易受到云端的黑客攻擊。而算力邊緣層盡管相對可以保護(hù)核心資產(chǎn)的安全與隱私,但是也容易形成數(shù)據(jù)孤島,同時也更容易遭受來自南向的物理硬件接口的安全攻擊。在智算領(lǐng)域,從負(fù)載均衡、資源優(yōu)化、彈性擴(kuò)展、靈活性和安全性考慮,往往是邊云協(xié)同,邊邊協(xié)同的方式來實(shí)現(xiàn)的。

在協(xié)同計(jì)算中,需要先將任務(wù)進(jìn)行拆解,分割為多個子任務(wù),可以根據(jù)任務(wù)的緊急程度和計(jì)算資源的可用性,將推理任務(wù)靈活地分配到邊緣設(shè)備和云端進(jìn)行處理。然后再通過上層的編排調(diào)度實(shí)現(xiàn)部分子任務(wù)在邊,部分在云的方式執(zhí)行。同時,優(yōu)化模型的大小和復(fù)雜度,采用模型剪枝、輕量化等技術(shù),減少推理時延,并針對不同設(shè)備和網(wǎng)絡(luò)環(huán)境進(jìn)行優(yōu)化。將復(fù)雜的深度學(xué)習(xí)模型壓縮為適合邊緣設(shè)備的小型模型,以減少計(jì)算和存儲需求。同時,可以利用分布式計(jì)算和任務(wù)卸載的方式,將部分計(jì)算任務(wù)卸載到云端進(jìn)行處理,減輕邊緣設(shè)備的負(fù)擔(dān)。

在智能協(xié)同中,常見的模式是:“云端訓(xùn)練、邊緣推理”。要通過聯(lián)合學(xué)習(xí)(Federated Learning)等技術(shù),將模型訓(xùn)練分散到邊緣設(shè)備和云端進(jìn)行,通過模型參數(shù)的交換和聚合來實(shí)現(xiàn)全局模型的訓(xùn)練。同時,還可以引入增量學(xué)習(xí)和遷移學(xué)習(xí)等技術(shù),利用已有模型的知識和經(jīng)驗(yàn)來加速協(xié)同訓(xùn)練精度和提高收斂速度。這種方式也能將邊緣設(shè)備上的局部數(shù)據(jù)進(jìn)行共享和融合,形成更豐富的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。同時,還可以利用生成對抗網(wǎng)絡(luò)(GAN)等技術(shù)生成合成數(shù)據(jù)來擴(kuò)充樣本集。最終可以解決邊緣計(jì)算數(shù)據(jù)孤島和小樣本問題。

在邊云協(xié)同中,不同設(shè)備和節(jié)點(diǎn)可能具有不同的數(shù)據(jù)格式和特征表示??梢酝ㄟ^數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化的方法,將異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示形式,以便于模型的訓(xùn)練和推理。進(jìn)而更好應(yīng)對數(shù)據(jù)異構(gòu)問題。

在算力資源層,如何節(jié)能也是一個重要的考慮因素。節(jié)能通過能源使用效率PUE(Power Usage Effectiveness)來衡量。PUE是將數(shù)據(jù)中心的總能源消耗除以用于支撐計(jì)算設(shè)備的能源消耗的值。由于數(shù)據(jù)中心的冷卻設(shè)備、電源轉(zhuǎn)換損耗和其他輔助設(shè)備的能耗,使得PUE值通常大于1.0。PUE的值越低,表示數(shù)據(jù)中心在提供計(jì)算服務(wù)時的能源利用效率越高。理想的PUE值是1.0,這意味著所有的能源都被用于計(jì)算設(shè)備,沒有能源浪費(fèi)。但隨著可再生能源或能源回收系統(tǒng)的運(yùn)用,數(shù)據(jù)中心的PUE可能會成為小于1的情況,這就是負(fù)PUE(Negative PUE)或者Net-Zero能耗的概念。負(fù)PUE是指數(shù)據(jù)中心的能源消耗低于用于支撐計(jì)算設(shè)備的能源消耗,也就是說,數(shù)據(jù)中心產(chǎn)生的能源超過了用于運(yùn)行設(shè)備的能源需求。Net-Zero能耗,它表示數(shù)據(jù)中心在一定的時間范圍內(nèi)的總能源消耗與可再生能源的產(chǎn)生量相等,即數(shù)據(jù)中心的凈能耗為零。

5. 算力調(diào)度層

算力調(diào)度層算是智算中心和網(wǎng)絡(luò)的調(diào)度中樞系統(tǒng),向下實(shí)現(xiàn)算力資源的統(tǒng)一管理、統(tǒng)一編排、智能調(diào)度和全局優(yōu)化,以實(shí)現(xiàn)高效的資源利用和任務(wù)執(zhí)行,提升算力網(wǎng)絡(luò)效能。

要實(shí)現(xiàn)智能調(diào)度,先要有算力感知能力。算力調(diào)度層先要進(jìn)行整個智算中心的算力資源進(jìn)行解構(gòu)和分類。這可能包括將算力資源劃分為不同類型(例如CPU、GPU、FPGA等),不同規(guī)格和性能等級。這樣可以更好地匹配任務(wù)需求和資源特性,提高資源利用效率。在建立智算中心時,可以通過手工配置的方式對算力資源進(jìn)行解構(gòu)和分類。這包括人工對每個算力資源進(jìn)行分類、規(guī)格化和標(biāo)記,將其劃分為不同類型、不同規(guī)格和性能等級。這種方法需要依靠運(yùn)維人員對算力資源的了解和判斷,手動指定其所屬的類別和特性。但這還遠(yuǎn)遠(yuǎn)不夠,在現(xiàn)實(shí)運(yùn)作中,需要借助傳感器、監(jiān)控系統(tǒng)和數(shù)據(jù)分析算法來實(shí)現(xiàn)。通過收集算力資源的運(yùn)行數(shù)據(jù),如CPU使用率、內(nèi)存占用、能耗等指標(biāo),以及性能測試結(jié)果,可以利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識別等技術(shù)來自動分析和劃分算力資源的類型和特性。在實(shí)際應(yīng)用中,通常會采用一些自動化工具和系統(tǒng)來輔助算力解構(gòu)的過程,提高效率和準(zhǔn)確性。

具體運(yùn)作過程中,算力調(diào)度層需要實(shí)時感知和監(jiān)測算力資源的狀態(tài)和可用性。這可以通過監(jiān)測計(jì)算節(jié)點(diǎn)的負(fù)載、性能指標(biāo)、能源消耗等來實(shí)現(xiàn)。傳感器、監(jiān)控系統(tǒng)和監(jiān)測算法可以用于收集和分析這些數(shù)據(jù),并提供準(zhǔn)確的算力度量。這樣結(jié)合任務(wù)需求和資源可用性,對算力資源進(jìn)行編排和分配。這可能涉及到任務(wù)調(diào)度算法、負(fù)載均衡策略、資源分配策略等。通過綜合考慮任務(wù)的優(yōu)先級、資源的可用性和性能指標(biāo),算力調(diào)度層可以決定如何最優(yōu)地分配算力資源,以實(shí)現(xiàn)任務(wù)的高效執(zhí)行。以上也稱為:彈性伸縮和自動化管理(Elastic Scaling and Automation),根據(jù)用戶需求和負(fù)載情況動態(tài)調(diào)整算力資源的規(guī)模和配置。彈性伸縮可以根據(jù)負(fù)載變化自動增加或減少計(jì)算資源,以滿足任務(wù)需求,并避免資源浪費(fèi)。自動化管理可以自動監(jiān)測和調(diào)整資源配置、執(zhí)行任務(wù)調(diào)度和優(yōu)化,從而提高系統(tǒng)的自動化程度和效率。

同時也結(jié)合前面算力網(wǎng)絡(luò)通信層的算力路由上報信息,通過算力路由算法、網(wǎng)絡(luò)拓?fù)鋬?yōu)化、數(shù)據(jù)傳輸調(diào)度算法等,優(yōu)化傳輸路徑、降低通信延遲、提高數(shù)據(jù)傳輸速率,從而優(yōu)化算力資源的利用效率。

智能算力調(diào)度和動態(tài)算力解構(gòu)是一個不斷試錯和修正的過程。在任務(wù)分配過程中,可能會采用一些啟發(fā)式算法、機(jī)器學(xué)習(xí)或優(yōu)化算法來進(jìn)行決策。這些算法會根據(jù)任務(wù)的特性、算力資源的性能指標(biāo)、歷史數(shù)據(jù)和反饋等信息,進(jìn)行評估和預(yù)測,以確定最優(yōu)的算力資源類型。然而,由于任務(wù)的特性和需求可能存在不確定性和變化,所以選擇的算力資源類型可能不總是完全準(zhǔn)確的。因此,智能算力調(diào)度和動態(tài)算力解構(gòu)是一個迭代的過程。在實(shí)際應(yīng)用中,可能會根據(jù)任務(wù)的執(zhí)行情況和算力資源的反饋信息,對算力資源的選擇和分配進(jìn)行修正和優(yōu)化。這可以包括動態(tài)調(diào)整任務(wù)分配策略、實(shí)時監(jiān)控任務(wù)的執(zhí)行情況,以及根據(jù)反饋信息對算力資源的選擇進(jìn)行修正。通過不斷的試錯和修正,智能算力調(diào)度和動態(tài)算力解構(gòu)可以逐漸優(yōu)化算力資源的利用效率和任務(wù)執(zhí)行的性能。這種迭代的過程可以提高智算中心的整體效能,并適應(yīng)任務(wù)需求和算力資源變化的動態(tài)性。

另外,智算中心的調(diào)度是一定會采用并行計(jì)算和分布式計(jì)算的方式來提升計(jì)算效率的。并行計(jì)算是將一個大型計(jì)算問題分解為多個子問題,并將這些子問題同時分配給多個計(jì)算資源進(jìn)行獨(dú)立計(jì)算,最終將它們的結(jié)果合并得到最終的計(jì)算結(jié)果。通過并行計(jì)算,可以加快計(jì)算速度,提高計(jì)算效率,并處理更大規(guī)模和復(fù)雜度的計(jì)算任務(wù)。分布式計(jì)算是將一個計(jì)算任務(wù)分發(fā)給多個計(jì)算節(jié)點(diǎn)進(jìn)行并行計(jì)算,這些計(jì)算節(jié)點(diǎn)可以分布在不同的物理位置上,相互之間通過網(wǎng)絡(luò)進(jìn)行通信和協(xié)同工作。分布式計(jì)算利用了智算中心中的多個計(jì)算資源,使得計(jì)算任務(wù)可以在多個節(jié)點(diǎn)上同時進(jìn)行,從而提高計(jì)算能力和資源利用率。

6. 算力應(yīng)用層

作為智算中心的最上層,算力應(yīng)用層直接與用戶和應(yīng)用程序進(jìn)行交互,負(fù)責(zé)接收用戶的計(jì)算任務(wù)和應(yīng)用需求,并將其轉(zhuǎn)化為具體的計(jì)算操作。這一層通過算力封裝和算力統(tǒng)計(jì)等管理功能,確保任務(wù)的準(zhǔn)確執(zhí)行和高效運(yùn)營。所以應(yīng)用層也可以叫做運(yùn)營層。

為了更好地運(yùn)營,需要做好算力封裝(Compute Packaging),將底層的算力資源進(jìn)行抽象和封裝,提供統(tǒng)一的接口和規(guī)范給上層的應(yīng)用程序使用。這樣,應(yīng)用程序可以通過標(biāo)準(zhǔn)化的接口調(diào)用和管理算力資源,而無需關(guān)注具體的硬件和底層細(xì)節(jié),做好隔離。算力封裝可以通過容器化技術(shù)(如Docker)或虛擬化技術(shù)(如虛擬機(jī))來實(shí)現(xiàn)。

有的時候,算力交易還存在算力并網(wǎng)(Compute Federation)的情況,也就是多個智算中心的算力資源進(jìn)行聯(lián)合和整合,形成一個統(tǒng)一的算力網(wǎng)絡(luò)。這可以通過跨地域、跨機(jī)構(gòu)的協(xié)同合作來實(shí)現(xiàn),以共享和交換算力資源。算力并網(wǎng)可以提高算力資源的利用率和可用性,使得用戶可以更加靈活地訪問和利用分布在不同地方的算力資源。

為了繁榮生態(tài),算力應(yīng)用層還需要提供應(yīng)用程序開發(fā)和部署(Application Development and Deployment)。以支持用戶開發(fā)和部署自己的應(yīng)用程序。這可能涉及編程框架、軟件開發(fā)工具包、API接口等,使得用戶可以方便地構(gòu)建和部署各種計(jì)算任務(wù)和應(yīng)用。此外,應(yīng)用程序開發(fā)和部署也需要與算力封裝和調(diào)度層進(jìn)行協(xié)同,以實(shí)現(xiàn)應(yīng)用程序的高效運(yùn)行和資源利用。

當(dāng)然,運(yùn)營一定少不了算力統(tǒng)計(jì)與監(jiān)控(Compute Monitoring)。對算力資源進(jìn)行實(shí)時的監(jiān)測、度量和統(tǒng)計(jì),以獲取關(guān)于算力資源的各種性能指標(biāo)和使用情況。這可以幫助算力管理者了解算力資源的利用率、負(fù)載情況、性能狀況等,從而進(jìn)行合理的調(diào)度和管理。常見的算力統(tǒng)計(jì)與監(jiān)控技術(shù)包括指標(biāo)收集、日志記錄、事件報警、性能分析等。

當(dāng)然,運(yùn)營的目的是為了營利,所以就需要算力交易和計(jì)費(fèi)系統(tǒng)(Compute Billing)?;谟脩舻挠?jì)算任務(wù)和資源使用情況,對其進(jìn)行計(jì)費(fèi)和結(jié)算。這需要實(shí)現(xiàn)計(jì)費(fèi)模型、價格策略、賬單生成等功能,并提供用戶界面和API接口進(jìn)行交互。交易計(jì)費(fèi)的設(shè)計(jì)應(yīng)當(dāng)考慮公平、透明和可擴(kuò)展性,以滿足不同用戶和應(yīng)用場景的需求。如果要使得智算算力交易更為靈活,還可以提供算力交易市場(Compute Marketplace)的功能,允許用戶交易和共享算力資源。這可以促進(jìn)資源的合理利用和共享經(jīng)濟(jì)的發(fā)展,使得資源擁有者可以出租閑置資源,而需求方可以獲得靈活的算力資源。算力交易市場需要提供可信的交易機(jī)制、支付結(jié)算功能和服務(wù)質(zhì)量保證,以確保交易的安全和可靠。

7. 開放計(jì)算

我們前面介紹了,智算中心的解決方案會分四層,每層都會有很多的供應(yīng)商,包括硬件供應(yīng)商、軟件供應(yīng)商或者解決方案集成商。這種復(fù)雜的狀況,是沒有辦法由一家供應(yīng)商解決的,更不要說還存在智算中心協(xié)同的情況了。所以要構(gòu)建一個繁榮的智算中心生態(tài)系統(tǒng),必須通過開放的標(biāo)準(zhǔn)和接口,各方才可以更便捷地整合和擴(kuò)展自己的產(chǎn)品和服務(wù)。

開放計(jì)算最先要做到的就是各方要遵循既定的標(biāo)準(zhǔn),智算中心通常涉及大規(guī)模的數(shù)據(jù)中心建設(shè)和管理。因此,可以參考數(shù)據(jù)中心相關(guān)的標(biāo)準(zhǔn)和規(guī)范,如TIA-942(數(shù)據(jù)中心設(shè)計(jì)和建設(shè)標(biāo)準(zhǔn))、ISO/IEC 27001(信息安全管理體系標(biāo)準(zhǔn))和ISO/IEC 20000(IT服務(wù)管理標(biāo)準(zhǔn))等。為了實(shí)現(xiàn)開放計(jì)算,可以參考開放計(jì)算的標(biāo)準(zhǔn)和規(guī)范,如Open Compute Project(OCP)的硬件設(shè)計(jì)規(guī)范。而互聯(lián)互通的通信層面需要遵循網(wǎng)絡(luò)通信的標(biāo)準(zhǔn)和規(guī)范,如IEEE和ITU的標(biāo)準(zhǔn)。

Open Compute Project(OCP)是當(dāng)前最重要的開放計(jì)算社區(qū)之一。社區(qū)的成員包括各大科技公司、數(shù)據(jù)中心運(yùn)營商、硬件供應(yīng)商和軟件開發(fā)者等。他們共同合作,通過共享硬件設(shè)計(jì)、制定開放標(biāo)準(zhǔn)和規(guī)范,推動數(shù)據(jù)中心、服務(wù)器、存儲和網(wǎng)絡(luò)等領(lǐng)域的創(chuàng)新。OCP社區(qū)的核心目標(biāo)是降低數(shù)據(jù)中心成本、提高能源效率、提升計(jì)算性能,并推動可持續(xù)發(fā)展。社區(qū)通過開放的硬件設(shè)計(jì)和規(guī)范,促進(jìn)各方共享最佳實(shí)踐和技術(shù)創(chuàng)新,加速行業(yè)的進(jìn)步。除此之外,在云層面和開源層面,也有很多和開放計(jì)算相關(guān)的社區(qū)和項(xiàng)目。比如Kubernetes(容器編排平臺)、OpenStack(開源云計(jì)算平臺)等。這些社區(qū)和項(xiàng)目在不同的領(lǐng)域推動開放計(jì)算的發(fā)展,吸引了大量的開發(fā)者和組織參與共同創(chuàng)新。

8. 展望未來

由于強(qiáng)勁的增長動力,智算中心,相信未來相當(dāng)長的一段時間內(nèi),都會是科技領(lǐng)域的熱點(diǎn)話題。智算中心的未來發(fā)展充滿了潛力和機(jī)遇。通過不斷探索和應(yīng)用新技術(shù),智算中心可以實(shí)現(xiàn)更高效、智能和可持續(xù)的計(jì)算能力,為社會和人類的進(jìn)步做出更大的貢獻(xiàn)。隨著科技的不斷進(jìn)步和創(chuàng)新的推動,我們可以期待智算中心將在未來展現(xiàn)出更加令人驚嘆的發(fā)展和成就。比如,當(dāng)下,量子計(jì)算和量子網(wǎng)絡(luò)方興未艾,如果有可能在智算中心引入量子能力,相信一定會引發(fā)新的變革和突破,讓我們拭目以待吧。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    7885
  • OpenHarmony
    +關(guān)注

    關(guān)注

    25

    文章

    3558

    瀏覽量

    15784

原文標(biāo)題:河套IT TALK90:(原創(chuàng))智能算力新篇章:智算中心構(gòu)建智能算力的大腦和神經(jīng)中樞

文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    九聯(lián)科技攜手智云網(wǎng)共繪智產(chǎn)業(yè)新篇章

    近日,智云網(wǎng)國家節(jié)點(diǎn)直連調(diào)度項(xiàng)目啟動儀式在深圳隆重舉行。該項(xiàng)目聚焦國家節(jié)點(diǎn)與主要城市間的高帶寬低時延直聯(lián)調(diào)度平臺的建設(shè),是響應(yīng)國家
    的頭像 發(fā)表于 09-11 16:31 ?241次閱讀

    中科曙光入選2024服務(wù)產(chǎn)業(yè)圖譜及服務(wù)產(chǎn)品名錄

    近日,中國信通院公布首個《服務(wù)產(chǎn)業(yè)圖譜(2024年)》及《服務(wù)產(chǎn)品名錄(2024年)》。曙光智
    的頭像 發(fā)表于 08-06 14:23 ?441次閱讀

    IaaS+on+DPU(IoD)+下一代高性能底座技術(shù)白皮書

    DPU 是當(dāng)下基礎(chǔ)設(shè)施的核心創(chuàng)新之一。如果把 CPU 比做大腦,那么 GPU 就好比是肌肉,而 DPU 就是神經(jīng)中樞。CPU 承載了應(yīng)用生態(tài),提供了通用型
    發(fā)表于 07-24 15:32

    中國中心市場持續(xù)增長,智能規(guī)??焖籴绕?/a>

    7月24日,中國信息通信研究院(簡稱“中國信通院”)權(quán)威發(fā)布了《中國中心服務(wù)商分析報告(2024年)》,該報告深入剖析了中國
    的頭像 發(fā)表于 07-24 15:25 ?306次閱讀

    力系列基礎(chǔ)篇——與計(jì)算機(jī)性能:解鎖超能力的神秘力量!

    在《力系列基礎(chǔ)篇——101:從零開始了解》中,相信各位粉絲初步了解到人工智能的“發(fā)動機(jī)
    的頭像 發(fā)表于 07-11 08:04 ?104次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>與計(jì)算機(jī)性能:解鎖超能力的神秘力量!

    壁仞科技為中國移動呼和浩特智中心提供強(qiáng)大

    ? 隨著人工智能技術(shù)的飛速發(fā)展,高性能計(jì)算中心成為推動AI創(chuàng)新和應(yīng)用的關(guān)鍵基礎(chǔ)設(shè)施。近日,中國移動智中心(呼和浩特)成功上線運(yùn)營。國內(nèi)領(lǐng)先的GPU企業(yè)壁仞科技的壁礪系列通用GPU
    的頭像 發(fā)表于 07-05 17:16 ?1081次閱讀

    基礎(chǔ)設(shè)施的風(fēng)險與挑戰(zhàn)

    編者按網(wǎng)絡(luò)有一個美好的愿景,就是希望網(wǎng),能像電力和電網(wǎng)一樣:
    的頭像 發(fā)表于 06-13 08:27 ?374次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基礎(chǔ)設(shè)施的風(fēng)險與挑戰(zhàn)

    力系列基礎(chǔ)篇——101:從零開始了解

    相信大家已經(jīng)感受到,我們正處在一個人工智能時代。如果要問在人工智能時代最重要的是什么?那必須是:
    的頭像 發(fā)表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    中心:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎

    隨著數(shù)字經(jīng)濟(jì)的快速發(fā)展,中心正逐漸成為推動經(jīng)濟(jì)發(fā)展的重要力量。中心是指能夠提供大規(guī)模、高
    的頭像 發(fā)表于 04-13 08:27 ?1220次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎

    智能規(guī)模超通用,大模型對智能提出高要求

    的縮寫,即每秒所能夠進(jìn)行的浮點(diǎn)運(yùn)算數(shù)目(每秒浮點(diǎn)運(yùn)算量)。 ? 可以分為通用、智能
    的頭像 發(fā)表于 02-06 00:08 ?5534次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52

    前海深港人工智能中心啟動

    前海深港人工智能中心已于日前啟動。該算中心是大灣區(qū)最大規(guī)模、
    的頭像 發(fā)表于 01-17 08:25 ?433次閱讀
    前海深港人工<b class='flag-5'>智能</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>啟動

    網(wǎng)絡(luò)面臨三大挑戰(zhàn)

    2024年,以AIGC為代表的人工智能技術(shù)將進(jìn)一步激發(fā)需求,網(wǎng)絡(luò)、智
    的頭像 發(fā)表于 01-12 10:39 ?821次閱讀

    什么是可分為哪些類別?

    計(jì)算是人類解決問題的一種方式。 在漫長的歷史長河中,人類遇到過很多問題,都需要通過計(jì)算來解決。這些計(jì)算任務(wù),僅憑大腦這個“原生”工具,是無法完成的。 于是,人類發(fā)明了很多
    的頭像 發(fā)表于 11-20 09:27 ?1.2w次閱讀
    什么是<b class='flag-5'>算</b><b class='flag-5'>力</b>?<b class='flag-5'>算</b><b class='flag-5'>力</b>可分為哪些<b class='flag-5'>算</b><b class='flag-5'>力</b>類別?

    到底什么是的作用?

    的字面意思,大家都懂,就是計(jì)算能力(Computing Power)。
    的頭像 發(fā)表于 11-20 09:26 ?1596次閱讀
    到底什么是<b class='flag-5'>算</b><b class='flag-5'>力</b>?<b class='flag-5'>算</b><b class='flag-5'>力</b>的作用?