作者:Greg Martin,賽靈思公司戰(zhàn)略市場(chǎng)營(yíng)銷總監(jiān)
AI 已經(jīng)開始改變我們生活的方方面面,推動(dòng)了顯著的社會(huì)進(jìn)步。從自動(dòng)駕駛汽車到 AI 輔助醫(yī)療診斷,我們正處于一個(gè)真正的變革時(shí)代的開端。
但是,有機(jī)遇就會(huì)有挑戰(zhàn)。AI 推斷作為采用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)算法開展預(yù)測(cè)的過(guò)程,無(wú)論是部署在云端、邊緣還是終端,都要求在嚴(yán)格的功耗預(yù)算下提供優(yōu)異的處理性能。普遍的看法認(rèn)為,僅憑 CPU 難以滿足這一要求,需要某種形式的計(jì)算加速才能更高效地處理 AI 推斷工作負(fù)載。
與此同時(shí),AI 算法正在快速演進(jìn)發(fā)展,且速度快于傳統(tǒng)芯片開發(fā)周期的速度。如果使用 ASIC 等固定功能的芯片實(shí)現(xiàn) AI 網(wǎng)絡(luò),則可能因先進(jìn) AI 模型的高速創(chuàng)新而迅速過(guò)時(shí)。
整體應(yīng)用加速
此外還有第三個(gè)挑戰(zhàn),而這也是較少為人所知的一個(gè),其出現(xiàn)的原因在于 AI 推斷無(wú)法單獨(dú)部署。真正的 AI 部署通常需要非 AI 處理,無(wú)論是在 AI 功能之前還是之后。例如,圖像可能需要完成解壓縮和縮放后才能符合 AI 模型的數(shù)據(jù)輸入要求。這些傳統(tǒng)的處理功能必須運(yùn)行在與 AI 功能相同的吞吐量下,同樣需要實(shí)現(xiàn)高性能與低功耗。與 AI 推斷實(shí)現(xiàn)方案類似,非 AI 的預(yù)處理和后處理功能開始需要某種形式的加速。
要構(gòu)建真實(shí)應(yīng)用,就需要高效地實(shí)現(xiàn)整體應(yīng)用。在數(shù)據(jù)中心應(yīng)用中,應(yīng)用可能擁有數(shù)千個(gè)乃至數(shù)百萬(wàn)個(gè)并行實(shí)例。如果每個(gè)實(shí)例都能降低一定程度的功耗,總功耗將實(shí)現(xiàn)顯著下降。
只有當(dāng)整體應(yīng)用能夠通過(guò)加速滿足性能目標(biāo),同時(shí)又能通過(guò)提高效率滿足功耗要求時(shí),解決方案才具備可行性。那么,我們?cè)撊绾瓮ㄟ^(guò)可行方式實(shí)現(xiàn)整體應(yīng)用加速呢?
這里有三個(gè)關(guān)鍵因素:
? 能夠構(gòu)建定制數(shù)據(jù)路徑;
? 使用單器件實(shí)現(xiàn)方案;
? 能夠充分發(fā)揮最先進(jìn)的 AI 模型的優(yōu)勢(shì)并隨之實(shí)現(xiàn)快速演進(jìn)發(fā)展和改善。
下面分別具體介紹這三個(gè)環(huán)節(jié)。
1、能夠構(gòu)建定制數(shù)據(jù)路徑
大多數(shù)形式的 AI 推斷是在流數(shù)據(jù)上運(yùn)行的。數(shù)據(jù)通常處于運(yùn)動(dòng)狀態(tài),如視頻的一部分、正在處理的醫(yī)療影像或是正在分析的網(wǎng)絡(luò)流量。
即使將數(shù)據(jù)存儲(chǔ)在磁盤上,也要從磁盤上讀取數(shù)據(jù),然后通過(guò)“AI 應(yīng)用”進(jìn)行傳輸。定制數(shù)據(jù)路徑為處理這類數(shù)據(jù)流提供了最高效的方法。
定制數(shù)據(jù)路徑讓應(yīng)用擺脫了傳統(tǒng)的馮·諾依曼 CPU 架構(gòu)的限制。在這種架構(gòu)中,數(shù)據(jù)以小批量從存儲(chǔ)器讀出,經(jīng)過(guò)處理再寫回處理器。相反,定制數(shù)據(jù)路徑將數(shù)據(jù)從一個(gè)處理引擎?zhèn)鬟f給下一個(gè)處理引擎,不僅時(shí)延低,而且性能水平合理。過(guò)低的處理性能無(wú)法滿足這種應(yīng)用的要求。過(guò)高的處理性能則會(huì)降低效率,因存在閑置功能而浪費(fèi)功耗或物理空間。定制數(shù)據(jù)路徑提供了絕佳平衡,為應(yīng)用提供量身定制的實(shí)現(xiàn)方案。
2、單器件實(shí)現(xiàn)方案
一些解決方案非常適合 AI 推斷,但并不適合整體應(yīng)用處理。GPU 等固定架構(gòu)器件普遍不適合這類用途。GPU 往往能提供很高的 TOP(每秒太次運(yùn)算,一種常見(jiàn)的性能指標(biāo)),但是 AI 推斷性能通常需要與預(yù)處理性能和后處理性能匹配。如果非 AI 組件不能高效地在同一個(gè) GPU 上實(shí)現(xiàn),就需要多器件解決方案。由于需要在器件間傳遞數(shù)據(jù),會(huì)浪費(fèi)功耗,因此從功耗的角度來(lái)看極為低效和高成本。因此,一個(gè)能夠高效實(shí)現(xiàn)整體應(yīng)用的單器件在實(shí)際 AI 推斷部署中擁有顯著優(yōu)勢(shì)。
3、靈活適應(yīng)最新的 AI 模型并隨之演進(jìn)
AI 的創(chuàng)新速度令人驚嘆。如今被視為先進(jìn)的技術(shù),很容易在半年后就宣告過(guò)時(shí)。使用較老模型的應(yīng)用有喪失競(jìng)爭(zhēng)力的風(fēng)險(xiǎn),所以,能夠快速實(shí)現(xiàn)最先進(jìn)的模型就極為關(guān)鍵。
那么,什么樣的技術(shù)既允許 AI 模型動(dòng)態(tài)更新,又能提供構(gòu)建定制數(shù)據(jù)路徑的能力,從而在單個(gè)器件中加速 AI 和非 AI 處理呢?答案是——自適應(yīng)計(jì)算平臺(tái)。
自適應(yīng)計(jì)算平臺(tái)
自適應(yīng)計(jì)算平臺(tái)構(gòu)建在能在制造后動(dòng)態(tài)重配置的硬件上。這包括 FPGA 等經(jīng)過(guò)長(zhǎng)期檢驗(yàn)的技術(shù),以及賽靈思 AI 引擎等最近的創(chuàng)新。賽靈思 Versal? 自適應(yīng)計(jì)算加速平臺(tái)等單器件平臺(tái)便于構(gòu)建定制數(shù)據(jù)路徑,為 AI 處理和非 AI 處理功能提速。此外,因?yàn)橛布梢钥焖僦嘏渲?,所以它們也能快速高效地?shí)現(xiàn)最新 AI 模型。自適應(yīng)計(jì)算器件結(jié)合了兩方面的優(yōu)勢(shì)。它們既具備定制 ASIC 的效率優(yōu)勢(shì),又避免了漫長(zhǎng)高成本的設(shè)計(jì)周期。
賽靈思 Versal AI Core 系列 VC1902
最優(yōu)秀的 AI 應(yīng)用實(shí)現(xiàn)方案未必是速度最快的。它需要的是在效率最高的同時(shí)保持靈活性。它必須是量身定制的,能夠按需交付性能,不多不少。
總結(jié)
隨著 AI 推斷的應(yīng)用日益普及,問(wèn)題不僅在于如何部署 AI 模型,也在于如何最高效地部署整體 AI 應(yīng)用。在應(yīng)用被復(fù)制數(shù)千次乃至數(shù)百萬(wàn)次時(shí),每個(gè)實(shí)例的少許節(jié)能也許能省下整個(gè)發(fā)電站所需的能源。如果將這種節(jié)省擴(kuò)展到正在開發(fā)的不計(jì)其數(shù)的新 AI 應(yīng)用中,效果將十分明顯。毫無(wú)疑問(wèn),整體 AI 應(yīng)用的高效加速應(yīng)成為技術(shù)行業(yè)所有從業(yè)者的目標(biāo),而自適應(yīng)計(jì)算平臺(tái)提供了極富競(jìng)爭(zhēng)力的解決方案。
責(zé)任編輯:haq
-
賽靈思
+關(guān)注
關(guān)注
32文章
1794瀏覽量
131136 -
AI
+關(guān)注
關(guān)注
87文章
29862瀏覽量
268154
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論