0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文詳談AI邊緣推理與數(shù)據(jù)中心的差異和應(yīng)用

如意 ? 來源:OFweek電子工程網(wǎng) ? 作者:電子工程世界 ? 2020-09-19 11:31 ? 次閱讀

雖然推理加速器最初用于數(shù)據(jù)中心,但它們已經(jīng)迅速發(fā)展到應(yīng)用程序的邊緣推理,如自動駕駛醫(yī)學(xué)成像。通過這種轉(zhuǎn)變,客戶發(fā)現(xiàn),同樣的加速器,在數(shù)據(jù)中心處理圖像很順利,但移到邊緣推斷方面卻顯得糟糕。其實原因很簡單:一個處理數(shù)據(jù)池,而另一個處理的是數(shù)據(jù)流。

當(dāng)你在batch = 1時進行批處理時,池子里待處理的batch就會很多。在數(shù)據(jù)中心,客戶通常是數(shù)據(jù)的處理池,比如被標(biāo)記的照片。其目標(biāo)是用最少的資源和功耗以及最佳的延遲來處理盡可能多的照片。

另一方面,邊緣推斷應(yīng)用程序需要處理數(shù)據(jù)流。我們通常的相機每秒拍攝30幀,每幀通常是200萬像素。通常情況下,每幅圖像需要33毫秒,每秒大約30幀。當(dāng)你有一個圖像從一個流進來,它如何被處理取決于它需要做什么。

例如,使用推理進行零售分析的商店可能會計算給定時間排隊的人數(shù)。在這個例子中,他們真的不需要幾個小時甚至幾天的結(jié)果。然而,如果你駕駛一輛使用自動駕駛功能的汽車,你只有毫秒來處理圖像,否則你可能會撞到人。雖然在這兩個例子中,相機每3毫秒生成1幀圖像,但使用的推理加速器非常不同。

讓我們看看數(shù)據(jù)流發(fā)生了什么。

首先,您需要清理圖像以去除諸如光線條紋之類的東西,然后應(yīng)用推理。當(dāng)推理完成后,您需要采取一個行動,根據(jù)你正在處理的活動,所有這些都需要在特定的時間內(nèi)發(fā)生。如果你不需要幾個小時的結(jié)果,你可以對圖像進行批處理。在這種情況下,延遲就無關(guān)緊要了。重要的是用最少的成本和能量處理最多的圖像。

最常犯的一個錯誤就是在選擇邊緣推斷解決方案時沒有考慮延遲和流媒體吞吐量。比方說,你有一臺每秒能處理30幀的推理加速器,另一臺每秒能處理15幀。

大多數(shù)人自然而然地認(rèn)為每秒30幀的解決方案更好——其實你錯了。

每秒30幀的加速器可能會獲得比較可觀的吞吐量,原因是它有三個引擎,每個引擎都有不同的延遲。最典型的是英偉達Xavier推理加速器。Xavier的深度學(xué)習(xí)引擎處理圖像大約需要300毫秒,GPU大約需要90毫秒。如果客戶有兩個深度學(xué)習(xí)引擎+GPU都在運行,他們可能會在數(shù)據(jù)池中獲得顯著的吞吐量。

但是,如果它需要從數(shù)據(jù)流一次處理一個圖像,它就不能有效地使用深度學(xué)習(xí)引擎,吞吐量會顯著下降。在這種情況下,你需要觀察哪個執(zhí)行單元的延遲最短,即GPU的延遲為90毫秒。分割成1000毫秒就是每秒的幀數(shù),這意味著這個吞吐量實際上只有每秒10幀(而不是宣傳的每秒30幀)。

x Logix購買了一臺Xavier AGX,并將其配置為NX模式(該軟件測量芯片的功率,當(dāng)功率超過15W時,會調(diào)低芯片的時鐘,以防止芯片過熱)。

然后,我們通過Nvidia Xavier NX軟件流運行三個模型(YOLOv3加上我們客戶的兩個模型),并在芯片上運行,測量每張圖像的延遲。我們還通過自己的InferX X1性能評估器運行了相同的模型。

顯然,Nvidia不能為我們自己客戶的機型發(fā)布基準(zhǔn)測試,但YOLOv3的數(shù)據(jù)是在Xavier AGX上發(fā)布的,而不是在NX上發(fā)布的——而且他們發(fā)布的數(shù)據(jù)是使用GPU和兩個DL加速器的綜合吞吐量。對于Batch= 1,GPU有可接受的延遲。

不同的領(lǐng)域?qū)?yīng)不同的處理器

關(guān)注自動駕駛和航空航天等應(yīng)用程序的客戶要處理數(shù)據(jù)流,所以可能只關(guān)心流吞吐量。即使它們是空閑的,它們也不能利用運行較慢的執(zhí)行單元,因為它們需要在下一個圖像可用之前處理第一個圖像。在這些應(yīng)用程序中,要跟上圖像流是至關(guān)重要的,因為如果不這樣做,就需要存儲越來越多的數(shù)據(jù)。如果應(yīng)用程序是自動駕駛,這將延長延遲時間,并可能導(dǎo)致嚴(yán)重后果。

總之,如果你正在研究推理加速器,請明白它們是為什么而優(yōu)化的。

今年推出的大多數(shù)推斷加速器都是為ResNet-50進行優(yōu)化設(shè)計的,本人認(rèn)為是一個糟糕基準(zhǔn)測試,因為它使用了小圖像,比如224×224。

對于像自動駕駛這樣的應(yīng)用程序,一般是需要處理200萬像素的1440×1440級別的圖像。對于這些應(yīng)用程序,YOLOv3是一個更好的基準(zhǔn)測試。

我們也開始看到與ResNet-50和YOLOv3有著截然不同的新模型。在生物醫(yī)學(xué)工程或醫(yī)學(xué)成像等市場,他們處理不同類型的傳感器,而非行人目標(biāo)的檢測和識別,他們以一種非常不同的方式使用神經(jīng)網(wǎng)絡(luò)。在YOLOv3上運行良好的加速器可能在這些模型上運行得更好。

簡單介紹一下YOLOv3,它是YOLO (You Only Look Once)系列目標(biāo)檢測算法中的第三版,相比之前的算法,尤其是針對小目標(biāo),精度有顯著提升。下面我們就來看看在算法中究竟有哪些提升。

YOLOv3算法

首先如上圖所示,在訓(xùn)練過程中對于每幅輸入圖像,YOLOv3會預(yù)測三個不同大小的3D tensor,對應(yīng)著三個不同的scale。設(shè)計這三個scale的目的就是為了能夠檢測出不同大小的物體。在這里我們以13x13的tensor為例做一個簡單講解。對于這個scale,原始輸入圖像會被分成分割成13x13的grid cell,每個grid cell對應(yīng)著3D tensor中的1x1x255這樣一個長條形voxel。255這個數(shù)字來源于(3x(4+1+80)),其中的數(shù)字代表bounding box的坐標(biāo),物體識別度(objectness score),以及相對應(yīng)的每個class的confidence,具體釋義見上圖。

其次,如果訓(xùn)練集中某一個ground truth對應(yīng)的bounding box中心恰好落在了輸入圖像的某一個grid cell中(如圖中的紅色grid cell),那么這個grid cell就負(fù)責(zé)預(yù)測此物體的bounding box,于是這個grid cell所對應(yīng)的objectness score就被賦予1,其余的grid cell則為0。此外,每個grid cell還被賦予3個不同大小的prior box。在學(xué)習(xí)過程中,這個grid cell會逐漸學(xué)會如何選擇哪個大小的prior box,以及對這個prior box進行微調(diào)(即offset/coordinate)。但是grid cell是如何知道該選取哪個prior box呢?在這里作者定義了一個規(guī)則,即只選取與ground truth bounding box的IOU重合度最高的哪個prior box。

上面說了有三個預(yù)設(shè)的不同大小的prior box,但是這三個大小是怎么計算得來的呢?作者首先在訓(xùn)練前,提前將COCO數(shù)據(jù)集中的所有bbox使用K-means clustering分成9個類別,每3個類別對應(yīng)一個scale,這樣總共3個scale。這種關(guān)于box大小的先驗信息極大地幫助網(wǎng)絡(luò)準(zhǔn)確的預(yù)測每個Box的offset/coordinate,因為從直觀上,大小合適的box將會使網(wǎng)絡(luò)更快速精準(zhǔn)地學(xué)習(xí)。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4517

    瀏覽量

    71645
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28883

    瀏覽量

    266258
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    37

    文章

    3198

    瀏覽量

    57364
收藏 人收藏

    評論

    相關(guān)推薦

    沙特阿美攜手Groq打造全球最大推理數(shù)據(jù)中心

    石油巨頭沙特阿美與AI芯片創(chuàng)新企業(yè)Groq宣布了項重大合作,雙方將共同在沙特阿拉伯建設(shè)座全球規(guī)模領(lǐng)先的推理數(shù)據(jù)中心。據(jù)Groq官網(wǎng)消息,
    的頭像 發(fā)表于 09-19 18:03 ?366次閱讀

    AI時代,我們需要怎樣的數(shù)據(jù)中心?AI重新定義數(shù)據(jù)中心

    超過60%的中國企業(yè)計劃在未來12至24個月內(nèi)部署生成式人工智能。AI、模型的構(gòu)建,將顛覆數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)、運維和運營。個全新的數(shù)據(jù)中心智能化時代已經(jīng)拉開序幕。
    發(fā)表于 07-16 11:33 ?299次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數(shù)據(jù)中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數(shù)據(jù)中心</b>

    數(shù)據(jù)中心液冷需求、技術(shù)及實際應(yīng)用

    夏日炎炎,數(shù)據(jù)中心制冷技術(shù)全新升級,液冷散熱,讓服務(wù)器清涼夏。本文將帶您起探索數(shù)據(jù)中心液冷需求、技術(shù)及實際應(yīng)用。 1 數(shù)據(jù)中心液冷需求
    的頭像 發(fā)表于 06-19 11:12 ?532次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>液冷需求、技術(shù)及實際應(yīng)用

    HNS 2024:星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能

    華為數(shù)據(jù)通信創(chuàng)新峰會2024在巴庫隆重舉辦,在“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時代新動能”主題論壇中,華為面向中東中亞地區(qū)發(fā)布星河AI
    的頭像 發(fā)表于 05-15 09:15 ?440次閱讀
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡(luò),賦<b class='flag-5'>AI</b>時代新動能

    蘋果正在研發(fā)全新數(shù)據(jù)中心AI芯片

    蘋果正在秘密研發(fā)款全新的數(shù)據(jù)中心AI芯片,這項目在公司內(nèi)部被稱為“ACDC”,并且已經(jīng)經(jīng)過了數(shù)年的精心籌備。據(jù)華爾街日報的知情人士透露,這款芯片的設(shè)計目標(biāo)是為了優(yōu)化蘋果
    的頭像 發(fā)表于 05-08 09:40 ?319次閱讀

    #mpo極性 #數(shù)據(jù)中心mpo

    數(shù)據(jù)中心MPO
    jf_51241005
    發(fā)布于 :2024年04月07日 10:05:13

    圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò),全面釋放AI時代算力

    華為中國合作伙伴大會 | 圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò),以網(wǎng)強算,全面釋放AI時代算力
    的頭像 發(fā)表于 03-22 10:28 ?595次閱讀
    <b class='flag-5'>一</b>圖看懂星河<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡(luò),全面釋放<b class='flag-5'>AI</b>時代算力

    #mpo光纖跳線 #數(shù)據(jù)中心光纖跳線

    光纖數(shù)據(jù)中心
    jf_51241005
    發(fā)布于 :2024年03月22日 10:18:31

    #永久鏈路 #信道測試 #數(shù)據(jù)中心

    數(shù)據(jù)中心
    jf_51241005
    發(fā)布于 :2024年02月23日 10:17:58

    看懂數(shù)據(jù)中心基礎(chǔ)知識

    數(shù)據(jù)中心,現(xiàn)場通常指互聯(lián)網(wǎng)數(shù)據(jù)中心,英文縮寫是IDC,也就是Internet Data Center,數(shù)據(jù)中心種物理設(shè)施,可以占用個房
    的頭像 發(fā)表于 01-31 14:33 ?1673次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>看懂<b class='flag-5'>數(shù)據(jù)中心</b>基礎(chǔ)知識

    #光纜水峰 #綜合布線光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2024年01月15日 09:43:26

    Microchip CEO博AI將如何重新定義數(shù)據(jù)中心?》

    AI已經(jīng)存在了段時間,其影響也相當(dāng)巨大。生成式AI剛開始嶄露頭角,對于其如何顛覆世界的種種預(yù)言已經(jīng)迅速成為熱門話題,影響之深廣,令人深思。? 這項技術(shù)已經(jīng)對數(shù)據(jù)中心產(chǎn)生了重大影響?;?/div>
    的頭像 發(fā)表于 12-11 14:50 ?1188次閱讀
    Microchip CEO博<b class='flag-5'>文</b>《<b class='flag-5'>AI</b>將如何重新定義<b class='flag-5'>數(shù)據(jù)中心</b>?》

    #預(yù)端接光纜 #24芯光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2023年12月08日 11:01:21

    大模型時代,數(shù)據(jù)中心將轉(zhuǎn)向何方?

    數(shù)據(jù)中心大模型
    腦極體
    發(fā)布于 :2023年11月22日 09:01:41

    適用于數(shù)據(jù)中心AI 時代的網(wǎng)絡(luò)

    十多年來,傳統(tǒng)的云數(shù)據(jù)中心直是計算基礎(chǔ)設(shè)施的基石,滿足了各種用戶和應(yīng)用程序的需求。然而,近年來,為了跟上技術(shù)的進步和對 AI 驅(qū)動的計算需求的激增,數(shù)據(jù)中心進行了發(fā)展。 本文探討了網(wǎng)
    的頭像 發(fā)表于 10-27 20:05 ?447次閱讀
    適用于<b class='flag-5'>數(shù)據(jù)中心</b>和 <b class='flag-5'>AI</b> 時代的網(wǎng)絡(luò)