0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳細介紹GPGPU計算的原理和應(yīng)用

lC49_半導(dǎo)體 ? 來源:yxw ? 作者:Daniel Mor ? 2019-08-27 09:43 ? 次閱讀

當下,嵌入式系統(tǒng)設(shè)計主要面臨兩個困難,可將其歸納為:算力的損失和功耗的增加。主要的“罪魁禍首”包括:數(shù)據(jù)源的涌入(influx),技術(shù)的持續(xù)升級,系統(tǒng)規(guī)模的縮小以及系統(tǒng)內(nèi)部密度的增加。

高性能嵌入式計算機(HPEC)系統(tǒng)已經(jīng)開始在通用圖形處理器單元(GPGPU)上利用專用的并行計算速度和性能,使系統(tǒng)設(shè)計人員能夠?qū)⒊錾墓β屎托阅軒雸怨棠陀玫男⌒突O(shè)計(SFFs)。

GPU加速計算將圖形處理單元(GPU)與中央處理單元(CPU)結(jié)合在一起,以加速應(yīng)用程序,并將一些計算密集型任務(wù)從CPU移到到GPU。

這里,需要特別關(guān)注的是,隨著處理要求的不斷提高,主計算引擎——CPU——最終會不堪重負。而GPU已經(jīng)發(fā)展成為一種極其靈活且強大的處理器,并且由于具有改進的可編程性、精度和并行處理能力,可以比CPU更好、更快地處理某些計算任務(wù)。

如果能深入了解GPGPU計算,包括其強大的功能和局限性,可以幫助設(shè)計人員為應(yīng)用選擇能提供最佳性能的產(chǎn)品。

下面,我們就來分析一下關(guān)于GPGPU的11種說法和認知,看哪些是對的,哪些是錯的。

1.GPGPU只適用于消費類電子產(chǎn)品,如游戲中的圖形渲染

這種說法不對。正如過去幾年所展示的那樣,GPGPU正在重新定義數(shù)據(jù)處理和深度學(xué)習(xí)網(wǎng)絡(luò)方面的能力,以及塑造著其在人工智能領(lǐng)域的形象和期望。且有越來越多基于GPGPU技術(shù)的軍事和國防項目在應(yīng)用中部署,包括用于雷達的先進處理能力,圖像識別,分類,運動檢測,編碼等系統(tǒng)。

2.因為是“通用的”,所以GPU不是為處理復(fù)雜的高密度計算任務(wù)而設(shè)計的

這種說法也是錯的。典型的強大RISC或CISC CPU具有數(shù)十個復(fù)雜核心。GPU具有數(shù)千個“專用”內(nèi)核,經(jīng)過優(yōu)化可處理和操作大型數(shù)據(jù)矩陣,如顯示器或輸入設(shè)備和光學(xué)相機(見圖1)。這些GPU允許應(yīng)用程序在多個內(nèi)核之間共享算法,并且更容易構(gòu)建和執(zhí)行并行處理。能夠在GPU上創(chuàng)建許多并發(fā)“內(nèi)核” ——每個“內(nèi)核”負責特定計算的子集——使系統(tǒng)能夠執(zhí)行復(fù)雜的高密度計算。

圖1:雖然多核CPU能提供增強的處理能力,但基于CUDA的GPU可提供數(shù)千個并行運行,并同時處理大量數(shù)據(jù)的內(nèi)核。

GPGPU管道在GPU上使用并行處理來分析數(shù)據(jù),就好像它是圖像或其他圖形數(shù)據(jù)一樣。雖然GPU在較低頻率下運行,但它們通常具有許多核心數(shù)量。因此,與傳統(tǒng)CPU相比,GPU每秒可以處理更多的圖片和圖形數(shù)據(jù)。使用GPU并行管道掃描和分析圖形數(shù)據(jù)可以實現(xiàn)大幅加速。

3.GPGPU不夠堅固,無法承受如井下監(jiān)測、移動或軍事應(yīng)用等惡劣環(huán)境

錯。加固的責任實際上是在電路板或系統(tǒng)制造商身上。在惡劣的電子環(huán)境中使用的許多零部件在制造時并不堅固,這方面,GPGPU與其它器件相同。這時,就需要設(shè)計可靠系統(tǒng)的知識發(fā)揮作用了,包括哪種技術(shù)可以最好地減輕環(huán)境危害等因素的影響,并確保系統(tǒng)滿足特定的應(yīng)用要求。

例如, Aitech擁有基于GPGPU的電路板和SFF系統(tǒng),這些電路板和SFF系統(tǒng)符合許多航空電子設(shè)備,海軍,地面和移動應(yīng)用要求,這得益于其數(shù)十年積累起來的、可用于系統(tǒng)開發(fā)的專業(yè)知識。

4.當處理能力超出系統(tǒng)要求時,替代方案需要增加功耗(即購買功能更強大的硬件

這種說法是對的。如果用戶試圖避免使用GPGPU,通常會導(dǎo)致CPU性能不足。為了嘗試解決這個難題,通常會增加額外的CPU板,或者現(xiàn)有的板會超頻,從而導(dǎo)致功耗增加。在大多數(shù)情況下,結(jié)果是降低了CPU頻率性能以及需要降低時鐘以補償芯片溫度上升。

5.不添加另一個處理引擎會增加系統(tǒng)中的復(fù)雜性和集成問題嗎?

在短期內(nèi),也許是這樣,因為您需要考慮使用新的尖端技術(shù)的學(xué)習(xí)曲線。但從長遠來看,不是這樣。CUDA已成為圖像處理和算法的事實上的計算語言。構(gòu)建CUDA算法后,您可以在支持NVIDIA GPGPU板的任何不同平臺上“重復(fù)使用”它。將它從一個平臺移植到另一個平臺很容易,因此,該方法只需要很少的特定硬件,因此更“通用”。

6.由于基于GPGPU的系統(tǒng)處理極大量的數(shù)據(jù),因此會增加功耗

不是的。當今的GPGPU非常節(jié)能。一些GPGPU板的功耗與CPU板上的功耗相同。GPGPU板可以使用數(shù)千個CUDA內(nèi)核處理更多的并行數(shù)據(jù)。因此,功率 - 性能比是以非常積極的方式受到影響的因素。

7.在性能和功耗之間仍需要權(quán)衡

是的,這些權(quán)衡總是存在的。更高的性能和更快的吞吐量需要更多的功耗,這是事實。但這些是您在使用CPU或其它處理器時,同樣需要面對的問題,無一例外。

例如,采用“NVIDIA Optimus技術(shù)”時,由于它是一種計算機GPU切換技術(shù),其中,獨立GPU處理所有渲染任務(wù),最終圖像輸出到顯示器仍由RISC處理器及其集成圖形處理器(IGP)處理。實際上,RISC CPU的IGP僅用作簡單的顯示控制器,從而實現(xiàn)無縫、實時、無閃爍的體驗,無需在GPGPU或共享CPU上承擔圖像渲染和生成的全部負擔所有RISC CPU上的圖像識別資源。這種負載共享可使系統(tǒng)更加強大。

當運行不太關(guān)鍵或要求較低的應(yīng)用程序時,可以關(guān)閉獨立GPU。英特爾IGP可處理渲染和顯示調(diào)用,以節(jié)省電量并提供最高的性能功耗比。

8.平衡CPU上的負載可以通過簡單的電路板升級來完成,且足以管理系統(tǒng)所需的數(shù)據(jù)處理

錯。對于這種情況,業(yè)界肯定會采用并行處理,即采用GPU處理,這是有充分理由的。并行處理圖像是GPU最擅長的。隨著數(shù)據(jù)輸入和攝像機分辨率的不斷增長,對并行處理架構(gòu)的需求將成為常態(tài),而不是奢侈品。對于需要同時捕獲、比較、分析和決策數(shù)百個圖像的任務(wù)和安全行業(yè)尤其如此(見圖2)。

圖2:隨著數(shù)據(jù)輸入的增加,CPU在處理、負載平衡和時鐘要求方面的能力將無法滿足實際要求。

9.摩爾定律也適用于GPGPU

是的。有一個解決方案。NVIDIA目前正在對多芯片模塊GPU(MCM-GPU)架構(gòu)進行原型設(shè)計,盡管當今的集成電路制程工藝升級越來越困難,晶體管微縮速度明顯減緩,但該架構(gòu)可實現(xiàn)持續(xù)的GPU性能擴展。

在GTC 2019上,NVIDIA關(guān)于MCM-GPU芯片的討論部分,特別介紹了許多可應(yīng)用于更高級別計算系統(tǒng)的技術(shù),包括mesh網(wǎng)絡(luò),低延遲信令和可擴展的深度學(xué)習(xí)架構(gòu),以及有機基板上的die-to-die高效傳輸技術(shù)。

10.學(xué)習(xí)一種全新的編程語言(如CUDA)需要花費太多的時間和金錢投入

實際上,并不是這樣的。目前,CUDA是事實上的并行計算標準語言,且市場上已經(jīng)部署了許多基于CUDA的解決方案,因此,許多算法已經(jīng)移植到了CUDA。NVIDIA有一個大型的在線論壇,有許多應(yīng)用案例,網(wǎng)絡(luò)培訓(xùn)課程,用戶社區(qū)等。此外,軟件公司愿意幫助設(shè)計人員完成CUDA的入門。在許多大學(xué),CUDA現(xiàn)在是編程語言課程的一部分。

學(xué)習(xí)任何新的計算技術(shù)似乎都會令人生畏。但是,憑借可用資源和GPGPU技術(shù)的廣闊前景,這是一種非常值得投資的編程語言。

11.嵌入式市場沒有“工業(yè)級”GPGPU,特別是SFF,SWaP優(yōu)化系統(tǒng)

錯。NVIDIA擁有一套完整的、面向嵌入式市場的“Jetson”產(chǎn)品線(見圖3)。目前包括以下系統(tǒng)模塊(SoM),每個模塊都采用SFF設(shè)計,對其尺寸、重量和功耗都進行了優(yōu)化。

TX1

TX2

TX2i:特殊的“工業(yè)”版本,適用于非?!皭毫印钡沫h(huán)境

Xavier

圖3:專為工業(yè)級和軍用級應(yīng)用而設(shè)計的GPGPU,正在重新定義SWaP優(yōu)化和SFF系統(tǒng)的預(yù)期性能。

實際上,NVIDIA推出了具有更長生命周期的TX2i模塊,這意味著對于長期計劃(如航空航天、國防和太空)以及幾種工業(yè)應(yīng)用來說,組件過時風險較小。業(yè)界已經(jīng)部署了許多相應(yīng)的軍事和工業(yè)項目以及客戶計劃,每天都有新的應(yīng)用推出。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    334

    文章

    26910

    瀏覽量

    214688
  • 嵌入式
    +關(guān)注

    關(guān)注

    5060

    文章

    18980

    瀏覽量

    302258
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7383

    瀏覽量

    87643
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46698

    瀏覽量

    237197
收藏 人收藏

    評論

    相關(guān)推薦

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--了解算力芯片GPU

    方式可以提高處理器的吞吐量。并行計算模式(而非圖形模式下)GPGPU的流水線是針對線程束進行管理的,也就是NVIDIA所說的 CUDA環(huán)境下的 warp 或者AMD 所說的 OpenCL 環(huán)境下
    發(fā)表于 11-03 12:55

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    計算發(fā)展 7.2 GPGPU指令流水線 第8章 GPGPU 存儲體系與線程管理 8.1 GPGPU多級別存儲體系 8.2 GPGPU線程管
    發(fā)表于 10-15 22:08

    GPGPU體系結(jié)構(gòu)優(yōu)化方向(1)

    繼續(xù)上文GPGPU體系結(jié)構(gòu)優(yōu)化方向 [上],介紹提高并行度和優(yōu)化流水線的方向。
    的頭像 發(fā)表于 10-09 10:03 ?197次閱讀
    <b class='flag-5'>GPGPU</b>體系結(jié)構(gòu)優(yōu)化方向(1)

    龍芯中科首款GPGPU芯片9A1000計劃明年流片

    龍芯中科在GPU領(lǐng)域邁出了堅實步伐,其首款集成自研GPGPU核心的2K3000芯片已在上半年成功交付流片,標志著龍芯在終端應(yīng)用市場的深入探索。更令人矚目的是,其首款GPGPU芯片9A1000計劃于今
    的頭像 發(fā)表于 09-24 14:48 ?431次閱讀

    【《計算》閱讀體驗】+一篇內(nèi)容豐富的介紹計算的科普書

    閱讀實體書,捧在手里翻頁的感覺完全不一樣。 從介紹來看作者也是大牛 一開始看到書名的時候以為是講計算理論的專業(yè)書,拿到書本看到介紹和目錄之后才發(fā)現(xiàn)其實是一本科普書。但是看到書的目錄之后
    發(fā)表于 06-27 23:18

    京準電鐘:GPS時鐘服務(wù)器(NTP授時服務(wù)器)資料詳細介紹

    京準電鐘:GPS時鐘服務(wù)器(NTP授時服務(wù)器)資料詳細介紹書 京準電鐘:GPS時鐘服務(wù)器(NTP授時服務(wù)器)資料詳細介紹
    發(fā)表于 06-18 14:52

    反激式參數(shù)詳細計算(含公式)

    反激式參數(shù)詳細計算(含公式)
    發(fā)表于 06-17 13:10 ?0次下載

    CE的EMC測試 電磁兼容測試詳細介紹

    電子發(fā)燒友網(wǎng)站提供《CE的EMC測試 電磁兼容測試詳細介紹.pdf》資料免費下載
    發(fā)表于 05-27 09:24 ?4次下載

    開源芯片系列講座第20期:基于RISC-V向量擴展的開源GPGPU軟硬件設(shè)計

    在當前國際科技競爭日益激烈的情勢下,我國急需要建立一個采用開源指令集GPGPU架構(gòu),構(gòu)建起統(tǒng)一的軟硬件生態(tài)。相關(guān)參與方共同努力,共同建設(shè)起我國自主可控的GPGPU產(chǎn)業(yè),服務(wù)于我國電子信息核心關(guān)鍵產(chǎn)業(yè)。
    的頭像 發(fā)表于 05-20 16:27 ?285次閱讀
    開源芯片系列講座第20期:基于RISC-V向量擴展的開源<b class='flag-5'>GPGPU</b>軟硬件設(shè)計

    開關(guān)電源(SMPS)中各個元器件損耗的計算和預(yù)測技術(shù)介紹

    本文詳細介紹了開關(guān)電源(SMPS)中各個元器件損耗的計算和預(yù)測技術(shù),并討論了提高開關(guān)調(diào)節(jié)器效率的相關(guān)技術(shù)和特點,以選擇最合適的芯片來達到高效指標。
    的頭像 發(fā)表于 01-22 18:26 ?2w次閱讀
    開關(guān)電源(SMPS)中各個元器件損耗的<b class='flag-5'>計算</b>和預(yù)測技術(shù)<b class='flag-5'>介紹</b>

    什么是邊緣計算,邊緣計算有哪些應(yīng)用?

    ,以降低數(shù)據(jù)傳輸延遲、減輕網(wǎng)絡(luò)壓力,同時提供更快速、更靈活的服務(wù)。邊緣計算在各個領(lǐng)域都有廣泛應(yīng)用,下面將詳細介紹邊緣計算的定義、原理以及各個應(yīng)用領(lǐng)域。 邊緣
    的頭像 發(fā)表于 01-09 11:29 ?1625次閱讀

    電機扭矩的計算公式和轉(zhuǎn)速計算公式

    在電機學(xué)中,電機轉(zhuǎn)速和扭矩是非常重要的參數(shù),在實際應(yīng)用中,電機轉(zhuǎn)速和扭矩的計算公式也使用得非常頻繁,本文詳細介紹扭矩的計算公式和轉(zhuǎn)速計算公式
    發(fā)表于 12-25 09:41 ?4577次閱讀

    大算力芯片何時迎來終局戰(zhàn)?

    在NVIDIA GPGPU之前,GPU真的就只是GPU,即專用于圖形計算的加速卡。這一時期的GPU,符合DSA的定義規(guī)范,可以當作是專用于圖像領(lǐng)域的G-DSA。直到NVIDIA GPGPU的出現(xiàn)。
    發(fā)表于 12-21 15:45 ?459次閱讀
    大算力芯片何時迎來終局戰(zhàn)?

    pcb電流與線寬公式詳細計算

    PCB(Printed Circuit Board,印刷電路板)是現(xiàn)代電子產(chǎn)品中必不可少的關(guān)鍵部件之一。在制造過程中,對于電子線路板的電流和線寬的選取是非常重要的因素。本文將詳細介紹PCB電流與線寬
    的頭像 發(fā)表于 12-19 10:31 ?4197次閱讀

    從圖形到通用計算GPGPU技術(shù)的進化之路

    在當今的計算世界中,GPGPU(General-Purpose computing on Graphics Processing Units)已成為一種重要的技術(shù)概念。它與傳統(tǒng)的圖形處理單元(GPU
    的頭像 發(fā)表于 12-01 12:55 ?1033次閱讀
    從圖形到通用<b class='flag-5'>計算</b>:<b class='flag-5'>GPGPU</b>技術(shù)的進化之路