0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳細(xì)解析GPU的算法的3大優(yōu)勢以及并行化的研究問題

Dbwd_Imgtec ? 2018-01-19 15:49 ? 次閱讀

GPU計(jì)算的目的即是計(jì)算加速。相比于CPU,其具有以下三個(gè)方面的優(yōu)勢:

1

并行度高:GPU的Core數(shù)遠(yuǎn)遠(yuǎn)多于CPU,從而GPU的任務(wù)并發(fā)度也遠(yuǎn)高于CPU;

2

內(nèi)存帶寬高:GPU的內(nèi)存系統(tǒng)帶寬幾十倍高于CPU;

3

運(yùn)行速度快:GPU在浮點(diǎn)運(yùn)算速度上較之CPU也具有絕對優(yōu)勢。

另一方面,GPU采用的SIMD(Single Instruction Multiple Data)架構(gòu),這決定了其對執(zhí)行的任務(wù)具有特定的要求(如不適合判斷邏輯過多的任務(wù),數(shù)據(jù)大小不可控的任務(wù)等)。而且,應(yīng)用程序在GPU上也需有特定的實(shí)現(xiàn),包括算法的GPU并行化,程序的定制等。因此,針對GPU并行處理的研究成為一大研究熱點(diǎn)。

現(xiàn)有GPU采用SIMD方式執(zhí)行,即所有線程塊在同一時(shí)刻執(zhí)行相同的程序,從而若這些線程塊處理的數(shù)據(jù)量相差大,或計(jì)算量分布不均,便會帶來線程塊的負(fù)載不均,進(jìn)而影響整個(gè)任務(wù)執(zhí)行效率。這類問題實(shí)則常見的Skew Handling或Load Inbalance問題。

應(yīng)用算法的GPU并行化之所以成為一個(gè)研究問題而不僅僅是工程問題,這其中的主要的問題在于

1GPU不支持內(nèi)存的動態(tài)分配,從而對于輸出結(jié)果大小不確定的任務(wù)是一個(gè)極大的挑戰(zhàn);2GPU的SIMD特性使得很多算法不易很好實(shí)現(xiàn),即如何充分利用GPU線程塊的并行度;3共享數(shù)據(jù)的競爭讀寫,共享數(shù)據(jù)的鎖機(jī)制帶來大量的等待時(shí)間消耗。

GPU作為一種協(xié)處理器,其的執(zhí)行受CPU調(diào)度。在實(shí)際應(yīng)用中,GPU更多的也是配合CPU工作,從而基于CPU/GPU異構(gòu)系統(tǒng)的統(tǒng)一任務(wù)調(diào)度更具實(shí)用意義,也是有關(guān)GPU的重要研究方面。

GPU采用SIMD架構(gòu),各線程塊在同一時(shí)刻執(zhí)行相同的Instruction,但對應(yīng)的是不同的數(shù)據(jù)。但事實(shí)上,GPU線程塊具有如下特征:

每個(gè)線程塊只對應(yīng)于一個(gè)的流處理器(SM),即其只能被該對應(yīng)的SM執(zhí)行,而一個(gè)SM可以對應(yīng)多個(gè)線程塊;SM在執(zhí)行線程塊時(shí),線程塊中的線程以Warp(每32個(gè)線程)為單位調(diào)度及并行執(zhí)行;

線程塊內(nèi)的線程可同步,而不同線程塊的同步則只能由CPU調(diào)用同步命令完成;

不同線程塊的運(yùn)行相互獨(dú)立。

因此,為不同的線程塊分配不同的任務(wù),使得GPU做到任務(wù)并行,最大化GPU的利用成為可能并具有重要的研究意義。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128161
  • 并行化
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    2840

原文標(biāo)題:基于GPU的算法并行化

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    264.并行算法(5)GPU工作原理

    gpu并行
    小凡
    發(fā)布于 :2022年10月04日 14:15:48

    【招聘】算法、圖像檢索、嵌入式、測試、架構(gòu)、GPU優(yōu)化等職位(bj&sh)

    、測試等 3、參與視覺應(yīng)用軟件和相關(guān)自動化工具的開發(fā)和維護(hù)。 GPU優(yōu)化工程師 職責(zé): 1、計(jì)算機(jī)視覺和深度學(xué)習(xí)相關(guān)算法GPU/AI芯片上的實(shí) 要求: 1、精通
    發(fā)表于 02-28 14:23

    請問Mali GPU并行計(jì)算模型是怎樣構(gòu)建的?

    Mali T604 GPU的結(jié)構(gòu)是由哪些部分組成的?Mali T604 GPU的編程特性有哪些?Mali GPU并行計(jì)算模型是怎樣構(gòu)建的
    發(fā)表于 04-19 08:06

    求大佬分享一種基于GPU的Voronoi圖并行柵格生成算法

    本文重點(diǎn)研究了Voronoi圖的柵格生成方法,首先比較了常見的柵格方法生成Voronoi圖的優(yōu)缺點(diǎn),然后結(jié)合CUDA的出現(xiàn),提出一種基于GPU的Voronoi圖并行柵格生成算法
    發(fā)表于 06-01 06:44

    基于GPU并行APSP問題的研究

    Floyd-Warshall算法是圖論中APSP(All-Pair Shortest Paths )問題的經(jīng)典算法,為了加快計(jì)算速度,提出使用GPU通用計(jì)算來實(shí)現(xiàn)。文章先從算法的原理入
    發(fā)表于 09-12 16:11 ?19次下載

    基于GPU的遙感圖像融合并行算法研究

    基于通用GPU并行計(jì)算技術(shù),結(jié)合遙感圖像數(shù)據(jù)融合處理特點(diǎn),利用NVIDIA公司的CUDA編程框架,在其 GPU平臺上對BROVEY變換和YIQ變換融合算法進(jìn)行了
    發(fā)表于 09-23 18:05 ?22次下載

    虛擬環(huán)境下多GPU并行計(jì)算研究

    虛擬環(huán)境下多GPU并行計(jì)算研究_閔芳
    發(fā)表于 01-03 15:24 ?0次下載

    基于GPU并行運(yùn)動目標(biāo)檢測方法的研究

    在智能視頻監(jiān)控領(lǐng)域中,運(yùn)動目標(biāo)檢測已經(jīng)成為主要研究課題之一,針對傳統(tǒng)的方向梯度直方圖(HOG)算法并行程度低等問題,采用了基于嵌入式GPU
    發(fā)表于 11-15 11:33 ?7次下載
    基于<b class='flag-5'>GPU</b>的<b class='flag-5'>并行</b><b class='flag-5'>化</b>運(yùn)動目標(biāo)檢測方法的<b class='flag-5'>研究</b>

    JPEG壓縮算法并行設(shè)計(jì)

    方面并行性的優(yōu)勢,提出了基于OpenCL的JPEG壓縮算法并行設(shè)計(jì)方法。將JPEG算法功能分解
    發(fā)表于 11-21 16:57 ?4次下載
    JPEG壓縮<b class='flag-5'>算法</b><b class='flag-5'>并行</b><b class='flag-5'>化</b>設(shè)計(jì)

    基于Spark的BIRCH算法并行的設(shè)計(jì)與實(shí)現(xiàn)

    在分布式計(jì)算和內(nèi)存為王的時(shí)代,Spark作為基于內(nèi)存計(jì)算的分布式框架技術(shù)得到了前所未有的關(guān)注與應(yīng)用。著重研究BIRCH算法在Spark上并行的設(shè)計(jì)和實(shí)現(xiàn),經(jīng)過理論性能分析得到
    發(fā)表于 11-23 11:24 ?0次下載
    基于Spark的BIRCH<b class='flag-5'>算法</b><b class='flag-5'>并行</b><b class='flag-5'>化</b>的設(shè)計(jì)與實(shí)現(xiàn)

    基于GPU的數(shù)字圖像并行處理研究

    )的并行處理特性,而且提供了完全支持向量操作指令和符合IEEE32位浮點(diǎn)格式的頂點(diǎn)處理能力和像素處理能力,已經(jīng)成為了一個(gè)強(qiáng)大的并行計(jì)算單元。研究人員將其應(yīng)用于加速科學(xué)計(jì)算和可視應(yīng)用程
    發(fā)表于 12-01 12:23 ?579次閱讀
     基于<b class='flag-5'>GPU</b>的數(shù)字圖像<b class='flag-5'>并行</b>處理<b class='flag-5'>研究</b>

    基于Hadoop平臺的LDA算法并行實(shí)現(xiàn)

    基于MapReduce計(jì)算框架,采用Gibbs抽樣方法的并行LDA主題模型的建立方法。利用分布式計(jì)算框架MapReduce研究了LDA主題模型的并行
    發(fā)表于 12-05 13:51 ?0次下載
    基于Hadoop平臺的LDA<b class='flag-5'>算法</b>的<b class='flag-5'>并行</b><b class='flag-5'>化</b>實(shí)現(xiàn)

    基于自適應(yīng)線程束的GPU并行PSO算法

    基于統(tǒng)一計(jì)算設(shè)備架構(gòu)( CUDA)對圖形處理器(GPU)下的并行粒子群優(yōu)化(PSO)算法作改進(jìn)研究。根據(jù)CUDA的硬件體系結(jié)構(gòu)特點(diǎn),可知Block是串行執(zhí)行的,線程束(Warp)才是流
    發(fā)表于 12-08 11:32 ?0次下載
    基于自適應(yīng)線程束的<b class='flag-5'>GPU</b><b class='flag-5'>并行</b>PSO<b class='flag-5'>算法</b>

    基于切片原理的海量點(diǎn)云并行簡化算法

    模型分層并按照角度排序,利用NVIDA的統(tǒng)一計(jì)算設(shè)備架構(gòu)(CUDA)和可編程圖形處理器(GPU)高度并行的性能優(yōu)勢,使用GPU多線程高效并行
    發(fā)表于 12-14 14:08 ?1次下載

    解析GPU與CPU設(shè)計(jì)目的區(qū)別以及使用GPU的兩種方式

    GPU并行編程模型,和CPU的串行編程模型完全不同,導(dǎo)致很多CPU 上優(yōu)秀的算法都無法直接映射到GPU 上,并且GPU的結(jié)構(gòu)相當(dāng)于共享存
    的頭像 發(fā)表于 02-02 16:38 ?6716次閱讀