在“百度Create 2018”百度開發(fā)者大會上,百度發(fā)布了升級版的開源深度學(xué)習(xí)框架PaddlePaddle,可謂深度學(xué)習(xí)模型設(shè)計的利器,讓開發(fā)者只需關(guān)注模型的高層結(jié)構(gòu),而無需擔(dān)心底層的搭建問題。同時,百度在2017年11月發(fā)布了以此框架為基礎(chǔ)的,定制化訓(xùn)練和服務(wù)平臺EasyDL,即使零機器學(xué)習(xí)算法基礎(chǔ),也能全程通過可視化操作獲取定制化AI服務(wù)。
百度作為全球人工智能核心技術(shù)和研究的領(lǐng)軍企業(yè),通過搭建AI開放平臺(ai.baidu.com)和PaddlePaddle深度學(xué)習(xí)框架將百度大腦中領(lǐng)先的核心能力賦能到更為廣泛的行業(yè)生態(tài)、科研院所和開發(fā)者社區(qū)中,提供了全球領(lǐng)先的AI服務(wù)基礎(chǔ)設(shè)施。在以平臺化開放百度大腦中的核心基礎(chǔ)能力的同時,百度也非常關(guān)注各個行業(yè)中對AI模型和服務(wù)的定制化需求。
百度AI開放平臺團隊基于PaddlePaddle打造了EasyDL這一全球領(lǐng)先的定制化模型訓(xùn)練和推理平臺。目前EasyDL已經(jīng)在圖像分類(Image Classification), 物體檢測(Object Detection)等方向支持零算法基礎(chǔ)的定制化模型訓(xùn)練與服務(wù)。除了云端服務(wù)(Cloud Computing),EasyDL還支持定制化模型在設(shè)備端的本地計算(Edge Computing),是一個端云一體的平臺。用戶通過將平臺的定制能力與行業(yè)場景結(jié)合,實現(xiàn)了大量人工智能創(chuàng)新。自2017年上線以來,EasyDL已累計創(chuàng)建模型破萬,已覆蓋20多個行業(yè)。
在賦能行業(yè)的平臺的背后,EasyDL依托于NVIDIA的Tesla GPU深度學(xué)習(xí)平臺,搭建了用于深度學(xué)習(xí)模型訓(xùn)練(Training)和服務(wù)(Inference)階段的GPU集群。該集群能支持高效的大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型并發(fā)訓(xùn)練,并大幅縮短模型訓(xùn)練周期,顯著減少定制服務(wù)調(diào)用階段的響應(yīng)時間,從而為EasyDL提供了堅實的技術(shù)保障。
不同行業(yè)對人工智能的定制化需求是通用AI能力難以滿足的
行業(yè)AI定制化需求
對訓(xùn)練和推理算力提出高要求
滿足不同行業(yè)對AI的定制化需求,其實存在諸多業(yè)務(wù)和技術(shù)上的挑戰(zhàn)。首先,提出定制化AI需求的行業(yè)用戶雖然是各自行業(yè)的領(lǐng)域?qū)<业珜τ谌斯ぶ悄芗吧疃葘W(xué)習(xí)的技術(shù)知之甚少,要求他們直接通過深度學(xué)習(xí)框架訓(xùn)練得到定制化模型是不切實際的。其次,這些用戶也往往不具備用于模型訓(xùn)練和服務(wù)部署的大規(guī)模GPU集群,更沒有資源投入到長期的服務(wù)升級和運維工作中。更為重要的是,定制化模型的訓(xùn)練和基于推理的服務(wù)都必須足夠的快, 用戶才能及時得到反饋,調(diào)整訓(xùn)練數(shù)據(jù)和方案,優(yōu)化訓(xùn)練效果;才能在服務(wù)調(diào)用時滿足嚴(yán)苛的時效性要求;平臺才能實現(xiàn)大規(guī)模并發(fā)訓(xùn)練和并發(fā)服務(wù)請求。
EasyDL技術(shù)框圖,學(xué)習(xí)和服務(wù)環(huán)節(jié)依托大規(guī)模NVIDIA GPU集群
如上圖所示,百度基于其開源深度學(xué)習(xí)框架PaddlePaddle實現(xiàn)EasyDL的核心訓(xùn)練和服務(wù)引擎,在計算視覺的圖像分類和物體檢測等定制化方向上,使用了基于Inception、SSD、ResNet、FasterRCNN等多個深度神經(jīng)網(wǎng)絡(luò)原型算法優(yōu)化的模型。模型的訓(xùn)練和服務(wù)階段采用了大規(guī)模的NVIDIA Tesla P4 為主的GPU集群,通過數(shù)據(jù)比對可以看到,基于GPU集群性能遠(yuǎn)超CPU集群。
大規(guī)模NVIDIA Tesla P4 GPU集群
加速AI訓(xùn)練與推理
目前,百度EasyDL團隊基于單機4卡Tesla P4 GPU的服務(wù)器搭建了數(shù)十臺深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和推理的GPU加速集群,能穩(wěn)定承載每天數(shù)百個并發(fā)訓(xùn)練任務(wù),以及數(shù)千個并發(fā)定制模型推理請求。
Tesla P4加速器的單精度浮點數(shù)(FP32)計算能力達到了5.5TFLOPS,集群單節(jié)點GPU的單精度浮點計算能力可達到22TFLOPS。Tesla P4可將任何超大規(guī)?;A(chǔ)架構(gòu)的延遲降低 15 倍,并可以提供比 CPU 高 60 倍的能效,可助力實現(xiàn)許多過去由于延遲限制而無法實現(xiàn)的應(yīng)用。
在典型業(yè)務(wù)場景下,對集群單節(jié)點的承載和時延性能進行壓力測試,可以看到基于GPU集群的性能顯著優(yōu)于CPU集群。其中,圖像分類上單節(jié)點每秒并發(fā)承載能力(QueryPerSecond) GPU節(jié)點是CPU節(jié)點的6倍多,響應(yīng)時延則僅為CPU節(jié)點的58%左右;物體檢測中更為明顯,GPU單節(jié)點并發(fā)承載能力達到CPU節(jié)點的31倍,響應(yīng)時延則僅為CPU節(jié)點的25%。由于基于GPU集群的訓(xùn)練和服務(wù)都足夠快,因此,在用戶體驗方面,EasyDL的用戶最快5分鐘即可完成定制模型的訓(xùn)練并獲得服務(wù),對比同類需求通常需要數(shù)天的訓(xùn)練周期大幅提升了效率。這解決了定制化模型訓(xùn)練和服務(wù)中的核心挑戰(zhàn)。同時,為EasyDL場景和行業(yè)覆蓋的迅速規(guī)?;蛳铝嗽鷮嵉幕A(chǔ)。也確保了EasyDL更輕快、高精度等特性。
真實業(yè)務(wù)場景數(shù)據(jù)并發(fā)和時延壓測比對
5分鐘完成定制模型訓(xùn)練與推理
零基礎(chǔ)也能快速上手
為降低行業(yè)用戶的使用門檻,實現(xiàn)零機器學(xué)習(xí)基礎(chǔ),零代碼獲得定制化深度學(xué)習(xí)模型及接口服務(wù),百度EasyDL提供了簡單且完善的平臺業(yè)務(wù)系統(tǒng),用戶只需上傳數(shù)據(jù)、發(fā)起訓(xùn)練、驗證效果、發(fā)布模型四個步驟,就能快速獲得定制化接口服務(wù)。
極簡業(yè)務(wù)流程使得EasyDL對普通用戶可即用
為了使得模型訓(xùn)練、部署和推理對用戶透明,百度EasyDL團隊打造了結(jié)合大數(shù)據(jù)Spark系統(tǒng)和AI分布式訓(xùn)練Kubernetes工具的AI Workflow引擎,實現(xiàn)了從數(shù)據(jù)處理到推理上線的全自動流程。如此一來,就解決了業(yè)務(wù)人員不懂代碼,程序員不懂業(yè)務(wù)的痛點難點,使得AI技術(shù)能夠迅速被業(yè)務(wù)人員學(xué)習(xí)和掌握,從而專注于精進業(yè)務(wù)能力。
全自動AI Workflow引擎
圖像識別準(zhǔn)確率大幅提高
人力成本顯著降低
在NVIDIA Tesla P4加速器的強大算力助力下,百度EasyDL已經(jīng)在多個行業(yè)落地應(yīng)用。比如在制造業(yè)中,百度EasyDL平臺也在幫越來越多的企業(yè)提升效率并節(jié)約人力。比如蝶魚科技將百度EasyDL接口與工業(yè)攝像頭、工業(yè)光源、激光測距儀、PLC控制氣缸等設(shè)備組成綜合檢測系統(tǒng),在制造和組裝鍵盤流水線上,自動識別鍵盤組裝后的合格性,包括缺件、錯裝、正常三類,通過3000+張圖片的驗證(每類1000張),識別準(zhǔn)確率99%以上,遠(yuǎn)超蝶魚科技的預(yù)期。同時,每條生產(chǎn)流水線每年可以節(jié)省12萬人工檢測員人力成本。
鍵盤組裝質(zhì)量檢測
在GPU 的助力下,包括百度EasyDL平臺在內(nèi)的諸多行業(yè)客戶,獲得了深度學(xué)習(xí)和推理應(yīng)用的能力和智慧,進而定制出豐富、個性化、不斷動態(tài)升級的AI行業(yè)解決方案,同時也對傳統(tǒng)的行業(yè)應(yīng)用提供了創(chuàng)新思路,隨著基于行業(yè)的AI生態(tài)不斷通過百度EasyDL這樣的平臺聚合與裂變,以AI為核心特征的新應(yīng)用大爆發(fā)時代已經(jīng)來臨。
-
AI
+關(guān)注
關(guān)注
87文章
29862瀏覽量
268154 -
百度
+關(guān)注
關(guān)注
9文章
2247瀏覽量
90203 -
人工智能
+關(guān)注
關(guān)注
1791文章
46698瀏覽量
237190 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5471瀏覽量
120904
原文標(biāo)題:GPU集群助力百度為行業(yè)提供高效定制化AI訓(xùn)練和推理平臺
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論