從淘寶到天貓應(yīng)用,從搜索、推薦到廣告等場景,對井噴式的數(shù)據(jù)進(jìn)行超大規(guī)模訓(xùn)練推理的應(yīng)用,已經(jīng)在我們身邊落地開花。阿里巴巴集團(tuán)的開源推薦引擎 DeepRec (PAI-TF) 主要用于稀疏模型訓(xùn)練和預(yù)測,可支撐千億特征、萬億樣本的超大規(guī)模稀疏訓(xùn)練。
從2019 年開始,英特爾就與阿里巴巴PAI團(tuán)隊緊密合作,將英特爾 AI 技術(shù)應(yīng)用到 DeepRec 中。特別是英特爾處理器內(nèi)置的英特爾DL Boost (英特爾深度學(xué)習(xí)加速),為 DeepRec 實現(xiàn)了四個層面上的優(yōu)化:框架優(yōu)化、算子優(yōu)化、子圖優(yōu)化和模型優(yōu)化。
四大層面,提升DeepRec 訓(xùn)練和推理能力
自英特爾 至強(qiáng) 可擴(kuò)展處理器問世以來,通過從 AVX-256 升級到 AVX-512,英特爾將 AVX 的能力提高了一倍,極大地提升了深度學(xué)習(xí)訓(xùn)練和推理能力。第三代英特爾 至強(qiáng) 可擴(kuò)展處理器之后,英特爾推出支持 BFloat16 (BF16) 數(shù)據(jù)類型的指令集,也應(yīng)用到 DeepRec 的優(yōu)化中。
框架優(yōu)化:DeepRec 集成了英特爾開源的跨平臺深度學(xué)習(xí)性能加速庫oneDNN (oneAPI Deep Neural Network Library),該程序庫已經(jīng)針對大量主流算子實現(xiàn)了性能優(yōu)化。與搭載 BF16 指令的第三代英特爾至強(qiáng)可擴(kuò)展處理器同時使用,可顯著提高模型訓(xùn)練和推理性能。
算子優(yōu)化:搜索廣告推薦模型中存在著大量稀疏算子,調(diào)用 AVX-512 指令加以優(yōu)化后,大幅提升了數(shù)據(jù)讀寫效率和性能。
子圖優(yōu)化:圖優(yōu)化是 AI 性能優(yōu)化的主要有效手段之一。在大規(guī)模稀疏場景下,DeepRec 加入多種子圖融合功能,減少大量冗余操作,配合英特爾 AVX-512 指令加速,實現(xiàn)了子圖性能的明顯提升。
模型優(yōu)化:基于CPU 平臺,英特爾在 DeepRec 構(gòu)建了涵蓋多個主流模型的獨有推薦模型集合,涉及召回、排序、多目標(biāo)等多種常見場景;并針對硬件平臺進(jìn)行性能優(yōu)化,相較于其他框架在 CPU 平臺上帶來跨越式性能提升。
阿里巴巴 PAI 團(tuán)隊的測試結(jié)果證明:基于 Criteo 數(shù)據(jù)集,使用BF16優(yōu)化后,模型WDL精度或AUC可以逼近FP32,并且BF16模型的訓(xùn)練性能提升達(dá)1.4倍,效果顯著。
未來,英特爾還會從優(yōu)化器算子、attention 子圖、添加多目標(biāo)模型等多個角度進(jìn)一步實施優(yōu)化,更大程度地發(fā)揮 CPU 平臺硬件優(yōu)勢、尤其是新硬件特征的效果最大化,從而為稀疏場景打造更高性能的 CPU 解決方案。
當(dāng)然,英特爾為 DeepRec 的優(yōu)化并不僅限于 CPU 層面。
審核編輯 :李倩
-
英特爾
+關(guān)注
關(guān)注
60文章
9861瀏覽量
171289 -
cpu
+關(guān)注
關(guān)注
68文章
10804瀏覽量
210829
原文標(biāo)題:發(fā)揮CPU平臺硬件優(yōu)勢,英特爾助力DeepRec優(yōu)化超大規(guī)模稀疏訓(xùn)練
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論