caopor久久第二页,日韩综合无码中文字幕

從淘寶到天貓應(yīng)用，從搜索、推薦到廣告等場景，對井噴式的數(shù)據(jù)進(jìn)行超大規(guī)模訓(xùn)練推理的應(yīng)用，已經(jīng)在我們身邊落地開花。阿里巴巴集團(tuán)的開源推薦引擎 DeepRec (PAI-TF) 主要用于稀疏模型訓(xùn)練和預(yù)測，可支撐千億特征、萬億樣本的超大規(guī)模稀疏訓(xùn)練。

從2019 年開始，英特爾就與阿里巴巴PAI團(tuán)隊緊密合作，將英特爾 AI 技術(shù)應(yīng)用到 DeepRec 中。特別是英特爾處理器內(nèi)置的英特爾DL Boost (英特爾深度學(xué)習(xí)加速)，為 DeepRec 實現(xiàn)了四個層面上的優(yōu)化：框架優(yōu)化、算子優(yōu)化、子圖優(yōu)化和模型優(yōu)化。

四大層面，提升DeepRec 訓(xùn)練和推理能力

自英特爾至強(qiáng) 可擴(kuò)展處理器問世以來，通過從 AVX-256 升級到 AVX-512，英特爾將 AVX 的能力提高了一倍，極大地提升了深度學(xué)習(xí)訓(xùn)練和推理能力。第三代英特爾至強(qiáng) 可擴(kuò)展處理器之后，英特爾推出支持 BFloat16 (BF16) 數(shù)據(jù)類型的指令集，也應(yīng)用到 DeepRec 的優(yōu)化中。

框架優(yōu)化：DeepRec 集成了英特爾開源的跨平臺深度學(xué)習(xí)性能加速庫oneDNN (oneAPI Deep Neural Network Library)，該程序庫已經(jīng)針對大量主流算子實現(xiàn)了性能優(yōu)化。與搭載 BF16 指令的第三代英特爾至強(qiáng)可擴(kuò)展處理器同時使用，可顯著提高模型訓(xùn)練和推理性能。

算子優(yōu)化：搜索廣告推薦模型中存在著大量稀疏算子，調(diào)用 AVX-512 指令加以優(yōu)化后，大幅提升了數(shù)據(jù)讀寫效率和性能。

子圖優(yōu)化：圖優(yōu)化是 AI 性能優(yōu)化的主要有效手段之一。在大規(guī)模稀疏場景下，DeepRec 加入多種子圖融合功能，減少大量冗余操作，配合英特爾 AVX-512 指令加速，實現(xiàn)了子圖性能的明顯提升。

模型優(yōu)化：基于CPU 平臺，英特爾在 DeepRec 構(gòu)建了涵蓋多個主流模型的獨有推薦模型集合，涉及召回、排序、多目標(biāo)等多種常見場景；并針對硬件平臺進(jìn)行性能優(yōu)化，相較于其他框架在 CPU 平臺上帶來跨越式性能提升。

阿里巴巴 PAI 團(tuán)隊的測試結(jié)果證明：基于 Criteo 數(shù)據(jù)集，使用BF16優(yōu)化后，模型WDL精度或AUC可以逼近FP32，并且BF16模型的訓(xùn)練性能提升達(dá)1.4倍，效果顯著。

未來，英特爾還會從優(yōu)化器算子、attention 子圖、添加多目標(biāo)模型等多個角度進(jìn)一步實施優(yōu)化，更大程度地發(fā)揮 CPU 平臺硬件優(yōu)勢、尤其是新硬件特征的效果最大化，從而為稀疏場景打造更高性能的 CPU 解決方案。

當(dāng)然，英特爾為 DeepRec 的優(yōu)化并不僅限于 CPU 層面。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英特爾

英特爾

+關(guān)注

關(guān)注
60

文章
9861

瀏覽量
171289
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10804

瀏覽量
210829

原文標(biāo)題：發(fā)揮CPU平臺硬件優(yōu)勢，英特爾助力DeepRec優(yōu)化超大規(guī)模稀疏訓(xùn)練

文章出處：【微信號：英特爾中國，微信公眾號：英特爾中國】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

使用PyTorch在英特爾獨立顯卡上訓(xùn)練模型

《PyTorch 2.5重磅更新：性能優(yōu)化+新特性》中的一個新特性就是：正式支持在英特爾獨立顯卡上訓(xùn)練模型！

發(fā)表于 11-01 14:21 ?152次閱讀

使用PyTorch在<b class='flag-5'>英特爾</b>獨立顯卡上<b class='flag-5'>訓(xùn)練</b>模型

英特爾AI PC無所不能的實力

百業(yè)的最后一公里問題。而客戶端的AI能力也在不斷提升，最終將解決個人AI的數(shù)據(jù)隱私和個性化問題?？梢?，AI非常適合云邊端三級架構(gòu)，按照用戶場景進(jìn)行針對性部署。英特爾為云邊端都提供了強(qiáng)大的AI解決方案。

發(fā)表于 10-12 10:26 ?346次閱讀

四大核心展區(qū)，英特爾在工博會展現(xiàn)AI與制造深度融合

2024年9月25日，上?！??在第24屆中國國際工業(yè)博覽會（CIIF）上，英特爾攜手多家生態(tài)合作伙伴亮相展會，通過精心布局的 “機(jī)器視覺”、“負(fù)載整合”、“工業(yè)控制”、及“工業(yè)AI與大模型”四大

發(fā)表于 09-27 09:30 ?217次閱讀

<b class='flag-5'>四大</b>核心展區(qū)，<b class='flag-5'>英特爾</b>在工博會展現(xiàn)AI與制造深度融合

開箱即用，AISBench測試展示英特爾至強(qiáng)處理器的卓越推理性能

近期，第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過了中國電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試（AISBench）。英特爾成為首批通過AISBench大語言模型（LLM）推理性能測試的企業(yè)

發(fā)表于 09-06 15:33 ?261次閱讀

開箱即用，AISBench測試展示<b class='flag-5'>英特爾</b>至強(qiáng)處理器的卓越<b class='flag-5'>推理</b>性能

英特爾CEO：AI時代英特爾動力不減

英特爾CEO帕特·基辛格堅信，在AI技術(shù)的飛速發(fā)展之下，英特爾的處理器仍能保持其核心地位?；粮窆_表示，摩爾定律仍然有效，而英特爾在處理器和芯片技術(shù)上的創(chuàng)新能力將持續(xù)驅(qū)動公司前進(jìn)。

發(fā)表于 06-06 10:04 ?357次閱讀

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

發(fā)表于 05-27 11:50 ?474次閱讀

<b class='flag-5'>英特爾</b>助力京東云用CPU加速AI<b class='flag-5'>推理</b>，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

英特爾Gaudi 3 AI芯片：5nm工藝設(shè)計，訓(xùn)練推理皆強(qiáng)

此外，英特爾在發(fā)布會上還宣布更改旗下數(shù)據(jù)中心CPU產(chǎn)品名稱：原“Granite Rapids”和“Sierra Forest”將更名為“Xeon 6”系列。新品預(yù)計今年發(fā)售，并支持性能提升后的標(biāo)準(zhǔn)化 MXFP4 數(shù)據(jù)格式。

發(fā)表于 04-10 11:10 ?590次閱讀

浪潮信息與英特爾合作推出一種大模型效率工具“YuanChat”

3月26日，浪潮信息與英特爾正式宣布，浪潮信息“源2.0系列基礎(chǔ)大模型”已和最新的英特爾? 酷睿? Ultra處理器平臺完成適配，本地推理速度提升100%。

發(fā)表于 03-27 13:50 ?561次閱讀

浪潮信息與<b class='flag-5'>英特爾</b>合作推出一種大模型效率工具“YuanChat”

借助英特爾? QAT從而顯著提升網(wǎng)絡(luò)和存儲應(yīng)用的性能

全新第四代和第五代英特爾? 至強(qiáng)? 可擴(kuò)展處理器內(nèi)置英特爾? 數(shù)據(jù)保護(hù)與壓縮加速技術(shù)（英特爾? QAT），可通過卸載計算密集型工作負(fù)載來降低 CPU 占用率，從而顯著

發(fā)表于 03-18 16:25 ?854次閱讀

借助<b class='flag-5'>英特爾</b>? QAT從而顯著<b class='flag-5'>提升</b>網(wǎng)絡(luò)和存儲應(yīng)用的性能

借助英特爾DLB技術(shù)優(yōu)化網(wǎng)絡(luò)性能

英特爾? DLB技術(shù)的出現(xiàn)，無疑為數(shù)據(jù)處理和網(wǎng)絡(luò)傳輸領(lǐng)域帶來了一場革命性的變革。通過其獨特的負(fù)載均衡、數(shù)據(jù)包調(diào)度優(yōu)先排序以及降低網(wǎng)絡(luò)流量時延的能力，英特爾? DLB顯著提升了高數(shù)據(jù)包速

發(fā)表于 03-11 09:52 ?566次閱讀