0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浪潮NF5468A5系統(tǒng)解析

智能計算芯世界 ? 來源:公眾號li12242 ? 作者:公眾號li12242 ? 2022-07-05 11:06 ? 次閱讀

NF5468A5是浪潮推出的一款面向AI訓(xùn)練和AI推理、視頻編解碼等多種應(yīng)用場景的全能型GPU服務(wù)器,在4U空間內(nèi)搭載2顆AMD EPYC處理器,支持多達8張雙寬加速卡。浪潮官網(wǎng)顯示,這款產(chǎn)品已經(jīng)支持NVIDIA、AMD、Intel、寒武紀、燧原等多家業(yè)界主流AI加速卡。

本次拿到的樣機采用如下配置:

型號NF5468A5

CPU2*AMD 7543,32核2.8 GHz主頻,L3 Cache 256MB

內(nèi)存512GB,16*32GB DDR4 3200ER

硬盤4*1.92TB NVME U.2

加速卡8*NVIDIA A100 GPU 1*NVIDIA T4 GPU 1*NVIDIA RTX3090顯卡 1*寒武紀MLU270-S4智能加速卡 1*浪潮M10A 視頻轉(zhuǎn)碼卡

電源4*2200W

接下來,筆者將從系統(tǒng)解析、性能測試這兩個方面對浪潮NF5468A5服務(wù)器進行測評。

1.NF5468A5系統(tǒng)解析

1.1 整體系統(tǒng)設(shè)計

浪潮NF5468M5 AI服務(wù)器采用了4U機架式機箱,高x寬x深為175mm x 478mm x 830mm。整體風格簡約、硬朗,不論做工、還是用料、細節(jié),均彰顯出大廠品質(zhì)。

前面板沿用浪潮一貫穩(wěn)重的黑色,六邊形的格柵結(jié)構(gòu)由金屬制成,可以將風扇高速旋轉(zhuǎn)產(chǎn)生的湍流風切割成平穩(wěn)的平流風,從而更平穩(wěn)的吹向服務(wù)器內(nèi)部。前面板右上角,電源鍵下方是ID、Reset按鍵和系統(tǒng)狀態(tài)指示燈,前面板左上角則是VGA、兩個USB 3.0接口和管理接口。前面版的豐富接口,充分考慮了運維人員的工作場景,十分便捷。

從后窗來看,NF5468A5在4U空間內(nèi)提供了8個全高全長雙寬PCIe x16的物理插槽,支持最新PCIe Gen4,雙向通信帶寬高達64GB/s,相比PCIe Gen3,功耗不變,但通信性能提升1倍。在此基礎(chǔ)上產(chǎn)品還提供了3個全高全長單寬x16物理槽位,可支持25G/100G/200G雙口光纖,或者千兆/萬兆RJ45網(wǎng)卡以及8/16端口12Gb/s RAID卡,可滿足客戶對網(wǎng)絡(luò)及存儲的要求。同時可支持1個OCP 3.0網(wǎng)卡專用插槽,支持熱插拔,將網(wǎng)卡更換時間從20分鐘縮短到1分鐘,能夠大幅提高運維效率。

NF5468A5支持4個電源模組,可以提供1600W~3000W功率的80 PLUS鉑金電源模塊,效率高達94%,可選3+1冗余或者2+2冗余,多種組合的冗余電源設(shè)計,充分考慮了不同配置AI服務(wù)器的負載情況,保障穩(wěn)定性。

整個服務(wù)器采用非常緊湊的布局設(shè)計,總共分成四個功能區(qū)域,從前往后依次是:磁盤存儲區(qū)、系統(tǒng)散熱區(qū)、處理器+內(nèi)存區(qū)、GPU+IO擴展區(qū)。

下面我們先看下CPU和內(nèi)存。這臺樣機搭配了2顆AMD EPYC 7543處理器,核心數(shù)達到了32核心64線程,基準主頻2.8GHz,最大加速時鐘頻率3.7GHz,L3 Cache 256MB,功耗225W。另外,浪潮官網(wǎng)介紹NF5468A5可支持2顆AMD基于“Zen3”微架構(gòu)內(nèi)核的EPYC Milan-X處理器,最高128個核心256線程、1536MB L3 Cache 以及18 GT/s XGMI互連鏈路,CPU TDP最大支持280W。樣機配置了16根32GDDR4內(nèi)存,同時可以看到服務(wù)器主板整齊排布了32個DDR4內(nèi)存插槽,最大容量可達8TB,內(nèi)存總帶寬750GB/s,支持RDIMM/LRDIMM等類型的內(nèi)存條。NF5468A5強勁的處理器性能、巨大的內(nèi)存容量和帶寬,特別適合AI計算、云計算、HPC以及企業(yè)各類業(yè)務(wù)的工作負載。

筆者手上的這臺NF5468A5,最吸引眼球的是本次測試樣機搭配了8顆NVIDIA A100 40G加速卡,從京東網(wǎng)上的報價看,8張A100的價格已經(jīng)與一款中高端轎車相當,這究竟是一款什么樣的AI服務(wù)器,筆者將帶大家一探究竟。

我們來重點看一下NF5468A5的GPU模組。樣機搭配了8張NVIDIAA100 PCIE 40GB GPU加速卡,由于每張卡功耗高達250W,服務(wù)器也給GPU板卡配置了單獨供電線,保證GPU卡的穩(wěn)定工作。為了滿足PCIE卡的高功率運行,我們看到NF5468A5在GPU板上專門設(shè)計了4個用于大電流通流的bus bar,據(jù)浪潮的工程師介紹,bus bar的通流能力可以達到2880W,這對于各類PCIE加速卡的支持是非常強勁的。

NF5468A5提供了對豐富外插卡的支持,針對A100這種全高全長的卡配置了專用支架,搭配尾部鎖片進行固定,這樣能增強產(chǎn)品在運輸過程中震動、跌落情況下的可靠性。我們翻開尾部鎖片,旋轉(zhuǎn)藍色旋鈕,就能非常順利的取下GPU進行更換,這種針對PCIE卡免工具的操作非常人性化。

1.2 系統(tǒng)散熱設(shè)計

從浪潮官網(wǎng)產(chǎn)品介紹中看到NF5468A5可以支持2顆280W CPU+8顆300W的GPU,在177mm的空間內(nèi)浪潮究竟是如何實現(xiàn)的?筆者找浪潮工程師拿到了系統(tǒng)風流圖,從中可以看出,系統(tǒng)整體風道采用前進后出的方式,散熱風流主要從前面板的硬盤及下方開孔處進入系統(tǒng)。風流經(jīng)系統(tǒng)風扇后通過導(dǎo)風罩的分配,一部分進入下層前排CPU和內(nèi)存通道,一部分繼續(xù)往后吹;經(jīng)過CPU和內(nèi)存后的風及未被預(yù)熱的風大部分流向后方上面3U空間的GPU,小部分流向下面1U空間;最后經(jīng)后面板流出系統(tǒng)。如此巧妙的風道設(shè)計和精準的風流控制,足見浪潮作為全球AI領(lǐng)導(dǎo)廠商深厚的設(shè)計功底。

7ddcc2fc-fbab-11ec-ba43-dac502259ad0.png

系統(tǒng)分離式風流設(shè)計

這款服務(wù)器將整機柜產(chǎn)品中“風扇墻”的設(shè)計理念搬到了4U機箱中,“風扇墻”一共由6組可以單獨維護的子風扇模組組成,風扇后部搭配了流線型設(shè)計的導(dǎo)風罩,覆蓋了從風扇到GPU中間的區(qū)域,但整個導(dǎo)風罩并沒有完全擋住風扇的出風區(qū)域,結(jié)合上面系統(tǒng)風流圖也證明是為實現(xiàn)CPU和GPU獨立風道的引流設(shè)計,避免風流的串擾,無論多“強悍”的CPU和GPU都可以馴服。

1.3 架構(gòu)設(shè)計

筆者查找了海外網(wǎng)站相關(guān)浪潮產(chǎn)品的介紹資料,找到一張產(chǎn)品的拓撲圖,發(fā)現(xiàn)有別于傳統(tǒng)CPU-PCIE Switch-GPU的設(shè)計,浪潮產(chǎn)品采用CPU-GPU直連方式。跟浪潮工程師確認,送測的NF5468A5也采用類似設(shè)計。工程師介紹,由于省去了PCIE Switch,2顆CPU與GPU的通訊延遲能降低200~300ns,同時GPU到CPU的通信帶寬可以達到256GB/s,較GPU通過PCIESwitch只有1條與CPU PCIE通路比,帶寬提升4倍,這種極致的互聯(lián)架構(gòu)設(shè)計,有助于提升GPU與CPU間數(shù)據(jù)通信的帶寬,有效降低數(shù)據(jù)的處理延遲。

7e23a866-fbab-11ec-ba43-dac502259ad0.jpg

2. NF5468A5性能測評

2.1HPL測試

樣機搭配2顆AMDEPYC 7543處理器,這款處理器是32 核 64 線程,基準主頻2.8GHz,L3 Cache 256MB,最大加速時鐘頻率最高可達3.7GHz,功耗225W。為了能夠了解CPU實際性能,下面將采用HPL基準軟件進行測試。

在計算機基準測試軟件中,HPL是應(yīng)用最廣泛的基準測試程序之一。通過使用高斯消元法對稠密線性方程組進行求解,HPL可以準確測試系統(tǒng)浮點計算指標。在每年全球超級計算機排名TOP500中,HPL測試性能是唯一的評價標準。

由于筆者拿到的設(shè)備是一臺未預(yù)裝任何軟件的裸金屬服務(wù)器,為了進行相關(guān)測試,首先在上面安裝了Ubuntu20.04操作系統(tǒng)。

然后用HPL軟件測試了系統(tǒng)的浮點運行能力。通過如下命令,將測試進程和CCD進行綁定。

# mpi_options=“--mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

# mpi_options=“$mpi_options --map-by pprl3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

# mpirun $mpi_options -app 。/appfile_ccx

在運行之前,還需要設(shè)置核心運行在最高頻率,清除系統(tǒng)緩存,并開啟大頁內(nèi)存等設(shè)置,保證獲得當前平臺最高性能。

echo 3 》 /proc/sys/vm/drop_caches

echo 1 》 /proc/sys/vm/compact_memory

echo 0 》 /proc/sys/kernel/numa_balancing

echo ‘a(chǎn)lways‘ 》 /sys/kernel/mm/transparent_hugepage/enabled

echo ‘a(chǎn)lways‘ 》 /sys/kernel/mm/transparent_hugepage/defrag sudo cpupower frequency-set -g performance

最終測試浮點計算速度為2.69 TFLOPS,根據(jù)當前AMD平臺理論浮點計算速度,計算效率達到93.74%。

7e4b709e-fbab-11ec-ba43-dac502259ad0.png

處理器浮點計算測試結(jié)果

2.2 內(nèi)存帶寬測試

我們用業(yè)界主流的測試軟件STREAM對NF5468A5的內(nèi)存帶寬進行了測試,測試參數(shù)如下:

#Thread Binding Options for AMD EPYC 7742/7763 Processor $ export GOMP_CPU_AFFINITY=0-64:8 $ export OMP_NUM_THREADS=8

在運行前,清除系統(tǒng)緩存并且開啟透明大頁內(nèi)存設(shè)置等,設(shè)置參數(shù)如下:

$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/enabled $ echo madvise | tee /sys/kernel/mm/transparent_hugepage/defrag $ echo 3 》 /proc/sys/vm/drop_caches $ echo 1 》 /proc/sys/kernel/numa_balancing

通過以上編譯和運行過程中優(yōu)化,STREAM測試結(jié)果為373 GB/s,根據(jù)當前平臺理論內(nèi)存帶寬409.6 GB/s,實測內(nèi)存帶寬效率達到91.1%。應(yīng)該說,這個效率非常高了。

7e76c6fe-fbab-11ec-ba43-dac502259ad0.png

內(nèi)存帶寬測試結(jié)果

2.3 訓(xùn)練性能測試

下面我們來測試NF5468A5的AI訓(xùn)練性能。樣機配置8張NVIDIAA100 PCIE 40GB GPU,這款GPU采用Ampere架構(gòu),基于7nm制造工藝,包含了超過540億個晶體管,擁有6912個CUDA核心,搭載了40GBHBM2內(nèi)存,具備1.6TB/s的內(nèi)存帶寬,F(xiàn)P64性能9.7 TFLOPS,F(xiàn)P32性能19.5TFLOPS,F(xiàn)P16性能312 TFLOPS。

筆者從github網(wǎng)站上的公共倉庫https://github.com/mlcommons/training_results_v1.0中下載了MLPerf Training V1.0代碼,并使用這套代碼按照以下測試步驟在NF5468A5上訓(xùn)練ResNet50模型。MLPerf是一套衡量機器學習系統(tǒng)性能的權(quán)威標準,將在標準目標下訓(xùn)練或推理機器學習模型的時間,作為一套系統(tǒng)性能的測量標準。MLPerf由圖靈獎得主大衛(wèi)·帕特森(David?Patterson)聯(lián)合谷歌、斯坦福、哈佛大學等單位共同成立,是國際上最有影響力的人工智能基準測試之一。ResNet50是計算機視覺領(lǐng)域中最經(jīng)典的圖像分類模型,廣泛應(yīng)用于圖像識別、自動駕駛等場景。

MLPerf代碼提供了容器配置文件,我們可以很方便的通過配置文件在自己的服務(wù)器設(shè)備上創(chuàng)建鏡像環(huán)境,鏡像中包含cuda、cudnn、nccl、mxnet等上層組件。但是在運行容器之前,還需要在Host OS中安裝NVIDIA GPU Driver、docker、nvidia-docker這些基礎(chǔ)軟件。

首先,筆者參考https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#runfile 教程在Ubuntu20.04操作系統(tǒng)中下載并安裝了R470.82.01版本的驅(qū)動;然后按照https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 教程安裝docker和nvidia-docker。

通過以下命令構(gòu)建容器鏡像:

$ cd ~/training_results_v1.0/NVIDIA/benchmarks/resnet/implementations /mxnet $ docker build -t mlperf1.0-nvidia:image_classification 。

在測試之前,通過在nf5468a5_cxx.sh文中添加以下內(nèi)容綁定核心與進程,最大化的利用系統(tǒng)中的計算資源,達到良好的負載均衡,保證獲得最優(yōu)的性能結(jié)果。

bind_cpu_cores=([0]=“48-63,176-191”[1]=“32-47,160-175” [2]=“16-31,144-159” [3]=“0-15,128-143” [4]=“112-127,240-254” [5]=“96-111,224-239” [6]=“80-95,208-223” [7]=“64-79,192-207”) bind_mem=([0]=“3” [1]=“2” [2]=“1” [3]=“0” [4]=“7” [5]=“6” [6]=“5” [7]=“4”)

測試環(huán)境準備完成,執(zhí)行以下指令開始測試:

激活環(huán)境變量: $ source config_NF5468A5.sh $ export CONT=mlperf1.0-nvidia:image_classification $ export DATADIR=/home/data/mxnet_imagenet/ $ export LOGDIR=/home/resnet50/ 執(zhí)行測試腳本: $ 。/run_with_docker.sh

7ea16dfa-fbab-11ec-ba43-dac502259ad0.png

ResNet50訓(xùn)練測試結(jié)果

測試結(jié)果為21486 images/sec,也就是35分鐘即可完成ResNet50模型的訓(xùn)練。參考最近幾期MLPerf訓(xùn)練榜單,搭載8張NVIDIAA100 40G GPU卡的服務(wù)器的最好成績是36.2分鐘??梢哉f,在同等GPU配置的服務(wù)器中,浪潮NF5468A5的ResNet50訓(xùn)練性能是最好的。

2.4 推理性能測試

筆者也測試在目前推理場景中熱度最高的NVIDIA TeslaT4,這款精致的GPU卡只有75W,采用Turing架構(gòu), 在半高卡的尺寸內(nèi)集成320個Turing Tensor Core和2560個Turing CUDA Core,配備16GB GDDR6,支持FP32/FP16/INT8/INT4等多種精度的運算,F(xiàn)P16的峰值性能為65T,INT8為130T,INT4為260T。

推理性能測試同樣使用了MLPerf測試工具,本次測試是基于MLPerf Inference V1.0.復(fù)用了訓(xùn)練測試時使用的OS、docker、nvidia-docker等基礎(chǔ)軟件環(huán)境。

我們在NF5468A5搭載1張NVIDIA T4 GPU,使用github網(wǎng)站上的公開代碼https://github.com/mlcommons/inference_results_v1.0,按照如下步驟測試了ResNet50模型的推理性能:

同訓(xùn)練時一樣,首先要構(gòu)建容器鏡像:

# unzip mlperf-inference-release.zip # cd /mlperf-inference-release/closed/Inspur # export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/ # make prebuild (備注:prebuild后會自動進入容器實例)

然后執(zhí)行以下指令開始測試:

sudo CUDA_VISIBLE_DEVICES=0make run RUN_ARGS=“--benchmark=resnet50 --scenarios=Offline --config_ver=default --test_mode=PerformanceOnly --fast”

在圖像分類應(yīng)用場景中,使用ImageNet數(shù)據(jù)集,ResNet50測試結(jié)果是每秒處理5671.9 張圖片。我們了解到NVIDIA T4的ResNet50推理性能為每秒5000張圖片左右。應(yīng)該說,在NF5468A5上測得的T4推理性能非常好了。

7edab1e6-fbab-11ec-ba43-dac502259ad0.png

ResNet50推理測試結(jié)果

筆者也拿到了寒武紀MLU270-S4推理加速卡。MLU270-S4采用TSMC 16nm工藝制造,集成16GB DDR4 內(nèi)存,支持ECC,同時兼容INT4和INT16運算,理論峰值分別達到256TOPS和64TOPS。

我們發(fā)現(xiàn)NF5468A5對寒武紀的板卡也做了很好的兼容性適配,BMC可以顯示MLU270-S4的資產(chǎn)信息,風扇轉(zhuǎn)速也根據(jù)MLU270-S4的功耗進行了調(diào)整,相比A100,能夠明顯感覺到風扇轉(zhuǎn)速主動降低了。不得不說,浪潮服務(wù)器的散熱控制做得很精細。

我們在NF5468A5上插了1張MLU270-S4,測試了Caffe框架下的ResNet18、PyTorch框架下的GoogleNet以及TensorFlow下的ResNet101v1.5、VGG16和InceptionV3這幾個模型的推理性能,在使用int8精度時,計算性能分別為每秒7440、5800、2400、1400和1000張。

筆者分析,浪潮NF5468A5在訓(xùn)練和推理測試中能取得這么好的成績主要有三個原因:第一,ResNet50模型從算法上還是需要CPU進行一定的圖像預(yù)取和處理操作,本次送測的AMD 7543具備32核心2.8GHz主頻,有助于圖像在CPU端的預(yù)處理工作;第二,NF5468A5采用CPU和GPU直連設(shè)計,有效降低數(shù)據(jù)的處理延遲,同時單個CPU與GPU通信帶寬高達128GB/s;第三,NF5468A5可以支持NVME SSD作為數(shù)據(jù)盤,通過將多顆NVME SDD數(shù)據(jù)盤組建RAID,可以極大的提升磁盤IO能力,在AI這種需要頻繁讀取數(shù)據(jù)的場景中,能夠非常有效的避免因為IO短板帶來的性能瓶頸。

2.5 視頻編解碼性能測試

筆者在NF5468A5服務(wù)器上也評測了浪潮自研的M10A加速卡。

據(jù)浪潮官網(wǎng)介紹,M10A是一款面向AI場景優(yōu)化設(shè)計的VPU(Video Processing Unit), VPU是一種全新的視頻處理核心引擎,將視頻處理功能做成ASIC芯片,具有硬件編碼、硬件解碼、硬件轉(zhuǎn)碼等視頻加速功能,可以減少服務(wù)器在視頻處理業(yè)務(wù)上的計算性能消耗和降低視頻傳輸對網(wǎng)絡(luò)帶寬的需求。

M10A在8W功耗下可以提供16路1080P30視頻的加速能力,相當于每路1080P視頻加速僅需0.5W。M10A針對H.265視頻格式壓縮算法進行了特殊優(yōu)化,實測數(shù)據(jù)表明M10A的H.265編碼效果可以使得網(wǎng)絡(luò)帶寬利用率翻倍,同時計算CPU負荷最低可降至2%,適用于直播、短視頻、云游戲、視頻會議等場景。

在FFMPEG視頻框架下,我們直接用軟件SDK中的demo腳本,測試了M10A在不同視頻分辨率下的性能數(shù)據(jù),如下是16路1080P全高清視頻實時轉(zhuǎn)碼的性能測試情況:

7f4848b4-fbab-11ec-ba43-dac502259ad0.png

在測試的過程中,我們發(fā)現(xiàn)M10A VPU芯片內(nèi)部是“多核”結(jié)構(gòu),這將進一步降低視頻處理延遲,提高多路視頻轉(zhuǎn)碼時的性能穩(wěn)定性。

從測試結(jié)果看到,M10A進行16路1080P全高清視頻轉(zhuǎn)碼時,每路視頻轉(zhuǎn)碼性能都能達到33fps,達到了浪潮官方宣傳的性能。

7f74ff08-fbab-11ec-ba43-dac502259ad0.png

M10A視頻轉(zhuǎn)碼性能測試結(jié)果

另外,我們還測試了4K超高清和720P高清分辨率下的M10A的性能數(shù)據(jù),分別可以達到4K 120fps和720P 960fps,解碼、編碼和轉(zhuǎn)碼的性能都是一致的。

在我們跟視頻行業(yè)技術(shù)大咖的交流中了解到,一張M10A的視頻處理能力相當于一臺雙路服務(wù)器的性能,M10A具有高性能、低功耗的優(yōu)點,這對視頻行業(yè)來說是一個非常高性價比的解決方案。

2.6 HASH性能測試

除了前面講到的幾張加速卡,筆者也嘗試了其他板卡,比如主流的消費級顯卡RTX3090等,發(fā)現(xiàn)NF5468A5都做了很好的適配工作。

RTX3090采用第2代NVIDIA RTX架構(gòu)-NVIDIAAmpere架構(gòu),采用8納米工藝,擁有10496個CUDA核心,搭載了24 GB GDDR6X內(nèi)存,384bit位寬。

下面,我們來看看浪潮5468A5搭載RTX3090顯卡在區(qū)塊鏈場景的性能?;赥-Rex這個知名的應(yīng)用軟件,筆者對業(yè)界主流的哈希算法進行了性能測試。T-Rex不僅支持區(qū)塊鏈場景中最常用的ETHASH算法,也支持其他諸如BLAKE3、MTP等哈希算法。

7fca8996-fbab-11ec-ba43-dac502259ad0.png

ETHASH算法性能測試過程

針對每種HASH算法,我們使用了t-rex軟件的benchmark模型,在單個3090顯卡上進行測試,每次測試持續(xù)10分鐘時間,并記錄了最終的性能數(shù)據(jù),如下表所示。

浪潮NF5468A5+單卡RTX3090 HASH算法測試

算法ETHASHETCHASHAUTOLYKOS2BLAKE3MTPMTP-TCROCTOPUS

性能108MH/s108MH/s232MH/s2.44GH/s7.23MH/s28.78MH/s103.07MH/s

算法KAWPOWPROGPOWPROGPOW-VEILPROGPOW-VERIBLOCKPROGPOWZFIROPOW/

性能55MH/s54.4MH/s54.85MH/s27.31MH/s54.37MH/s54.91MH/s/

其中ETHASH算法的單卡性能達到了108MH/s。

這在很大程度上得益于NF5468A5優(yōu)秀的散熱設(shè)計。RTX3090的功耗高達350W,在區(qū)塊鏈場景,顯卡通常是7*24小時運行,因此對散熱的要求非常高。筆者監(jiān)控了整個測試過程中的GPU功耗和溫度情況,發(fā)現(xiàn)在長達半天的測試過程中,雖然GPU功耗長期維持在330~340W之間,但是GPU的溫度一直維持在60℃左右,甚至在多卡同時運行時,GPU的溫度也能保持在60℃左右,可以看出NF5468A5的散熱設(shè)計做得相當不錯。

3. NF5468A5服務(wù)器測評總結(jié)

通過對產(chǎn)品外觀和內(nèi)部設(shè)計的評測,我們看到,浪潮NF5468A5在產(chǎn)品設(shè)計上,存儲、計算、風扇、GPU擴展等各模塊簡潔明朗,尤其是巧妙的分區(qū)散熱設(shè)計有效實現(xiàn)CPU與GPU模組的分流,豐富的存儲+IO擴展性,同時人性化的設(shè)計以扎實的做工,也彰顯出浪潮對產(chǎn)品細節(jié)的嚴謹和大廠雄厚的設(shè)計實力。

在整體實際性能的綜合測試,得益于浪潮高效的產(chǎn)品架構(gòu),最大發(fā)揮CPU與GPU之間的通訊效能,處理器計算效率達到93.74%,實測內(nèi)存帶寬373 GB/s,搭配8張A100訓(xùn)練ResNet50模型得到每秒處理21486張圖片的驚人算力,在ImageNet數(shù)據(jù)集下進行ResNet50推理測試展現(xiàn)超出T4標稱13%的圖片處理能力,這臺算力猛獸全方位的表現(xiàn),相信給筆者和大家都留下了深刻的印象。

此外,ETHASH算法單卡性能突破100MH/s;很好地支持寒武紀國產(chǎn)推理卡,輕松實現(xiàn)每秒處理圖片超7000張;搭載視頻轉(zhuǎn)碼卡M10A展示了480fps1080P視頻轉(zhuǎn)碼性能。浪潮NF5468A5還有很多意想不到的潛能,筆者期待進一步的發(fā)掘,給大家?guī)砀实脑u測。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128592
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8958

    瀏覽量

    85081
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268103

原文標題:算力猛獸:浪潮NF5468A5 GPU服務(wù)器深度測評

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    解析汽車電子用晶體諧振器:DST1610A、DST210AC 與 DST310S

    解析汽車電子用晶體諧振器:DST1610A、DST210AC 與 DST310S
    的頭像 發(fā)表于 08-05 10:43 ?332次閱讀
    <b class='flag-5'>解析</b>汽車電子用晶體諧振器:DST1610<b class='flag-5'>A</b>、DST210AC 與 DST310S

    長擎安全操作系統(tǒng)24與浪潮信息HF/AS存儲系列成功兼容

    在數(shù)字化轉(zhuǎn)型浪潮席卷全球的今天,信息安全與數(shù)據(jù)存儲的穩(wěn)定高效成為企業(yè)不可忽視的兩大核心要素。近日,一項重要的技術(shù)兼容性測試認證結(jié)果揭曉,標志著長擎安全操作系統(tǒng)24與浪潮信息集中式存儲HF/AS系列產(chǎn)品實現(xiàn)了完美融合,共同為企業(yè)數(shù)
    的頭像 發(fā)表于 07-22 16:20 ?626次閱讀

    LTC4364HDE-2芯片在檢測電流>5A的情況下,出線SHDN不受控問題怎么解決?

    LT4364在輸出電流大于5A的情況下,出現(xiàn) HGATE SOURCEDGATE SENSE OUT輸出電壓為 32V的現(xiàn)象。請問和哪個因素相關(guān)。另外在C297為6.8nF的情況下(另外一個板塊),未出現(xiàn)該現(xiàn)象。請問為何。是MOS管出問題了,還是芯片出問題了。芯片的mar
    發(fā)表于 05-27 07:34

    【中心動態(tài)】 走進浪潮信息

    5月8日,RISC-V國際人才培養(yǎng)認證中心主任蔣學剛一行,到訪浪潮電子信息產(chǎn)業(yè)股份有限公司(以下簡稱“浪潮信息”),受到深圳區(qū)域副總經(jīng)理段青云、產(chǎn)品經(jīng)理陶耀民的熱情接待。浪潮信息是全球
    的頭像 發(fā)表于 05-13 17:42 ?393次閱讀
    【中心動態(tài)】 走進<b class='flag-5'>浪潮</b>信息

    浪潮信息推出業(yè)界首個支持50℃進液溫度的服務(wù)器

    近日,浪潮信息再次突破技術(shù)邊界,其旗艦產(chǎn)品NF5180G7服務(wù)器成為業(yè)界矚目焦點。這款服務(wù)器不僅實現(xiàn)了1U空間內(nèi)的超高密度設(shè)計,更在散熱技術(shù)上取得了革命性進展,成為首個支持浸沒式液冷50℃進液溫度的服務(wù)器。
    的頭像 發(fā)表于 05-09 11:27 ?597次閱讀

    浪潮信息突破浸沒式液冷服務(wù)器設(shè)計極限 業(yè)界首個支持50℃進液溫度

    北京2024年5月6日 /美通社/ -- 近日,浪潮信息旗下產(chǎn)品NF5180G7成為業(yè)界首個可支持浸沒式液冷50℃進液溫度的服務(wù)器。NF5180G7是一款超高密度服務(wù)器,在1U空間內(nèi)達
    的頭像 發(fā)表于 05-06 20:46 ?381次閱讀
    <b class='flag-5'>浪潮</b>信息突破浸沒式液冷服務(wù)器設(shè)計極限 業(yè)界首個支持50℃進液溫度

    勛瑞光電:如何購買5寸LCD顯示屏?從價格、特點、及優(yōu)勢方面進行解析

    當涉及到5寸LCD顯示屏時,以下是一些常見的價格、特點和優(yōu)勢的全面解析
    的頭像 發(fā)表于 03-27 09:44 ?360次閱讀

    浪潮信息服務(wù)器NF5180G7榮獲SPECjbb2015性能冠軍

    近日,國際權(quán)威的標準性能評測機構(gòu)(SPEC)公布了SPECjbb2015榜單,浪潮信息服務(wù)器NF5180G7憑借每秒558,626次企業(yè)應(yīng)用業(yè)務(wù)處理的卓越成績,蟬聯(lián)性能冠軍。這一出色的表現(xiàn)不僅刷新了算力記錄,更標志著浪潮信息在算
    的頭像 發(fā)表于 02-01 14:23 ?581次閱讀

    AD5933測10nF電容在5k~6k頻率下的阻抗曲線,曲線出現(xiàn)波峰的原因是什么?

    我用AD5933測量電阻和和電容有一些問題: 1、測10nF電容在5k~6k頻率下的阻抗曲線,曲線上會有一些小波峰,出現(xiàn)波峰的原因是什么(1nF也有波峰,附件是10nF的測量結(jié)果)
    發(fā)表于 01-12 07:39

    5G-A體驗官告訴你:5G,超A

    新標配:超萬兆網(wǎng)絡(luò) 游輪沒有5G信號? 只能望江興嘆無法直播分享? 馬上安排! 業(yè)界首創(chuàng)5G-A船地回傳系統(tǒng) 支持上百位主播 同時超高清直播 美食與美景,即刻上線! 02 飛馳的地鐵,飛馳的網(wǎng)速 地鐵沒有
    的頭像 發(fā)表于 12-22 18:25 ?643次閱讀
    <b class='flag-5'>5G-A</b>體驗官告訴你:<b class='flag-5'>5</b>G,超<b class='flag-5'>A</b>的

    浪潮信息澎湃認證:浪潮信息集中式存儲攜手儀電云i-stack云操作系統(tǒng)軟件完成兼容性認證

    近日, 儀電云i-stack云操作系統(tǒng)軟件與浪潮信息集中式存儲AS/HF系列產(chǎn)品完成并通過浪潮信息澎湃技術(shù)相互兼容性測試認證, 測試結(jié)果顯示,儀電云i-stack云操作系統(tǒng)軟件與
    的頭像 發(fā)表于 12-08 16:40 ?596次閱讀
    <b class='flag-5'>浪潮</b>信息澎湃認證:<b class='flag-5'>浪潮</b>信息集中式存儲攜手儀電云i-stack云操作<b class='flag-5'>系統(tǒng)</b>軟件完成兼容性認證

    龍芯3A6000新品對標10代酷睿,華碩、聯(lián)想、浪潮等同步發(fā)布終端產(chǎn)品

    龍芯3A6000新品對標10代酷睿,華碩、聯(lián)想、浪潮等同步發(fā)布終端產(chǎn)品。
    的頭像 發(fā)表于 11-29 10:50 ?1449次閱讀
    龍芯3<b class='flag-5'>A</b>6000新品對標10代酷睿,華碩、聯(lián)想、<b class='flag-5'>浪潮</b>等同步發(fā)布終端產(chǎn)品

    RFID資產(chǎn)管理系統(tǒng)全功能詳解!高效管理從這里開始!

    在現(xiàn)代商業(yè)環(huán)境中,RFID資產(chǎn)管理系統(tǒng)正成為企業(yè)管理不可或缺的先進工具?,F(xiàn)代企業(yè)管理正處于數(shù)字化的浪潮中,而RFID資產(chǎn)管理系統(tǒng)正是這場浪潮中的一顆璀璨明珠。在這篇文章中,我們將全方位
    的頭像 發(fā)表于 11-29 10:02 ?959次閱讀
    RFID資產(chǎn)管理<b class='flag-5'>系統(tǒng)</b>全功能詳解!高效管理從這里開始!

    ADCMP573的噪聲系數(shù)NF是什么?

    打算用ADCMP573做為高頻電路的前端比較器。因為輸入端對信號比較敏感,所以想知道ADCMP573的噪聲系數(shù)NF。但是在數(shù)據(jù)手冊中找不到這一指標,請問ADI有相關(guān)資料提供ADCMP573相關(guān)NF的指標嗎?比較急,非常感謝!
    發(fā)表于 11-23 06:16

    采用回調(diào)函數(shù)的方式優(yōu)化嵌入式系統(tǒng)命令解析

    在嵌入式系統(tǒng)開發(fā)中,命令解析是一個關(guān)鍵的環(huán)節(jié),它負責解析用戶或其他系統(tǒng)發(fā)送的命令,并執(zhí)行相應(yīng)的操作。傳統(tǒng)的命令解析方法通常采用switch
    的頭像 發(fā)表于 11-14 09:19 ?588次閱讀
    采用回調(diào)函數(shù)的方式優(yōu)化嵌入式<b class='flag-5'>系統(tǒng)</b>命令<b class='flag-5'>解析</b>