久久特A级天天拍黄片,2017天天干天天射,一区二区三区欧美伦理

阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU，通過機器學(xué)習(xí)模型的自動優(yōu)化技術(shù)，大幅提升了算子的執(zhí)行效率，刷新了NVIDIA A100、A10、T4的GPU單卡性能。并基于8張NVIDIA A100 GPU和開放規(guī)則，以離線場景下每秒處理107.8萬張圖片的成績，打破MLPerf 1.0推理性能測試紀錄。

阿里云自研震旦異構(gòu)計算加速平臺，適配GPU、ASIC等多種異構(gòu)AI 芯片，優(yōu)化編譯代碼，深挖和釋放異構(gòu)芯片算力，支持TensorFlow、Caffe、PAI等多種深度學(xué)習(xí)框架，可實現(xiàn)AI框架及算法的無縫遷移適配，支持云變端多場景快速部署，大幅提升AI應(yīng)用開發(fā)效率。

在MLPerf推理性能測試結(jié)果1.0版中，震旦異構(gòu)計算加速平臺，基于8卡NVIDIA A100 GPU配置上性能奪魁，在開放規(guī)則的離線場景下取得每秒處理107.8萬張圖片的成績。

首先在頂層算法模型上，使用基于自動機器學(xué)習(xí)（AutoML）的模型設(shè)計方式，這種方式可以獲得比人工設(shè)計更高效的模型。震旦基于MIT的先進的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法Once-For-All。

使用了基于強化學(xué)習(xí)的自研搜索算法獲得了高性能子網(wǎng)絡(luò)；之后通過INT8量化獲得硬件加速繼續(xù)提高性能，并在量化前進行深度重訓(xùn)練，以保證量化后的精度能夠達到測試的精度要求。

IRB即反轉(zhuǎn)殘差塊（Inverted Residual Block），是用于網(wǎng)絡(luò)架構(gòu)搜索的基本模塊。每個反轉(zhuǎn)殘差塊包括三層卷積算子，圖上反轉(zhuǎn)殘差塊的長度代表了該塊的輸出channel數(shù)量。

一般機器學(xué)習(xí)框架的算子實現(xiàn)專注于優(yōu)化主流的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而對于NAS的反轉(zhuǎn)殘差塊則效率不佳，震旦使用了基于自動調(diào)優(yōu)的大規(guī)模算子融合技術(shù)，大幅提高了推理時算子對GPU的利用率，并且可根據(jù)不同的架構(gòu)自動調(diào)優(yōu)到最佳算子實現(xiàn)。

因此能快速發(fā)掘全新GPU架構(gòu)的潛力，例如對于A100上通過MIG（多實例GPU）技術(shù)產(chǎn)生的具有不同計算資源的GPU實例，震旦算子優(yōu)化技術(shù)可以通過自動調(diào)優(yōu)來進一步提升計算資源利用率。

打破紀錄的背后，在硬件平臺上也得益于NVIDIA A100 GPU 強大的算力支持，近5倍于上一代的INT8性能使得超越百萬級性能成為可能。另外，NVIDIA GPU的通用性，即通過CUDA直接對硬件編程，使得用戶可以針對其特有的神經(jīng)網(wǎng)絡(luò)模型進行定制優(yōu)化，這讓震旦基于GPU的自動算子調(diào)優(yōu)技術(shù)成為了現(xiàn)實。

最終獲得的調(diào)優(yōu)算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享內(nèi)存，從而交出了軟硬件協(xié)同優(yōu)化的滿意答卷。

在MLPerf推理性能測試結(jié)果1.0版本圖像分類性能測試中，阿里云震旦異構(gòu)計算加速平臺，基于NVIDIA A100 GPU平臺和開放規(guī)則，在離線場景下以每秒處理107.8萬張圖片的成績，打破了此前谷歌保持的絕對性能榜單的世界紀錄。這也是阿里在通用GPU平臺第一次取得100萬+這樣的成績。

此次阿里云震旦異構(gòu)計算加速平臺基于NVIDIA通用GPU硬件，通過機器學(xué)習(xí)模型的自動優(yōu)化技術(shù)，大幅提升了算子的執(zhí)行效率，刷新了NVIDIA GPU單卡性能。無論是新推出的A100和A10，還是已面市3年的T4，都帶來了單卡性能的大幅提升。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

asic

asic

+關(guān)注

關(guān)注
34

文章
1175

瀏覽量
119981
gpu

gpu

+關(guān)注

關(guān)注
27

文章
4590

瀏覽量
128137
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1828

瀏覽量
34663

原文標題：NVIDIA A100 GPU助力阿里云打破MLPerf推理性能測試紀錄

文章出處：【微信號：murata-eetrend，微信公眾號：murata-eetrend】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

打造異構(gòu)計算新標桿！國數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計

參考設(shè)計是首個支持異構(gòu)計算架構(gòu)的CXL硬件設(shè)備，標志著CXL技術(shù)在數(shù)據(jù)中心領(lǐng)域迎來異構(gòu)計算新階段。 ? 國數(shù)集聯(lián)基于FPGA與自主研發(fā)的CXL協(xié)議IP的先進特性，可實現(xiàn)CPU、GPU、DDR、SSD

發(fā)表于 08-06 14:19 ?200次閱讀

打造<b class='flag-5'>異構(gòu)計算</b>新標桿！國數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計

AvaotaA1全志T527開發(fā)板AMP異構(gòu)計算簡介

Avaota SBC 的部分平臺內(nèi)具有小核心 CPU，與大核心一起組成了異構(gòu)計算的功能。在異構(gòu)多處理系統(tǒng)中，主核心和輔助核心的存在旨在共同協(xié)作，以實現(xiàn)更高效的任務(wù)處理。這種協(xié)作需要系統(tǒng)采取一系列

發(fā)表于 07-24 09:54

異構(gòu)計算：解鎖算力潛能的新途徑

范式，智慧地解鎖了計算潛能的新境界。異構(gòu)計算：多元并蓄的智慧之選首先，讓我們揭開異構(gòu)計算的神秘面紗。簡單來說，異構(gòu)計算是指將不同類型的計算單

發(fā)表于 07-18 08:28 ?7266次閱讀

<b class='flag-5'>異構(gòu)計算</b>：解鎖算力潛能的新途徑

NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

德國、日本和波蘭的超級計算機利用 Grace-Hopper 和量子-經(jīng)典加速超算平臺推進量子計算研究 ? ? 德國漢堡 —— 國際超算大會（ISC）—— 2024 年 5 月 13 日

發(fā)表于 05-13 15:21 ?154次閱讀

<b class='flag-5'>NVIDIA</b> 通過 CUDA-Q <b class='flag-5'>平臺</b>為全球各地的量子<b class='flag-5'>計算</b>中心提供<b class='flag-5'>加速</b>

基于NVIDIA Megatron Core的MOE LLM實現(xiàn)和訓(xùn)練優(yōu)化

本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Expert

發(fā)表于 03-22 09:50 ?571次閱讀

基于<b class='flag-5'>NVIDIA</b> Megatron <b class='flag-5'>Core</b>的MOE LLM實現(xiàn)和訓(xùn)練優(yōu)化

高通NPU和異構(gòu)計算提升生成式AI性能?

異構(gòu)計算的重要性不可忽視。根據(jù)生成式AI的獨特需求和計算負擔(dān)，需要配備不同的處理器，如專注于AI工作負載的定制設(shè)計的NPU、CPU和GPU。

發(fā)表于 03-06 14:15 ?575次閱讀

《數(shù)據(jù)處理器：DPU編程入門》DPU計算入門書籍測評

的架構(gòu)服務(wù)，同時它一般不直接面向于數(shù)據(jù)存儲，通信接口等底層應(yīng)用。也不直接架構(gòu)頂層的服務(wù)。因此對于DPU系統(tǒng)來說，現(xiàn)在CPU仍然是GPU于DPU架構(gòu)異構(gòu)計算中必須存在的內(nèi)容。二、學(xué)習(xí)性開發(fā) DPU

發(fā)表于 12-24 10:54

百度智能云將在三大方面重構(gòu)云計算服務(wù)

在云基礎(chǔ)設(shè)施層，移動互聯(lián)網(wǎng)時代的應(yīng)用，底層大多依賴CPU算力，而AI應(yīng)用對GPU或異構(gòu)計算的需求大幅增加，云市場的底層算力需求將逐漸轉(zhuǎn)向以GPU

發(fā)表于 12-21 15:41 ?241次閱讀

NVIDIA 為全球領(lǐng)先的 AI 計算平臺 Hopper 再添新動力

Tensor Core GPU 和領(lǐng)先的顯存配置，可處理生成式 AI 與高性能計算工作負載的海量數(shù)據(jù)。 ? NVIDIA H200 是首款

發(fā)表于 11-14 14:30 ?191次閱讀

創(chuàng)新企業(yè)云福利：騰訊云 × NVIDIA 初創(chuàng)加速計劃

x NVIDIA 初創(chuàng)加速計劃助您降低產(chǎn)品使用門檻高性能計算集群?HCC 以高性能云服務(wù)器為節(jié)點，通過 RDMA 互聯(lián)，大幅提升網(wǎng)絡(luò)性能，提供高帶寬和極低延遲的網(wǎng)絡(luò)服務(wù)，能滿足

發(fā)表于 11-13 20:40 ?487次閱讀

177倍加速！NVIDIA最新開源 | GPU加速各種SDF建圖！

但最近，NVIDIA和ETHZ就聯(lián)合提出了nvblox，是一個使用GPU加速SDF建圖的庫。計算速度非?？欤噍^CPU計算TSDF甚至快了1

發(fā)表于 11-09 16:46 ?908次閱讀

全新NVIDIA Spectrum-X網(wǎng)絡(luò)平臺構(gòu)筑阿里生成式AI云底座

全新 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺構(gòu)筑阿里生成式 AI 云底座。

發(fā)表于 11-02 09:07 ?624次閱讀

異構(gòu)時代：CPU與GPU的發(fā)展演變

的特點和優(yōu)勢，能夠針對不同的應(yīng)用場景進行優(yōu)化和協(xié)作，從而實現(xiàn)更高效的計算，不同類型處理器的協(xié)同計算被稱為異構(gòu)計算。CPU和GPU是異構(gòu)計算中

發(fā)表于 10-24 10:17 ?1160次閱讀

高通下一代智能PC計算平臺名稱確定：驍龍X系列

驍龍X系列平臺基于高通在CPU、GPU和NPU異構(gòu)計算架構(gòu)領(lǐng)域的多年經(jīng)驗打造。目前，采用下一代定制高通Oryon CPU的驍龍X系列將實現(xiàn)性能和能效的顯著提升，此外其所搭載的NPU將面向生成式AI新時代提供

發(fā)表于 10-11 11:31 ?615次閱讀

Oracle 云基礎(chǔ)設(shè)施提供新的 NVIDIA GPU 加速計算實例

。為了幫助滿足這一需求，Oracle 云基礎(chǔ)設(shè)施（OCI）于近日宣布，在 OCI Compute 上全面提供 NVIDIA H100 Tensor Core

發(fā)表于 09-25 20:40 ?469次閱讀