亚洲免费看片,一级免费黄片,披风少年爱老妈是不是亲儿子

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）推理和訓(xùn)練作為AI/ML關(guān)鍵的一環(huán)，無(wú)論是通用的GPU，還是專(zhuān)用的推理/訓(xùn)練加速器，都想在各大流行模型和機(jī)器學(xué)習(xí)庫(kù)上跑出優(yōu)秀的成績(jī)，以展示自己的硬件實(shí)力。業(yè)界需要一個(gè)統(tǒng)一的跑分標(biāo)準(zhǔn)，為此，各大廠(chǎng)商在2018年根據(jù)業(yè)內(nèi)指標(biāo)聯(lián)合打造的MLPerf就承擔(dān)了這一重任。

不過(guò)隨著時(shí)間的推移，MLPerf幾乎已經(jīng)成了英偉達(dá)一家獨(dú)大的跑分基準(zhǔn)，這家GPU廠(chǎng)商憑借自己的產(chǎn)品幾乎統(tǒng)治著整個(gè)AI硬件市場(chǎng)。這不，近日公布的MLPerf Training 2.0，就將這些AI硬件公司和服務(wù)器廠(chǎng)商提交的具體AI訓(xùn)練成績(jī)公布了出來(lái)，其中既有一些新晉成員，也有一些出人意料的結(jié)果。

谷歌的反超這次跑分結(jié)果中，最驚艷的還是谷歌的TPU v4系統(tǒng)，谷歌憑借這一架構(gòu)的系統(tǒng)，在五個(gè)基準(zhǔn)測(cè)試中都打破了性能記錄，平均訓(xùn)練速度比第二名的英偉達(dá)A100系統(tǒng)快了1.42倍左右，哪怕是與自己在1.0測(cè)試下的成績(jī)相比，也提升了1.5倍。

能實(shí)現(xiàn)這樣的成績(jī)自然離不開(kāi)谷歌自己的TPU芯片設(shè)計(jì)，谷歌的每個(gè)TPU v4 Pod都由4096個(gè)芯片組成，且?guī)捵龅搅?Tbps。除此之外，谷歌有著豐富的用例經(jīng)驗(yàn)，相較其他公司而言，谷歌是唯一一個(gè)在搜索和視頻領(lǐng)域都已經(jīng)大規(guī)模普及AI/ML應(yīng)用的。

TPU v4與A100的對(duì)比 / 谷歌

不過(guò)谷歌與英偉達(dá)并不是直接競(jìng)爭(zhēng)關(guān)系，他們對(duì)標(biāo)的還是使用英偉達(dá)GPU系統(tǒng)的云服務(wù)公司，比如微軟的Azure，谷歌也為此特地做了成本對(duì)比。如上圖所示，在BERT模型的訓(xùn)練中，4096個(gè)TPU v4芯片與Azure 4096個(gè)A100芯片對(duì)比，谷歌的方案可以節(jié)省35%，ResNet模型的訓(xùn)練下更是可以節(jié)省近50%。

不過(guò)以上的成績(jī)?cè)谒?項(xiàng)測(cè)試中也只是和英偉達(dá)平分秋色，而且隨著系統(tǒng)規(guī)模的不同，其結(jié)果或許會(huì)有更多的變化。再者，谷歌的TPU僅限于其自己的云服務(wù)，所以總的來(lái)說(shuō)并不算一個(gè)通用方案，至少微軟和亞馬遜這樣的競(jìng)爭(zhēng)對(duì)手肯定是用不上。

英偉達(dá)地位不保？除了谷歌之外，還取得了不錯(cuò)的成績(jī)的就是英特爾旗下Habana Labs的Gaudi2訓(xùn)練加速器。這款今年5月推出的處理器，從上一代的16nm換成了臺(tái)積電7nm，Tensor處理器內(nèi)核的數(shù)量因此增加了兩倍，使其在ResNet-50的訓(xùn)練吞吐量上實(shí)現(xiàn)了3倍提升，BERT的訓(xùn)練吞吐量提升了4.7倍。

在與英偉達(dá)提交的A100-80GB GPU系統(tǒng)成績(jī)相比，Gaudi2在ResNet-50上的訓(xùn)練時(shí)間縮短了36%；與戴爾提交的A100-40GB GPU系統(tǒng)成績(jī)相比，Gaudi2在BERT上的訓(xùn)練時(shí)間縮短了45%。

從結(jié)果來(lái)看，已經(jīng)有不少?gòu)S商的AI硬件已經(jīng)可以在訓(xùn)練上對(duì)標(biāo)甚至超過(guò)英偉達(dá)的GPU生態(tài)了，但這并不代表全部機(jī)器學(xué)習(xí)訓(xùn)練領(lǐng)域。比如在測(cè)試中，廠(chǎng)商是不需要將每個(gè)項(xiàng)目的測(cè)試結(jié)果都提交上去的。從這個(gè)角度來(lái)看，RetinaNet輕量型目標(biāo)檢測(cè)、COCO重型目標(biāo)檢測(cè)、語(yǔ)音識(shí)別數(shù)據(jù)集Librispeech和強(qiáng)化學(xué)習(xí)Minigo這幾個(gè)項(xiàng)目中，只有基于英偉達(dá)GPU的系統(tǒng)提交了成績(jī)。

不僅如此，如果你看所有提交成績(jī)的服務(wù)器和云服務(wù)公司來(lái)看，他們用到的CPU或是AMD的EPYC處理器，或是英特爾的Xeon處理器，但加速器卻是幾乎清一色的英偉達(dá)A100。這也證明了在百度、戴爾、H3C、浪潮和聯(lián)想這些廠(chǎng)商的眼中，英偉達(dá)的GPU依然是最具競(jìng)爭(zhēng)力的那個(gè)。

不可小覷的軟件還有一點(diǎn)需要指出，那就是以上都是封閉組的成績(jī)，他們所用到的都是標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)庫(kù)，比如TensorFlow 2.8.0和Pytorch 22.04等。而開(kāi)放組則不受此限制，可以用到他們自己定制的庫(kù)或優(yōu)化器，這一組中三星和Graphcore都根據(jù)不同的軟件配置提交了成績(jī)，但最亮眼的還是MosaicML。

Composer在ResNet-50下的訓(xùn)練時(shí)間對(duì)比 / MosaicML

這家公司所用的加速器硬件同樣是和諸多提交者一樣的英偉達(dá)A100-SXM-80GB GPU，但他們用到的是自己用Pytorch編寫(xiě)的庫(kù)Composer。這家公司于今年4月推出了Composer，并聲稱(chēng)可讓模型訓(xùn)練速度提升2到4倍。在MLPerf Training 2.0的跑分中，使用MosaicML Composer的對(duì)比組在ResNet訓(xùn)練速度上實(shí)現(xiàn)了近4.6倍的提升。不過(guò)Composer雖說(shuō)支持任何模型，但這個(gè)提速的表現(xiàn)目前還是體現(xiàn)在ResNet上比較明顯，所以本次也并沒(méi)有提交其他模型下的成績(jī)。

考慮到英特爾等公司為了提升其軟件開(kāi)發(fā)實(shí)力，已經(jīng)在收購(gòu)Codeplay這樣的軟件開(kāi)發(fā)公司，MosaicML作為剛公開(kāi)不久的初創(chuàng)公司，創(chuàng)始人又是英特爾的前AI實(shí)驗(yàn)室骨干，如果能在未來(lái)展現(xiàn)出更優(yōu)秀的成績(jī)，說(shuō)不定也會(huì)被英偉達(dá)這樣的公司看中。

結(jié)語(yǔ)英偉達(dá)常年在MLPerf上霸榜，也有不少人認(rèn)為MLPerf跑分成了英偉達(dá)的宣傳工具，然而事實(shí)是英特爾、谷歌等同樣重視AI的公司也將其視為一個(gè)公平的基準(zhǔn)測(cè)試，而且MLPerf還有同行評(píng)審環(huán)節(jié)，進(jìn)一步驗(yàn)證測(cè)試結(jié)果。從以上結(jié)果來(lái)看，AI訓(xùn)練硬件上的創(chuàng)新仍未停止，無(wú)論是GPU、TPU還是IPU都在推陳出新，但跑分結(jié)果并不代表任何用例都能達(dá)到高性能，還需要廠(chǎng)商自己去調(diào)校模型和軟件才能達(dá)成最好的成績(jī)。

原文標(biāo)題：AI硬件反超英偉達(dá)？跑分來(lái)看尚不現(xiàn)實(shí)

文章出處：【微信公眾號(hào)：電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6128

瀏覽量
104952
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8353

瀏覽量
132315
TPU

TPU

+關(guān)注

關(guān)注
0

文章
138

瀏覽量
20684
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3721

瀏覽量
90693

原文標(biāo)題：AI硬件反超英偉達(dá)？跑分來(lái)看尚不現(xiàn)實(shí)

文章出處：【微信號(hào)：elecfans，微信公眾號(hào)：電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

英偉達(dá)推出歸一化Transformer，革命性提升LLM訓(xùn)練速度

了新的突破。相較于傳統(tǒng)的Transformer架構(gòu)，nGPT在保持原有精度的同時(shí)，直接將大型語(yǔ)言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升，無(wú)疑將極大地推動(dòng)AI技術(shù)

發(fā)表于 10-23 11:30 ?312次閱讀

TMS320VC5510 HPI吞吐量和優(yōu)化

電子發(fā)燒友網(wǎng)站提供《TMS320VC5510 HPI吞吐量和優(yōu)化.pdf》資料免費(fèi)下載

發(fā)表于 10-16 09:35 ?0次下載

TMS320VC5510 HPI<b class='flag-5'>吞吐量</b>和優(yōu)化

TMS320C6474模塊吞吐量

電子發(fā)燒友網(wǎng)站提供《TMS320C6474模塊吞吐量.pdf》資料免費(fèi)下載

發(fā)表于 10-15 13:52 ?0次下載

TMS320C6474通用總線(xiàn)架構(gòu)(CBA)吞吐量

電子發(fā)燒友網(wǎng)站提供《TMS320C6474通用總線(xiàn)架構(gòu)(CBA)吞吐量.pdf》資料免費(fèi)下載

發(fā)表于 10-15 10:29 ?0次下載

TMS320C6474通用總線(xiàn)架構(gòu)(CBA)<b class='flag-5'>吞吐量</b>

TMS320DM36x SoC架構(gòu)和吞吐量

電子發(fā)燒友網(wǎng)站提供《TMS320DM36x SoC架構(gòu)和吞吐量.pdf》資料免費(fèi)下載

發(fā)表于 10-14 10:51 ?0次下載

TMS320DM36x SoC架構(gòu)和<b class='flag-5'>吞吐量</b>

TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告

電子發(fā)燒友網(wǎng)站提供《TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告.pdf》資料免費(fèi)下載

發(fā)表于 10-14 09:27 ?0次下載

TMS320C6472/TMS320TCI6486的<b class='flag-5'>吞吐量</b>應(yīng)用程序報(bào)告

求助，關(guān)于使用iperf測(cè)量mesh節(jié)點(diǎn)吞吐量問(wèn)題求解

我把esp-mesh-lite的no-route例程和iperf例程合在一起，想測(cè)試兩個(gè)mesh節(jié)點(diǎn)間tcp通信的吞吐量，實(shí)際過(guò)程中一開(kāi)始流量正常，數(shù)秒后客戶(hù)端發(fā)數(shù)據(jù)這邊monitor卡死沒(méi)有任何

發(fā)表于 07-23 06:59

用Iperf例程測(cè)試ESP32-C6的TCP通信，吞吐量很低的原因？

為什么我用官網(wǎng)的Iperf例程測(cè)試ESP32-C6的TCP通信，吞吐量才0.33Mbps

發(fā)表于 06-06 07:47

英偉達(dá)靜候新品來(lái)臨，亞馬遜暫緩購(gòu)買(mǎi)Grace Hopper

今年3月，英偉達(dá)發(fā)布了全新的Blackwell處理器，距離前任產(chǎn)品Hopper的發(fā)布不過(guò)短短一年。英偉達(dá)首席執(zhí)行官黃仁勛表示，新款產(chǎn)品在訓(xùn)練

發(fā)表于 05-22 09:07 ?266次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

30 倍，能源效率提高了 25 倍。這些提升使得它能夠更快地處理大規(guī)模的人工智能任務(wù)，加速模型的訓(xùn)練和推理過(guò)程。 **2. **超級(jí)計(jì)算機(jī) 英偉

發(fā)表于 05-13 17:16

英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU

英偉達(dá)宣稱(chēng)，B200在性能上比以往最好的GPU快30倍不止。由它構(gòu)成的服務(wù)器集群相比上一代，運(yùn)算能力飛躍性提升，甚至能使大語(yǔ)言模型的訓(xùn)練速度

發(fā)表于 03-20 09:37 ?712次閱讀

如何提高CYBT-243053-02吞吐量？

你好我們一直在使用“EZ-Serial Firmware： v1.4.13.13 Sep 22 2023 10：24：41”測(cè)試“CYBT-243053-02”，我們得到的吞吐量比 PUART 高

發(fā)表于 02-27 06:56

GD32VW553吞吐量及場(chǎng)景功耗測(cè)試指南應(yīng)用說(shuō)明

電子發(fā)燒友網(wǎng)站提供《GD32VW553吞吐量及場(chǎng)景功耗測(cè)試指南應(yīng)用說(shuō)明.pdf》資料免費(fèi)下載

發(fā)表于 12-14 10:20 ?1次下載

影響ATE電源系統(tǒng)吞吐量的關(guān)鍵因素

從串行設(shè)備測(cè)試改變?yōu)椴⑿性O(shè)備測(cè)試可以顯著地增加測(cè)試系統(tǒng)吞吐量。測(cè)試執(zhí)行活動(dòng)的大部分可能涉及使用DC電源設(shè)置條件和進(jìn)行測(cè)量。配置測(cè)試系統(tǒng)，使其能夠使用多個(gè)直流電源同時(shí)對(duì)多個(gè)設(shè)備執(zhí)行測(cè)試，是顯著提高測(cè)試吞吐量的一種經(jīng)濟(jì)有效的方法。

發(fā)表于 11-29 12:36 ?341次閱讀

英偉達(dá)重磅發(fā)布H200，容量翻倍，帶寬狂飆

HGX H200 由 NVIDIA NVLink 和 NVSwitch 高速互連提供支持，可為各種應(yīng)用工作負(fù)載提供最高性能，包括針對(duì)超過(guò) 1750 億個(gè)參數(shù)的最大模型的 LLM 訓(xùn)練和推理。英偉達(dá)

發(fā)表于 11-15 16:09 ?939次閱讀

搜索歷史

英偉達(dá)地位不保？BERT訓(xùn)練吞吐量提升4.7倍

評(píng)論

英偉達(dá)推出歸一化Transformer，革命性提升LLM訓(xùn)練速度

TMS320VC5510 HPI吞吐量和優(yōu)化

TMS320C6474模塊吞吐量

TMS320C6474通用總線(xiàn)架構(gòu)(CBA)吞吐量

TMS320DM36x SoC架構(gòu)和吞吐量

TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告

求助，關(guān)于使用iperf測(cè)量mesh節(jié)點(diǎn)吞吐量問(wèn)題求解

用Iperf例程測(cè)試ESP32-C6的TCP通信，吞吐量很低的原因？

英偉達(dá)靜候新品來(lái)臨，亞馬遜暫緩購(gòu)買(mǎi)Grace Hopper

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU

如何提高CYBT-243053-02吞吐量？

GD32VW553吞吐量及場(chǎng)景功耗測(cè)試指南應(yīng)用說(shuō)明

影響ATE電源系統(tǒng)吞吐量的關(guān)鍵因素

英偉達(dá)重磅發(fā)布H200，容量翻倍，帶寬狂飆

搜索歷史

英偉達(dá)地位不保？BERT訓(xùn)練吞吐量提升4.7倍

評(píng)論

英偉達(dá)地位不保？BERT訓(xùn)練吞吐量提升4.7倍