青青久在线视频免费观看,caopen97,中文字幕亚洲精品乱码在线vr

本文詳細(xì)對比了谷歌TPU2和英偉達(dá)V100的性能，有兩個(gè)對比方向：一是測試在沒有增強(qiáng)過的合成數(shù)據(jù)上的吞吐量(每秒圖像)；二是，考察ImageNet上兩者實(shí)現(xiàn)的精確性和收斂性。結(jié)果在ResNet-50模型的原始表現(xiàn)上，4塊TPU2芯片和4塊V100GPU速度相同。訓(xùn)練ResNet-50時(shí)谷歌云TPU的實(shí)現(xiàn)用時(shí)短到令人發(fā)指，且基于ImageNet數(shù)據(jù)集的圖像分類準(zhǔn)確度達(dá)76.4%的成本只要73美元，說物美價(jià)廉可能也不過分。

去年5月，谷歌推出了第二代TPU芯片，這是一個(gè)自定義開發(fā)的深度學(xué)習(xí)加速芯片，不少人認(rèn)為有望成為英偉達(dá)GPU的替代品。

可事實(shí)真的如此么？

在這篇文章中，作者詳細(xì)對比了谷歌TPU2和英偉達(dá)V100的性能。孰優(yōu)孰劣，一較便知~

環(huán)境設(shè)置

話不多說直接上干貨了。下面我們就先比較由四個(gè)TPU芯片組成的TPU2組合板與四個(gè)英偉達(dá)V100 GPU的環(huán)境設(shè)置的差別。

巧的是，因?yàn)閮烧叩目們?nèi)存均為64G，因此我們能夠用同一個(gè)模型測試了，還能使用相同的batch size，節(jié)省了不少工夫呢。

在這次實(shí)驗(yàn)中，我們用相同的方式訓(xùn)練模型，雙方需要運(yùn)行同步數(shù)據(jù)并行分布式訓(xùn)練。

最后，我們選中了ImageNet上的ResNet-50模型進(jìn)行測試。它實(shí)際上是圖像分類的一個(gè)參考點(diǎn)，雖然參考實(shí)現(xiàn)是公開的，但目前還沒有一個(gè)支持在云TPU和多個(gè)GPU上訓(xùn)練的單一實(shí)現(xiàn)。

先看看V100這一邊，英偉達(dá)建議用MXNet或TensorFlow來實(shí)現(xiàn)，兩者都可以在英偉達(dá)GPU云上的Docker映像中使用。

但實(shí)際的操作中我們卻發(fā)現(xiàn)了一些問題，這要是兩種實(shí)現(xiàn)不能很好融合多個(gè)GPU和產(chǎn)生的大型batch size。

好在我們還有一些新發(fā)現(xiàn)，從TensorFlow的基準(zhǔn)存儲(chǔ)庫中使用ResNet-50實(shí)現(xiàn)，并在Docker映像中運(yùn)行它是可行的。這種方法比英偉達(dá)的推薦的TensorFlow實(shí)現(xiàn)要快得多，只比MXNet實(shí)現(xiàn)稍微慢一點(diǎn)(約3%)。這樣一來，也更容易在相同版本中用同一個(gè)框架的實(shí)現(xiàn)做對比。

再看看谷歌云TPU這一邊，官方建議用帶TensorFlow 1.7.0官方TPU存儲(chǔ)庫的bfloat16實(shí)現(xiàn)。TPU和GPU實(shí)現(xiàn)都在各自的體系架構(gòu)上使用混合精度計(jì)算，但大部分張量是以半精度的方式儲(chǔ)存的。

一翻研究和對比后……我們終于敲定了實(shí)驗(yàn)方案。

對于V100來說，我們決定用AWS上的p3.8xlarge實(shí)例(Xeon E5-2686@2.30GHz 16內(nèi)核，244GB內(nèi)存，Ubuntu16.04)，用4個(gè)單個(gè)內(nèi)存為16GB的V100 GPU進(jìn)行測試。

TPU這邊的測試，我們將小型的n1-standard-4實(shí)例作為host(Xeon@2.3GHz兩核，15GB內(nèi)存，Debian 9)，我們提供了一個(gè)云TPU，由4個(gè)單個(gè)內(nèi)存為16G的TPU2芯片組成。

方案敲定后，我們又規(guī)劃了兩個(gè)對比方向。

一是我們要測試在沒有增強(qiáng)過的合成數(shù)據(jù)上的吞吐量(每秒圖像)。這種比較獨(dú)立于收斂性，保證里了在I/O或數(shù)據(jù)增強(qiáng)中沒有瓶頸bottleneck影響結(jié)果。

二是，我們要考察ImageNet上兩者實(shí)現(xiàn)的精確性和收斂性。

目標(biāo)，明確，方法，明確。我們迫不及待開始測試了——

吞吐量測試

我們依據(jù)每秒合成數(shù)據(jù)上的圖像來測量吞吐量，即在訓(xùn)練數(shù)據(jù)實(shí)時(shí)創(chuàng)建、batch size也不同的情況下對吞吐量進(jìn)行檢測。

雖然~官方只推薦的TPU的batch size是1024，但是基于讀者的請求，我們還報(bào)告了其他batch size大小的性能。

△在合成數(shù)據(jù)和w/o數(shù)據(jù)增強(qiáng)的不同批次上每秒的圖像性能

在batch size為1024的情況下，雙方的吞吐量旗鼓相當(dāng)，TPU略領(lǐng)先2%。

當(dāng)batch size較小時(shí)，在雙方吞吐量均降低，但對比起來GPU的性能稍好一些。看來，這些batch size真的不是TPU的推薦設(shè)置~

根據(jù)英偉達(dá)的建議，我們還也在MXNet上做了一個(gè)GPU測驗(yàn)。

利用英偉達(dá)GPU云上Docker映像中提供的ResNet-50實(shí)現(xiàn)(mxnet:18.03-py3)，我們發(fā)現(xiàn)在batch size為768的情況下，GPU每秒能處理約3280個(gè)圖像。這比上面最好的TPU結(jié)果還要快3%。

也正如上面所說的那樣，在上述batch size下，MXNet的實(shí)現(xiàn)在多個(gè)GPU上并沒有很好聚合。所以，我們接下來研究的重點(diǎn)就是這就是為什么我們將重點(diǎn)就是TensorFlow的實(shí)現(xiàn)。

性價(jià)比

上面我們也提到過，谷歌云TPU2一組有四塊芯片，目前只在谷歌云上才能用到。

當(dāng)需要進(jìn)行計(jì)算時(shí)，我們可以將它與虛擬機(jī)相連?？紤]到谷歌云上不支持英偉達(dá)V100，所以其云服務(wù)只能來自AWS。

基于上述結(jié)果，我們可以把數(shù)據(jù)標(biāo)準(zhǔn)化，從每小時(shí)的花費(fèi)、每秒處理的圖片數(shù)量、每美元能處理的圖片數(shù)三個(gè)維度進(jìn)行對比。

△每美元每秒處理圖像的表現(xiàn)

對比下來，谷歌云TPU性價(jià)比略高。不過，谷歌TPU目前不賣，只能租。如果你考慮長期租用，或者購買的話，結(jié)論就不一樣了。

有一點(diǎn)你可能忘了，上面這張表的前提是假定了我們的租期為12個(gè)月，所以費(fèi)用中包含了AWS上p3.8xlarge實(shí)例，并且不需要提前支付定金。這樣大大降低了價(jià)格，還能達(dá)到每美元能處理375張圖片的不錯(cuò)效果。

其實(shí)對于GPU來說，還有更多的選擇。比方說，Cirrascale提供4臺(tái)V100GPU服務(wù)器的月租服務(wù)，收費(fèi)大概是7500美元，折算下來是每小時(shí)10.3美元。

不過，因?yàn)锳WS上像CPU、內(nèi)存、NVLink支持等硬件類型也各不同，如果要更直接的對比，就需要更多的參考數(shù)據(jù)。其他費(fèi)用套餐可參考：

http://www.cirrascale.com/pricing_x86BM.php

精準(zhǔn)度和收斂程度

除了原始的表現(xiàn)，我們還希望有效驗(yàn)證的計(jì)算能力。比方說，實(shí)現(xiàn)收斂的結(jié)果。因?yàn)楸容^的是兩個(gè)不同的實(shí)現(xiàn)，所以可以預(yù)期到結(jié)果會(huì)有不同。比較的結(jié)果不僅僅是硬件的速度，也包含實(shí)現(xiàn)的質(zhì)量。

比方說，TPU實(shí)現(xiàn)的過程中應(yīng)用到了計(jì)算密集的圖像預(yù)處理步驟，并且還犧牲了原始的吞吐量。下面我們也能看到，谷歌的這種選擇有不錯(cuò)的回報(bào)。

我們用ImageNet數(shù)據(jù)集訓(xùn)練這些模型，想把圖像進(jìn)行分類。目前，這個(gè)數(shù)據(jù)集中的類別已經(jīng)細(xì)分到了1000種，包含了130萬張訓(xùn)練圖片，5萬張驗(yàn)證圖片。

我們在batch size為1024的情況下進(jìn)行訓(xùn)練，進(jìn)行了90次迭代后在驗(yàn)證集上對比雙方的結(jié)果。

結(jié)果顯示，TPU可以每秒完成2796張圖，GPU則為2839張。這個(gè)結(jié)果和我們上面提到的吞吐量不同，是因?yàn)樯厦嫖覀兘昧藬?shù)據(jù)增強(qiáng)，并用合成數(shù)據(jù)來比較的TPU和GPU的原始速度。

△90次訓(xùn)練之后，Top-1 精確值*（只考慮每張圖最高的預(yù)估）

從上圖可以看出來，90次訓(xùn)練之后，TPU實(shí)現(xiàn)的Top-1精準(zhǔn)度要好過GPU，有0.7%的優(yōu)勢。

雖然0.7%的優(yōu)勢看起來非常微小，但在如此高水平的情況下還有這樣的改進(jìn)非常難，基于不同的應(yīng)用個(gè)，這點(diǎn)改進(jìn)將對最后的結(jié)果有很大影響。

接下來，我們看一下不同訓(xùn)練時(shí)期，模型Top-1精準(zhǔn)度的表現(xiàn)。

△在驗(yàn)證集上，兩種方法實(shí)現(xiàn)Top-1精準(zhǔn)度的表現(xiàn)

可以看出，圖表中有一段精準(zhǔn)度陡增，和學(xué)習(xí)速率高度同步。TPU實(shí)現(xiàn)的收斂表現(xiàn)更好，最后到第86次訓(xùn)練時(shí)，準(zhǔn)確率可以達(dá)到76.4%。

GPU的表現(xiàn)就被甩在了后面，第84次訓(xùn)練后達(dá)到了75.7%的準(zhǔn)確率，而TPU早在第64次訓(xùn)練時(shí)就達(dá)到了這個(gè)水平。

TPU有更好的表現(xiàn)，很可能要?dú)w功于前期的預(yù)處理和數(shù)據(jù)增強(qiáng)。不過我們需要更多的實(shí)驗(yàn)來驗(yàn)證這個(gè)猜想。

基于成本價(jià)格提出的解決方案

我們最終需要考慮的，一是整個(gè)流程走下來的時(shí)間，二是它需要耗費(fèi)多少資金。如果我們假設(shè)最后可接受的準(zhǔn)確率為75.7%，那么可以根據(jù)每秒訓(xùn)練速度和既定要求的訓(xùn)練次數(shù)，算出來達(dá)到這個(gè)標(biāo)準(zhǔn)所需的成本。時(shí)間方面需要注意，不包括訓(xùn)練啟動(dòng)用時(shí)，以及訓(xùn)練期間的模型驗(yàn)證用時(shí)。

△達(dá)到75.1%Top-1準(zhǔn)確率所需成本 | *表示租期為12個(gè)月

上圖顯示，谷歌TPU從零訓(xùn)練圖像分類模型的成本是55美元（且訓(xùn)練時(shí)間用了不到9小時(shí)）！收斂到76.4%的話成本將達(dá)到73美元。

而英偉達(dá)V100速度差不多快，但成本會(huì)更高，收斂速度也比較慢，不是個(gè)性價(jià)比高的解決方案~

對了，我們這個(gè)結(jié)論是基于實(shí)現(xiàn)的質(zhì)量、云的價(jià)格來對比得出的。其實(shí)還有另外一個(gè)維度可以來比較，即算力的損耗。不過因?yàn)槲覀內(nèi)狈Χ鶷PU算力損耗的公開信息，這方面的對比先不做了啦。

總結(jié)

按我們上述的衡量標(biāo)準(zhǔn)來看，在ResNet-50模型的原始表現(xiàn)上，4塊TPU2芯片和4塊V100GPU是速度相同。

目前來說，訓(xùn)練ResNet-50時(shí)谷歌云TPU的實(shí)現(xiàn)用時(shí)短到令人發(fā)指，且基于ImageNet數(shù)據(jù)集的圖像分類準(zhǔn)確度達(dá)76.4%的成本只要73美元，說物美價(jià)廉可能也不過分~

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6080

瀏覽量
104353
gpu

gpu

+關(guān)注

關(guān)注
27

文章
4591

瀏覽量
128144
TPU

TPU

+關(guān)注

關(guān)注
0

文章
138

瀏覽量
20650
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3637

瀏覽量
89844

原文標(biāo)題：谷歌TPU2代有望取代英偉達(dá)GPU？測評結(jié)果顯示…

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

OpenAI與博通洽談合作！定制化ASIC芯片走向臺(tái)前，英偉達(dá)GPU迎來“勁敵”？

設(shè)計(jì)公司就開發(fā)新芯片進(jìn)行洽談，以減輕對英偉達(dá)的依賴并加強(qiáng)供應(yīng)鏈。 ? 此外，據(jù)稱OpenAI還聘請了曾參與谷歌張量處理單元（TPU）開發(fā)和生產(chǎn)的谷歌

發(fā)表于 07-20 00:02 ?4507次閱讀

從TPU v1到Trillium TPU，蘋果等科技公司使用谷歌TPU進(jìn)行AI計(jì)算

，在訓(xùn)練尖端人工智能方面，大型科技公司正在尋找英偉達(dá)以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機(jī)器學(xué)習(xí)算法，特別是深度學(xué)習(xí)算法在各個(gè)領(lǐng)域的廣泛應(yīng)用，對于高效、低功耗的AI

發(fā)表于 07-31 01:08 ?3058次閱讀

英偉達(dá)TITAN AI顯卡曝光，性能狂超RTX 4090達(dá)63%！# 英偉達(dá)# 顯卡

顯卡英偉達(dá)

jf_02331860
發(fā)布于 :2024年07月24日 17:18:28

谷歌數(shù)據(jù)中心處理器市占率躍升，超越AMD僅次于英偉達(dá)和英特爾

值得注意的是，谷歌并未像英偉達(dá)、英特爾和AMD等傳統(tǒng)處理器廠商那樣對外銷售芯片，而是主要應(yīng)用TPU系列處理器于自身業(yè)務(wù)及云服務(wù)中。

發(fā)表于 05-23 15:30 ?394次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

新的標(biāo)準(zhǔn)。Blackwell架構(gòu)和GB200 超級芯片有望推動(dòng)英偉達(dá)在人工智能領(lǐng)域更進(jìn)一步，鞏固其在高性能計(jì)算和人工智能技術(shù)領(lǐng)域的領(lǐng)先地位。隨著亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云和微軟 Azure

發(fā)表于 05-13 17:16

英偉達(dá)H200和A100的區(qū)別

英偉達(dá)H200和A100兩款芯片在性能、架構(gòu)、內(nèi)存以及應(yīng)用場景等多個(gè)方面存在顯著的區(qū)別。

發(fā)表于 03-07 16:23 ?2742次閱讀

英偉達(dá)H200和A100的差異

英偉達(dá)H200和A100在多個(gè)方面存在差異。

發(fā)表于 03-07 16:18 ?1766次閱讀

英偉達(dá)：預(yù)計(jì)下一代AI芯片B100短缺，計(jì)劃擴(kuò)產(chǎn)并采用新架構(gòu)

近期熱門的 H100 芯片運(yùn)期短縮數(shù)天后，英偉達(dá)新型 AI 旗艦芯片 B100搭載全新的 Blackwell，有望使 AI 計(jì)算性能提升至

發(fā)表于 02-25 09:29 ?741次閱讀

谷歌TPU v5p超越Nvidia H100，成為人工智能領(lǐng)域的競爭對手

TPU v5p已在谷歌“AI超級計(jì)算機(jī)”項(xiàng)目中發(fā)揮重要作用，這并非專業(yè)科研型超算平臺(tái)，而是面向各類人工智能應(yīng)用。與Nvidia開放GPU購買策略不同，谷歌高端

發(fā)表于 12-26 15:20 ?1598次閱讀

谷歌發(fā)布多模態(tài)Gemini大模型及新一代TPU系統(tǒng)Cloud TPU v5p

谷歌亦發(fā)布新一代TPU 系統(tǒng)——Cloud TPU v5p，以幫助訓(xùn)練尖端的 AI 模型。目

發(fā)表于 12-12 10:50 ?1173次閱讀

谷歌揭秘Gemini，AMD對峙英偉達(dá)

今天，我們看到谷歌揭開了多模態(tài)AI模型Gemini的神秘面紗，AMD挑戰(zhàn)英偉達(dá)在AI芯片市場的霸主地位，微軟在英國AI領(lǐng)域的巨額投資，以及3GPP啟動(dòng)6G規(guī)范規(guī)劃。

發(fā)表于 12-07 20:05 ?616次閱讀

英偉達(dá)發(fā)布最新AI芯片H200：性能提升2倍，成本下降50%

很明顯，如果能在相同的功率范圍之內(nèi)實(shí)現(xiàn) 2 倍的性能提升，就意味著實(shí)際能耗和總體擁有成本降低了 50%。所以從理論上講，英偉達(dá)似乎可以讓 H200 GPU 的價(jià)格與 H

發(fā)表于 11-22 17:14 ?1367次閱讀

#英偉達(dá) #顯卡英偉達(dá)全新旗艦顯卡RTX 5090性能暴漲70%

顯卡英偉達(dá)

深圳市浮思特科技有限公司
發(fā)布于 :2023年11月20日 14:19:25

英偉達(dá)特供版芯片性能降80%！

報(bào)道中提到，英偉達(dá)的這三款A(yù)I芯片并非“改良版”，而是“縮水版”，其分別是HGX H20、L20 PCle和L2 PCle。用于AI模型訓(xùn)練的HGX H20在帶寬、計(jì)算速度等方面均有所限制，理論上，整體算力要比

發(fā)表于 11-14 17:09 ?815次閱讀

英偉達(dá)特供版芯片將上市：性能最高不到H100的20%

本周四，一些媒體首次報(bào)道了英偉達(dá)特供芯片的消息。報(bào)道稱，這三款新產(chǎn)品是在 H100 GPU 的基礎(chǔ)版本基礎(chǔ)上進(jìn)行修改的，采用的是最新架構(gòu)，但性能大幅度縮減。H

發(fā)表于 11-13 16:44 ?770次閱讀