黃老板的 RTX 30 系列顯卡 9 月 17 日就要發(fā)售了,現(xiàn)在我要怎么買 GPU?很急很關(guān)鍵。
在 9 月 2 日 RTX 30 系列發(fā)布時(shí),英偉達(dá)宣傳了新顯卡在性能上和效率上的優(yōu)勢(shì),并稱安培可以超過圖靈架構(gòu)一倍。但另一方面,除了 3090 之外,新一代顯卡的顯存看起來又有點(diǎn)不夠。在做 AI 訓(xùn)練時(shí),新一代顯卡效果究竟如何?
近日,曾經(jīng)拿到過斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在華盛頓大學(xué)讀博的知名評(píng)測(cè)博主 Tim Dettmers 發(fā)布了一篇新文章,就深度學(xué)習(xí)從業(yè)者如何選擇 GPU 發(fā)表了他的看法。
眾所周知,深度學(xué)習(xí)是一個(gè)很吃算力的領(lǐng)域,所以,GPU 選得好不好直接決定了你的煉丹體驗(yàn)。那么,哪些指標(biāo)是你在買 GPU 時(shí)應(yīng)該重視的呢?RAM、core 還是 tensor core?如何做出一個(gè)高性價(jià)比的選擇?文本將重點(diǎn)討論這些問題,同時(shí)指出一些選購誤區(qū)。
RTX 3070 打 2080Ti,這是真的嗎?不少人已經(jīng)被這樣一張性能對(duì)比圖「改變了信仰」。
選擇 GPU 時(shí)你需要知道的東西
在選購 GPU 之前,你需要知道一些指標(biāo)在深度學(xué)習(xí)中意味著什么。
首先是 Tensor Core,它可以讓你在計(jì)算乘法和加法時(shí)將時(shí)鐘周期降至 1/16,減少重復(fù)共享內(nèi)存訪問,讓計(jì)算不再是整個(gè)流程中的瓶頸(瓶頸變成了獲取數(shù)據(jù)的速度)。現(xiàn)在安培架構(gòu)一出,更多的人可以用得起帶 Tensor Core 的顯卡了。
因?yàn)樘幚砣蝿?wù)方法的特性,顯存是使用 Tensor Core 進(jìn)行矩陣乘法的周期成本中最重要的部分。具體說來,需要關(guān)注的參數(shù)是內(nèi)存帶寬(Bandwidth)。如果可以減少全局內(nèi)存的延遲,我們可以進(jìn)一步擁有更快的 GPU。
在一些案例中,我們可以體驗(yàn)到 Tensor Core 的強(qiáng)大,它是如此之快,以至于總是在等內(nèi)存?zhèn)鱽淼臄?shù)據(jù)——在 BERT Large 的訓(xùn)練中,Tensor Core 的 TFLOPS 利用率約為 30%,也就是說,70%的時(shí)間里 Tensor Core 處于空閑狀態(tài)。這意味著在比較兩個(gè)具有 Tensor Core 的 GPU 時(shí),最重要的單一指標(biāo)就是它們的內(nèi)存帶寬。A100 的內(nèi)存帶寬為 1555 GB/s,而 V100 的內(nèi)存帶寬為 900 GB/s,因此 A100 與 V100 的加速比粗略估算為 1555/900 = 1.73x。
我們預(yù)計(jì)兩代配備 Tensor Core 的 GPU 架構(gòu)之間的差異主要在于內(nèi)存帶寬,其他提升來自共享內(nèi)存 / L1 緩存以及 Tensor Core 中更好的寄存器使用效率,預(yù)估的提升范圍約在 1.78-1.87 倍之間。
在實(shí)際應(yīng)用中,通過 NVLink 3.0,Tesla A100 的并聯(lián)效率又要比 V100 提升 5%。我們可以根據(jù)英偉達(dá)提供的直接數(shù)據(jù)來估算特定深度學(xué)習(xí)任務(wù)上的速度。與 Tesla V100 相比,A100 的速度提升是:
SE-ResNeXt101:1.43 倍
Masked R-CNN:1.47 倍
Transformer(12 層機(jī)器翻譯,在 WMT14 en-de 數(shù)據(jù)集上):1.70 倍
看來對(duì)于計(jì)算機(jī)視覺任務(wù)來說,新架構(gòu)的提升相對(duì)不明顯。這可能是因?yàn)樾埩砍叽?、?zhǔn)備矩陣乘法所需的運(yùn)算無法讓 GPU 滿負(fù)載。也可能是由于特定架構(gòu)(如分組卷積)導(dǎo)致的結(jié)果。在 Transformer 上,預(yù)估的提升和實(shí)際跑起來非常接近,這可能是因?yàn)橛糜诖笮途仃嚨?a target="_blank">算法非常簡(jiǎn)單,我們可以使用這些實(shí)際效果來計(jì)算 GPU 的成本和效率。
當(dāng)然,在發(fā)布會(huì)中英偉達(dá)著重指出:安培架構(gòu)在稀疏網(wǎng)絡(luò)的訓(xùn)練當(dāng)中速度提升了一倍。稀疏訓(xùn)練目前應(yīng)用較少,但是未來的一個(gè)趨勢(shì)。安培還帶有新的低精度數(shù)據(jù)類型,這會(huì)使低精度更加容易,但不一定比以前的 GPU 更快。
英偉達(dá)花費(fèi)大量精力介紹了新一代 RTX 3090 的風(fēng)扇設(shè)計(jì),它看起來很好,但并聯(lián)起來效果如何還要打上問號(hào)。在任何情況下水冷都是效果更好的方案,如果想要并聯(lián) 4 塊 GPU,你需要注意水冷的解決方案——它們可能會(huì)體積過大。解決散熱問題的另一種方法是購買 PCIe 擴(kuò)展器,并在機(jī)箱內(nèi)原先不可能的位置放 GPU。這非常有效,華盛頓大學(xué)的其他博士研究生和作者本人使用這種方法都取得了成功。它看起來不漂亮,但是可以讓你的 GPU 保持涼爽!
4 塊 RTX 2080Ti 創(chuàng)始版 GPU 的裝法:雖然看起來亂作一團(tuán),但用了兩年沒出問題。
還有電源問題,RTX 3090 是一個(gè) 3 插槽 GPU,因此在采用英偉達(dá)默認(rèn)風(fēng)扇設(shè)計(jì)的情況下,你不能在 4x 的主板上使用它。這是合情合理的,因?yàn)樗臉?biāo)準(zhǔn)功率是 350W,散熱壓力也更大。RTX 3080 的 320W TDP 壓力只是稍稍小一點(diǎn),想要冷卻 4 塊 RTX 3080 也將非常困難。
在 4x RTX 3090 的情況下,你很難為 4x 350W = 1400W 的系統(tǒng)找到很好的供電方式。1600W 的電源或許可以,但最好選擇超過 1700W 的 PSU——畢竟黃仁勛在發(fā)布中希望你給單卡的 RTX 3080 裝上 700W 的電源。然而目前市面上并沒有超過 1600W 的臺(tái)式電腦電源,你得考慮服務(wù)器或者礦機(jī) PSU 了。
GPU 深度學(xué)習(xí)性能排行
下圖展示了當(dāng)前熱門的 Nvidia 顯卡在深度學(xué)習(xí)方面的性能表現(xiàn)(以 RTX 2080 Ti 為對(duì)比基準(zhǔn))。從圖中可以看出,A100(40GB)在深度學(xué)習(xí)方面表現(xiàn)最為強(qiáng)勁,是 RTX 2080 Ti 兩倍還多;新出的 RTX 3090(24GB)排第二,是 RTX 2080 Ti 的 1.5 倍左右。但比較良心的是,RTX 3090 的價(jià)格只漲了 15%。
每一美元能買到多少算力?
排在天梯圖頂端的顯卡確實(shí)是香,但普通人更關(guān)心的還是性價(jià)比,也就是一塊錢能買到多少算力。在討論這個(gè)問題之前,先來看一下各種任務(wù)的大致內(nèi)存需求:
使用預(yù)訓(xùn)練 transformer 和從頭訓(xùn)練小型 transformer:》= 11GB;
訓(xùn)練大型 transformer 或卷積網(wǎng)絡(luò):》= 24 GB;
原型神經(jīng)網(wǎng)絡(luò)(transformer 或卷及網(wǎng)絡(luò)):》= 10 GB;
Kaggle 比賽:》= 8 GB;
應(yīng)用計(jì)算機(jī)視覺:》= 10GB。
下圖是根據(jù)各種 GPU 在亞馬遜、eBay 上的價(jià)格和上述性能排行榜算出的「每一美元的 GPU 性能」:
圖 3:以 RTX 3080 為基準(zhǔn)(設(shè)為 1),各種 GPU 的每一美元性能排行(1-2 個(gè) GPU)。
圖 4:以 RTX 3080 為基準(zhǔn)(設(shè)為 1),各種 GPU 的每一美元性能排行(4 個(gè) GPU)。
圖 5:以 RTX 3080 為基準(zhǔn)(設(shè)為 1),各種 GPU 的每一美元性能排行(8 個(gè) GPU)。
GPU 購買建議
這里首先強(qiáng)調(diào)一點(diǎn):無論你選哪款 GPU,首先要確保它的內(nèi)存能滿足你的需求。為此,你要問自己幾個(gè)問題:
我要拿 GPU 做什么?是拿來參加 Kaggle 比賽、學(xué)深度學(xué)習(xí)、做 CV/NLP 研究還是玩小項(xiàng)目?
為了實(shí)現(xiàn)我的目標(biāo),我需要多少內(nèi)存?
使用上述成本 / 性能圖表來找出最適合你的、滿足內(nèi)存標(biāo)準(zhǔn)的 GPU;
我選的這款 GPU 有什么額外要求嗎?比如,如果我要買 RTX 3090,我能順利地把它裝進(jìn)我的計(jì)算機(jī)里嗎?我的電源瓦數(shù)夠嗎?散熱問題能解決嗎?
針對(duì)以上問題,作者給出了一些自己的建議:
什么情況下需要的內(nèi)存 》= 11GB?
上面說過,如果你要使用預(yù)訓(xùn)練 transformer 或從頭訓(xùn)練小型 transformer,你的內(nèi)存至少要達(dá)到 11GB;如果你要做 transformer 方向的研究,內(nèi)存最好能達(dá)到 24GB。這是因?yàn)?,之前預(yù)訓(xùn)練好的那些模型大多都對(duì)內(nèi)存有很高的要求,它們的預(yù)訓(xùn)練至少用到了 11GB 的 RTX 2080 Ti。因此,小于 11GB 的 GPU 可能無法運(yùn)行某些模型。
除此之外,醫(yī)學(xué)影像和一些 SOTA 計(jì)算機(jī)視覺模型等包含很多大型圖像的任務(wù)(如 GAN、風(fēng)格遷移)也都對(duì)內(nèi)存有很高的要求。
總之,多留出來一些內(nèi)存能讓你在競(jìng)賽、業(yè)界、研究中多一絲從容。
什么情況下<11 GB 的內(nèi)存就夠用了?
RTX 3070 和 RTX 3080 性能都很強(qiáng)大,就是內(nèi)存有點(diǎn)小。但在很多任務(wù)中,你確實(shí)不需要那么大的內(nèi)存。
如果你想學(xué)深度學(xué)習(xí),RTX 3070 是最佳選擇,因?yàn)榘涯P突蜉斎雸D像縮小一點(diǎn)就能學(xué)到大部分架構(gòu)的基本訓(xùn)練技巧。
對(duì)于原型神經(jīng)網(wǎng)絡(luò)而言,RTX 3080 是迄今為止性價(jià)比最高的選擇。在原型神經(jīng)網(wǎng)絡(luò)中,你想用最少的錢買最大的內(nèi)存。這里的原型神經(jīng)網(wǎng)絡(luò)涉及各個(gè)領(lǐng)域:Kaggle 比賽、為初創(chuàng)公司開拓思路 / 模型、以及用研究代碼進(jìn)行實(shí)驗(yàn)。RTX 3080 是這些場(chǎng)景的最佳選擇。
假設(shè)你要領(lǐng)導(dǎo)一個(gè)研究實(shí)驗(yàn)室 / 創(chuàng)業(yè)公司,你可以把 66-80% 的預(yù)算投到 RTX 3080 上,20-33% 用于推出帶有強(qiáng)大水冷裝置的 RTX 3090。這是因?yàn)?,RTX 3080 性價(jià)比更高,而且可以通過一個(gè) slurm 集群設(shè)置作為原型機(jī)共享。由于原型設(shè)計(jì)應(yīng)該以敏捷的方式完成,所以應(yīng)該使用更小的模型和更小的數(shù)據(jù)集,RTX 3080 很適合這一點(diǎn)。一旦學(xué)生 / 同事有了一個(gè)很棒的原型模型,他們就可以在 RTX 3090 機(jī)器上推出該模型并將其擴(kuò)展為更大的模型。
建議匯總
總之,RTX 30 系列是非常強(qiáng)大的,值得大力推薦。選購時(shí)還要注意內(nèi)存、電源要求和散熱問題。如果你在 GPU 之間有一個(gè) PCIe 插槽,散熱是沒有問題的。否則,RTX 30 系列需要水冷、PCIe 擴(kuò)展器或有效的鼓風(fēng)機(jī)卡。
作者表示,他會(huì)向所有買得起 RTX 3090 的人推薦這款 GPU,因?yàn)樵谖磥?3-7 年內(nèi),這是一款將始終保持強(qiáng)大性能的顯卡。他認(rèn)為,HBM 內(nèi)存在未來的三年之內(nèi)似乎不會(huì)降價(jià),因此下一代 GPU 只會(huì)比 RTX 3090 的性能提升 25% 左右。未來 5-7 年有望看到 HBM 內(nèi)存降價(jià),但那時(shí)你也該換顯卡了。
對(duì)于那些算力需求沒那么高的人(做研究、參加 Kaggle、做初創(chuàng)公司),作者推薦使用 RTX 3080。這是一個(gè)高性價(jià)比的解決方案,而且可以確保多數(shù)網(wǎng)絡(luò)的快速訓(xùn)練。
RTX 3070 適合用來學(xué)深度學(xué)習(xí)和訓(xùn)練原型網(wǎng)絡(luò),比 RTX 3080 便宜 200 美元。
如果你覺得 RTX 3070 還是太貴了,可以選擇一個(gè)二手 RTX 2070。現(xiàn)在還不清楚會(huì)不會(huì)有 RTX 3060,但如果你確實(shí)預(yù)算有限,可以選擇再等等。
GPU 集群建議
GPU 集群的設(shè)計(jì)高度依賴于你的應(yīng)用場(chǎng)景。對(duì)于一個(gè) + 1024 GPU 的系統(tǒng),網(wǎng)絡(luò)是最重要的;但如果用戶的系統(tǒng)一次只用 32 個(gè) GPU,那大手筆投資網(wǎng)絡(luò)基礎(chǔ)設(shè)置就是一種浪費(fèi)。
一般情況下,RTX 顯卡被禁止通過 CUDA 許可協(xié)議接入數(shù)據(jù)中心,但通常高校例外。你可以與英偉達(dá)取得聯(lián)系,以尋求豁免。
如果你被允許使用 RTX 顯卡,作者推薦使用裝有 RTX 3080 或 RTX 3090 的標(biāo)準(zhǔn) Supermicro 8 GPU 系統(tǒng)(如果散熱沒問題的話)。一小組 8x A100 節(jié)點(diǎn)就可以保證原型的 rollout,特別是在無法保證 8x RTX 3090 服務(wù)器能夠有效冷卻的情況下。在這種情況下,作者推薦使用 A100,而不是 RTX 6000 / RTX 8000,因?yàn)?A100 性價(jià)比很高,也頗有潛力。
如果你想在 GPU 集群上訓(xùn)練非常大的網(wǎng)絡(luò),作者推薦裝備了 A100 的 NVIDIA DGX SuperPOD 系統(tǒng)。在 +256 GPU 的規(guī)模下,網(wǎng)絡(luò)變得非常重要。如果你想擴(kuò)展到 256 個(gè) GPU 以上,你就需要一個(gè)高度優(yōu)化的系統(tǒng)。
如果到了 + 1024 GPU 的規(guī)模,市場(chǎng)上唯一有競(jìng)爭(zhēng)力的方案就只剩下 Google TPU Pod 和 NVIDIA DGX SuperPod。在這個(gè)級(jí)別上,作者更推薦 Google TPU Pod,因?yàn)樗鼈兌ㄖ频木W(wǎng)絡(luò)基礎(chǔ)設(shè)施似乎優(yōu)于 NVIDIA DGX SuperPod 系統(tǒng),盡管兩個(gè)系統(tǒng)非常接近。
與 TPU 系統(tǒng)相比,GPU 系統(tǒng)可以為深度學(xué)習(xí)模型和應(yīng)用提供更大的靈活性,但 TPU 系統(tǒng)也有優(yōu)勢(shì),它可以支持更大的模型并提供更好的擴(kuò)展。
這些 GPU 別買
不建議買 RTX Founders Edition(任何一個(gè))或 RTX Titan,除非你有 PCIec 擴(kuò)展器能解決散熱問題。
不建議買 Tesla V100 或 A100,因?yàn)樾詢r(jià)比不高,除非你被逼無奈或者想在龐大的 GPU 群集上訓(xùn)練非常大的網(wǎng)絡(luò)。
不建議買 GTX 16 系列,這些卡沒有張量核心,因此在深度學(xué)習(xí)方面性能較差,不如選 RTX 2070 / RTX 2060 / RTX 2060 Super。
什么時(shí)候不要入手新的 GPU?
如果已經(jīng)擁有 RTX 2080 Ti 或更好的 GPU,升級(jí)到 RTX 3090 可能沒什么意義。相比于 RTX 30 系列的 PSU 和散熱問題,性能提升所帶來的好處有些微不足道。從 4x RTX 2080 Ti 升級(jí)到 4x RTX 3090 的唯一原因可能是,在做 Transformer 或其他高度依賴算力去訓(xùn)練網(wǎng)絡(luò)的研究。
如果你有一個(gè)或多個(gè) RTX 2070 GPU,這也已經(jīng)相當(dāng)不錯(cuò)了。但如果常常受到 8GB 內(nèi)存的限制,那么轉(zhuǎn)讓這些再入手新的 RTX 3090 是值得的。
一言以蔽之,如果內(nèi)存不夠,升級(jí) GPU 還是很有意義的。
GPU 相關(guān)疑難問題解答
用戶關(guān)于 GPU 肯定有很多不了解甚至是誤解的地方,本文作者做出了以下相關(guān)問答總結(jié),主要涉及 PCle 4.0、RTX3090/3080 以及 NVLink 等等。
我需要 PCle 4.0 嗎?
一般來說不需要。如果你有一個(gè) GPU 集群,那么擁有 PCle 4.0 棒極了。如果你有一個(gè) 8x GPU 機(jī)器,那么擁有 PCle 4.0 也挺好的。但除此之外,PCle 4.0 就沒什么用。
PCle 4.0 可以實(shí)現(xiàn)更好的并行化處理以及更快的數(shù)據(jù)傳輸。但是數(shù)據(jù)傳輸不會(huì)成為任何應(yīng)用中的瓶頸。在計(jì)算機(jī)視覺領(lǐng)域,數(shù)據(jù)存儲(chǔ)可以成為數(shù)據(jù)傳輸 pipeline 的瓶頸,但從 CPU 到 GPU 的 PCle 傳輸卻不會(huì)成為瓶頸。
所以對(duì)于大多數(shù)人來說,PCle 4.0 是沒有必要的。在 4 個(gè) GPU 設(shè)置下,PCle 4.0 只能實(shí)現(xiàn) 1%-7% 的并行化提升。
我需要 8x/16x PCle 通路嗎?
與 PCle 4.0 一樣,一般來說不需要。
在 4x 通路上運(yùn)行 GPU 就挺好的,特別是當(dāng)你只有 2 個(gè) GPU 時(shí)。在 4 個(gè) GPU 設(shè)置下,作者傾向于每個(gè) GPU 上有 8x 通路,但如果你在全部 4 個(gè) GPU 上進(jìn)行并行化處理,則在 4x 通路上運(yùn)行可能僅降低大約 5%-10% 的性能。
如果 4x RTX 3090 每個(gè)都占用 3 個(gè) PCle 插槽,如何把它們?nèi)M(jìn)機(jī)箱?
你需要一個(gè)雙插槽變體或者嘗試使用 PCle 擴(kuò)展器。除了空間外,還應(yīng)該考慮冷卻和合適的 PSU。所以最可行的解決方案是獲取帶有自定義水冷回路的 4x RTX 3090 EVGA Hydro Copper。
PCle 擴(kuò)展器或許也可以同時(shí)解決空間和冷卻問題,但你需要確保有足夠的空間來擴(kuò)展 GPU。
我可以使用多個(gè)不同型號(hào)的 GPU 嗎?
當(dāng)然可以。
也許你想要使用多個(gè)不同型號(hào)的 GPU 的原因是:想要利用舊的 GPU。這種情況下正常運(yùn)行是沒問題的,但這些 GPU 上的并行化處理將會(huì)非常低效,因?yàn)樗俣茸羁斓?GPU 需要等待最慢的 GPU 來趕上一個(gè)同步點(diǎn)(通常是梯度更新)。
什么是 NVLink,它有用嗎?
一般來說沒有用。NVLink 是 GPU 之間的高速互連,當(dāng)你擁有一個(gè)配備 128 個(gè) GPU 以上的 GPU 集群時(shí),它才有用。否則相較于標(biāo)準(zhǔn) PCle 傳輸來說,NVLink 幾乎沒有任何益處。
即使是最便宜的 GPU,我也買不起,怎么辦?
買二手 GPU 也沒問題。二手的 RTX 2070(400 美元)和 RTX 2060(300 美元)都很棒,如果還是買不起,可以試試二手的 GTX 1070(220 美元)或 GTX 1070 Ti(230 美元),以及 GTX 980 Ti(6GB,150 美元)或 GTX 1650 Super(190 美元)。
實(shí)在不行,你還可以薅羊毛,去使用免費(fèi)的 GPU 云服務(wù)。這種通常會(huì)有時(shí)間、賬戶等限制,超過之后需要付費(fèi)。那么,就在不同賬戶之間切換使用吧,直到你買得起 GPU。
如何跨計(jì)算機(jī)并行化?
這樣的話,需要 + 50Gbits/s 的網(wǎng)卡才能加快速度,之前作者寫過一篇文章專門論述這件事(https://timdettmers.com/2014/09/21/how-to-build-and-use-a-multi-gpu-system-for-deep-learning/)。現(xiàn)在的建議是至少要上 EDR Infiniband,也就是至少 50 GBit / s 帶寬的網(wǎng)卡,價(jià)格大概在 500 美元左右。
我需要一塊英特爾 CPU 來支持多 GPU 設(shè)置嗎?
不建議使用英特爾 CPU,除非你要在 Kaggle 競(jìng)賽中大量使用 CPU。即便如此,使用 AMD CPU 也很棒。就深度學(xué)習(xí)而言,AMD CPU 通常比 Intel CPU 更便宜且更好。
對(duì)于內(nèi)置的 4x GPU,作者的首選是 Threadripper。在大學(xué)期間作者曾使用 Threadripper 搭建了數(shù)十個(gè)系統(tǒng),它們都運(yùn)行良好。對(duì)于 8x GPU 系統(tǒng),CPU 和 PCIe / 系統(tǒng)的可靠性比直接的性能或性價(jià)比更重要。
我要等等 RTX 3090 Ti 嗎?
首先,我們不確定會(huì)不會(huì)有 RTX 3080 Ti / RTX 3090 Ti / RTX Ampere Titan。
GTX XX90 的名稱通常會(huì)留給雙 GPU 卡,現(xiàn)在英偉達(dá)算是打破了這個(gè)規(guī)則。從價(jià)格和性能上看,RTX 3090 似乎取代了 RTX 3080 Ti。
如果你感興趣,可以在幾個(gè)月內(nèi)密切關(guān)注一下相關(guān)消息。如果沒有什么進(jìn)展,也就意味著不太可能有 RTX 3080 Ti / RTX 3090 Ti / RTX Ampere Titan 了。
電腦機(jī)箱的設(shè)計(jì)對(duì)于散熱是否重要?
并不。
如果 GPU 之間存在間隙的話,通常能夠很好地冷卻。機(jī)箱的設(shè)計(jì)會(huì)帶來 1-3 攝氏度的效果提升,但 GPU 之間的空間將帶來 10-30 攝氏度的效果提升,所以說只要 GPU 之間留有空間,散熱就不成問題。但如果 GPU 之間沒有空間,則需要好的散熱器設(shè)計(jì)(風(fēng)扇)和其他解決方案(水冷、PCIe 擴(kuò)展)。
總而言之,散熱與機(jī)箱設(shè)計(jì)和機(jī)箱風(fēng)扇都沒關(guān)系。
AMD GPU + ROCm 是否會(huì)趕上 NVIDIA GPU + CUDA?
在未來 1 到 2 年內(nèi)不會(huì)。這個(gè)問題分三方面:張量核心、軟件和社區(qū)。
就純硅芯片來說,AMD 的 GPU 非常優(yōu)秀:出色的 FP16 性能和內(nèi)存帶寬。但與英偉達(dá) GPU 相比,在缺少張量核心或等效條件下,AMD 的深度學(xué)習(xí)性能更差。大量的低精度數(shù)學(xué)運(yùn)算也未能解決這個(gè)問題。達(dá)不到這種硬件功能,AMD GPU 將永遠(yuǎn)無法與之競(jìng)爭(zhēng)。有傳言表明,一些與張量核心等效的 AMD 數(shù)據(jù)中心卡計(jì)劃于 2020 年推出,但估計(jì)很少有人會(huì)買吧。
即便假設(shè) AMD 將來會(huì)推出類似張量核心的硬件功能,但很多人也會(huì)說:「可是沒有適用于 AMD GPU 的軟件,我該如何使用它?」這里存在一些誤解,AMD ROCm 平臺(tái)日漸成熟,并且對(duì) PyTorch 也實(shí)現(xiàn)了原生支持,大可不必?fù)?dān)心。
如果你解決了軟件和不具有張量核心的問題,還會(huì)意識(shí)到另外一個(gè)問題:AMD 的社區(qū)不成熟。如果你在使用英偉達(dá) GPU 時(shí)遇到了什么問題,可以 Google 一下找到解決方案,而且還能了解到很多的使用技巧和專業(yè)人士的經(jīng)驗(yàn)帖。AMD 在這方面就不那么盡如人意了。
拿編程語言來舉例的話,就像是 Python 和 Julia 的關(guān)系。Julia 被認(rèn)為潛力巨大,而且是科學(xué)計(jì)算領(lǐng)域的高級(jí)編程語言,但其使用者數(shù)量與 Python 完全無法相提并論。歸根結(jié)底是因?yàn)?Python 社區(qū)非常完善。
綜上所述,在深度學(xué)習(xí)領(lǐng)域,英偉達(dá)至少還可以壟斷兩年。
與專用 GPU 臺(tái)式機(jī) / 服務(wù)器相比,何時(shí)使用云計(jì)算更好?
1 個(gè)建議:如果你從事深度學(xué)習(xí)超過一年,請(qǐng)使用臺(tái)式機(jī) GPU。
一般來說,臺(tái)式機(jī) GPU 的利用率如下:
博士生個(gè)人臺(tái)式機(jī):《15%;
博士生 slurm GPU 集群:》35%;
企業(yè)級(jí) slurm 研究集群:》60%。
在前沿研究重要性高于開發(fā)實(shí)體產(chǎn)品的行業(yè),專用 GPU 的利用率較低。從研究領(lǐng)域上看,一些領(lǐng)域的利用率很低(可解釋性研究),另一些領(lǐng)域的利用率則高得多(機(jī)器翻譯、語言建模)。通常人們都會(huì)高估個(gè)人計(jì)算機(jī)的利用率,所以作者強(qiáng)烈建議研究小組和企業(yè)使用 slurm GPU 集群,但個(gè)人的話就不必了。
長(zhǎng)求總
現(xiàn)在最好的 GPU:RTX 3080 和 RTX 3090。
對(duì)于個(gè)人來說,這些 GPU 不要買:任何 Tesla 卡、任何 Quadro 卡、任何「創(chuàng)始版」GPU,還有包括 Titan RTX 的所有型號(hào)泰坦。
性價(jià)比高,但比較貴的:RTX 3080。
性價(jià)比高,且較便宜的:RTX 3070 和 RTX 2060 Super。
還想再便宜點(diǎn)?推薦度依次遞減:RTX 2070 ($400)、RTX 2060 ($300)、GTX 1070 ($220)、GTX 1070 Ti ($230)、GTX 1650 Super ($190) 和 GTX 980 Ti (6GB $150)。
什么也別說了,我沒有錢:請(qǐng)使用各家云服務(wù)的免費(fèi)額度,直到你買得起 GPU。
我要搞 Kaggle:RTX 3070。
我是一個(gè)高端的計(jì)算機(jī)視覺、預(yù)訓(xùn)練模型或者機(jī)器翻譯研究人員:四塊 RTX 3090 并聯(lián),但請(qǐng)等散熱壓得住的版本出現(xiàn),而且也要考慮電源負(fù)載(作者還會(huì)繼續(xù)更新這篇文章,可以等待未來的評(píng)測(cè))。
我是普通 NLP 研究者:如果不研究機(jī)器翻譯、語言模型、預(yù)訓(xùn)練等,一塊 RTX 3080 應(yīng)該就夠了。
我要入門深度學(xué)習(xí),不開玩笑:你可以從購買一塊 RTX 3070 開始,如果半年之后仍然熱情不減,你可以把 RTX 3070 出售,購買四塊 RTX 3080。再遠(yuǎn)的未來,隨著你選擇路線不同,需求也會(huì)出現(xiàn)變化。
我想試試深度學(xué)習(xí):RTX 2060 Super 非常出色,但你可能需要為它更換電源。如果你的主板有 PCIe×16 卡槽,電源有 300W,一塊 GTX 1050Ti 是最適合的。
我們組要搭建一百塊 GPU 的集群:66% 的八塊 RTX 3080 并聯(lián)和 33% 的八塊 RTX 3090 并聯(lián)是最好選擇,但如果 RTX 3090 的冷卻真的有問題,你可能需要買 RTX 3080 或 Tesla A100 作為代替。
128 塊以上的 GPU 集群:在這個(gè)規(guī)模上,8 塊成組的 Tesla A100 效率更高。如果超過 512 塊 GPU,你應(yīng)該使用 DGX A100 SuperPOD 系統(tǒng)。
本文作者 Tim Dettmers 目前是華盛頓大學(xué)在讀博士,他碩士畢業(yè)于瑞士盧加諾大學(xué)。 對(duì)于 DIY 深度學(xué)習(xí)「煉丹爐」的人來說,這個(gè)名字應(yīng)該不會(huì)陌生。 他撰寫并更新的深度學(xué)習(xí) GPU 評(píng)測(cè)文章一直受人關(guān)注,Tim 的 AI 技術(shù)文章也時(shí)常被英偉達(dá)的開發(fā)博客所收錄。
值得一提的是,Tim Dettmers 在申請(qǐng)讀博方面也頗有心得,他拿到了斯坦福大學(xué)、華盛頓大學(xué)、倫敦大學(xué)學(xué)院、卡內(nèi)基梅隆大學(xué)以及紐約大學(xué)的 offer 并最終選擇了華盛頓大學(xué)。
作者:Tim Dettmers
編譯:機(jī)器之心
-
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128592 -
顯卡
+關(guān)注
關(guān)注
16文章
2418瀏覽量
67390 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3720瀏覽量
90682
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論