云提供商正在組建 GPU 大軍,以儲備更多的 AI 火力。在與微軟爭奪 AI 霸權(quán)的斗爭中,谷歌開始投入更多資源以進(jìn)行反攻。在微軟將 OpenAI 的技術(shù)應(yīng)用于 Bing 搜索和辦公應(yīng)用程序之后,谷歌加速了其 AI 開發(fā)。
在前段時間舉辦的谷歌年度I/O 開發(fā)者大會上,谷歌宣布了一款 AI 超級計算機(jī)“A3 ”,這臺超級計算機(jī)擁有大約 26000 個英偉達(dá) H100 Hopper GPU。
*世界上最快的超級計算機(jī)Frontier擁有 37000 個 AMD Instinct 250X GPU。
谷歌表示A3是專為訓(xùn)練和運行現(xiàn)時的生成式AI和大語言模型而打造的,可提供26 exaFlops的AI性能。
A3 是第一個使用谷歌與英特爾聯(lián)合定制設(shè)計的 200 Gbps IPU的 GPU 實例,它可以讓GPU和GPU之間的數(shù)據(jù)繞過CPU,并可在其他虛擬機(jī)網(wǎng)絡(luò)和數(shù)據(jù)流的接口上傳輸。與A2 VM 相比,這可實現(xiàn)高達(dá) 10 倍的網(wǎng)絡(luò)帶寬,同時具有低尾延遲和高帶寬穩(wěn)定性。
谷歌的Jupiter數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)能讓數(shù)以萬計的GPU高度互連,而且能夠按需調(diào)整網(wǎng)絡(luò)拓?fù)?,這有利于成本的降低。
A3 超級計算機(jī)的規(guī)模提供高達(dá) 26 exaFlops 的 AI 性能,這大大減少了訓(xùn)練大型 ML 模型的時間和成本。
A3 GPU VM 專門為當(dāng)今的 ML 工作負(fù)載提供最高性能的訓(xùn)練,配備現(xiàn)代 CPU、改進(jìn)的主機(jī)內(nèi)存、下一代英偉達(dá) GPU 和主要網(wǎng)絡(luò)升級。以下是 A3 的主要特點:
8 個 H100 GPU,利用英偉達(dá)的 Hopper 架構(gòu),提供 3 倍的計算吞吐量
通過英偉達(dá) NVSwitch 和 NVLink 4.0,A3 的 8 個 GPU 之間的對分帶寬為 3.6 TB/s
第 4 代英特爾至強(qiáng)可擴(kuò)展處理器
2TB 主機(jī)內(nèi)存,通過 4800 MHz DDR5 DIMM
由支持硬件的 IPU、專門的服務(wù)器間 GPU 通信堆棧和 NCCL 優(yōu)化提供支持的網(wǎng)絡(luò)帶寬增加 10 倍
GPU 的數(shù)量已經(jīng)成為云提供商推廣其 AI 計算服務(wù)的重要名片。
微軟與OpenAI合作開發(fā)的Azure AI超級計算機(jī)擁有285000 個CPU內(nèi)核和10000 個 GPU。Oracle 的云服務(wù)提供512 個 GPU 集群的訪問,并且正在開發(fā)新技術(shù)以提高 GPU 通信的速度。
此外,許多云提供商都在部署 H100 GPU。英偉達(dá) H100 上的訓(xùn)練模型比上一代 A100 GPU 更快、更便宜。AI服務(wù)公司 MosaicML 進(jìn)行的一項研究發(fā)現(xiàn),H100 在其 70 億參數(shù)的 MosaicGPT 大型語言模型上比 A100 的成本效益高 30%,速度快 3 倍。
英偉達(dá)在 3 月份推出了自己的 DGX 云服務(wù),與租用上一代 A100 GPU 相比,該服務(wù)價格昂貴。
|搭載8顆H100 Hopper GPU的英偉達(dá)DGX H100系統(tǒng)底板
谷歌一直在大力宣傳其TPU v4 AI芯片,這些芯片被用于運行帶有 LLM 的內(nèi)部AI應(yīng)用程序,例如谷歌的 Bard 產(chǎn)品。(點擊閱讀:對打英偉達(dá)A100,谷歌公布TPU v4技術(shù)細(xì)節(jié))
|谷歌TPU v4
谷歌表示,A3 超算是對現(xiàn)有配備英偉達(dá)A100 GPU的A2虛擬機(jī)提供的計算資源的重大升級。谷歌正在將所有分布在不同地理位置的 A3 計算實例匯集到一臺超級計算機(jī)中。
相比A2,谷歌的 A3 超級計算機(jī)用途廣泛,可以針對廣泛的 AI 應(yīng)用程序和 LLM 進(jìn)行調(diào)整。“鑒于這些工作負(fù)載的高要求,一刀切的方法是不夠的,需要專為 AI 構(gòu)建的基礎(chǔ)設(shè)施?!笨蛻艨梢酝ㄟ^ A3 虛擬機(jī)運行 AI 應(yīng)用程序,并通過 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務(wù)使用谷歌的 AI 開發(fā)和管理服務(wù)。
此外,I/O 開發(fā)者大會上,谷歌還發(fā)布了最新大語言模型PaLM 2。2022 年4月谷歌推出擁有5400 億參數(shù)的大型語言模型PaLM。最新PaLM 2 基于Pathways 架構(gòu),使用TPU v4 芯片和JAX 框架訓(xùn)練,在代碼和數(shù)學(xué),分類和問答,翻譯和多語言能力以及自然語言生成高級任務(wù)方面都比前一代PaLM 表現(xiàn)得更好,在推理和數(shù)學(xué)領(lǐng)域與GPT-4 相當(dāng)。PaLM 2與A3 超級計算機(jī)的推出,使谷歌在AI 領(lǐng)域綜合實力大幅增強(qiáng)。
AI 市場競爭激烈,微軟近年來加大了對AI 的投資和研發(fā)力度,在深度學(xué)習(xí)、自然語言處理、計算機(jī)視覺等領(lǐng)域的技術(shù)已經(jīng)達(dá)到了較高的水平。谷歌也推出了一系列AI 產(chǎn)品和服務(wù),旨在通過提供全棧式的AI 解決方案來占據(jù)更加主導(dǎo)的地位。雙方都在不斷加強(qiáng)自己的技術(shù)研發(fā)和產(chǎn)品布局,以期在未來的市場競爭中獲得更多的話語權(quán)。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
27文章
4591瀏覽量
128144 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
452瀏覽量
41820 -
AI
+關(guān)注
關(guān)注
87文章
28877瀏覽量
266230 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3637瀏覽量
89855
原文標(biāo)題:擁有 26000 個 GPU的“A3”超級計算機(jī),能為谷歌贏下AI反攻戰(zhàn)嗎?
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論