0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擁有26000個GPU的“A3”超級計算機(jī),能為谷歌贏下AI反攻戰(zhàn)嗎?

SDNLAB ? 來源:SDNLAB ? 2023-05-19 16:47 ? 次閱讀

云提供商正在組建 GPU 大軍,以儲備更多的 AI 火力。在與微軟爭奪 AI 霸權(quán)的斗爭中,谷歌開始投入更多資源以進(jìn)行反攻。在微軟將 OpenAI 的技術(shù)應(yīng)用于 Bing 搜索和辦公應(yīng)用程序之后,谷歌加速了其 AI 開發(fā)。

在前段時間舉辦的谷歌年度I/O 開發(fā)者大會上,谷歌宣布了一款 AI 超級計算機(jī)“A3 ”,這臺超級計算機(jī)擁有大約 26000 個英偉達(dá) H100 Hopper GPU。

*世界上最快的超級計算機(jī)Frontier擁有 37000 個 AMD Instinct 250X GPU。

谷歌表示A3是專為訓(xùn)練和運行現(xiàn)時的生成式AI和大語言模型而打造的,可提供26 exaFlops的AI性能。

A3 是第一個使用谷歌與英特爾聯(lián)合定制設(shè)計的 200 Gbps IPU的 GPU 實例,它可以讓GPU和GPU之間的數(shù)據(jù)繞過CPU,并可在其他虛擬機(jī)網(wǎng)絡(luò)和數(shù)據(jù)流的接口上傳輸。與A2 VM 相比,這可實現(xiàn)高達(dá) 10 倍的網(wǎng)絡(luò)帶寬,同時具有低尾延遲和高帶寬穩(wěn)定性。

谷歌的Jupiter數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)能讓數(shù)以萬計的GPU高度互連,而且能夠按需調(diào)整網(wǎng)絡(luò)拓?fù)?,這有利于成本的降低。

A3 超級計算機(jī)的規(guī)模提供高達(dá) 26 exaFlops 的 AI 性能,這大大減少了訓(xùn)練大型 ML 模型的時間和成本。

A3 GPU VM 專門為當(dāng)今的 ML 工作負(fù)載提供最高性能的訓(xùn)練,配備現(xiàn)代 CPU、改進(jìn)的主機(jī)內(nèi)存、下一代英偉達(dá) GPU 和主要網(wǎng)絡(luò)升級。以下是 A3 的主要特點:

8 個 H100 GPU,利用英偉達(dá)的 Hopper 架構(gòu),提供 3 倍的計算吞吐量

通過英偉達(dá) NVSwitch 和 NVLink 4.0,A3 的 8 個 GPU 之間的對分帶寬為 3.6 TB/s

第 4 代英特爾至強(qiáng)可擴(kuò)展處理器

2TB 主機(jī)內(nèi)存,通過 4800 MHz DDR5 DIMM

由支持硬件的 IPU、專門的服務(wù)器間 GPU 通信堆棧和 NCCL 優(yōu)化提供支持的網(wǎng)絡(luò)帶寬增加 10 倍

GPU 的數(shù)量已經(jīng)成為云提供商推廣其 AI 計算服務(wù)的重要名片。

微軟與OpenAI合作開發(fā)的Azure AI超級計算機(jī)擁有285000 個CPU內(nèi)核和10000 個 GPU。Oracle 的云服務(wù)提供512 個 GPU 集群的訪問,并且正在開發(fā)新技術(shù)以提高 GPU 通信的速度。

此外,許多云提供商都在部署 H100 GPU。英偉達(dá) H100 上的訓(xùn)練模型比上一代 A100 GPU 更快、更便宜。AI服務(wù)公司 MosaicML 進(jìn)行的一項研究發(fā)現(xiàn),H100 在其 70 億參數(shù)的 MosaicGPT 大型語言模型上比 A100 的成本效益高 30%,速度快 3 倍。

英偉達(dá)在 3 月份推出了自己的 DGX 云服務(wù),與租用上一代 A100 GPU 相比,該服務(wù)價格昂貴。

16a0cbbc-f621-11ed-90ce-dac502259ad0.png

|搭載8顆H100 Hopper GPU的英偉達(dá)DGX H100系統(tǒng)底板

谷歌一直在大力宣傳其TPU v4 AI芯片,這些芯片被用于運行帶有 LLM 的內(nèi)部AI應(yīng)用程序,例如谷歌的 Bard 產(chǎn)品。(點擊閱讀:對打英偉達(dá)A100,谷歌公布TPU v4技術(shù)細(xì)節(jié))

16b8d090-f621-11ed-90ce-dac502259ad0.png

|谷歌TPU v4

谷歌表示,A3 超算是對現(xiàn)有配備英偉達(dá)A100 GPU的A2虛擬機(jī)提供的計算資源的重大升級。谷歌正在將所有分布在不同地理位置的 A3 計算實例匯集到一臺超級計算機(jī)中。

相比A2,谷歌的 A3 超級計算機(jī)用途廣泛,可以針對廣泛的 AI 應(yīng)用程序和 LLM 進(jìn)行調(diào)整。“鑒于這些工作負(fù)載的高要求,一刀切的方法是不夠的,需要專為 AI 構(gòu)建的基礎(chǔ)設(shè)施?!笨蛻艨梢酝ㄟ^ A3 虛擬機(jī)運行 AI 應(yīng)用程序,并通過 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務(wù)使用谷歌的 AI 開發(fā)和管理服務(wù)。

此外,I/O 開發(fā)者大會上,谷歌還發(fā)布了最新大語言模型PaLM 2。2022 年4月谷歌推出擁有5400 億參數(shù)的大型語言模型PaLM。最新PaLM 2 基于Pathways 架構(gòu),使用TPU v4 芯片和JAX 框架訓(xùn)練,在代碼和數(shù)學(xué),分類和問答,翻譯和多語言能力以及自然語言生成高級任務(wù)方面都比前一代PaLM 表現(xiàn)得更好,在推理和數(shù)學(xué)領(lǐng)域與GPT-4 相當(dāng)。PaLM 2與A3 超級計算機(jī)的推出,使谷歌在AI 領(lǐng)域綜合實力大幅增強(qiáng)。

AI 市場競爭激烈,微軟近年來加大了對AI 的投資和研發(fā)力度,在深度學(xué)習(xí)、自然語言處理、計算機(jī)視覺等領(lǐng)域的技術(shù)已經(jīng)達(dá)到了較高的水平。谷歌也推出了一系列AI 產(chǎn)品和服務(wù),旨在通過提供全棧式的AI 解決方案來占據(jù)更加主導(dǎo)的地位。雙方都在不斷加強(qiáng)自己的技術(shù)研發(fā)和產(chǎn)品布局,以期在未來的市場競爭中獲得更多的話語權(quán)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128144
  • 超級計算機(jī)
    +關(guān)注

    關(guān)注

    2

    文章

    452

    瀏覽量

    41820
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266230
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89855

原文標(biāo)題:擁有 26000 個 GPU的“A3”超級計算機(jī),能為谷歌贏下AI反攻戰(zhàn)嗎?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    借助NVIDIA超級計算機(jī)加速量子計算發(fā)展

    科學(xué)期刊《自然》(Nature)本月早些時候發(fā)表了一項研究,通過使用 NVIDIA 驅(qū)動的超級計算機(jī),驗證了量子計算的商業(yè)化途徑。
    的頭像 發(fā)表于 07-25 09:55 ?401次閱讀

    計算機(jī)視覺技術(shù)的AI算法模型

    計算機(jī)視覺技術(shù)作為人工智能領(lǐng)域的一重要分支,旨在使計算機(jī)能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標(biāo),計算機(jī)視覺技術(shù)依賴于多種先進(jìn)的
    的頭像 發(fā)表于 07-24 12:46 ?355次閱讀

    AMD雄心勃勃:計劃構(gòu)建百萬級GPU超級計算機(jī)集群

    在全球科技競賽的舞臺上,AMD近日宣布了一項令人矚目的計劃——打造一包含多達(dá)120萬顆GPU超級計算機(jī)集群。這一宏大的舉措立即引發(fā)了業(yè)界的廣泛關(guān)注,許多人認(rèn)為,這是AMD為了與英偉
    的頭像 發(fā)表于 06-27 14:37 ?512次閱讀

    馬斯克計劃打造超級計算機(jī)推動AI發(fā)展

    科技巨頭埃隆·馬斯克近日在投資者會議上透露,其人工智能初創(chuàng)公司xAI正全力籌備打造一臺超級計算機(jī)。這臺計算機(jī)將作為下一版人工智能聊天機(jī)器人Grok的強(qiáng)大后盾,為其提供強(qiáng)大的算力支持。
    的頭像 發(fā)表于 05-28 09:18 ?444次閱讀

    NVIDIA和Recursion利用AI超級計算機(jī)加快新藥研發(fā)

    BioHive 由 NVIDIA AI 驅(qū)動,用于加速醫(yī)療領(lǐng)域科學(xué)家的工作。在全球超級計算機(jī) TOP500 榜單中,它的排名上升了 100 多位。
    的頭像 發(fā)表于 05-16 09:46 ?1120次閱讀
    NVIDIA和Recursion利用<b class='flag-5'>AI</b><b class='flag-5'>超級</b><b class='flag-5'>計算機(jī)</b>加快新藥研發(fā)

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    2024年3月19日,[英偉達(dá)]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構(gòu)BLACKWELL,并推出基于該架構(gòu)的超級芯片GB200,將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算機(jī)
    發(fā)表于 05-13 17:16

    富士通使用富岳超級計算機(jī)訓(xùn)練LLM

    盡管富士通的富岳超級計算機(jī)不再是超級計算機(jī)500強(qiáng)名單中最快的機(jī)器,但它仍然是一非常強(qiáng)大的系統(tǒng),A
    的頭像 發(fā)表于 05-13 14:18 ?421次閱讀

    微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機(jī)

    微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機(jī)這一消息屬實。
    的頭像 發(fā)表于 04-11 10:14 ?412次閱讀

    諾和諾德基金會將聯(lián)手英偉達(dá)打造丹麥AI超級計算機(jī)

    諾和諾德基金會攜手英偉達(dá),共同宣布在丹麥打造一臺領(lǐng)先的AI超級計算機(jī)。這臺超級計算機(jī)將致力于推動醫(yī)療保健、生命科學(xué)以及綠色轉(zhuǎn)型等領(lǐng)域的科研與
    的頭像 發(fā)表于 03-21 13:43 ?440次閱讀

    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬億參數(shù)級的生成式 AI 超級計算

    ——? NVIDIA 于今日發(fā)布新一代 AI 超級計算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD?。
    發(fā)表于 03-19 10:56 ?301次閱讀
    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬億參數(shù)級的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超級</b><b class='flag-5'>計算</b>

    【量子計算機(jī)重構(gòu)未來 | 閱讀體驗】+ 初識量子計算機(jī)

    欣喜收到《量子計算機(jī)——重構(gòu)未來》一書,感謝電子發(fā)燒友論壇提供了一讓我了解量子計算機(jī)的機(jī)會! 自己對電子計算機(jī)有點了解,但對量子計算機(jī)
    發(fā)表于 03-05 17:37

    Tesla 計劃斥資 5 億美元建造一臺由 NVIDIA 的 AI GPU 提供支持的 Dojo 超級計算機(jī)

    ABSTRACT摘要Tesla計劃斥資5億美元建造一臺由NVIDIA的AIGPU提供支持的Dojo超級計算機(jī),因此該公司正在加大基于AI的開發(fā)力度。JAEALOT2024年1月27日Tesla計劃
    的頭像 發(fā)表于 02-19 12:45 ?477次閱讀
    Tesla 計劃斥資 5 億美元建造一臺由 NVIDIA 的 <b class='flag-5'>AI</b> <b class='flag-5'>GPU</b> 提供支持的 Dojo <b class='flag-5'>超級</b><b class='flag-5'>計算機(jī)</b>

    特斯拉在布法羅超級工廠投資5億美元建造Dojo超級計算機(jī)

    霍楚爾表示,此次項目投資為5億美元,并將同時在紐約州立大學(xué)建設(shè)另一臺獨立的AI超級計算機(jī)?!拔液軜s幸地告訴大家,特斯拉將在布法羅投資5億美元,用于其新一代超級
    的頭像 發(fā)表于 01-29 10:58 ?296次閱讀

    亞馬遜網(wǎng)絡(luò)服務(wù)與英偉達(dá)聯(lián)手打造AI超級計算機(jī)

    亞馬遜網(wǎng)絡(luò)服務(wù)公司(Amazon Web Services)不久將擁有一臺由英偉達(dá)(Nvidia)制造的新型超級計算機(jī),該公司稱這是世界上速度最快的人工智能系統(tǒng)之一。
    的頭像 發(fā)表于 01-11 11:06 ?664次閱讀

    Blackwell GB100能否在超級計算機(jī)AI市場保持領(lǐng)先優(yōu)勢?

    NVIDIA 下一代 Blackwell GB100 傳將采用芯片堆棧設(shè)計提升效能和效率,但也面臨工藝和封裝的挑戰(zhàn),能否在超級計算機(jī)AI 市場保持領(lǐng)先優(yōu)勢?
    的頭像 發(fā)表于 10-24 17:43 ?838次閱讀