0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負(fù)載

谷歌開發(fā)者 ? 來源:未知 ? 2023-12-13 16:05 ? 次閱讀

以下文章來源于谷歌云服務(wù),作者 Google Cloud

Amin Vahdat

ML、系統(tǒng)與 Cloud AI 副總裁/總經(jīng)理

Mark Lohmeyer

計算與 ML 基礎(chǔ)設(shè)施副總裁/總經(jīng)理

生成式 AI 模型正在迅速發(fā)展,提供了前所未有的精密性和功能。這項技術(shù)進(jìn)展得以讓各行各業(yè)的企業(yè)和開發(fā)人員能夠解決復(fù)雜的問題,開啟新的機遇之門。然而,生成式 AI 模型的增長也導(dǎo)致訓(xùn)練、調(diào)整和推理方面的要求變得更加嚴(yán)苛。過去五年來,生成式 AI 模型的參數(shù)每年增長十倍,如今的大模型具有數(shù)千億甚至上萬億項參數(shù),即使在最專業(yè)的系統(tǒng)上仍需要相當(dāng)長的訓(xùn)練時間,有時需持續(xù)數(shù)月才能完成。此外,高效的 AI 工作負(fù)載管理需要一個具備一致性能、優(yōu)化的計算、存儲、網(wǎng)絡(luò)、軟件和開發(fā)框架所組成的集成 AI 堆棧。

為了應(yīng)對這些挑戰(zhàn),我們很高興宣布推出 Cloud TPU v5p,這是 Google 迄今為止功能、可擴(kuò)展性、靈活性最為強大的 AI 加速器。長期以來,TPU 一直是訓(xùn)練和服務(wù) AI 支持的產(chǎn)品的基礎(chǔ),例如 YouTube、Gmail、Google 地圖、Google Play 和 Android。事實上,Google 剛剛發(fā)布的功能最強大的通用 AI 模型 Gemini 就是使用 TPU 進(jìn)行訓(xùn)練和服務(wù)的。

此外,我們也宣布推出 Google Cloud AI Hypercomputer,這是一種突破性的超級計算機架構(gòu),采用集成系統(tǒng),并結(jié)合了性能優(yōu)化的硬件、開放軟件、領(lǐng)先的 ML 框架和靈活的消費模式。傳統(tǒng)方法通常是以零碎的組件級增強來解決要求嚴(yán)苛的 AI 工作負(fù)載,這可能會導(dǎo)致效率不佳和性能瓶頸。相比之下,AI Hypercomputer 采用系統(tǒng)級協(xié)同設(shè)計來提高 AI 訓(xùn)練、調(diào)整和服務(wù)的效率和生產(chǎn)力。

01

探索 Cloud TPU v5p

Google Cloud 目前功能最強大

可擴(kuò)展能力最佳的 TPU 加速器

上個月,我們宣布全面推出 Cloud TPU v5e。相較于上一代 TPU v41,TPU v5e 的性價比提高了 2.3 倍,是我們目前最具成本效益的 TPU。而 Cloud TPU v5p 則是我們目前功能最強大的 TPU。每個 TPU v5p pod 由 8,960 個芯片組成,采用了我們帶寬最高的芯片間互連 (Inter-chip Interconnect, ICI) 技術(shù),以 3D 環(huán)形拓?fù)浣Y(jié)構(gòu)實現(xiàn)每芯片 4,800 Gbps 的速率。與 TPU v4 相比,TPU v5p 的每秒浮點運算次數(shù) (FLOPS) 提高 2 倍以上,高帶寬內(nèi)存 (High-bandwidth Memory, HBM) 則增加 3 倍

TPU v5p 專為性能、靈活性和可擴(kuò)展性設(shè)計,相較于上一代 TPU v4,TPU v5p 訓(xùn)練大型 LLM 的速度提升 2.8 倍。此外,若搭配第二代 SparseCores,TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v42 快 1.9 倍

wKgZomV5ZtqAVxvIAADPSGWcyh0300.png

資料來源: Google 內(nèi)部數(shù)據(jù)。截至 2023 年 11 月,GPT-3 1750 億參數(shù)模型的所有數(shù)據(jù)均按每芯片 seq-len=2048 為單位完成標(biāo)準(zhǔn)化。

wKgZomV5ZtqAROtEAAEFUtrHUCw937.png

資料來源: TPU v5e 數(shù)據(jù)來自 MLPerf 3.1 Training Closed 的 v5e 結(jié)果;TPU v5p 和 v4 基于 Google 內(nèi)部訓(xùn)練運行。截至 2023 年 11 月,GPT-3 1750 億參數(shù)模型的所有數(shù)據(jù)均按每芯片 seq-len=2048 為單位完成標(biāo)準(zhǔn)化。并以 TPU v4:3.22 美元/芯片/小時、TPU v5e:1.2 美元/芯片/小時和 TPU v5p:4.2 美元/芯片/小時的公開定價顯示每美元相對性能。

TPU v5p 不僅性能更佳,就每 Pod 的總可用 FLOPS 而言,TPU v5p 的可擴(kuò)展能力比 TPU v4 高 4 倍,且 TPU v5p 的每秒浮點運算次數(shù) (FLOPS) 是 TPU v4 的兩倍,并在單一 Pod 中提供兩倍的芯片,可大幅提升訓(xùn)練速度相關(guān)性能。

wKgZomV5ZtuAGEBhAARxTP6GyC0815.png

02

Google AI Hypercomputer

大規(guī)模提供頂尖性能和效率

實現(xiàn)規(guī)模和速度是必不可少的,但并不足以滿足現(xiàn)代 AI/ML 應(yīng)用程序和服務(wù)的需求。軟硬組件必須組合相輔相成,組成一個易于使用、安全可靠的集成計算系統(tǒng)。Google 已針對此問題投入數(shù)十年的時間進(jìn)行研發(fā),而 AI Hypercomputer 正是我們的心血結(jié)晶。此系統(tǒng)集結(jié)了多種能協(xié)調(diào)運作的技術(shù),能以最佳方式來執(zhí)行現(xiàn)代 AI 工作負(fù)載。

wKgZomV5ZtuAZX9NAAIoSxnb8Jg775.png ? ? ?

性能優(yōu)化硬件: AI Hypercomputer 以超大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施為基礎(chǔ)構(gòu)建,采用高密度足跡、水冷技術(shù)和我們的 Jupiter 數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù),在計算、存儲和網(wǎng)絡(luò)功能上均能提供最佳性能。所有這一切都基于以效率為核心的各項技術(shù),利用清潔能源和對水資源管理的堅定承諾,助力我們邁向無碳未來。

開放軟件: AI Hypercomputer 使開發(fā)人員能夠通過使用開放軟件來訪問我們性能優(yōu)化的硬件,利用這些硬件調(diào)整、管理和動態(tài)編排 AI 訓(xùn)練和推理工作負(fù)載。

  • 廣泛支持主流 ML 框架 (例如 JAX、TensorFlow 和 PyTorch) 且提供開箱即用。如要構(gòu)建復(fù)雜的 LLM,JAX 和 PyTorch 均由 OpenXLA 編譯器提供支持。XLA 作為基礎(chǔ)設(shè)施,支持創(chuàng)建復(fù)雜的多層模型。XLA 優(yōu)化了各種硬件平臺上的分布式架構(gòu),確保針對不同的 AI 場景高效開發(fā)易于使用的模型。

  • 提供開放且獨特的 Multislice Training 及 Multihost Inferencing 軟件,分別使擴(kuò)展、訓(xùn)練和提供模型的工作負(fù)載變得流暢又簡單。若要處理要求嚴(yán)苛的 AI 工作負(fù)載,開發(fā)人員可將芯片數(shù)量擴(kuò)展至數(shù)萬個。

  • 與 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成,實現(xiàn)高效的資源管理、一致的操作環(huán)境、自動擴(kuò)展、自動配置節(jié)點池、自動檢查點、自動恢復(fù)和及時的故障恢復(fù)。

靈活的消費模式: AI Hypercomputer 提供多種靈活動態(tài)的消費方案。除了承諾使用折扣 (Committed Used Discunts, CUD)、按需定價和現(xiàn)貨定價等經(jīng)典選項外,AI Hypercomputer 還通過 Dynamic Workload Scheduler 提供針對 AI 工作負(fù)載量身定制的消費模式。Dynamic Workload Scheduler 包含兩種消費模式: Flex Start 模式可實現(xiàn)更高的資源獲取能力和優(yōu)化的經(jīng)濟(jì)效益;Calendar 模式則針對作業(yè)啟動時間可預(yù)測性更高的工作負(fù)載。

03

利用 Google 的豐富經(jīng)驗

助力 AI 的未來發(fā)展

Salesforce 和 Lightricks 等客戶已在使用 Google Cloud 的 TPU v5p 以及 AI Hypercomputer 來訓(xùn)練和服務(wù)大型 AI 模型——并發(fā)現(xiàn)了其中的差異:

G

C

"我們一直在使用 Google Cloud 的 TPU v5p 對 Salesforce 的基礎(chǔ)模型進(jìn)行預(yù)訓(xùn)練,這些模型將作為專業(yè)生產(chǎn)用例的核心引擎,我們看到訓(xùn)練速度獲得了顯著提升。事實上,Cloud TPU v5p 的計算性能比上一代 TPU v4 高出至少 2 倍。我們還非常喜歡使用 JAX 順暢地從 Cloud TPU v4 過渡到 v5p。我們期待能通過 Accurate Quantized Training (AQT) 庫,運用 INT8 精度格式的原生支持來優(yōu)化我們的模型,進(jìn)一步提升速度。"

——Salesforce 高級研究科學(xué)家

Erik Nijkamp

G

C

"憑借 Google Cloud TPU v5p 的卓越性能和充足內(nèi)存,我們成功地訓(xùn)練了文本到視頻的生成模型,而無需將其拆分成單獨進(jìn)程。這種出色的硬件利用率大大縮短了每個訓(xùn)練周期,使我們能夠迅速開展一系列實驗。能在每次實驗中快速完成模型訓(xùn)練的能力加快了迭代速度,為我們的研究團(tuán)隊在生成式 AI 這個競爭激烈的領(lǐng)域帶來寶貴優(yōu)勢。"

——Lightricks 核心生成式 AI 研究團(tuán)隊主管

Yoav HaCohen 博士

G

C

"在早期使用過程中,Google DeepMind 和 Google Research 團(tuán)隊發(fā)現(xiàn),對于 LLM 訓(xùn)練工作負(fù)載,TPU v5p 芯片的性能比 TPU v4 代提高了 2 倍。此外,AI Hypercomputer 能為 ML 框架 (JAX、PyTorch、TensorFlow) 提供強大的支持和自動編排工具,使我們能夠在 v5p 上更高效地擴(kuò)展。搭配第二代 SparseCores,我們也發(fā)現(xiàn)嵌入密集型工作負(fù)載 (embeddings-heavy workloads) 的性能得到顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展最大規(guī)模的研究和工程工作至關(guān)重要。"

—— Google DeepMind 和 Google Research

首席科學(xué)家 Jeff Dean

在 Google,我們一直堅信 AI 能夠幫助解決棘手問題。截至目前,大規(guī)模訓(xùn)練與提供大型基礎(chǔ)模型對于許多企業(yè)來說都過于復(fù)雜且昂貴?,F(xiàn)在,通過 Cloud TPU v5p 和 AI Hypercomputer,我們很高興能將我們在 AI 和系統(tǒng)設(shè)計領(lǐng)域數(shù)十年的研究成果與我們的用戶分享,以便他們能夠更快、更高效、更具成本效益地運用 AI 加速創(chuàng)新。

wKgZomV5ZtuAX_DrAAAjqZVF__E690.gif ?

1: MLPerf v3.1 Training Closed 的結(jié)果多個基準(zhǔn)如圖所示。資料日期:2023 年 11 月 8 日。資料來源:mlcommons.org。結(jié)果編號:3.1-2004。每美元性能并非 MLPerf 的評估標(biāo)準(zhǔn)。TPU v4 結(jié)果尚未經(jīng) MLCommons 協(xié)會驗證。MLPerf 名稱和標(biāo)志是 MLCommons 協(xié)會在美國和其他國家的商標(biāo),并保留所有權(quán)利,嚴(yán)禁未經(jīng)授權(quán)的使用。更多信息,請參閱 www.mlcommons.org。

2: 截至 2023 年 11 月,Google TPU v5p 內(nèi)部資料:E2E 執(zhí)行時間 (steptime)、搜索廣告預(yù)估點擊率 (SearchAds pCTR)、每個 TPU 核心批次大小為 16,384、125 個 vp5 芯片。


wKgZomV5ZtuAYQ9-AAAafJIrrMk456.gif?點擊屏末||即刻查看詳細(xì)內(nèi)容

wKgZomV5ZtuAQLghAAATN9B0Fw0289.png

wKgZomV5ZtyAKESmAAMyGF3oQT4132.png

wKgZomV5ZtyAPigfAAAptPJQ2wE843.png


原文標(biāo)題:Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負(fù)載

文章出處:【微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104948

原文標(biāo)題:Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負(fù)載

文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI中更快的嵌入處理

    電子發(fā)燒友網(wǎng)站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI
    發(fā)表于 08-15 11:06 ?0次下載
    <b class='flag-5'>下一代</b>高功能新<b class='flag-5'>一代</b><b class='flag-5'>AI</b>加速器(DRP-<b class='flag-5'>AI</b>3):10x在高級<b class='flag-5'>AI</b>系統(tǒng)高級<b class='flag-5'>AI</b>中更快的嵌入處理

    賽輪思與NVIDIA合作,利用生成式AI打造下一代車內(nèi)體驗

    AI 驅(qū)動的移動出行創(chuàng)新企業(yè)與 NVIDIA 合作,打造下一代車內(nèi)體驗。
    的頭像 發(fā)表于 05-23 10:12 ?1191次閱讀

    豐田、日產(chǎn)和本田將合作開發(fā)下一代汽車的AI和芯片

    豐田、日產(chǎn)和本田等日本主要汽車制造商確實計劃聯(lián)手開發(fā)下一代汽車的軟件,包括在生成式人工智能(AI)和半導(dǎo)體(芯片)等領(lǐng)域進(jìn)行合作。
    的頭像 發(fā)表于 05-20 10:25 ?924次閱讀

    谷歌將推出第六數(shù)據(jù)中心AI芯片Trillium TPU

    在今日舉行的I/O 2024開發(fā)者大會上,谷歌公司震撼發(fā)布了其第六數(shù)據(jù)中心AI芯片——Trillium Tensor處理器單元(TPU)。據(jù)谷歌首席執(zhí)行官皮查伊透露,這款新型TPU預(yù)
    的頭像 發(fā)表于 05-15 11:18 ?576次閱讀

    DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

    4月19日,在以“重構(gòu)世界 奔赴未來”為主題的2024中國生成式AI大會上,中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表,受邀出席了中國智算中心創(chuàng)新論壇,發(fā)表了題為《以網(wǎng)絡(luò)為中心的AI算力底座構(gòu)建之路》主題演講,勾勒出在通往AGI之路上,DPU技術(shù)賦能
    的頭像 發(fā)表于 04-20 11:31 ?788次閱讀

    Google Cloud推出基于Arm Neoverse V2定制Google Axion處理器

    Arm Neoverse 平臺已成為云服務(wù)提供商優(yōu)化其從芯片到軟件全棧的心儀之選。近日,Google Cloud 推出了基于 Arm Neoverse V2 打造的定制
    的頭像 發(fā)表于 04-16 14:30 ?583次閱讀

    加入AI軍備賽! Google推出ARM架構(gòu)處理器Axion和下一代TPU v5p

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年04月11日 11:38:27

    NVIDIA的專用AI平臺如何推動下一代醫(yī)療健康行業(yè)的發(fā)展

    醫(yī)療科技創(chuàng)新企業(yè)在 GTC 上介紹了 NVIDIA 的專用 AI 平臺如何推動下一代醫(yī)療健康行業(yè)的發(fā)展。
    的頭像 發(fā)表于 04-09 10:10 ?1226次閱讀

    英偉達(dá)的下一代AI芯片

    根據(jù)英偉達(dá)(Nvidia)的路線圖,它將推出下一代black well架構(gòu)很快。該公司總是先推出個新的架構(gòu)與數(shù)據(jù)中心產(chǎn)品,然后在幾個月后公布削減的GeForce版本,所以這也是這次
    的頭像 發(fā)表于 03-08 10:28 ?825次閱讀
    英偉達(dá)的<b class='flag-5'>下一代</b><b class='flag-5'>AI</b>芯片

    蘋果正努力為下一代iPhone搭載更強大的AI技術(shù)

    蘋果公司正致力于在下一代iPhone上實現(xiàn)更強大的本地人工智能技術(shù)。近日,蘋果收購了家專注于AI視頻壓縮技術(shù)的初創(chuàng)公司W(wǎng)aveOne,此舉進(jìn)步證明了蘋果在
    的頭像 發(fā)表于 01-25 16:46 ?753次閱讀

    谷歌TPU v5p超越Nvidia H100,成為人工智能領(lǐng)域的競爭對手

    TPU v5p已在谷歌“AI超級計算機”項目中發(fā)揮重要作用,這并非專業(yè)科研型超算平臺,而是面向各類人工智能應(yīng)用。與Nvidia開放GPU購買策略不同,谷歌高端TPU主要供自家產(chǎn)品和服務(wù)
    的頭像 發(fā)表于 12-26 15:20 ?1995次閱讀

    谷歌最強大的定制設(shè)計人工智能加速器—TPU v5p芯片

    谷歌正迅速成為 BFF Nvidia 的強大對手——為其超級計算機提供動力的 TPU v5p AI 芯片速度更快,內(nèi)存和帶寬比以往任何時候都多,甚至擊敗了強大的 H100
    的頭像 發(fā)表于 12-26 09:31 ?1833次閱讀

    谷歌發(fā)布多模態(tài)Gemini大模型及新一代TPU系統(tǒng)Cloud TPU v5p

    谷歌亦發(fā)布新一代TPU 系統(tǒng)——Cloud TPU v5p,以幫助訓(xùn)練尖端的 AI 模型。目
    的頭像 發(fā)表于 12-12 10:50 ?1279次閱讀
    谷歌發(fā)布多模態(tài)Gemini大模型及新<b class='flag-5'>一代</b><b class='flag-5'>TPU</b>系統(tǒng)<b class='flag-5'>Cloud</b> <b class='flag-5'>TPU</b> <b class='flag-5'>v5p</b>

    Google Cloud 線上課堂 | Google Cloud 遷移最佳實踐

    數(shù)據(jù)中心的數(shù)千個復(fù)雜工作負(fù)載,將這些應(yīng)用及數(shù)據(jù)遷移到新環(huán)境時面臨各種挑戰(zhàn):如何降低遷移復(fù)雜性并控制成本?如何保證業(yè)務(wù)連續(xù)性及數(shù)據(jù)安全...... Google Cloud 通過經(jīng)過驗證
    的頭像 發(fā)表于 11-28 17:45 ?458次閱讀

    Google的第五TPU,推理性能提升2.5倍

     Gridspace 機器學(xué)習(xí)主管Wonkyum Lee表示:“我們的速度基準(zhǔn)測試表明,在 Google Cloud TPU v5e 上訓(xùn)練和運行時,
    發(fā)表于 11-24 10:27 ?555次閱讀
    <b class='flag-5'>Google</b>的第五<b class='flag-5'>代</b><b class='flag-5'>TPU</b>,推理性能提升2.5倍