波多野结衣高清无碼中文字幕,人妻中文字系列无码专区,国产欧美日韩综合一区

以下文章來源于谷歌云服務(wù)，作者 Google Cloud

Amin Vahdat

ML、系統(tǒng)與 Cloud AI 副總裁/總經(jīng)理

Mark Lohmeyer

計算與 ML 基礎(chǔ)設(shè)施副總裁/總經(jīng)理

生成式 AI 模型正在迅速發(fā)展，提供了前所未有的精密性和功能。這項技術(shù)進(jìn)展得以讓各行各業(yè)的企業(yè)和開發(fā)人員能夠解決復(fù)雜的問題，開啟新的機遇之門。然而，生成式 AI 模型的增長也導(dǎo)致訓(xùn)練、調(diào)整和推理方面的要求變得更加嚴(yán)苛。過去五年來，生成式 AI 模型的參數(shù)每年增長十倍，如今的大模型具有數(shù)千億甚至上萬億項參數(shù)，即使在最專業(yè)的系統(tǒng)上仍需要相當(dāng)長的訓(xùn)練時間，有時需持續(xù)數(shù)月才能完成。此外，高效的 AI 工作負(fù)載管理需要一個具備一致性能、優(yōu)化的計算、存儲、網(wǎng)絡(luò)、軟件和開發(fā)框架所組成的集成 AI 堆棧。

為了應(yīng)對這些挑戰(zhàn)，我們很高興宣布推出 Cloud TPU v5p，這是 Google 迄今為止功能、可擴(kuò)展性、靈活性最為強大的 AI 加速器。長期以來，TPU 一直是訓(xùn)練和服務(wù) AI 支持的產(chǎn)品的基礎(chǔ)，例如 YouTube、Gmail、Google 地圖、Google Play 和 Android。事實上，Google 剛剛發(fā)布的功能最強大的通用 AI 模型 Gemini 就是使用 TPU 進(jìn)行訓(xùn)練和服務(wù)的。

此外，我們也宣布推出 Google Cloud AI Hypercomputer，這是一種突破性的超級計算機架構(gòu)，采用集成系統(tǒng)，并結(jié)合了性能優(yōu)化的硬件、開放軟件、領(lǐng)先的 ML 框架和靈活的消費模式。傳統(tǒng)方法通常是以零碎的組件級增強來解決要求嚴(yán)苛的 AI 工作負(fù)載，這可能會導(dǎo)致效率不佳和性能瓶頸。相比之下，AI Hypercomputer 采用系統(tǒng)級協(xié)同設(shè)計來提高 AI 訓(xùn)練、調(diào)整和服務(wù)的效率和生產(chǎn)力。

探索 Cloud TPU v5p

Google Cloud 目前功能最強大

可擴(kuò)展能力最佳的 TPU 加速器

上個月，我們宣布全面推出 Cloud TPU v5e。相較于上一代 TPU v4¹，TPU v5e 的性價比提高了 2.3 倍，是我們目前最具成本效益的 TPU。而 Cloud TPU v5p 則是我們目前功能最強大的 TPU。每個 TPU v5p pod 由 8,960 個芯片組成，采用了我們帶寬最高的芯片間互連 (Inter-chip Interconnect, ICI) 技術(shù)，以 3D 環(huán)形拓?fù)浣Y(jié)構(gòu)實現(xiàn)每芯片 4,800 Gbps 的速率。與 TPU v4 相比，TPU v5p 的每秒浮點運算次數(shù) (FLOPS) 提高 2 倍以上，高帶寬內(nèi)存 (High-bandwidth Memory, HBM) 則增加 3 倍。

TPU v5p 專為性能、靈活性和可擴(kuò)展性設(shè)計，相較于上一代 TPU v4，TPU v5p 訓(xùn)練大型 LLM 的速度提升 2.8 倍。此外，若搭配第二代 SparseCores，TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v4² 快 1.9 倍。

資料來源: Google 內(nèi)部數(shù)據(jù)。截至 2023 年 11 月，GPT-3 1750 億參數(shù)模型的所有數(shù)據(jù)均按每芯片 seq-len=2048 為單位完成標(biāo)準(zhǔn)化。

資料來源: TPU v5e 數(shù)據(jù)來自 MLPerf 3.1 Training Closed 的 v5e 結(jié)果；TPU v5p 和 v4 基于 Google 內(nèi)部訓(xùn)練運行。截至 2023 年 11 月，GPT-3 1750 億參數(shù)模型的所有數(shù)據(jù)均按每芯片 seq-len=2048 為單位完成標(biāo)準(zhǔn)化。并以 TPU v4：3.22 美元/芯片/小時、TPU v5e：1.2 美元/芯片/小時和 TPU v5p：4.2 美元/芯片/小時的公開定價顯示每美元相對性能。

TPU v5p 不僅性能更佳，就每 Pod 的總可用 FLOPS 而言，TPU v5p 的可擴(kuò)展能力比 TPU v4 高 4 倍，且 TPU v5p 的每秒浮點運算次數(shù) (FLOPS) 是 TPU v4 的兩倍，并在單一 Pod 中提供兩倍的芯片，可大幅提升訓(xùn)練速度相關(guān)性能。

Google AI Hypercomputer

大規(guī)模提供頂尖性能和效率

實現(xiàn)規(guī)模和速度是必不可少的，但并不足以滿足現(xiàn)代 AI/ML 應(yīng)用程序和服務(wù)的需求。軟硬組件必須組合相輔相成，組成一個易于使用、安全可靠的集成計算系統(tǒng)。Google 已針對此問題投入數(shù)十年的時間進(jìn)行研發(fā)，而 AI Hypercomputer 正是我們的心血結(jié)晶。此系統(tǒng)集結(jié)了多種能協(xié)調(diào)運作的技術(shù)，能以最佳方式來執(zhí)行現(xiàn)代 AI 工作負(fù)載。

? ? ?

性能優(yōu)化硬件: AI Hypercomputer 以超大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施為基礎(chǔ)構(gòu)建，采用高密度足跡、水冷技術(shù)和我們的 Jupiter 數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)，在計算、存儲和網(wǎng)絡(luò)功能上均能提供最佳性能。所有這一切都基于以效率為核心的各項技術(shù)，利用清潔能源和對水資源管理的堅定承諾，助力我們邁向無碳未來。

開放軟件: AI Hypercomputer 使開發(fā)人員能夠通過使用開放軟件來訪問我們性能優(yōu)化的硬件，利用這些硬件調(diào)整、管理和動態(tài)編排 AI 訓(xùn)練和推理工作負(fù)載。

廣泛支持主流 ML 框架 (例如 JAX、TensorFlow 和 PyTorch) 且提供開箱即用。如要構(gòu)建復(fù)雜的 LLM，JAX 和 PyTorch 均由 OpenXLA 編譯器提供支持。XLA 作為基礎(chǔ)設(shè)施，支持創(chuàng)建復(fù)雜的多層模型。XLA 優(yōu)化了各種硬件平臺上的分布式架構(gòu)，確保針對不同的 AI 場景高效開發(fā)易于使用的模型。
提供開放且獨特的 Multislice Training 及 Multihost Inferencing 軟件，分別使擴(kuò)展、訓(xùn)練和提供模型的工作負(fù)載變得流暢又簡單。若要處理要求嚴(yán)苛的 AI 工作負(fù)載，開發(fā)人員可將芯片數(shù)量擴(kuò)展至數(shù)萬個。
與 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成，實現(xiàn)高效的資源管理、一致的操作環(huán)境、自動擴(kuò)展、自動配置節(jié)點池、自動檢查點、自動恢復(fù)和及時的故障恢復(fù)。

靈活的消費模式: AI Hypercomputer 提供多種靈活動態(tài)的消費方案。除了承諾使用折扣 (Committed Used Discunts, CUD)、按需定價和現(xiàn)貨定價等經(jīng)典選項外，AI Hypercomputer 還通過 Dynamic Workload Scheduler 提供針對 AI 工作負(fù)載量身定制的消費模式。Dynamic Workload Scheduler 包含兩種消費模式: Flex Start 模式可實現(xiàn)更高的資源獲取能力和優(yōu)化的經(jīng)濟(jì)效益；Calendar 模式則針對作業(yè)啟動時間可預(yù)測性更高的工作負(fù)載。

利用 Google 的豐富經(jīng)驗

助力 AI 的未來發(fā)展

Salesforce 和 Lightricks 等客戶已在使用 Google Cloud 的 TPU v5p 以及 AI Hypercomputer 來訓(xùn)練和服務(wù)大型 AI 模型——并發(fā)現(xiàn)了其中的差異：

"我們一直在使用 Google Cloud 的 TPU v5p 對 Salesforce 的基礎(chǔ)模型進(jìn)行預(yù)訓(xùn)練，這些模型將作為專業(yè)生產(chǎn)用例的核心引擎，我們看到訓(xùn)練速度獲得了顯著提升。事實上，Cloud TPU v5p 的計算性能比上一代 TPU v4 高出至少 2 倍。我們還非常喜歡使用 JAX 順暢地從 Cloud TPU v4 過渡到 v5p。我們期待能通過 Accurate Quantized Training (AQT) 庫，運用 INT8 精度格式的原生支持來優(yōu)化我們的模型，進(jìn)一步提升速度。"

——Salesforce 高級研究科學(xué)家

Erik Nijkamp

"憑借 Google Cloud TPU v5p 的卓越性能和充足內(nèi)存，我們成功地訓(xùn)練了文本到視頻的生成模型，而無需將其拆分成單獨進(jìn)程。這種出色的硬件利用率大大縮短了每個訓(xùn)練周期，使我們能夠迅速開展一系列實驗。能在每次實驗中快速完成模型訓(xùn)練的能力加快了迭代速度，為我們的研究團(tuán)隊在生成式 AI 這個競爭激烈的領(lǐng)域帶來寶貴優(yōu)勢。"

——Lightricks 核心生成式 AI 研究團(tuán)隊主管

Yoav HaCohen 博士

"在早期使用過程中，Google DeepMind 和 Google Research 團(tuán)隊發(fā)現(xiàn)，對于 LLM 訓(xùn)練工作負(fù)載，TPU v5p 芯片的性能比 TPU v4 代提高了 2 倍。此外，AI Hypercomputer 能為 ML 框架 (JAX、PyTorch、TensorFlow) 提供強大的支持和自動編排工具，使我們能夠在 v5p 上更高效地擴(kuò)展。搭配第二代 SparseCores，我們也發(fā)現(xiàn)嵌入密集型工作負(fù)載 (embeddings-heavy workloads) 的性能得到顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展最大規(guī)模的研究和工程工作至關(guān)重要。"

—— Google DeepMind 和 Google Research

首席科學(xué)家 Jeff Dean

在 Google，我們一直堅信 AI 能夠幫助解決棘手問題。截至目前，大規(guī)模訓(xùn)練與提供大型基礎(chǔ)模型對于許多企業(yè)來說都過于復(fù)雜且昂貴?，F(xiàn)在，通過 Cloud TPU v5p 和 AI Hypercomputer，我們很高興能將我們在 AI 和系統(tǒng)設(shè)計領(lǐng)域數(shù)十年的研究成果與我們的用戶分享，以便他們能夠更快、更高效、更具成本效益地運用 AI 加速創(chuàng)新。

1: MLPerf v3.1 Training Closed 的結(jié)果多個基準(zhǔn)如圖所示。資料日期：2023 年 11 月 8 日。資料來源：mlcommons.org。結(jié)果編號：3.1-2004。每美元性能并非 MLPerf 的評估標(biāo)準(zhǔn)。TPU v4 結(jié)果尚未經(jīng) MLCommons 協(xié)會驗證。MLPerf 名稱和標(biāo)志是 MLCommons 協(xié)會在美國和其他國家的商標(biāo)，并保留所有權(quán)利，嚴(yán)禁未經(jīng)授權(quán)的使用。更多信息，請參閱 www.mlcommons.org。

2: 截至 2023 年 11 月，Google TPU v5p 內(nèi)部資料：E2E 執(zhí)行時間 (steptime)、搜索廣告預(yù)估點擊率 (SearchAds pCTR)、每個 TPU 核心批次大小為 16,384、125 個 vp5 芯片。

?點擊屏末|閱讀原文|即刻查看詳細(xì)內(nèi)容

原文標(biāo)題：Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負(fù)載

文章出處：【微信公眾號：谷歌開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6128

瀏覽量
104948

原文標(biāo)題：Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負(fù)載

文章出處：【微信號：Google_Developers，微信公眾號：谷歌開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI中更快的嵌入處理

電子發(fā)燒友網(wǎng)站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統(tǒng)高級AI

發(fā)表于 08-15 11:06 ?0次下載

<b class='flag-5'>下一代</b>高功能新<b class='flag-5'>一代</b><b class='flag-5'>AI</b>加速器(DRP-<b class='flag-5'>AI</b>3):10x在高級<b class='flag-5'>AI</b>系統(tǒng)高級<b class='flag-5'>AI</b>中更快的嵌入處理

賽輪思與NVIDIA合作，利用生成式AI打造下一代車內(nèi)體驗

AI 驅(qū)動的移動出行創(chuàng)新企業(yè)與 NVIDIA 合作，打造下一代車內(nèi)體驗。

發(fā)表于 05-23 10:12 ?1191次閱讀

豐田、日產(chǎn)和本田將合作開發(fā)下一代汽車的AI和芯片

豐田、日產(chǎn)和本田等日本主要汽車制造商確實計劃聯(lián)手開發(fā)下一代汽車的軟件，包括在生成式人工智能（AI）和半導(dǎo)體（芯片）等領(lǐng)域進(jìn)行合作。

發(fā)表于 05-20 10:25 ?924次閱讀

谷歌將推出第六代數(shù)據(jù)中心AI芯片Trillium TPU

在今日舉行的I/O 2024開發(fā)者大會上，谷歌公司震撼發(fā)布了其第六代數(shù)據(jù)中心AI芯片——Trillium Tensor處理器單元（TPU）。據(jù)谷歌首席執(zhí)行官皮查伊透露，這款新型TPU預(yù)

發(fā)表于 05-15 11:18 ?576次閱讀

DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

4月19日，在以“重構(gòu)世界奔赴未來”為主題的2024中國生成式AI大會上，中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表，受邀出席了中國智算中心創(chuàng)新論壇，發(fā)表了題為《以網(wǎng)絡(luò)為中心的AI算力底座構(gòu)建之路》主題演講，勾勒出在通往AGI之路上，DPU技術(shù)賦能

發(fā)表于 04-20 11:31 ?788次閱讀