0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Cerebras推出WSE-3 AI芯片,比NVIDIA H100大56倍

SDNLAB ? 來源:SDNLAB ? 2024-03-14 17:11 ? 次閱讀

Cerebras 是一家位于美國(guó)加利福尼亞州的初創(chuàng)公司,2019 年進(jìn)入硬件市場(chǎng),其首款超大人工智能芯片名為 Wafer Scale Engine (WSE) ,尺寸為 8 英寸 x 8 英寸,比最大的 GPU 大 56 倍,擁有 1.2 萬億個(gè)晶體管和 40 萬個(gè)計(jì)算核心,是當(dāng)時(shí)最快、最大的 AI 芯片。隨后在 2021 年,Cerebras 推出了 WSE-2,這是一款 7 納米芯片,其性能是原來的兩倍,擁有 2.6 萬億個(gè)晶體管和 85 萬個(gè)核心。

近日,Cerebras 宣布推出了第三代WSE-3,性能再次提高了近一倍。

8cb56d78-e1e2-11ee-a297-92fbcf53809c.png

01

Cerebras 推出 WSE-3 AI 芯片,比 NVIDIA H100 大 56 倍 WSE-3采用臺(tái)積電5nm工藝,擁有超過4萬億個(gè)晶體管和90 萬個(gè)核心,可提供 125 petaflops 的性能。這款芯片是臺(tái)積電可以制造的最大的方形芯片。WSE-3擁有44GB 片上 SRAM,而不是片外 HBM3E 或 DDR5。內(nèi)存與核心一起分布,目的是使數(shù)據(jù)和計(jì)算盡可能接近。

自推出以來,Cerebras 就將自己定位為英偉達(dá)GPU 驅(qū)動(dòng)的人工智能系統(tǒng)的替代品。這家初創(chuàng)公司的宣傳是:他們可以使用更少的芯片在 Cerebras 硬件上進(jìn)行 AI訓(xùn)練,而不是使用數(shù)千個(gè) GPU。據(jù)稱,一臺(tái)Cerebras服務(wù)器可以完成與 10 個(gè) GPU 機(jī)架相同的工作。

下圖是Cerebras WSE-3和英偉達(dá) H100的對(duì)比。

8cd2762a-e1e2-11ee-a297-92fbcf53809c.png

Cerebras 的獨(dú)特優(yōu)勢(shì)是將整個(gè)硅片直接轉(zhuǎn)化為單一巨大的處理器,從而大幅提升計(jì)算性能和效率。英偉達(dá)、AMD、英特爾公司往往會(huì)把一塊大晶圓切成多個(gè)小的部分來制造芯片,在充斥著 Infiniband、以太網(wǎng)、PCIe 和 NVLink 交換機(jī)的英偉達(dá)GPU 集群中,大量的功率和成本花費(fèi)在重新鏈接芯片上,Cerebras的方法極大地減少了芯片之間的數(shù)據(jù)傳輸延遲,提高了能效比,并且在AI和ML任務(wù)中實(shí)現(xiàn)了前所未有的計(jì)算速度。

02

Cerebras CS-3 系統(tǒng)

Cerebras CS-3 是第三代 Wafer Scale 系統(tǒng)。其頂部具有 MTP/MPO 光纖連接,以及用于冷卻的電源、風(fēng)扇和冗余泵。該系統(tǒng)及其新芯片在相同的功耗和價(jià)格下實(shí)現(xiàn)了大約 2 倍的性能飛躍。

8ce05114-e1e2-11ee-a297-92fbcf53809c.png

Cerebras WSE-3 的核心數(shù)量是英偉達(dá)的 H100 Tensor Core 的 52 倍。與 Nvidia DGX H100 系統(tǒng)相比,由 WSE-3 芯片驅(qū)動(dòng)的 Cerebras CS-3 系統(tǒng)的訓(xùn)練速度提高了 8 倍,內(nèi)存增加了 1,900 倍,并且可以訓(xùn)練多達(dá) 24 萬億個(gè)參數(shù)的 AI 模型,這是其 600 倍。Cerebras 高管表示,CS-3的能力比 DGX H100 的能力還要大。在 GPU 上訓(xùn)練需要 30 天的 Llama 700 億參數(shù)模型,使用CS-3 集群進(jìn)行訓(xùn)練只需要一天。

8ceb5910-e1e2-11ee-a297-92fbcf53809c.png8cfd537c-e1e2-11ee-a297-92fbcf53809c.png

CS-3可以配置為多達(dá)2048個(gè)系統(tǒng)的集群,可實(shí)現(xiàn)高達(dá) 256 exaFLOPs 的 AI 計(jì)算,專為快速訓(xùn)練 GPT-5 規(guī)模的模型而設(shè)計(jì)。

8d0abbca-e1e2-11ee-a297-92fbcf53809c.png

Cerebras CS-3 適用于 2048 節(jié)點(diǎn) 256EF 集群

8d1ef59a-e1e2-11ee-a297-92fbcf53809c.png

適用于 GPT 5 規(guī)模的 Cerebras CS-3 集群

03

Cerebras AI編程

Cerebras 聲稱其平臺(tái)比英偉達(dá)的平臺(tái)更易于使用,原因在于 Cerebras 存儲(chǔ)權(quán)重和激活的方式,Cerebras 不必?cái)U(kuò)展到系統(tǒng)中的多個(gè) GPU,然后擴(kuò)展到集群中的多個(gè) GPU 服務(wù)器。

8d2fa638-e1e2-11ee-a297-92fbcf53809c.png ?

除了代碼更改很容易之外,Cerebras 表示它的訓(xùn)練速度比 Meta GPU 集群更快。當(dāng)然,這只是理論上數(shù)據(jù),當(dāng)前還沒有任何 2048 個(gè) CS-3 集群已經(jīng)投入運(yùn)行,而 Meta 已經(jīng)有了 AI GPU 集群。

8d384e50-e1e2-11ee-a297-92fbcf53809c.png

Llama 70B Meta VS Cerebras CS-3 集群

04

Cerebras 與高通合作開發(fā)人工智能推理

Cerebras 和高通建立了合作伙伴關(guān)系,目標(biāo)是將推理成本降低 10 倍。Cerebras 表示,他們的解決方案將涉及應(yīng)用神經(jīng)網(wǎng)絡(luò)技術(shù),例如權(quán)重?cái)?shù)據(jù)壓縮等。該公司表示,經(jīng)過 Cerebras 訓(xùn)練的網(wǎng)絡(luò)將在高通公司的新型推理芯片AI 100 Ultra上高效運(yùn)行。

這項(xiàng)工作使用了四種主要技術(shù)來定制 Cerebras 訓(xùn)練的模型:

8d594312-e1e2-11ee-a297-92fbcf53809c.png

稀疏性是 Cerebras 的秘密武器之一,Cerebras 能夠在訓(xùn)練過程中利用動(dòng)態(tài)、非結(jié)構(gòu)化的稀疏性。高通的 Cloud AI100 具有對(duì)非結(jié)構(gòu)化稀疏性的硬件支持,這種稀疏協(xié)同可以使性能提高2.5倍。

推測(cè)解碼是一種前景廣闊但迄今為止難以有效實(shí)施的行業(yè)技術(shù),也被用來加快速度。這種技術(shù)使用一個(gè)大型LLM和一個(gè)小型LLM的組合來完成一個(gè)大型LLM的工作。小模型不太精確,但效率較高。大模型用于檢查小模型的合理性??傮w而言,組合效率更高,由于該技術(shù)總體上使用的計(jì)算量較少,因此速度可以提高 1.8 倍。

權(quán)重壓縮為 MxFP6,這是一種行業(yè) 6 位微指數(shù)格式,與 FP16 相比,可節(jié)省 39% 的 DRAM 空間。高通的編譯器將權(quán)重從 FP32 或 FP16 壓縮為 MxFP6,Cloud AI100 的矢量引擎在軟件中執(zhí)行即時(shí)解壓縮到 FP16。該技術(shù)可以將推理速度提高 2.2 倍。

神經(jīng)架構(gòu)搜索(NAS)是一種推理優(yōu)化技術(shù)。該技術(shù)在訓(xùn)練期間考慮了目標(biāo)硬件(Qualcomm Cloud AI 100)的優(yōu)點(diǎn)和缺點(diǎn),以支持在該硬件上高效運(yùn)行的層類型、操作和激活函數(shù)。Cerebras 和 Qualcomm 在 NAS 方面的工作使推理速度提高了一倍。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4793

    瀏覽量

    102423
  • 晶體管
    +關(guān)注

    關(guān)注

    77

    文章

    9499

    瀏覽量

    136927
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1828

    瀏覽量

    34663
  • 人工智能芯片
    +關(guān)注

    關(guān)注

    1

    文章

    118

    瀏覽量

    28246
  • DDR5
    +關(guān)注

    關(guān)注

    1

    文章

    409

    瀏覽量

    24035

原文標(biāo)題:初創(chuàng)公司Cerebras 推出 WSE-3 AI 芯片,聲稱“吊打”英偉達(dá) H100

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英偉達(dá)發(fā)布新一代H200,搭載HBM3e,推理速度是H100!

    200和B100兩款芯片。來源:英偉達(dá)官網(wǎng) ? 首款搭載HBM3e 的GPU ,推理速度幾乎是H100 的兩 ? 與A
    的頭像 發(fā)表于 11-15 01:15 ?3104次閱讀
    英偉達(dá)發(fā)布新一代<b class='flag-5'>H</b>200,搭載HBM<b class='flag-5'>3</b>e,推理速度是<b class='flag-5'>H100</b>兩<b class='flag-5'>倍</b>!

    馬斯克自曝訓(xùn)練Grok 3用了10萬塊NVIDIA H100

    在科技界的前沿陣地上,埃隆·馬斯克再次以其前瞻性的視野和大膽的嘗試引領(lǐng)著新的風(fēng)潮。近日,馬斯克在社交媒體X上的一則回應(yīng),不經(jīng)意間透露了其即將推出AI聊天機(jī)器人Grok 3背后的驚人秘密——這款被馬斯克譽(yù)為“非常特別”的
    的頭像 發(fā)表于 07-03 14:16 ?360次閱讀

    英特爾發(fā)布人工智能芯片新版,對(duì)標(biāo)Nvidia

    為應(yīng)對(duì)AI行業(yè)對(duì)高性能芯片的巨大需求,英特爾推出了全新Gaudi 3芯片,據(jù)稱這一款芯片在訓(xùn)練大
    的頭像 發(fā)表于 04-10 09:26 ?270次閱讀

    世界第一AI芯片發(fā)布!世界紀(jì)錄直接翻倍 晶體管達(dá)4萬億個(gè)

    3月14日消息,今天,美國(guó)芯片初創(chuàng)公司Cerebras Systems,推出了全球最強(qiáng)的第三代晶圓級(jí)AI加速
    的頭像 發(fā)表于 03-21 17:34 ?451次閱讀

    Cerebras推出性能翻倍的WSE-3 AI芯片

    Cerebras Systems近日推出的Wafer Scale Engine 3WSE-3芯片無疑在人工智能領(lǐng)域掀起了一場(chǎng)革命。這款
    的頭像 發(fā)表于 03-20 11:32 ?724次閱讀

    Cerebras Systems推出迄今最快AI芯片,搭載4萬億晶體管

    美國(guó)芯片初創(chuàng)企業(yè)Cerebras Systems近日在人工智能領(lǐng)域取得了重大突破,成功推出了全新的5納米級(jí)“晶圓級(jí)引擎3”(WSE-3
    的頭像 發(fā)表于 03-19 11:29 ?626次閱讀

    最強(qiáng)AI芯片發(fā)布,Cerebras推出性能翻倍的WSE-3 AI芯片

    近日,芯片行業(yè)的領(lǐng)軍企業(yè)Cerebras Systems宣布推出其革命性的產(chǎn)品——Wafer Scale Engine 3,該產(chǎn)品成功將現(xiàn)有最快AI
    的頭像 發(fā)表于 03-19 09:31 ?891次閱讀
    最強(qiáng)<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>發(fā)布,<b class='flag-5'>Cerebras</b><b class='flag-5'>推出</b>性能翻倍的<b class='flag-5'>WSE-3</b> <b class='flag-5'>AI</b><b class='flag-5'>芯片</b>

    Cerebras發(fā)布WSE-3 AI芯片,性能翻倍達(dá)4萬億晶體,能耗不變

    該款 WSE-3 AI芯片幾乎完全由一塊12英寸晶圓構(gòu)成,形如邊長(zhǎng)21.5厘米之正方體。這款芯片設(shè)有90萬個(gè) AI 內(nèi)核,理論上可輸出每秒1
    的頭像 發(fā)表于 03-18 16:37 ?724次閱讀

    AI芯片界掀起狂潮,WSE-3性能飆升刷新紀(jì)錄!

    WSE-3采用了4萬億晶體管的5納米工藝制程,工藝水平達(dá)到了驚人的高度。
    的頭像 發(fā)表于 03-15 16:08 ?759次閱讀

    CerebrasWSE-3芯片,性能翻倍,助力超大規(guī)模AI模型訓(xùn)練

    首先,WSE-3采用臺(tái)積電最新的5nm工藝制作(目前領(lǐng)先業(yè)界)。其次,該芯片擁有超過4萬億個(gè)晶體管以及90萬個(gè)AI核心,配合44GB片上SRAM高速緩存及三種可選片外存儲(chǔ)方案(分別是1.5TB、12TB與1.2PB)。
    的頭像 發(fā)表于 03-14 10:01 ?606次閱讀

    英偉達(dá)H200和H100的比較

    英偉達(dá)H200和H100是兩款不同的AI芯片,它們各自具有獨(dú)特的特點(diǎn)和優(yōu)勢(shì)。以下是關(guān)于這兩款芯片的一些比較。
    的頭像 發(fā)表于 03-07 15:53 ?3349次閱讀

    英偉達(dá)推出新款AI芯片H200 性能飆升90%但是估計(jì)依然被出口管制

    生成式AI火爆全球之后,英偉達(dá)的AI芯片一張難求,就在英偉達(dá)重量級(jí)選手H100 AI芯片目前依然
    的頭像 發(fā)表于 11-14 16:45 ?1333次閱讀
    英偉達(dá)<b class='flag-5'>推出</b>新款<b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>H</b>200 性能飆升90%但是估計(jì)依然被出口管制

    英偉達(dá)推升級(jí)版AI芯片H200 亞馬遜、Google、甲骨文明年采用

    報(bào)告稱,雖然對(duì)被稱為“ai加速器芯片”的英偉達(dá)h100的最新版本的需求很大,但amd表示,將在第四季度推出本公司的競(jìng)爭(zhēng)產(chǎn)品mi300,而英特爾將推出
    的頭像 發(fā)表于 11-14 11:18 ?736次閱讀

    揭秘:英偉達(dá)H100最強(qiáng)替代者

    目前,用于高端推理的 GPU 主要有三種:NVIDIA A100、NVIDIA H100 和新的 NVIDIA L40S。我們將跳過
    的頭像 發(fā)表于 11-13 16:13 ?1254次閱讀
    揭秘:英偉達(dá)<b class='flag-5'>H100</b>最強(qiáng)替代者

    傳英偉達(dá)新AI芯片H20綜合算力H100降80%

    但據(jù)悉,三種新型AI芯片不是“改良型”,而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計(jì)算速度是有限的。整體計(jì)算能力理論上
    的頭像 發(fā)表于 11-13 09:41 ?1440次閱讀