0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌采用全新AI架構(gòu),晶體管性能得到巨幅提升

獨(dú)愛(ài)72H ? 來(lái)源:機(jī)器之心Pro ? 作者:機(jī)器之心Pro ? 2019-11-20 15:25 ? 次閱讀

(文章來(lái)源:機(jī)器之心Pro)

TSP 的全稱是 Tensor Streaming Processor,專為機(jī)器學(xué)習(xí)AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實(shí)現(xiàn)每秒 1000 萬(wàn)億(10 的 15 次方)次運(yùn)算,是全球首個(gè)實(shí)現(xiàn)該級(jí)別性能的架構(gòu),其浮點(diǎn)運(yùn)算性能可達(dá)每秒 250 萬(wàn)億次(TFLOPS)。在摩爾定律走向消亡的背景下,這一架構(gòu)的問(wèn)世標(biāo)志著芯片之爭(zhēng)從晶體管轉(zhuǎn)向架構(gòu)。

250 TFLOPS 浮點(diǎn)運(yùn)算性能是什么概念?目前的世界第一超級(jí)計(jì)算機(jī) Summit,其峰值算力為 200,794.9 TFLOPS,它的背后是 28,000 塊英偉達(dá) Volta GPU。如果 TSP 達(dá)到了類似的效率,僅需 803 塊就可以實(shí)現(xiàn)同樣的性能。Groq 在一份白皮書中介紹了這項(xiàng)全新的架構(gòu)設(shè)計(jì)。此外,他們還將在于美國(guó)丹佛舉辦的第 23 屆國(guó)際超算高峰論壇上展示這一成果。

我們?yōu)檫@一行業(yè)和我們的客戶感到興奮,Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示。頂級(jí) GPU 公司都在宣稱他們有望在未來(lái)幾年向用戶交付一款每秒百萬(wàn)億次運(yùn)算性能的產(chǎn)品,但 Groq 現(xiàn)在就做到了,而且建立了一個(gè)新的性能標(biāo)準(zhǔn)。就低延遲和推理速度而言,Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動(dòng)證明了這一點(diǎn)。

Groq 的 TSP 架構(gòu)是專為計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)和其他 AI 相關(guān)工作負(fù)載的性能要求設(shè)計(jì)的。對(duì)于一大批需要深度學(xué)習(xí)推理運(yùn)算的應(yīng)用來(lái)說(shuō),Groq 的解決方案是非常理想的選擇,Groq 的首席架構(gòu)師 Dennis Abts 表示,但除此之外,Groq 的架構(gòu)還能用于廣泛的工作負(fù)載。它的性能和簡(jiǎn)潔性使其成為所有高性能即數(shù)據(jù)和計(jì)算密集型工作復(fù)雜的理想平臺(tái)。

Groq 的這款架構(gòu)受到軟件優(yōu)先(software first)理念的啟發(fā)。它在 Groq 開(kāi)發(fā)的 TSP 中實(shí)現(xiàn),為實(shí)現(xiàn)計(jì)算靈活性和大規(guī)模并行計(jì)算提供了一種新的范式,但沒(méi)有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開(kāi)銷。在 Groq 的架構(gòu)中,Groq 編譯器負(fù)責(zé)編碼所有內(nèi)容:數(shù)據(jù)流入芯片,并在正確的時(shí)間和正確的地點(diǎn)插入,以確保計(jì)算實(shí)時(shí)進(jìn)行,沒(méi)有停頓。執(zhí)行規(guī)劃由軟件負(fù)責(zé),這樣就可以釋放出原本要用于動(dòng)態(tài)指令執(zhí)行的寶貴硬件資源。

在傳統(tǒng)的體系架構(gòu)中,將數(shù)據(jù)從 DRAM 移動(dòng)到處理器需要大量的算力和時(shí)間,而且相同工作負(fù)載上的處理性能也是可變的。在典型的工作流中,開(kāi)發(fā)人員通過(guò)反復(fù)運(yùn)行工作負(fù)載或程序來(lái)對(duì)其進(jìn)行配置和測(cè)試,以驗(yàn)證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同,這種處理可能會(huì)得到略有差別的結(jié)果,而開(kāi)發(fā)人員的工作就是手動(dòng)調(diào)整程序以達(dá)到預(yù)定的可靠性級(jí)別。

但有了 Groq 的硬件和軟件,編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個(gè)計(jì)算所需的時(shí)間。編譯器在正確的時(shí)間將數(shù)據(jù)和指令移動(dòng)到正確的位置,這樣就不會(huì)有延遲。到達(dá)硬件的指令流是完全編排好的,使得處理速度更快,而且可預(yù)測(cè)。開(kāi)發(fā)人員可以在 Groq 芯片上運(yùn)行相同的模型 100 次,每次得到的結(jié)果都完全相同。對(duì)于安全和準(zhǔn)確性要求都非常高的應(yīng)用來(lái)說(shuō)(如自動(dòng)駕駛汽車),這種計(jì)算上的準(zhǔn)確性至關(guān)重要。

另外,使用 Groq 硬件設(shè)計(jì)的系統(tǒng)不會(huì)受到長(zhǎng)尾延遲的影響,AI 系統(tǒng)可以在特定的功率或延遲預(yù)算內(nèi)進(jìn)行調(diào)整。這種軟件優(yōu)先的設(shè)計(jì)(即編譯器決定硬件架構(gòu))理念幫助 Groq 設(shè)計(jì)出了一款簡(jiǎn)單、高性能的架構(gòu),可以加速推理流程。該架構(gòu)既支持傳統(tǒng)的機(jī)器學(xué)習(xí)模型,也支持新的計(jì)算學(xué)習(xí)模型,目前在 x86 和非 x86 系統(tǒng)的客戶站點(diǎn)上運(yùn)行。

為了滿足深度學(xué)習(xí)等計(jì)算密集型任務(wù)的需求,芯片的設(shè)計(jì)似乎正在變得越來(lái)越復(fù)雜。但 Groq 認(rèn)為,這種趨勢(shì)從根本上就是錯(cuò)誤的。他們?cè)诎灼兄赋觯?dāng)前處理器架構(gòu)的復(fù)雜性已經(jīng)成為阻礙開(kāi)發(fā)者生產(chǎn)和 AI 應(yīng)用部署的主要障礙。當(dāng)前處理器的復(fù)雜性降低了開(kāi)發(fā)者工作效率,再加上摩爾定律逐漸變慢,實(shí)現(xiàn)更高的計(jì)算性能變得越來(lái)越困難。

Groq 的芯片設(shè)計(jì)降低了傳統(tǒng)硬件開(kāi)發(fā)的復(fù)雜度,因此開(kāi)發(fā)者可以更加專注于算法(或解決其他問(wèn)題),而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡(jiǎn)單的硬件設(shè)計(jì),開(kāi)發(fā)者無(wú)需進(jìn)行剖析研究(profiling),因此可以節(jié)省資源,更容易大規(guī)模部署 AI 應(yīng)用。與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復(fù)雜架構(gòu)相比,Groq 的芯片還簡(jiǎn)化了認(rèn)證和部署,使客戶能夠簡(jiǎn)單而快速地實(shí)現(xiàn)可擴(kuò)展、單瓦高性能的系統(tǒng)。

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當(dāng)前領(lǐng)先的 GPU、CPU 相比,Groq 處理器的每個(gè)晶體管可以實(shí)現(xiàn) 3-6 倍的性能提升。這一改進(jìn)意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是,Groq 的架構(gòu)使用起來(lái)更加簡(jiǎn)單,而且性能高于傳統(tǒng)計(jì)算平臺(tái)。
(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104372
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1828

    瀏覽量

    34668
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    晶體管對(duì)CPU性能的影響

    晶體管作為CPU(中央處理器)的基本構(gòu)成單元,對(duì)CPU的性能有著至關(guān)重要的影響。
    的頭像 發(fā)表于 09-13 17:22 ?185次閱讀

    CMOS晶體管的尺寸規(guī)則

    CMOS晶體管尺寸規(guī)則是一個(gè)復(fù)雜且關(guān)鍵的設(shè)計(jì)領(lǐng)域,它涉及到多個(gè)方面的考量,包括晶體管性能、功耗、面積利用率以及制造工藝等。以下將從CMOS晶體管的基本結(jié)構(gòu)、尺寸對(duì)
    的頭像 發(fā)表于 09-13 14:10 ?194次閱讀

    NMOS晶體管和PMOS晶體管的區(qū)別

    NMOS晶體管和PMOS晶體管是兩種常見(jiàn)的金屬氧化物半導(dǎo)體場(chǎng)效應(yīng)晶體管(MOSFET)類型,它們?cè)诙鄠€(gè)方面存在顯著的差異。以下將從結(jié)構(gòu)、工作原理、性能特點(diǎn)、應(yīng)用場(chǎng)景等方面詳細(xì)闡述NMO
    的頭像 發(fā)表于 09-13 14:10 ?218次閱讀

    CMOS晶體管和MOSFET晶體管的區(qū)別

    CMOS晶體管和MOSFET晶體管在電子領(lǐng)域中都扮演著重要角色,但它們?cè)诮Y(jié)構(gòu)、工作原理和應(yīng)用方面存在顯著的區(qū)別。以下是對(duì)兩者區(qū)別的詳細(xì)闡述。
    的頭像 發(fā)表于 09-13 14:09 ?246次閱讀

    GaN晶體管和SiC晶體管有什么不同

    GaN(氮化鎵)晶體管和SiC(碳化硅)晶體管作為兩種先進(jìn)的功率半導(dǎo)體器件,在電力電子、高頻通信及高溫高壓應(yīng)用等領(lǐng)域展現(xiàn)出了顯著的優(yōu)勢(shì)。然而,它們?cè)诓牧咸匦浴?b class='flag-5'>性能表現(xiàn)、應(yīng)用場(chǎng)景以及制造工藝等方面存在諸多不同。以下是對(duì)這兩種
    的頭像 發(fā)表于 08-15 11:16 ?330次閱讀

    GaN晶體管的基本結(jié)構(gòu)和性能優(yōu)勢(shì)

    GaN(氮化鎵)晶體管,特別是GaN HEMT(高電子遷移率晶體管),是近年來(lái)在電力電子和高頻通信領(lǐng)域受到廣泛關(guān)注的一種新型功率器件。其結(jié)構(gòu)復(fù)雜而精細(xì),融合了多種材料和工藝,以實(shí)現(xiàn)高效、高頻率和高功率密度的性能。
    的頭像 發(fā)表于 08-15 11:01 ?440次閱讀

    芯片晶體管的深度和寬度有關(guān)系嗎

    一、引言 有關(guān)系。隨著集成電路技術(shù)的飛速發(fā)展,芯片晶體管作為電子設(shè)備的核心元件,其性能的優(yōu)化和制造技術(shù)的提升成為了行業(yè)關(guān)注的焦點(diǎn)。在晶體管的眾多設(shè)計(jì)參數(shù)中,深度和寬度是兩個(gè)至關(guān)重要的因
    的頭像 發(fā)表于 07-18 17:23 ?344次閱讀

    什么是光電晶體管?光電晶體管的工作原理和結(jié)構(gòu)

    光電晶體管是具有三個(gè)端子(發(fā)射極、基極和集電極)或兩個(gè)端子(發(fā)射極和集電極)的半導(dǎo)體器件,并具有光敏基極區(qū)域。雖然所有晶體管都對(duì)光敏感,但光電晶體管專門針對(duì)光檢測(cè)進(jìn)行了優(yōu)化。它們采用擴(kuò)
    的頭像 發(fā)表于 07-01 18:13 ?1047次閱讀
    什么是光電<b class='flag-5'>晶體管</b>?光電<b class='flag-5'>晶體管</b>的工作原理和結(jié)構(gòu)

    PNP晶體管符號(hào)和結(jié)構(gòu) 晶體管測(cè)試儀電路圖

    PNP晶體管是一種雙極性晶體管,用于電子電路中放大、開(kāi)關(guān)和控制電流的器件。與NPN晶體管相對(duì)應(yīng),PNP晶體管的結(jié)構(gòu)特點(diǎn)在于其三個(gè)不同的半導(dǎo)體區(qū)域:正極(P型)、負(fù)極(N型)、正極(P型
    的頭像 發(fā)表于 07-01 17:45 ?927次閱讀
    PNP<b class='flag-5'>晶體管</b>符號(hào)和結(jié)構(gòu) <b class='flag-5'>晶體管</b>測(cè)試儀電路圖

    晶體管測(cè)試儀的主要作用

    晶體管測(cè)試儀是一種專門用于測(cè)試晶體管的電子設(shè)備,也被稱為晶體管特性圖示儀。它的主要工作原理是利用測(cè)試電路對(duì)晶體管的各個(gè)參數(shù)進(jìn)行測(cè)量,從而評(píng)估晶體管
    的頭像 發(fā)表于 05-09 16:37 ?608次閱讀

    蘋果M3芯片有多少晶體管組成

    蘋果M3芯片在晶體管數(shù)量上有了顯著的提升。具體來(lái)說(shuō),標(biāo)準(zhǔn)版的M3芯片內(nèi)部集成了250億個(gè)晶體管,相比前代M2芯片多了50億個(gè)。這一數(shù)量的增加為M3芯片帶來(lái)了更為強(qiáng)大的性能,無(wú)論是處理日
    的頭像 發(fā)表于 03-08 17:00 ?833次閱讀

    什么是達(dá)林頓晶體管?達(dá)林頓晶體管的基本電路

    達(dá)林頓晶體管(Darlington Transistor)也稱為達(dá)林頓對(duì)(Darlington Pair),是由兩個(gè)或更多個(gè)雙極性晶體管(或其他類似的集成電路或分立元件)組成的復(fù)合結(jié)構(gòu)。通過(guò)這種結(jié)構(gòu),第一個(gè)雙極性晶體管放大的電流
    的頭像 發(fā)表于 02-27 15:50 ?3662次閱讀
    什么是達(dá)林頓<b class='flag-5'>晶體管</b>?達(dá)林頓<b class='flag-5'>晶體管</b>的基本電路

    晶體管測(cè)試儀電路圖分享

    晶體管測(cè)試儀是一種專門用于測(cè)試晶體管的電子設(shè)備,也被稱為晶體管特性圖示儀。其主要工作原理是利用測(cè)試電路對(duì)晶體管的各個(gè)參數(shù)進(jìn)行測(cè)量,從而評(píng)估晶體管
    的頭像 發(fā)表于 02-12 14:17 ?3437次閱讀
    <b class='flag-5'>晶體管</b>測(cè)試儀電路圖分享

    在特殊類型晶體管的時(shí)候如何分析?

    管子多用于集成放大電路中的電流源電路。 請(qǐng)問(wèn)對(duì)于這種多發(fā)射極或多集電極的晶體管時(shí)候該如何分析?按照我的理解,在含有多發(fā)射極或多集電極的晶體管電路時(shí),如果多發(fā)射極或多集電極的每一極分別接到獨(dú)立的電源回路中
    發(fā)表于 01-21 13:47

    性能翻倍的新型納米片晶體管

    IBM 的概念納米片晶體管在氮沸點(diǎn)下表現(xiàn)出近乎兩倍的性能提升。這一成就預(yù)計(jì)將帶來(lái)多項(xiàng)技術(shù)進(jìn)步,并可能為納米片晶體管取代 FinFET 鋪平道路。更令人興奮的是,它可能會(huì)導(dǎo)致更強(qiáng)大的芯片
    的頭像 發(fā)表于 12-26 10:12 ?488次閱讀