0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型將會(huì)推動(dòng)手機(jī)內(nèi)存和AI加速器革新?

jf_BPGiaoE5 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-07-19 09:52 ? 次閱讀

人工智能已經(jīng)成為半導(dǎo)體行業(yè)過去幾年最重要的新推動(dòng)力。而去年以ChatGPT為代表的大模型更是進(jìn)一步點(diǎn)燃了人工智能以及相關(guān)的芯片市場(chǎng),ChatGPT背后的大模型正在成為下一代人工智能的代表并可望進(jìn)一步推進(jìn)新的應(yīng)用誕生。

說起大模型,一般我們想到的往往是在云端服務(wù)器上運(yùn)行模型。然而,事實(shí)上大模型已經(jīng)在走入終端設(shè)備。一方面,目前已經(jīng)有相當(dāng)多的工作證明了大模型經(jīng)過適當(dāng)處理事實(shí)上可以運(yùn)行在終端設(shè)備上(而不局限于運(yùn)行在云端服務(wù)器);另一方面,大模型運(yùn)行在終端設(shè)備上也會(huì)給用戶帶來很大的價(jià)值。因此,我們認(rèn)為在未來幾年內(nèi),大模型將會(huì)越來越多地運(yùn)行在終端設(shè)備上,而這也會(huì)推動(dòng)相關(guān)芯片技術(shù)和行業(yè)的進(jìn)一步發(fā)展。

智能汽車是大模型運(yùn)行在終端的第一個(gè)重要市場(chǎng)。從應(yīng)用角度來看,大模型運(yùn)行在智能汽車的首要推動(dòng)力就是大模型確實(shí)能給智能駕駛相關(guān)的任務(wù)帶來客觀的性能提升。去年,以BEVformer為代表的端到端鳥瞰攝像頭大模型可以說是大模型在智能汽車領(lǐng)域的第一個(gè)里程碑,它把多個(gè)攝像頭的視頻流直接輸入使用transformer模塊的大模型做計(jì)算,最后的性能比之前使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的結(jié)果好了接近10個(gè)點(diǎn),這個(gè)可謂是革命性的變化。而在上個(gè)月召開的CVPR上,商湯科技發(fā)布的UniAD大模型更是使用單個(gè)視覺大模型在經(jīng)過統(tǒng)一訓(xùn)練后去適配多個(gè)不同的下游任務(wù),最后在多個(gè)任務(wù)中都大大超越了現(xiàn)有最好的模型:例如,多目標(biāo)跟蹤準(zhǔn)確率超越了20%,車道線預(yù)測(cè)準(zhǔn)確率提升 30%,預(yù)測(cè)運(yùn)動(dòng)位移和規(guī)劃的誤差則分別降低了 38% 和 28%。

目前,汽車企業(yè)(尤其是造車新勢(shì)力)已經(jīng)在積極擁抱這些智能汽車的大模型,BEVformer(以及相關(guān)的模型)已經(jīng)被不少車企使用,我們預(yù)計(jì)下一代大模型也將會(huì)在未來幾年逐漸進(jìn)入智能駕駛。如果從應(yīng)用角度考慮,智能汽車上的大模型必須要在終端設(shè)備上運(yùn)行,因?yàn)橹悄芷噷?duì)于模型運(yùn)行的可靠性和延遲要求非常高,在云端運(yùn)行大模型并且使用網(wǎng)絡(luò)把結(jié)果傳送到終端無法滿足智能汽車的需求。

wKgaomS3QkCAStKFAAOzw2nWy1w295.jpg

商湯科技提出的UniAD大模型架構(gòu),使用統(tǒng)一模型去適配多個(gè)任務(wù)

除了智能汽車之外,手機(jī)也是大模型進(jìn)入終端的另一個(gè)重要市場(chǎng)。以ChatGPT為代表的語言類大模型事實(shí)上已經(jīng)成為了下一代用戶交互的重要組成部分,因此在手機(jī)上使用大語言模型將會(huì)能把這樣的新用戶交互體驗(yàn)帶入手機(jī)操作系統(tǒng)中。而在手機(jī)設(shè)備終端直接運(yùn)行大語言模型的主要好處在于能夠在保護(hù)用戶隱私的情況下給用戶帶來個(gè)性化的體驗(yàn)(例如歸納和某個(gè)用戶的聊天記錄等等)。目前,開源社區(qū)已經(jīng)可以把Llama大語言模型能夠運(yùn)行在安卓手機(jī)CPU,回答一個(gè)問題大約需要5-10秒的時(shí)間,我們認(rèn)為未來的潛力巨大。

智能汽車芯片加速大模型:算力與功耗成為關(guān)鍵

目前,人工智能已經(jīng)在智能汽車的輔助駕駛應(yīng)用中得到了廣泛應(yīng)用,因此大多數(shù)智能汽車上使用的芯片也有對(duì)于人工智能的支持,例如加入人工智能加速器等。然而,這些人工智能加速器主要考慮的加速對(duì)象模型仍然是上一代以卷積神經(jīng)網(wǎng)絡(luò)為代表的模型,這些模型往往參數(shù)量比較小,對(duì)于算力的需求也比較低。

為了適配下一代大模型,智能汽車芯片會(huì)有相應(yīng)的改動(dòng)。下一代大模型對(duì)于智能汽車芯片的要求主要包括:

1 大算力:由于智能汽車上的相關(guān)感知和規(guī)劃任務(wù)都必須在實(shí)時(shí)完成,因此相關(guān)芯片必須能夠提供足夠的算力來支持這樣的計(jì)算
2 低功耗:智能汽車上的計(jì)算功耗仍然有限制,考慮到散熱等因素,芯片不可能做到像GPU一樣有幾百瓦的功耗
3 合理的成本:智能汽車上的芯片不能像GPU一樣成本高達(dá)數(shù)千美元。因此,智能汽車上的大模型加速芯片主要考慮的就是如何在功耗和成本的限制下,實(shí)現(xiàn)盡可能高的算力。

我們可以從目前最成功的大模型加速芯片(即GPU)出發(fā)去推測(cè)支持大模型智能汽車芯片的具體架構(gòu),考慮GPU上有哪些設(shè)計(jì)思路需要進(jìn)一步發(fā)揚(yáng)光大,另外有哪些應(yīng)該考慮重新設(shè)計(jì)。

首先,GPU上有海量的矩陣計(jì)算單元,這些計(jì)算單元是GPU算力的核心支撐(與之相對(duì)的,CPU上缺乏這些海量的矩陣計(jì)算單元因此算力無論如何不可能高上去),這些計(jì)算單元在智能汽車芯片上同樣也是必須的;但是由于智能汽車芯片上的計(jì)算不用考慮GPU上對(duì)于數(shù)據(jù)流和算子通用性的支持,因此智能汽車芯片上無需做GPU上這樣的大量stream core,因此從控制邏輯的角度可以做簡(jiǎn)化以減少芯片面積成本。

第二,GPU能成功運(yùn)行大模型的另一個(gè)關(guān)鍵在于有超高速的內(nèi)存接口和海量的內(nèi)存,因?yàn)槟壳按竽P偷膮?shù)量動(dòng)輒千億級(jí),這些模型必須有相應(yīng)的內(nèi)存支持。這一點(diǎn)在智能車芯片上同樣需要,只是智能汽車芯片未必能使用GPU上的HBM這樣的超高端(同時(shí)也是高成本)內(nèi)存,而是會(huì)考慮和架構(gòu)協(xié)同設(shè)計(jì)來盡可能地利用LPDDR這樣的接口的帶寬。

第三,GPU有很好的規(guī)?;头植际接?jì)算能力,當(dāng)模型無法在一個(gè)GPU上裝下時(shí),GPU可以方便地把模型分割成多個(gè)子模型在多個(gè)GPU上做計(jì)算。智能車芯片也可以考慮這樣的架構(gòu),從而確保汽車可以在使用周期內(nèi)滿足日新月異的模型的需求。

綜合上述考慮,我們推測(cè)針對(duì)大模型的智能車芯片架構(gòu)中,可能會(huì)有多個(gè)人工智能加速器同時(shí)運(yùn)行,每個(gè)加速器都有簡(jiǎn)單的設(shè)計(jì)(例如一個(gè)簡(jiǎn)單的控制核配合大量計(jì)算單元),搭配大內(nèi)存和高速內(nèi)存接口,并且加速器之間通過高速互聯(lián)互相通信從而可以以本地分布計(jì)算的方法來加速大模型。從這個(gè)角度,我們認(rèn)為智能駕駛芯片中的內(nèi)存和內(nèi)存接口將會(huì)扮演決定性的角色,而另一方面,這樣的架構(gòu)也非常適合使用chiplet的方式來實(shí)現(xiàn)每個(gè)加速器并且使用高級(jí)封裝技術(shù)(包括2.5D和3D封裝)來完成多個(gè)加速器的整合,換句話說大模型在智能汽車的應(yīng)用將會(huì)進(jìn)一步推動(dòng)下一代內(nèi)存接口和高級(jí)封裝技術(shù)的普及和演進(jìn)。

大模型將會(huì)推動(dòng)手機(jī)內(nèi)存和AI加速器革新

如前所述,大模型進(jìn)入手機(jī)將會(huì)把下一代用戶交互范式帶入手機(jī)。我們認(rèn)為,大模型進(jìn)入手機(jī)將會(huì)是一個(gè)漸進(jìn)的過程:例如,目前的大語言模型,即使是小版本的Llama 70億參數(shù)的模型,也沒法完全裝入手機(jī)的內(nèi)存中,而必須部分放在手機(jī)的閃存中運(yùn)行,這就導(dǎo)致了運(yùn)行速度比較慢。在未來的幾年中,我們認(rèn)為手機(jī)上面的大語言模型會(huì)首先從更小的版本(例如10億參數(shù)以下的模型)開始進(jìn)入應(yīng)用,然后再逐漸增大參數(shù)量。

從這個(gè)角度來看,手機(jī)上運(yùn)行大模型仍然會(huì)加速推動(dòng)手機(jī)芯片在相關(guān)領(lǐng)域的發(fā)展,尤其是內(nèi)存和AI加速器領(lǐng)域——畢竟目前主流運(yùn)行在手機(jī)上的模型參數(shù)量都小于10M,大語言模型的參數(shù)量大了兩個(gè)數(shù)量級(jí),而且未來模型參數(shù)量會(huì)快速增大。這一方面將會(huì)推動(dòng)手機(jī)內(nèi)存以及接口技術(shù)以更快的速度進(jìn)化——為了滿足大模型的需求,未來我們可望會(huì)看到手機(jī)內(nèi)存芯片容量增長更快,而且手機(jī)內(nèi)存接口帶寬也會(huì)加快發(fā)展速度,因?yàn)槟壳皝砜磧?nèi)存實(shí)際上是大模型的瓶頸。

除了內(nèi)存之外,手機(jī)芯片上的人工智能加速器也會(huì)為了大模型而做出相關(guān)的改變。目前手機(jī)芯片上的人工智能加速器(例如各種NPU IP)幾乎已經(jīng)是標(biāo)配,但是這些加速器的設(shè)計(jì)基本上是針對(duì)上一代卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),因此在設(shè)計(jì)上并不完全針對(duì)大模型。為了適配大模型,人工智能加速器首先必須能有更大的內(nèi)存訪問帶寬并減少內(nèi)存訪問延遲,這一方面需要人工智能加速器的接口上做出一些改變(例如分配更多的pin給內(nèi)存接口),另一方面需要片上數(shù)據(jù)互聯(lián)做出相應(yīng)的改變來滿足人工智能加速器訪存的需求。

除此之外,在加速器內(nèi)部邏輯設(shè)計(jì)上,我們認(rèn)為可能會(huì)更加激進(jìn)地推進(jìn)低精度量化計(jì)算(例如4bit甚至2bit)和稀疏計(jì)算,目前的學(xué)術(shù)界研究表明大語言模型有較大的機(jī)會(huì)可以做這樣的低精度量化/稀疏化,而如果能量化到例如4bit的話,就會(huì)大大減小相關(guān)計(jì)算單元需要的芯片面積,同時(shí)也能減小模型在內(nèi)存中需要的空間(例如4bit量化精度相對(duì)于之前的標(biāo)準(zhǔn)8bit精度就會(huì)內(nèi)存需求減半),這預(yù)計(jì)也會(huì)是未來針對(duì)手機(jī)端人工智能加速器的設(shè)計(jì)方向。

根據(jù)上述分析,我們預(yù)計(jì)從市場(chǎng)角度手機(jī)內(nèi)存芯片將會(huì)借著手機(jī)大模型的東風(fēng)變得更重要,預(yù)計(jì)會(huì)在未來看到相比之前更快的發(fā)展,包括大容量內(nèi)存以及高速內(nèi)存接口。另一方面,手機(jī)端人工智能加速器IP也會(huì)迎來新的需求和發(fā)展,我們預(yù)計(jì)相關(guān)市場(chǎng)會(huì)變得更加熱鬧一些。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    334

    文章

    26920

    瀏覽量

    214807
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46705

    瀏覽量

    237219
  • 智能汽車
    +關(guān)注

    關(guān)注

    30

    文章

    2758

    瀏覽量

    107096
  • 卷積神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    4

    文章

    359

    瀏覽量

    11832
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1547

    瀏覽量

    7398

原文標(biāo)題:大模型走向終端,芯片怎么辦?

文章出處:【微信號(hào):光刻人的世界,微信公眾號(hào):光刻人的世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    拋棄8GB內(nèi)存,端側(cè)AI模型加速內(nèi)存升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)端側(cè)AI模型的到來在存儲(chǔ)市場(chǎng)產(chǎn)生了最直接的反應(yīng)。年初在我們對(duì)旗艦智能手機(jī)的存儲(chǔ)容量統(tǒng)計(jì)中,16GB內(nèi)存+512GB存儲(chǔ)成為幾乎所有旗艦機(jī)型都提供的選擇。
    的頭像 發(fā)表于 11-03 00:02 ?3326次閱讀
    拋棄8GB<b class='flag-5'>內(nèi)存</b>,端側(cè)<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b><b class='flag-5'>內(nèi)存</b>升級(jí)

    AMD Alveo V80計(jì)算加速器網(wǎng)絡(luò)研討會(huì)

    歡迎參加本次網(wǎng)絡(luò)研討會(huì),我們將深入探討 AMD Alveo V80 計(jì)算加速器如何幫助您處理高性能計(jì)算、數(shù)據(jù)分析、金融科技、網(wǎng)絡(luò)安全、存儲(chǔ)加速、AI 計(jì)算等領(lǐng)域的內(nèi)存密集型工作負(fù)載。A
    的頭像 發(fā)表于 11-08 09:35 ?98次閱讀

    SiFive發(fā)布MX系列高性能AI加速器IP

    AI技術(shù)日新月異的今天,RISC-V IP設(shè)計(jì)領(lǐng)域的領(lǐng)軍企業(yè)SiFive再次引領(lǐng)行業(yè)潮流,正式推出了其革命性的SiFive Intelligence XM系列高性能AI加速器IP。這一創(chuàng)新產(chǎn)品專為
    的頭像 發(fā)表于 09-24 14:46 ?290次閱讀

    KAIST開發(fā)出高性能人工智能加速器技術(shù)

    在人工智能(AI)技術(shù)日新月異的今天,大規(guī)模AI模型的部署與應(yīng)用正以前所未有的速度推動(dòng)著科技進(jìn)步與產(chǎn)業(yè)升級(jí)。然而,隨著模型復(fù)雜度和數(shù)據(jù)量的爆
    的頭像 發(fā)表于 07-12 09:59 ?504次閱讀

    美國限制向中東AI加速器出口,審查國家安全

    AI加速器能協(xié)助數(shù)據(jù)中心處理大量人工智能聊天機(jī)器人和其他工具的開發(fā)信息。如今,它們已然成為構(gòu)建AI基礎(chǔ)設(shè)施的企業(yè)和政府的必需品。
    的頭像 發(fā)表于 05-31 09:20 ?511次閱讀

    Arm發(fā)布新一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國產(chǎn)CPU市場(chǎng)

    Arm發(fā)布的新一代Ethos-U AI加速器確實(shí)在業(yè)界引起了廣泛關(guān)注。
    的頭像 發(fā)表于 04-18 15:59 ?698次閱讀

    Arm推動(dòng)生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構(gòu),性能提升四倍

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)在嵌入式領(lǐng)域,邊緣與端側(cè)AI推理需求不斷增長,Arm既有Helium 技術(shù)使 CPU 能夠執(zhí)行更多計(jì)算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器
    的頭像 發(fā)表于 04-16 09:10 ?4495次閱讀
    Arm<b class='flag-5'>推動(dòng)</b>生成式<b class='flag-5'>AI</b>落地邊緣!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架構(gòu),性能提升四倍

    瑞薩發(fā)布下一代動(dòng)態(tài)可重構(gòu)人工智能處理加速器

    瑞薩最新發(fā)布的動(dòng)態(tài)可重構(gòu)人工智能處理(DRP-AI加速器,在業(yè)界引起了廣泛關(guān)注。這款加速器擁有卓越的10 TOPS/W高功率效率,相比傳統(tǒng)技術(shù),效率提升了驚人的10倍。其獨(dú)特之處在
    的頭像 發(fā)表于 03-08 13:45 ?700次閱讀

    AMD MI300加速器將支持HBM3E內(nèi)存

    據(jù)手機(jī)資訊網(wǎng)站IT之家了解,MI300加速器配備了HBM3內(nèi)存模塊,并面向HBM3E進(jìn)行了重新設(shè)計(jì)。另外,該公司在供應(yīng)鏈交付合作方面頗為深入,不僅與主要的存儲(chǔ)供應(yīng)商建立了穩(wěn)固的聯(lián)系,
    的頭像 發(fā)表于 02-27 15:45 ?606次閱讀

    家居智能化,推動(dòng)AI加速器的發(fā)展

    提高了系統(tǒng)的運(yùn)算能力和數(shù)據(jù)處理能力,還為用戶帶來了更加智能化、個(gè)性化的生活體驗(yàn)。 ? AI 加速器的發(fā)展 ? 在人工智能和機(jī)器學(xué)習(xí)任務(wù)變得日益復(fù)雜和密集之前,傳統(tǒng)的CPU和GPU已經(jīng)足以處理這些任務(wù)。然而,隨著深度學(xué)習(xí)模型的出現(xiàn)
    的頭像 發(fā)表于 02-23 00:18 ?4514次閱讀

    回旋加速器原理 回旋加速器的影響因素

    回旋加速器(Cyclotron)是一種用于加速帶電粒子的可再生粒子加速器。它的工作原理基于帶電粒子在恒定強(qiáng)磁場(chǎng)中的運(yùn)動(dòng)。本文將詳細(xì)介紹回旋加速器的原理以及影響因素。 一、回旋
    的頭像 發(fā)表于 01-30 10:02 ?3473次閱讀

    粒子加速器加速原理是啥呢?

    粒子加速器加速原理是啥呢? 粒子加速器是一種重要的實(shí)驗(yàn)設(shè)備,用于研究粒子物理學(xué)、核物理學(xué)等領(lǐng)域。其主要原理是通過電場(chǎng)和磁場(chǎng)的作用,對(duì)帶電粒子進(jìn)行加速,在高速運(yùn)動(dòng)過程中使其獲得較大的動(dòng)
    的頭像 發(fā)表于 12-18 13:52 ?1944次閱讀

    AMD Instinct加速器、AMD EPYC處理為Microsoft帶來全新AI和計(jì)算能力

    — AMD Instinct加速器將為針對(duì)AI進(jìn)行優(yōu)化的全新Microsoft Azure虛擬機(jī)系列提供動(dòng)力 — — 第四代AMD EPYC處理現(xiàn)在還被用于運(yùn)行新一代通用、內(nèi)存密集型
    的頭像 發(fā)表于 12-04 13:54 ?570次閱讀

    21489的IIR加速器濾波參數(shù)設(shè)置如何對(duì)應(yīng)加速器的濾波參數(shù)?

    目前在用21489內(nèi)部的IIR加速器去做一個(gè)低通濾波,在例程的基礎(chǔ)上修改參數(shù)。通過平板的fda 工具工具去設(shè)計(jì)參數(shù),但是設(shè)計(jì)出來的參數(shù)不知道如何對(duì)應(yīng)加速器的濾波參數(shù),手冊(cè)里也看得不是很明白。 設(shè)計(jì)的參數(shù)如下: 請(qǐng)問
    發(fā)表于 11-30 08:11

    PCIe在AI加速器中的作用

    從線上購物時(shí)的“猜你喜歡”、到高等級(jí)自動(dòng)駕駛汽車上的實(shí)時(shí)交通信息接收,再到在線視頻游戲,所有的這些都離不開人工智能(AI加速器。AI加速器是一種高性能的并行計(jì)算設(shè)備,旨在高效處理神經(jīng)
    的頭像 發(fā)表于 11-18 10:36 ?2003次閱讀
    PCIe在<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>中的作用