韩国伦理电影李采潭,国产精品自拍剧情欧美视频三区,亚洲小说区图片区另类春色63

隨著大模型時代的到來，AI算力逐漸變成重要的戰(zhàn)略資源，對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn)：大算力的需求、高吞吐量與低延時、高效內(nèi)存管理、能耗等等。

存算一體架構(gòu)是可能有效解決當前芯片瓶頸的路徑之一，通過將數(shù)據(jù)存儲與處理單元集成，顯著減少了數(shù)據(jù)在芯片內(nèi)部的傳輸，降低延遲和能耗，提高計算速度。

此外，針對大模型的特定需求，芯片設(shè)計也在不斷創(chuàng)新，以更好地支持并行處理和高效率的數(shù)據(jù)流動。這些技術(shù)發(fā)展不僅對推動人工智能領(lǐng)域的進步至關(guān)重要，也為芯片設(shè)計和制造業(yè)帶來了新的機遇和挑戰(zhàn)。

Q1?當前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)？

1、算力需求：由于大模型計算量的提升，對算力的需求也飛速增長?？紤]到芯片光罩面積的限制，一方面需要通過電路優(yōu)化提升算力密度，另一方面需要通過先進集成等手段突破芯片面積的限制。

2、高吞吐量與低延時：大模型推理分為prefill和decoding兩個階段，兩階段的推理延遲分別影響用戶得到首個token的延遲（time to first token，TTFT）和生成階段逐token的輸出延遲（time per output token，TPOT），優(yōu)化兩個階段的延遲可以提升用戶在使用推理服務時的體驗。由于prefill階段需要在單次推理處理完整的prompt輸入，是計算密集的，所以prefill階段需要通過提升芯片的算力來降低延遲。另一方面，decoding階段中，每個請求只處理一個token，是訪存密集的，因此需要提升芯片的訪存帶寬來降低延遲。

3、高效內(nèi)存管理：在提供大模型推理服務時，不同用戶的請求到達時間，prompt長度，以及生成長度均不相同，所以在動態(tài)batching時不同請求間的KV Cache長度往往不同，從而導致KV Cache的碎片化問題。因此，諸如vLLM等優(yōu)化KV Cache的碎片化問題的內(nèi)存管理方案被提出，從而顯著提升GPU上的內(nèi)存利用率。

4、能耗：對于每個sequence的生成，decoding階段每次只處理單個token，從而導致在生成的過程中需要反復搬運權(quán)重到片上緩存，產(chǎn)生高訪存能耗。

5、可編程性與靈活性：隨著深度學習和人工智能領(lǐng)域快速發(fā)展，新的算法和模型不斷涌現(xiàn)。芯片應具有一定的可編程性和靈活性，以適應這些變化，不僅僅針對當前的算法進行優(yōu)化。

Q2?大模型時代的需求，存算一體芯片會是更優(yōu)解嗎？

1、存算一體的優(yōu)勢與大模型需求的契合點：CIM（Computing in Memory）具備高計算密度、高計算能效的優(yōu)勢，適合大模型Prefill階段的處理。在同樣芯片面積限制下，有望提供超過當前GPU的算力。另外，對圖片、視頻等領(lǐng)域生成模型，算力的需求將進一步上升，CIM高算力密度的優(yōu)勢可以進一步發(fā)揮。

2、方向一：近存路線：基于DRAM的近存計算架構(gòu)能夠處理decoding階段訪存密集的矩陣向量乘法操作。通過在DRAM的bank附近放置處理單元，它們可以減少搬運權(quán)重的能耗，并且通過近bank處理單元的并行計算提升訪存帶寬，從而獲得推理加速。但是由于DRAM的工藝限制，近存處理單元的算力較弱，無法高效處理prefill階段的計算密集算子，因此往往需要與GPU配合工作，完成整個推理流程。

3、方向二：近存+存算路線：CIM+PIM的混合異構(gòu)方案，可以同時滿足Prefill高算力和Decode高存儲帶寬和容量的需求，實現(xiàn)優(yōu)勢互補，超過當前的同構(gòu)方案。

未來，隨著技術(shù)進步和創(chuàng)新設(shè)計的不斷涌現(xiàn)，芯片技術(shù)將進一步突破現(xiàn)有極限，實現(xiàn)更低的能耗和更高的計算性能。存算一體技術(shù)也將為芯片行業(yè)提供更多創(chuàng)新發(fā)展路徑。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46074

瀏覽量
235192
存算一體

存算一體

+關(guān)注

關(guān)注
0

文章
98

瀏覽量
4255
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2146

瀏覽量
1996

原文標題：存算十問｜（十）：面向大模型時代，存算一體是更優(yōu)解嗎？

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

主流芯片架構(gòu)包括哪些類型

主流芯片架構(gòu)是芯片設(shè)計領(lǐng)域中的核心組成部分，它們決定了芯片的功能、性能、功耗等多個方面。當前，全球范圍內(nèi)

發(fā)表于 08-22 11:08 ?371次閱讀

LLM大模型推理加速的關(guān)鍵技術(shù)

LLM（大型語言模型）大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點，旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大

發(fā)表于 07-24 11:38 ?519次閱讀

如何加速大語言模型推理

的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速大語言模型的推理過程，以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。

發(fā)表于 07-04 17:32 ?328次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

。關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力，存在廣泛的爭議。然而，隨著模型參數(shù)量的增加和大規(guī)模預訓練的實施，大語言模型展現(xiàn)出了與人類相似的

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

推斷孩子的年齡。而在演繹推理中，我們關(guān)注模型從已知前提出發(fā)，通過邏輯推導得出結(jié)論的準確性和邏輯性，例如在真假陳述中找出真實的陳述者。對于此類任務，我們主要關(guān)注兩個評價指標：

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

用于文本生成，根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本，為故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面，其計算資源需求巨大，訓練和推理耗時；另一方面，模型高度依賴數(shù)據(jù)，需要大

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

處理中預訓練架構(gòu)Transformer，以及這些技術(shù)在現(xiàn)實世界中的如何應用。通過具體案例的分析，作者展示了大語言模型在解決實際問題中的強大能力，同時也指出了當前技術(shù)面臨的挑戰(zhàn)和局限性。書中對大語言

發(fā)表于 04-30 15:35

思爾芯如何面對大模型芯片的復雜挑戰(zhàn)？

在大語言模型時代，急劇增長的底層算力需求和多樣化的創(chuàng)新應用催生了芯片行業(yè)的新機遇。

發(fā)表于 03-20 17:29 ?343次閱讀

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動，超越了傳統(tǒng)GPU和谷歌TPU。

發(fā)表于 02-26 10:24 ?827次閱讀

HarmonyOS：使用MindSpore Lite引擎進行模型推理

場景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設(shè)備 AI 模型推理的功能，目前已經(jīng)在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。本文介紹

發(fā)表于 12-14 11:41

澎峰科技發(fā)布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發(fā)布chatGPT之后，基于 Transformer 網(wǎng)絡結(jié)構(gòu)的語言大模型（LLM）引發(fā)了全世界的注意與追捧，成為了人工智能領(lǐng)域的里程碑事件。但大模型推理所需

發(fā)表于 11-25 15:35 ?920次閱讀

大型語言模型的邏輯推理能力探究

最新研究揭示，盡管大語言模型LLMs在語言理解上表現(xiàn)出色，但在邏輯推理方面仍有待提高。為此，研究者們推出了GLoRE，一個全新的邏輯推理評估基準，包含12個數(shù)據(jù)集，覆蓋三大任務類型。

發(fā)表于 11-23 15:05 ?773次閱讀

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

發(fā)表于 11-05 18:22

主流大模型推理框架盤點解析

vLLM是一個開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實現(xiàn)了比HuggingFace Transformers高14-24倍的吞吐量。

發(fā)表于 10-10 15:09 ?4430次閱讀

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機器學習模型轉(zhuǎn)換成算能芯片上運行的bmodel模型。由于浮點數(shù)的計算需要消耗更多的計算資源和存儲空間，實際應用中往往采用量化后的模型（也稱定點

發(fā)表于 10-10 10:17 ?1118次閱讀