日韩欧美亚洲每日更新在线观看,2021精品久久久久熟女免费网

作者：Arm 基礎(chǔ)設(shè)施事業(yè)部數(shù)據(jù)中心解決方案架構(gòu)師 Ravi Malhotra

在過(guò)去一年里，生成式人工智能 (AI) 吸引了科技行業(yè)的目光，大家都在想方設(shè)法地將大語(yǔ)言模型 (LLM) 部署到其位于云端和邊緣側(cè)服務(wù)器上的應(yīng)用中。雖然 GPU 和加速器憑借優(yōu)異的性能，一直是這些部署任務(wù)的默認(rèn)首選平臺(tái)。但在推理領(lǐng)域，除了 GPU 和加速器之外，還有其他可行的選擇。長(zhǎng)期以來(lái)，CPU 一直被用于傳統(tǒng)的 AI 和機(jī)器學(xué)習(xí) (ML) 用例，由于 CPU 能夠處理廣泛多樣的任務(wù)且部署起來(lái)更加靈活，因此當(dāng)企業(yè)和開發(fā)者尋求將 LLM 集成到產(chǎn)品和服務(wù)中時(shí)，CPU 成了熱門選擇。

本文將介紹基于 Arm Neoverse 的 AWS Graviton3 CPU 在規(guī)?；`活運(yùn)行 Llama 3[1] 和 Phi-3[2] 等業(yè)內(nèi)標(biāo)準(zhǔn) LLM 方面的能力，并展示與其他基于 CPU 的服務(wù)器平臺(tái)相比的主要優(yōu)勢(shì)。

AWS Graviton3 上的 LLM 性能

為了展示基于 Arm 平臺(tái)的服務(wù)器 CPU 在 LLM 推理方面的能力，Arm 軟件團(tuán)隊(duì)和我們的合作伙伴對(duì) llama.cpp 中實(shí)現(xiàn)的 int4 和 int8 內(nèi)核進(jìn)行了優(yōu)化，以利用這些較新的指令[3]。我們?cè)?AWS Graviton3 平臺(tái)上進(jìn)行了多次實(shí)驗(yàn)，以測(cè)量不同場(chǎng)景下對(duì)性能的影響，并將影響因素隔離開。

所有實(shí)驗(yàn)均在 AWS r7g.16xlarge 實(shí)例上進(jìn)行，該實(shí)例帶有 64 個(gè)虛擬 CPU (vCPU) 和 512 GB 的內(nèi)存。所用的模型是經(jīng)過(guò) int4 量化的 Llama3-8B。

提示詞處理

提示詞詞元 (Token) 通常是并行處理的，即使對(duì)于單次操作 (batch=1)，也會(huì)使用所有可用核心。在這方面，經(jīng)過(guò) Arm 優(yōu)化，每秒處理的詞元數(shù)提升了 2.5 倍；在處理更大的批次大小時(shí)，性能小幅提升。

圖：提示詞處理經(jīng)優(yōu)化得到提升

詞元生成

詞元生成以自回歸的方式進(jìn)行，對(duì)于所需生成的輸出長(zhǎng)度高度敏感。在這方面，經(jīng)過(guò) Arm 優(yōu)化，吞吐量最多可提高兩倍，有助于處理更大的批次大小。

圖：詞元生成經(jīng)優(yōu)化得到提升

延遲

詞元生成的延遲對(duì) LLM 的交互式部署非常重要。對(duì)于下個(gè)詞元響應(yīng)時(shí)間 (time-to-next-token)，100ms 的延遲是關(guān)鍵的目標(biāo)指標(biāo)，這是基于人們每秒 5-10 個(gè)單詞的典型閱讀速度計(jì)算得出的。在下方圖表中，我們看到在單次操作和批量處理的場(chǎng)景下，AWS Graviton3 都能滿足 100ms 的延遲要求，因此適合于作為 LLM 的部署目標(biāo)。

我們使用了兩組不同的模型 Llama3-8B 和 Phi-3-mini (3.8B)，以展示不同規(guī)模的 LLM 的延遲情況。

圖：AWS Graviton3 的下個(gè)詞元響應(yīng)時(shí)間延遲情況

即使是在 2019 年推出的 AWS Graviton2 這樣的上一代 Arm 服務(wù)器平臺(tái)上，也能運(yùn)行多達(dá) 80 億參數(shù)的新 LLM，并且在單次操作和批量處理的場(chǎng)景下，均能滿足 100ms 的延遲要求。

圖：AWS Graviton2 的下個(gè)詞元響應(yīng)時(shí)間延遲情況

性能比較

此外，我們使用經(jīng)過(guò) int4 量化的 Llama3-8B 模型，比較了它在 AWS Graviton3 與在 AWS 上其他新一代服務(wù)器 CPU 的性能。

AWS Graviton3：r7g.16xlarge，64 個(gè) vCPU，512 GB 內(nèi)存，3.43 美元/小時(shí)

第四代 Intel Xeon：r7i.16xlarge，64 個(gè) vCPU，512 GB 內(nèi)存，4.23 美元/小時(shí)

第四代 AMD EPYC：r7a.16xlarge，64 個(gè) vCPU（SMT 關(guān)閉），512 GB 內(nèi)存，4.87 美元/小時(shí)

我們發(fā)現(xiàn)，相較于其他兩款 CPU，在提示詞處理和詞元生成方面，AWS Graviton3 的性能高出三倍。

圖：提示詞處理比較

圖：詞元生成比較

同樣值得注意的是，AWS Graviton3 CPU 比第四代 x86 CPU 更具成本效益，這在 Graviton3 實(shí)例相對(duì)較低的定價(jià)中就有所體現(xiàn)。鑒于 LLM 對(duì)算力的要求已經(jīng)非常高，以單位價(jià)格詞元數(shù)量來(lái)計(jì)算總體擁有成本 (TCO)，是推動(dòng) LLM 在數(shù)據(jù)中心內(nèi)廣泛采用的關(guān)鍵。

在這一點(diǎn)上，AWS Graviton3 擁有顯著優(yōu)勢(shì)，每美元詞元數(shù)量最高多了三倍，不僅在 CPU 中處于領(lǐng)先，也為希望在采用 LLM 的過(guò)程中逐步擴(kuò)大規(guī)模的用戶提供了令人信服的優(yōu)勢(shì)。

圖：LLM 推理的 TCO 比較

結(jié)論

當(dāng)開發(fā)者想要在其應(yīng)用中部署專用 LLM 時(shí)，服務(wù)器 CPU 為開發(fā)者提供了靈活、經(jīng)濟(jì)和簡(jiǎn)化的起點(diǎn)。Arm 新增了幾項(xiàng)關(guān)鍵特性，有助于顯著提升 LLM 的性能。得益于此，基于 Arm Neoverse 的服務(wù)器處理器（如 AWS Graviton3）不僅能提供優(yōu)于其他服務(wù)器 CPU 的 LLM 性能，還能為更多應(yīng)用開發(fā)者降低采用 LLM 的門檻。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ARM

ARM

+關(guān)注

關(guān)注
134

文章
9027

瀏覽量
366474
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10804

瀏覽量
210820
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
8957

瀏覽量
85080
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46652

瀏覽量
237054

原文標(biāo)題：在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實(shí)現(xiàn)出色性能

文章出處：【微信號(hào)：Arm社區(qū)，微信公眾號(hào)：Arm社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于ARM-LINUX平臺(tái)的物聯(lián)網(wǎng)服務(wù)器設(shè)計(jì)

基于XSCALE PXA270處理器平臺(tái)和開源Linux系統(tǒng)搭建ARM-Linux物聯(lián)網(wǎng)服務(wù)器。##人機(jī)交互子系統(tǒng)-WEB服務(wù)器設(shè)計(jì)

發(fā)表于 09-10 15:50 ?2171次閱讀

基于<b class='flag-5'>ARM</b>-LINUX<b class='flag-5'>平臺(tái)</b>的物聯(lián)網(wǎng)<b class='flag-5'>服務(wù)器</b>設(shè)計(jì)

安謀科技與鴻鈞微電子攜手，加速服務(wù)器CPU產(chǎn)業(yè)和生態(tài)落地

深入合作。雙方將依托安謀科技高性能Arm?IP及自研產(chǎn)品，結(jié)合鴻鈞微電子在通用處理器領(lǐng)域豐富的研發(fā)經(jīng)驗(yàn)和強(qiáng)大的產(chǎn)品創(chuàng)新能力，共同推進(jìn)Arm

發(fā)表于 05-24 14:24 ?2220次閱讀

安謀科技與鴻鈞微電子攜手，加速<b class='flag-5'>服務(wù)器</b><b class='flag-5'>CPU</b>產(chǎn)業(yè)和生態(tài)落地

Arm芯片引領(lǐng)國(guó)產(chǎn)服務(wù)器逆襲？

架構(gòu)，不斷創(chuàng)新，逐步構(gòu)筑能效、成本、生態(tài)環(huán)境等方面的優(yōu)勢(shì)?；陂_放的Arm芯片IP授權(quán)，眾多廠商共同參與了Arm服務(wù)器架構(gòu)規(guī)范標(biāo)準(zhǔn)的制定。2016年4月，

發(fā)表于 06-03 13:20

Arm服務(wù)器助力解決CPU的設(shè)計(jì)問(wèn)題

的 Neoverse 平臺(tái)提供了設(shè)計(jì)一款服務(wù)器 CPU 的基礎(chǔ)，包括 CPU 核心的微架構(gòu)和配套的制程。Arm 對(duì)

發(fā)表于 09-08 14:32

服務(wù)器CPU

服務(wù)器CPU 服務(wù)器CPU，顧名思義，就是在服務(wù)器上使用的

發(fā)表于 12-17 10:15 ?574次閱讀

AMD推出首款基于ARM的CPU與開發(fā)平臺(tái) 加快ARM服務(wù)器生態(tài)系統(tǒng)發(fā)展

加快ARM服務(wù)器生態(tài)系統(tǒng)發(fā)展，AMD推出首款由服務(wù)器處理器廠商研發(fā)的基于ARM的CPU與開發(fā)

發(fā)表于 02-11 15:36 ?1006次閱讀

ARM服務(wù)器CPU終于正式量產(chǎn)

昨日，期盼已久的ARM服務(wù)器CPU終于正式量產(chǎn)了！---貴州華芯通半導(dǎo)體技術(shù)有限公司 (以下簡(jiǎn)稱 “華芯通”) 在北京國(guó)家會(huì)議中心舉辦新品發(fā)布會(huì)，宣布其第一代可商用的

發(fā)表于 12-01 09:00 ?7426次閱讀

華為首款Arm架構(gòu)服務(wù)器CPU鯤鵬920，業(yè)界最高性能Arm架構(gòu)服務(wù)器CPU

TaiShan系列服務(wù)器主要面向大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景，發(fā)揮ARM架構(gòu)在多核、高能效等方面的優(yōu)勢(shì)，為企業(yè)構(gòu)建高性能、低功耗

發(fā)表于 01-09 09:39 ?1.2w次閱讀

關(guān)于Arm服務(wù)器芯片的現(xiàn)狀和發(fā)展分析

從華為公布的測(cè)試數(shù)據(jù)來(lái)看，鯤鵬920在Arm原生應(yīng)用方面的優(yōu)勢(shì)最為明顯，具有2倍于同類產(chǎn)品的性能。除了安卓APP和移動(dòng)游戲外，基于Arm的IoT平臺(tái)

發(fā)表于 08-29 09:45 ?8967次閱讀

騰訊云TI平臺(tái)利用NVIDIA Triton推理服務(wù)器構(gòu)造不同AI應(yīng)用場(chǎng)景需求

騰訊云 TI 平臺(tái) TI-ONE 利用 NVIDIA Triton 推理服務(wù)器構(gòu)造高性能推理服務(wù)部署平臺(tái)

發(fā)表于 09-05 15:33 ?1872次閱讀

如何使用NVIDIA Triton 推理服務(wù)器來(lái)運(yùn)行推理管道

使用集成模型在 NVIDIA Triton 推理服務(wù)器上為 ML 模型管道提供服務(wù)

發(fā)表于 07-05 16:30 ?1365次閱讀

EDA軟件在ARM服務(wù)器的應(yīng)用解析

在將EDA軟件應(yīng)用于ARM服務(wù)器的方向上，專注數(shù)字實(shí)現(xiàn)EDA的芯行紀(jì)科技有限公司（以下簡(jiǎn)稱“芯行紀(jì)”）旗下智能布局規(guī)劃工具AmazeFP已能支持ARMv8服務(wù)器，如圖二所示，

發(fā)表于 09-15 12:25 ?751次閱讀

服務(wù)器cpu和普通電腦cpu的區(qū)別

服務(wù)器CPU和普通電腦CPU之間存在許多區(qū)別。在以下文章中，我們將詳細(xì)介紹服務(wù)器CPU和普通電腦

發(fā)表于 02-01 11:14 ?6332次閱讀

gpu服務(wù)器與cpu服務(wù)器的區(qū)別對(duì)比，終于知道怎么選了！

gpu服務(wù)器與cpu服務(wù)器的區(qū)別主要體現(xiàn)在架構(gòu)設(shè)計(jì)、性能特點(diǎn)、能耗效率、應(yīng)用場(chǎng)景、市場(chǎng)定位等方面，在以上幾個(gè)

發(fā)表于 08-01 11:41 ?414次閱讀

服務(wù)器cpu和臺(tái)式機(jī)cpu區(qū)別

服務(wù)器CPU和臺(tái)式機(jī)CPU的區(qū)別是一個(gè)復(fù)雜的話題，涉及到多個(gè)方面，包括設(shè)計(jì)、性能、功耗、可靠性、成本等。 服務(wù)器

發(fā)表于 10-10 15:12 ?599次閱讀

搜索歷史

基于Arm平臺(tái)的服務(wù)器CPU在LLM推理方面的能力

評(píng)論

基于ARM-LINUX平臺(tái)的物聯(lián)網(wǎng)服務(wù)器設(shè)計(jì)

安謀科技與鴻鈞微電子攜手，加速服務(wù)器CPU產(chǎn)業(yè)和生態(tài)落地

Arm芯片引領(lǐng)國(guó)產(chǎn)服務(wù)器逆襲？

Arm服務(wù)器助力解決CPU的設(shè)計(jì)問(wèn)題

服務(wù)器CPU

AMD推出首款基于ARM的CPU與開發(fā)平臺(tái) 加快ARM服務(wù)器生態(tài)系統(tǒng)發(fā)展

ARM服務(wù)器CPU終于正式量產(chǎn)

華為首款Arm架構(gòu)服務(wù)器CPU鯤鵬920，業(yè)界最高性能Arm架構(gòu)服務(wù)器CPU

關(guān)于Arm服務(wù)器芯片的現(xiàn)狀和發(fā)展分析

騰訊云TI平臺(tái)利用NVIDIA Triton推理服務(wù)器構(gòu)造不同AI應(yīng)用場(chǎng)景需求

如何使用NVIDIA Triton 推理服務(wù)器來(lái)運(yùn)行推理管道

EDA軟件在ARM服務(wù)器的應(yīng)用解析

服務(wù)器cpu和普通電腦cpu的區(qū)別

gpu服務(wù)器與cpu服務(wù)器的區(qū)別對(duì)比，終于知道怎么選了！

服務(wù)器cpu和臺(tái)式機(jī)cpu區(qū)別