0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助Arm Neoverse加速Hugging Face模型

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2024-09-02 10:44 ? 次閱讀

作者:Arm 基礎(chǔ)設(shè)施事業(yè)部高級(jí)產(chǎn)品經(jīng)理 Ashok Bhat

人工智能 (AI) 有望觸及并改變我們生活的方方面面。如今,包括醫(yī)療保健、金融、制造、教育、媒體和運(yùn)輸?shù)仍趦?nèi)的各行各業(yè)都在利用 AI 進(jìn)行創(chuàng)新。它們通過(guò)運(yùn)行復(fù)雜的 AI 工作負(fù)載來(lái)提高生產(chǎn)力,改善消費(fèi)者決策,提升教育體驗(yàn)等,而這些都需要消耗大量算力和數(shù)據(jù)中心電力。

如今,數(shù)據(jù)中心已經(jīng)非常耗電,而隨著 AI 部署的擴(kuò)大和底層基礎(chǔ)模型規(guī)模的擴(kuò)展,耗電量只會(huì)繼續(xù)增加。面對(duì)這一挑戰(zhàn),Arm 力求在不增加能耗的情況下提高 AI 能力。隨著生成式 AI 和基礎(chǔ)模型的普及,專用計(jì)算硬件的可用性及其高成本給部署帶來(lái)了困難。與此同時(shí),大模型需要消耗大量資源,加劇了原有的問題。隨著小語(yǔ)言模型和量化等技術(shù)的興起,開發(fā)者開始考慮針對(duì)機(jī)器學(xué)習(xí) (ML) 使用 CPU。規(guī)模較小的模型不僅效率高,而且可以針對(duì)特定應(yīng)用進(jìn)行定制,因此部署起來(lái)更切合實(shí)際,成本效益也更高。

Arm 基于 Neoverse 的最新 CPU 平臺(tái)為云數(shù)據(jù)中心提供高性能、高能效的處理器。借助 Arm Neoverse,云服務(wù)提供商能夠靈活地定制芯片并優(yōu)化軟件與系統(tǒng),以應(yīng)對(duì)要求苛刻的工作負(fù)載,同時(shí)獲得出色的性能和能效。正因如此,所有主要的云服務(wù)提供商均采用了 Neoverse 技術(shù)來(lái)設(shè)計(jì)其計(jì)算平臺(tái),從而滿足開發(fā)者對(duì) AI 和 ML 等各種云工作負(fù)載的需求。

Hugging Face 中的熱門開源模型可在 CPU 上高效、高性能地運(yùn)行。模型的部署是一項(xiàng)耗時(shí)且極具挑戰(zhàn)性的任務(wù),通常需要精通 ML 和底層模型代碼的專業(yè)知識(shí)。Hugging Face Pipeline 將復(fù)雜的代碼抽象化,使開發(fā)者能夠使用 Hugging Face Hub 中的任何模型進(jìn)行推理。開發(fā)者在構(gòu)建 AI 應(yīng)用和項(xiàng)目時(shí),借助 Arm 平臺(tái)賦能的云實(shí)例,可受益于云基礎(chǔ)設(shè)施資源的便利性,實(shí)現(xiàn)高能效并節(jié)省成本。

面向 ML 的 Neoverse CPU 的關(guān)鍵特性

長(zhǎng)期以來(lái),CPU 得益于只需使用單指令就能同時(shí)處理多個(gè)數(shù)據(jù)點(diǎn),進(jìn)而能夠?qū)崿F(xiàn)數(shù)據(jù)級(jí)并行和性能提升,這種技術(shù)被稱為單指令流多數(shù)據(jù)流 (SIMD)。Arm Neoverse CPU 支持 Neon 和可伸縮矢量擴(kuò)展 (SVE) 等先進(jìn)的 SIMD 技術(shù),能夠加速 HPC 和 ML 中的常見算法

通用矩陣乘法 (GEMM) 是 ML 中的一種基本算法,它對(duì)兩個(gè)輸入矩陣進(jìn)行復(fù)雜的乘法運(yùn)算,得到一個(gè)輸出。Armv8.6-A 架構(gòu)新增了 SMMLA 和 FMMLA 指令,可在寬度為二或四的陣列上同時(shí)執(zhí)行這些乘法運(yùn)算,從而將取指周期縮短 2 至 4 倍,將計(jì)算周期縮短 4 至 16 倍。諸多基于 Arm 架構(gòu)的服務(wù)器處理器均含有這些指令,包括 AWS Graviton3、Graviton4、NVIDIA Grace、Google Axion 和 Microsoft Cobalt。

在許多用例中,這些關(guān)鍵特性可為 ML 帶來(lái)諸多優(yōu)勢(shì),其中包括:

圖像分類:這是監(jiān)督學(xué)習(xí)的一種形式,可將特定標(biāo)簽或類別分配給整個(gè)圖像。

對(duì)象檢測(cè):這是在圖像或視頻中定位對(duì)象實(shí)例的計(jì)算機(jī)視覺技術(shù)。

自然語(yǔ)言處理:這是一種 AI 形式,可賦予機(jī)器閱讀、理解和推導(dǎo)人類語(yǔ)言含義的能力。

自動(dòng)語(yǔ)音識(shí)別:這是一種 ML 形式,可將人們的語(yǔ)音內(nèi)容轉(zhuǎn)換為文本。

推薦系統(tǒng):這是利用數(shù)據(jù)向用戶推薦項(xiàng)目或內(nèi)容的 ML 算法。

小語(yǔ)言模型 (SLM):這是大語(yǔ)言模型 (LLM) 的精簡(jiǎn)版,其架構(gòu)更簡(jiǎn)單、參數(shù)更少,訓(xùn)練所需的數(shù)據(jù)和時(shí)間也更少。

憑借這些 ML 推理能力,基于 Arm Neoverse 平臺(tái)的 AWS Graviton3 處理器在性能方面比上一代 AWS Graviton2 處理器提高了三倍。下面來(lái)看一個(gè)情感分析用例。

利用 Hugging Face Pipeline 進(jìn)行情感分析

情感分析是一項(xiàng)重要的 AI 技術(shù),它能找出文本中的情緒和觀點(diǎn)。企業(yè)可以利用該技術(shù)來(lái)理解客戶的想法,評(píng)估用戶對(duì)品牌的看法,并制定營(yíng)銷決策。但是,要想高效運(yùn)行情感分析模型,對(duì)計(jì)算資源的要求非常高。本文將深入探討 Arm Neoverse CPU 如何加快情感分析,帶來(lái)更快且更有成效的 AI 驅(qū)動(dòng)的洞察。

具體來(lái)說(shuō),我們將著重于如何在 Arm Neoverse CPU 上使用 pytorch.org 提供的默認(rèn) PyTorch 軟件包來(lái)加速 NLP PyTorch 模型(BERT、DistilBERT 和 RoBERTa)。我們將使用 Hugging Face Transformer 情感分析 Pipeline 來(lái)運(yùn)行這些模型

Hugging Face Transformer 通過(guò) Pipeline 這一強(qiáng)大工具來(lái)簡(jiǎn)化預(yù)訓(xùn)練模型的使用。這些 Pipeline 可在后臺(tái)處理復(fù)雜問題,讓開發(fā)者能夠?qū)W⒂诮鉀Q實(shí)際問題。例如,如果你想要分析一段文本的情感,只需將該文本輸入 Pipeline。它將進(jìn)行正面或負(fù)面的情感分類,你無(wú)需擔(dān)心模型的加載、分詞等其他技術(shù)細(xì)節(jié)。

這段代碼使用 Pipeline 來(lái)檢查用戶所輸入文本的情感。它在后臺(tái)使用 Hugging Face Model Hub 中的現(xiàn)成模型。

代碼

wKgaombVJraAfHYlAAA6i2yywfs469.jpg

輸出

wKgZombVJtSAEwRWAAAgUP4IDvw231.jpg

你還可以使用模型參數(shù)來(lái)指定所選模型。

pipe = pipeline("sentiment-analysis", model=”distilbert-base-uncased”)

在現(xiàn)有應(yīng)用中添加情感分析時(shí),需要考慮延遲問題。對(duì)于實(shí)時(shí)用例而言,響應(yīng)時(shí)間少于 100ms 通常被視為瞬時(shí)響應(yīng)。但對(duì)于具體需求而言,更長(zhǎng)的延遲有時(shí)也可接受。

AWS Graviton 處理器的性能

我們選取了兩篇評(píng)論,一篇較短(使用 BertTokenizer 分詞后,有 32 個(gè)詞元),另一篇較長(zhǎng)(使用 BertTokenizer 分詞后,有 128 個(gè)詞元),并在 AWS Graviton2 (c6g) 和 AWS Graviton3 (c7g) 上進(jìn)行了基準(zhǔn)測(cè)試。

如下圖所示,對(duì)于短篇評(píng)論的情感分析,AWS Graviton2 (c6g) 和 AWS Graviton3 (c7g) 僅使用四個(gè)虛擬 CPU (vCPU) 就達(dá)到了理想的 100ms 實(shí)時(shí)延遲目標(biāo)。

wKgaombVJuiAQipVAACUvTQAND0975.jpg

對(duì)于較長(zhǎng)評(píng)論的情感分析,啟用了 BF16 的 AWS Graviton3 (c7g) 可使用四個(gè) vCPU 達(dá)到理想的實(shí)時(shí)延遲目標(biāo)。與使用 Arm Neoverse N1 CPU 的上一代 c6g 實(shí)例相比,基于 Neoverse V1 的 c7g 實(shí)例性能可提升三倍之多。

wKgZombVJvGAXyX0AACsWc1E-yo216.jpg

基準(zhǔn)測(cè)試設(shè)置

我們對(duì)以下 AWS EC2 實(shí)例進(jìn)行了基準(zhǔn)測(cè)試:

使用 Arm Neoverse N1 CPU 的 c6g.xlarge 實(shí)例

使用 Arm Neoverse V1 CPU 的 c7g.xlarge 實(shí)例

各實(shí)例均有四個(gè) vCPU。我們通過(guò)以下軟件對(duì)實(shí)例進(jìn)行設(shè)置:

Ubuntu Server 22.04 LTS (HVM) - ami-0c1c30571d2dae5c9(64 位 (x86))和 ami-0c5789c17ae99a2fa(64 位 (Arm))

PyTorch 2.2.2

Transformers 4.39.1

并按照以下設(shè)置步驟操作:

1.sudo apt-get update

2.sudo apt-get install python3 python3-pip

3.pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

4.pip3 install transformers

有關(guān)安裝過(guò)程的詳細(xì)信息,請(qǐng)參閱《Arm PyTorch 安裝指南》。除了該指南外,《在 AWS Graviton 處理器上實(shí)現(xiàn) PyTorch 推理性能調(diào)優(yōu)》中也提供了一些針對(duì) Arm 平臺(tái)的調(diào)優(yōu)參數(shù)。(鏈接見文末)

為了進(jìn)行基準(zhǔn)測(cè)試,我們?cè)谒衅脚_(tái)上啟用了 BF16 快速數(shù)學(xué)內(nèi)核,如下所示。在 AWS Graviton3 上,這使得 GEMM 內(nèi)核能夠使用硬件中提供的 BF16 MMLA 指令。

export DNNL_DEFAULT_FPMATH_MODE=BF16

我們使用了兩篇評(píng)論,分別是一篇短評(píng)論和一篇長(zhǎng)評(píng)論。

短評(píng)論原文:“I'm extremely satisfied with my new Ikea Kallax; It's an excellent storage solution for our kids. A definite must have.”

長(zhǎng)評(píng)論原文:“We were in search of a storage solution for our kids, and their desire to personalize their storage units led us to explore various options. After careful consideration, we decided on the Ikea Kallax system. It has proven to be an ideal choice for our needs. The flexibility of the Kallax design allows for extensive customization. Whether it’s choosing vibrant colors, adding inserts for specific items, or selecting different finishes, the possibilities are endless. We appreciate that it caters to our kids’ preferences and encourages their creativity. Overall, the boys are thrilled with the outcome. A great value for money.”

我們使用情感分析 Pipeline 對(duì)三個(gè) NLP 模型(distilbert-base-uncased、bert-base-uncased 和 roberta-base)進(jìn)行了評(píng)估

對(duì)于每個(gè)模型,我們均測(cè)量短句和長(zhǎng)句的執(zhí)行時(shí)間。在基準(zhǔn)測(cè)試函數(shù)中,我們進(jìn)行了運(yùn)行 Pipeline 100 次的熱身,以確保結(jié)果的一致性。接著,我們測(cè)量每次運(yùn)行的執(zhí)行時(shí)間,并計(jì)算平均值和第 99 百分位值。

結(jié) 論

通過(guò) AWS Graviton3,你只需使用四個(gè) vCPU,就能將情感分析添加到現(xiàn)有應(yīng)用中,并可滿足嚴(yán)格的實(shí)時(shí)延遲要求。

AWS Graviton3 搭載的 Arm Neoverse V1 CPU 具有 BF16 MMLA 擴(kuò)展等 ML 特定功能,為 Hugging Face 情感分析 PyTorch 模型提供了出色的推理性能。

歡迎各位開發(fā)者使用自己的模型進(jìn)行嘗試。友情提示,根據(jù)模型的不同,你可能需要對(duì)性能進(jìn)行微調(diào)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    8965

    瀏覽量

    364991
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28860

    瀏覽量

    266176
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46047

    瀏覽量

    234940
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3029

    瀏覽量

    48345

原文標(biāo)題:利用 Arm Neoverse 加速熱門 Hugging Face 模型

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用

    :區(qū)域任務(wù)模型想象圖像分類Resnet50-v1.5語(yǔ)自然語(yǔ)言處理BERT-大平臺(tái)我們?cè)谌N AWS EC2 云實(shí)例類型上運(yùn)行,涵蓋兩代 Arm Neoverse 內(nèi)核(Arm
    發(fā)表于 08-31 15:03

    Arm Neoverse V1 PMU指南

    事件之一時(shí)計(jì)數(shù)發(fā)生。 2.1范圍 本文檔提供了Neoverse V1 PMU事件的高級(jí)描述。有參考資料體系結(jié)構(gòu)行為和Neoverse V1微觀體系結(jié)構(gòu)行為事件描述。有關(guān)Arm架構(gòu)的更完整描述,請(qǐng)參閱
    發(fā)表于 08-09 07:30

    Arm Neoverse V2參考設(shè)計(jì)版本C技術(shù)概述

    ·ARM Neoverse CMN-700 6 x 6網(wǎng)狀互連,32MB系統(tǒng)級(jí)高速緩存和128MB監(jiān)聽過(guò)濾器·八個(gè)同時(shí)支持CML_SMP和CXL2.0協(xié)議的CML鏈路,用于連接加速器·八個(gè)CML鏈路
    發(fā)表于 08-11 07:54

    Arm Neoverse? N1 PMU指南

    本文檔提供了Neoverse N1 PMU事件的高級(jí)描述。 對(duì)體系結(jié)構(gòu)行為和Neoverse N1微體系結(jié)構(gòu)行為的引用闡明了這些事件描述。 有關(guān)ARM架構(gòu)的更完整描述,請(qǐng)參閱ARM?架
    發(fā)表于 08-12 07:10

    Hugging?Face獲投1500萬(wàn)美元?這個(gè)虛擬陪聊朋友會(huì)察言觀色

    ,Richard Socher,Greg Brockman,Kevin Durant 跟投。 「Hugging Face」是一個(gè)在青少年群體中頗受歡迎的聊天機(jī)器人應(yīng)用。用戶可以使用該應(yīng)用程序生成一個(gè)虛擬朋友
    的頭像 發(fā)表于 12-18 17:55 ?2.6w次閱讀

    Hugging Face更改文本推理軟件許可證,不再“開源”

    據(jù)悉,TGI 已成為 Hugging Face 商業(yè)產(chǎn)品(如推理端點(diǎn))及其商業(yè)合作伙伴(如 Amazon SageMaker、Azure 機(jī)器學(xué)習(xí)和 IBM watsonx )的重要組成部分。而 Hugging
    的頭像 發(fā)表于 07-31 14:42 ?556次閱讀

    NASA 攜手 IBM 發(fā)布 Hugging Face 平臺(tái)最大開源地理空間 AI 基礎(chǔ)模型

    近日,IBM (NYSE: IBM) 與開源 AI 平臺(tái) Hugging Face 共同宣布,基于美國(guó)宇航局 ( NASA) 衛(wèi)星數(shù)據(jù)構(gòu)建的 IBM watsonx.ai 地理空間基礎(chǔ)模型,現(xiàn)已
    的頭像 發(fā)表于 08-08 18:15 ?573次閱讀
    NASA 攜手 IBM 發(fā)布 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 平臺(tái)最大開源地理空間 AI 基礎(chǔ)<b class='flag-5'>模型</b>

    NVIDIA 與 Hugging Face 將連接數(shù)百萬(wàn)開發(fā)者與生成式 AI 超級(jí)計(jì)算

    NVIDIA DGX Cloud 集成到 Hugging Face 平臺(tái)將加速大語(yǔ)言模型(LLM)的訓(xùn)練和調(diào)優(yōu),簡(jiǎn)化了幾乎每個(gè)行業(yè)的模型定制
    發(fā)表于 08-09 11:41 ?168次閱讀
    NVIDIA 與 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 將連接數(shù)百萬(wàn)開發(fā)者與生成式 AI 超級(jí)計(jì)算

    NVIDIA 與 Hugging Face 將連接數(shù)百萬(wàn)開發(fā)者與生成式 AI 超級(jí)計(jì)算

    NVIDIA DGX Cloud 集成到 Hugging Face 平臺(tái)將加速大語(yǔ)言模型(LLM)的訓(xùn)練和調(diào)優(yōu),簡(jiǎn)化了幾乎每個(gè)行業(yè)的模型定制
    的頭像 發(fā)表于 08-09 11:38 ?955次閱讀
    NVIDIA 與 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 將連接數(shù)百萬(wàn)開發(fā)者與生成式 AI 超級(jí)計(jì)算

    Hugging Face被限制訪問

    目前尚不清楚 Hugging Face 何時(shí)出現(xiàn)訪問限制問題。雅虎的報(bào)道稱,早在今年 5 月起,就已經(jīng)有用戶在 HF 的論壇上抱怨連接問題。另外有報(bào)道稱,至少?gòu)?9 月 12 日起,Hugging
    的頭像 發(fā)表于 10-22 15:51 ?1529次閱讀
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b>被限制訪問

    Hugging Face LLM部署大語(yǔ)言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語(yǔ)言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B
    的頭像 發(fā)表于 11-01 17:48 ?767次閱讀
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> LLM部署大語(yǔ)言<b class='flag-5'>模型</b>到亞馬遜云科技Amazon SageMaker推理示例

    ArmArm Neoverse計(jì)算子系統(tǒng)(CSS):Arm Neoverse CSS V3和Arm Neoverse CSS N3

    Arm宣布了兩款新的Arm Neoverse計(jì)算子系統(tǒng)(CSS),它們基于“迄今為止最好的一代Neoverse技術(shù)”。是什么讓這些新產(chǎn)品在擁擠的計(jì)算技術(shù)領(lǐng)域脫穎而出?
    的頭像 發(fā)表于 04-24 17:53 ?831次閱讀
    <b class='flag-5'>Arm</b>新<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b>計(jì)算子系統(tǒng)(CSS):<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS V3和<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS N3

    Hugging Face推出開源機(jī)器人代碼庫(kù)LeRobot

    AI領(lǐng)域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機(jī)器人工具包——LeRobot。這一創(chuàng)新工具包基于史上最大規(guī)模的眾包機(jī)器人數(shù)據(jù)集,為開發(fā)者提供了一個(gè)前所未有的平臺(tái)。
    的頭像 發(fā)表于 05-09 10:32 ?449次閱讀

    亞馬遜云攜手AI新創(chuàng)企業(yè)Hugging Face,提升AI模型在定制芯片計(jì)算性能

    Hugging Face作為一家估值為45億美元的公司現(xiàn)已成為了眾多AI研究員和開發(fā)者分享Chatbot和相關(guān)軟件的核心平臺(tái),受到亞馬遜、谷歌、英偉達(dá)等巨頭的青睞。
    的頭像 發(fā)表于 05-23 14:24 ?314次閱讀

    Hugging Face科技公司推出SmolLM系列語(yǔ)言模型

    7月22日最新資訊,Hugging Face科技公司在語(yǔ)言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語(yǔ)言模型家族。該系列包含三個(gè)版本,分別搭
    的頭像 發(fā)表于 07-23 16:35 ?198次閱讀