生成式人工智能 (Generative AI) 涵蓋了當(dāng)下廣為人知,且備受關(guān)注的大語(yǔ)言模型 (LLM),如今也已落地邊緣側(cè)的移動(dòng)設(shè)備。這意味著,無(wú)論是生成圖像和視頻,還是理解上下文語(yǔ)義,AI 的生成式推理將開(kāi)始由移動(dòng)設(shè)備進(jìn)行全權(quán)處理,而非交由云端處理后返回結(jié)果。
Arm 作為基石技術(shù),使得無(wú)處不在的 AI 成為可能,其中就包括移動(dòng)端的生成式 AI。無(wú)論是支持 AI 功能的新款旗艦智能手機(jī),還是直接在 Arm CPU 上處理 LLM,這些振奮人心的開(kāi)發(fā)成果都展現(xiàn)了 Arm 作為基石技術(shù)的實(shí)際應(yīng)用價(jià)值。
采用 Armv9 架構(gòu)的 CPU 和 GPU 技術(shù)的高性能 AI 智能手機(jī)現(xiàn)已問(wèn)世,其中包括搭載 MediaTek 天璣 9300 的 vivo X100 和 X100 Pro 智能手機(jī)、三星 Galaxy S24 以及谷歌 Pixel 8。
這些旗艦移動(dòng)設(shè)備兼顧性能與效率,為 AI 創(chuàng)新提供了前所未有的機(jī)遇。事實(shí)上,在過(guò)去十年間,得益于 Arm CPU 和 GPU 的性能提升,在移動(dòng)平臺(tái)上的 AI 處理能力每?jī)赡陮?shí)現(xiàn)翻番。
未來(lái),我們會(huì)將更多 AI 性能、技術(shù)和功能加入到我們堅(jiān)實(shí)的消費(fèi)技術(shù)路線圖中,推動(dòng)這一趨勢(shì)不斷發(fā)展。同樣起助推作用的還有當(dāng)下的邊緣側(cè) AI 推理熱潮,以及使用 LLM 等經(jīng)過(guò)訓(xùn)練的模型來(lái)驅(qū)動(dòng)基于 AI 的應(yīng)用,隨著更多的 AI 支持和專用指令的加入,CPU 將成為滿足這一需求的理想選擇。
一切始于 CPU
大多數(shù)情況下,移動(dòng)設(shè)備的 AI 功能都始于 CPU,例如對(duì)面部、手部和身體動(dòng)作的追蹤,高級(jí)的相機(jī)效果和濾鏡,以及許多社交應(yīng)用中的細(xì)分功能。此類 AI 工作負(fù)載的處理可能全權(quán)交由 CPU,或是結(jié)合 GPU 或 NPU 等協(xié)處理器一起提供支持。Arm 的 CPU 設(shè)計(jì)廣泛應(yīng)用于當(dāng)今全球數(shù)十億人使用的智能手機(jī)系統(tǒng)級(jí)芯片 (SoC) 中,對(duì)于在終端設(shè)備實(shí)現(xiàn) AI 工作負(fù)載至關(guān)重要。
目前,70% 的第三方應(yīng)用所使用的 AI 均基于 Arm CPU 運(yùn)行,包括新發(fā)布的社交類、健康類和基于相機(jī)功能的應(yīng)用等。除了設(shè)計(jì)的普及性,Arm CPU 還具有靈活性和 AI 功能,因此成為了移動(dòng)設(shè)備領(lǐng)域開(kāi)發(fā)者首選的應(yīng)用 AI 工作負(fù)載處理器。
就靈活性而言,Arm CPU 能夠以多種數(shù)據(jù)格式運(yùn)行各類神經(jīng)網(wǎng)絡(luò)。展望未來(lái),未來(lái)的 Arm CPU 將在指令集中加入更多 AI 功能,惠及行業(yè)領(lǐng)先的 Arm 生態(tài)系統(tǒng),例如適用于 Armv9-A 架構(gòu)的可擴(kuò)展矩陣擴(kuò)展 (Scalable Matrix Extension, SME),幫助全球開(kāi)發(fā)者為其 AI 應(yīng)用提供更高的性能、創(chuàng)新功能和可擴(kuò)展性。
Arm 將領(lǐng)先的硬件水平與軟件生態(tài)系統(tǒng)支持相結(jié)合,打造出高性能計(jì)算平臺(tái),推動(dòng)邊緣生成式 AI 的興起,讓游戲迭代、圖像增強(qiáng)、語(yǔ)言翻譯、文本生成和虛擬助手等功能成為可能。我們?cè)诮衲甓碌?2024 世界移動(dòng)通信大會(huì) (MWC 2024)上展示了部分新一代 AI 工作負(fù)載的示例。
Arm 計(jì)算平臺(tái)上的移動(dòng)端 LLM
我們制作了一個(gè)虛擬助手演示,在移動(dòng)端聊天類應(yīng)用上使用了 Meta 的 LLAMA2-7B LLM。基于 Arm CPU,無(wú)需加速器,即可完全在邊緣側(cè)移動(dòng)設(shè)備上運(yùn)行生成式 AI 工作負(fù)載。利用現(xiàn)有的針對(duì) AI 的 CPU 指令,結(jié)合 Arm 計(jì)算平臺(tái)(包括 Arm AI 軟件庫(kù))針對(duì) LLM 的專門的軟件優(yōu)化,我們實(shí)現(xiàn)了出色的性能表現(xiàn)。
從上面的視頻中可以看出,詞元 (Token) 首次響應(yīng)時(shí)間表現(xiàn)優(yōu)異,文本生成速率接近每秒 10 個(gè)詞元,高于人們的平均閱讀速度。這得益于經(jīng)過(guò)高度優(yōu)化的 CPU 例程,它來(lái)自于由 Arm 工程團(tuán)隊(duì)開(kāi)發(fā)的軟件庫(kù);與 LLAMA2-7B LLM 中的原生實(shí)現(xiàn)相比,詞元首次響應(yīng)時(shí)間縮短 50%,文本生成速率提高 20%。
此外,AI 開(kāi)發(fā)者也可在 Arm CPU 上利用自己的技術(shù),進(jìn)一步優(yōu)化軟件,讓 LLM 變得更小、更高效、更快速。
LLM 越小、越快,就意味著 AI 處理可以在邊緣側(cè)進(jìn)行。用戶可以享受到響應(yīng)更快、更靈敏的 AI 體驗(yàn)。此外,由于用戶數(shù)據(jù)僅在移動(dòng)設(shè)備本地處理,隱私保護(hù)也能做得更好。同時(shí),對(duì)于移動(dòng)端生態(tài)系統(tǒng)而言,這種成本更低、可擴(kuò)展性更強(qiáng)的選擇,也更有利于在數(shù)十億移動(dòng)設(shè)備上部署 AI。
推動(dòng)移動(dòng)設(shè)備上的生成式 AI
作為最為普及的移動(dòng)端計(jì)算平臺(tái)和高效計(jì)算領(lǐng)域的領(lǐng)導(dǎo)者,Arm 擔(dān)負(fù)著在邊緣側(cè)實(shí)現(xiàn)高效、高性能生成式 AI 的責(zé)任。我們已經(jīng)展示了完全基于我們領(lǐng)先的 CPU 技術(shù)所運(yùn)行的 LLM 的卓越性能。而這僅僅只是開(kāi)始。
更小、更高效的 LLM,Arm CPU 為移動(dòng)設(shè)備帶來(lái)的更高性能,以及由業(yè)界領(lǐng)先的生態(tài)系統(tǒng)所提供的創(chuàng)新軟件優(yōu)化,三者的結(jié)合將繼續(xù)推動(dòng)移動(dòng)端生成式 AI 的普及。
鑒于 Arm CPU 是移動(dòng)端生成式 AI 創(chuàng)新的核心,作為 AI 的運(yùn)行基礎(chǔ),Arm 將持續(xù)賦能每位開(kāi)發(fā)者,實(shí)現(xiàn)無(wú)處不在的 AI。
審核編輯:劉清
-
加速器
+關(guān)注
關(guān)注
2文章
790瀏覽量
37683 -
ARM技術(shù)
+關(guān)注
關(guān)注
0文章
22瀏覽量
7268 -
人工智能
+關(guān)注
關(guān)注
1791文章
46671瀏覽量
237142 -
大模型
+關(guān)注
關(guān)注
2文章
2279瀏覽量
2363 -
生成式AI
+關(guān)注
關(guān)注
0文章
480瀏覽量
446
原文標(biāo)題:Arm 平臺(tái)賦能移動(dòng)端生成式 AI
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論