0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在手持設(shè)備上安裝龐大的transformer網(wǎng)絡(luò)

CEVA ? 來源:CEVA ? 2023-10-11 14:37 ? 次閱讀

Siri和OK Google是最早實現(xiàn)語音控制的應(yīng)用程序,這著實為我們帶來了很多樂趣;但很快我們便意識到,必須仔細說出請求才能獲得實用回答。

就現(xiàn)在所見,ChatGPT理解程度高,使用起來更容易,但直到最近,其功能還僅限于通過基于云的應(yīng)用程序進行文本互動?,F(xiàn)如今,ChatGPT是大勢所趨,手機幾乎人人必備,促使著針對ChatGPT(手機版)的transformer網(wǎng)絡(luò)盡快推出,讓每個擁有手機的人都能感受到大語言模型的威力。

在此方面面臨的一個明顯挑戰(zhàn)是,我們所知的 ChatGPT依賴于數(shù)萬億個參數(shù)。而這種規(guī)模的transformer網(wǎng)絡(luò)只能在云端運行。有人建議采用混合模式,即先由手機或其他應(yīng)用程序負責(zé)完成部分簡單工作,再連接到云端進行更為繁重的推理。然而,普通手機用戶可能無法接受混合解決方案與生俱來的長時間延遲和隱私風(fēng)險問題。因此,更好的方法是,直接在手機上處理大部分或全部transformer網(wǎng)絡(luò)工作,只在需要時將偶爾出現(xiàn)的匿名搜索請求轉(zhuǎn)至云端處理。

縮減網(wǎng)絡(luò)大小

如何在手持設(shè)備上安裝龐大的transformer網(wǎng)絡(luò)?Google DeepMind在檢索transformer方面取得了重大突破。其RETRO transformer網(wǎng)絡(luò)運行時的大小只有 LLM transformer的百分之幾,因為前者的模型參數(shù)中不包含具體數(shù)據(jù)。只保留了基本的語言對話技能,但在理解水平上仍可與GPT3相媲美。如此將網(wǎng)絡(luò)大小縮減到了約80億個參數(shù)。

CEVA在預(yù)處理時進一步縮減此網(wǎng)絡(luò)大小,將對感興趣領(lǐng)域提示的準(zhǔn)確度幾乎沒有影響的參數(shù)歸零,進行再訓(xùn)練。仔細利用這一功能可以大大加快transformer網(wǎng)絡(luò)分析的速度。

準(zhǔn)備邊緣模型的第二步是壓縮,CEVA對此非常熟悉,并在支持檢索transformer方面做得更好。我們充分利用NeuPro-M架構(gòu)進行再訓(xùn)練,大力推進此步驟,促使廣泛的混合定點精度和低精度選項降到4位,未來甚至還能降到2位。

通過使用這些技術(shù),我們可以將現(xiàn)有檢索transformer壓縮至最低1/20(較現(xiàn)在而言),盡管其相較LLM而言已經(jīng)壓縮了很多。將這種壓縮剪枝應(yīng)用于RETRO模型縮減后,可以產(chǎn)生巨大縮減,將萬億參數(shù)模型轉(zhuǎn)換為十億參數(shù)模型,進而有望實現(xiàn)ChatGPT(移動版)。

NeuPro-M AI核心

當(dāng)然,僅僅適合的transformer網(wǎng)絡(luò)是不夠的。它還需要運行得足夠快,才能滿足用戶對響應(yīng)時間的期望。而這一點可以通過專為LLM應(yīng)用程序優(yōu)化的NeuPro-M NPU IP多引擎架構(gòu)實現(xiàn)。在此流程中,首先要做到的是由真正的稀疏引擎來進行管理,且這一步舉足輕重。稀疏引擎管理可跳過權(quán)重或數(shù)據(jù)為零的冗余操作,提高吞吐量,這是需要注意的一點。而在預(yù)處理時縮減之后,會出現(xiàn)大量歸零參數(shù),盡管這些參數(shù)分布不均勻。對于這種非結(jié)構(gòu)化稀疏引擎,每個NeuPro-M處理器內(nèi)核中的專用稀疏引擎可發(fā)揮4倍性能優(yōu)勢(與傳統(tǒng)稀疏引擎相比),并相應(yīng)地降低功耗。

鑒于transformer架構(gòu)可以分解為可并行實現(xiàn)的離散正交運算,下一優(yōu)化應(yīng)運而生。此時,可以利用 NeuPro-M多核架構(gòu)支持多達8個內(nèi)核。transformer中 query、key和value三個向量的計算會在引擎中分批進行,在共享公共二級緩存的多個內(nèi)核并行處理。并行處理不僅有利于attention步驟,還有利于softmax步驟,以及計算attention函數(shù)之后的歸一化函數(shù)。在傳統(tǒng)的人工智能系統(tǒng)中,softmax可能是遏制性能提升的重大瓶頸。在NeuPro-M中,attention和softmax可以并行實現(xiàn),因此softmax對于吞吐時間的增加幾乎可以忽略不計。NeuPro-M在transformer計算中實現(xiàn)大規(guī)模并行處理如下圖所示。

fca80bde-67ff-11ee-939d-92fbcf53809c.png

fcbd0f2a-67ff-11ee-939d-92fbcf53809c.png

▲transformer計算中的可擴展并行化

NeuPro-M架構(gòu)包括特殊支持,最大限度地提高芯片吞吐量,線程之間幾乎沒有停滯,進一步簡化這些流中的高度并行性以及線程之間的數(shù)據(jù)共享。

為ChatGPT(移動版)構(gòu)建語音界面

完成最難的部分后,在前端添加語音識別和在后端添加文本轉(zhuǎn)語音,便可以通過額外相對簡單的transformer網(wǎng)絡(luò)實現(xiàn)。將我們的ClearVox語音處理前端軟件連接到語音識別transformer,以輸入提示,并接受引導(dǎo),確定主transformer應(yīng)執(zhí)行哪一組精煉提示。必要時,可從互聯(lián)網(wǎng)上檢索查詢相關(guān)文檔。最后,使用文本轉(zhuǎn)語音transformer對下載的回復(fù)或文件進行語音處理。現(xiàn)在來說,完全在手機上運行,且具有完全基于語音的 ChatGPT功能界面便是ChatGPT(移動版)的不同之處。

更廣泛的應(yīng)用

NeuPro-M平臺并不局限于ChatGPT(移動版)這樣的GPT類應(yīng)用。它可以同樣應(yīng)用于任何生成式方法。例如,您可以使用穩(wěn)定的擴散transformer生成圖像、視頻或任何其他人工生成或修改的體驗。NeuPro-M解決方案在transformer網(wǎng)絡(luò)建模方面非常通用。

審核編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7389

    瀏覽量

    88218
  • 手持設(shè)備
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    23999
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    37

    文章

    3198

    瀏覽量

    57364
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    5944

原文標(biāo)題:針對ChatGPT(手機版)的優(yōu)化版Transformer網(wǎng)絡(luò)

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    LV1365-EX條碼識別模組在手持終端類中的應(yīng)用

    在當(dāng)今數(shù)字化轉(zhuǎn)型的浪潮中,高效、精準(zhǔn)的數(shù)據(jù)采集成為各行業(yè)提升運營效率的關(guān)鍵。LV1365-EX條碼識別模組,憑借其卓越的性能和強大的條碼識別能力,在手持終端設(shè)備中展現(xiàn)出了非凡的應(yīng)用潛力,成為物流
    的頭像 發(fā)表于 09-09 14:24 ?65次閱讀
    LV1365-EX條碼識別模組<b class='flag-5'>在手持</b>終端類中的應(yīng)用

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語言處理(NLP)、時間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問題,需
    的頭像 發(fā)表于 07-12 14:07 ?242次閱讀

    網(wǎng)絡(luò)模塊的安裝方法

    網(wǎng)絡(luò)模塊的安裝方法主要包括以下幾個步驟,這些步驟將確保安裝的準(zhǔn)確性和網(wǎng)絡(luò)模塊的穩(wěn)定運行: 準(zhǔn)備階段: 確定網(wǎng)絡(luò)設(shè)備的型號、規(guī)格和技術(shù)參數(shù),確
    的頭像 發(fā)表于 07-12 09:58 ?331次閱讀

    求助,請問如何在Windows系統(tǒng)安裝ESP-IDF?具鏈?

    求助,請問如何在Windows系統(tǒng)安裝ESP-IDF?具鏈?
    發(fā)表于 07-09 06:28

    北斗應(yīng)急通信手持終端如何在戶外使用

    使用的情況。熟悉設(shè)備:在使用前,對北斗應(yīng)急通信手持終端進行充分的了解和熟悉,掌握其各項功能和使用方法。檢查設(shè)備狀態(tài):檢查設(shè)備組件是否完好無損,如屏幕、鍵盤或其他控
    的頭像 發(fā)表于 06-14 11:16 ?232次閱讀
    北斗應(yīng)急通信<b class='flag-5'>手持</b>終端如<b class='flag-5'>何在</b>戶外使用

    手持設(shè)備使用的掃碼模組

    手持設(shè)備使用的掃碼模組,哪款更適合推薦呢?在選擇適用于手持設(shè)備的掃碼模組時,我們需要考慮多個關(guān)鍵因素,包括尺寸、功耗以及其實用性。尺寸要求
    的頭像 發(fā)表于 05-30 10:26 ?146次閱讀
    <b class='flag-5'>手持</b><b class='flag-5'>設(shè)備</b><b class='flag-5'>上</b>使用的掃碼模組

    何在鴻蒙系統(tǒng)安裝Google Play

    。但是,通過以下簡易步驟仍然可以在鴻蒙系統(tǒng)安裝Google Play。 了解鴻蒙系統(tǒng)和Google Play之間的不兼容性 鴻蒙系統(tǒng)的背景介紹 鴻蒙系統(tǒng)是華為自主研發(fā)的操作系統(tǒng),致力于實現(xiàn)全場景全連接的智能體驗。它旨在為各種設(shè)備
    的頭像 發(fā)表于 01-31 17:13 ?1.3w次閱讀

    手持終端定制|PDA|手持機|rfid手持終端設(shè)備開發(fā)解決方案

    手持終端定制|PDA|手持機|rfid手持終端設(shè)備開發(fā)解決方案廠家。以聯(lián)發(fā)科64位八核MT6771芯片為核心,搭載Android 10系統(tǒng),運行速度更快、功耗更低。其2GB LPDDR
    的頭像 發(fā)表于 12-27 19:12 ?499次閱讀
    <b class='flag-5'>手持</b>終端定制|PDA|<b class='flag-5'>手持</b>機|rfid<b class='flag-5'>手持</b>終端<b class='flag-5'>設(shè)備</b>開發(fā)解決方案

    網(wǎng)絡(luò)濾波器用在什么設(shè)備

    網(wǎng)絡(luò)濾波器是一種用于限制或阻止不良網(wǎng)絡(luò)內(nèi)容的技術(shù)。它被廣泛應(yīng)用于各種設(shè)備和環(huán)境中,包括個人電腦、移動設(shè)備、企業(yè)網(wǎng)絡(luò)和公共場所的
    的頭像 發(fā)表于 12-08 16:29 ?516次閱讀

    更深層的理解視覺Transformer, 對視覺Transformer的剖析

    最后是在ADE20K val的LeaderBoard,通過榜單也可以看出,在榜單的前幾名中,Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。
    的頭像 發(fā)表于 12-07 09:39 ?651次閱讀
    更深層的理解視覺<b class='flag-5'>Transformer</b>, 對視覺<b class='flag-5'>Transformer</b>的剖析

    何在LCD顯示漢字和英文

    摘要:LCD是嵌入式常見設(shè)備,如何在LCD顯示漢字和英文?矢量字體和點陣字體有何不同?同一個字符為何有多種編碼?GB2312、GB18030指什么?他們之間有關(guān)系嗎?嵌入式設(shè)備如何支
    的頭像 發(fā)表于 11-28 10:20 ?2412次閱讀
    如<b class='flag-5'>何在</b>LCD<b class='flag-5'>上</b>顯示漢字和英文

    淺談網(wǎng)絡(luò)變壓器(Network Transformer

    網(wǎng)絡(luò)變壓器(Network Transformer)是一種用于信號轉(zhuǎn)換和傳輸?shù)碾娮?b class='flag-5'>設(shè)備,廣泛應(yīng)用于網(wǎng)絡(luò)設(shè)備中,如路由器、交換機、網(wǎng)卡等。網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-24 09:31 ?2699次閱讀

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實現(xiàn)方案

    Transformer 本質(zhì)是一個 Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?451次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實現(xiàn)方案

    何在AT32 MCU使用FPU功能

    何在AT32 MCU使用FPU功能
    的頭像 發(fā)表于 11-01 17:18 ?3867次閱讀
    如<b class='flag-5'>何在</b>AT32 MCU<b class='flag-5'>上</b>使用FPU功能

    何在Zynq SoC開始使用FreeRTOS

    該項目演示如何在 Zynq SoC 開始使用 FreeRTOS。
    的頭像 發(fā)表于 10-18 09:44 ?1521次閱讀
    如<b class='flag-5'>何在</b>Zynq SoC<b class='flag-5'>上</b>開始使用FreeRTOS