0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

能否在邊緣進行訓練(on-device training),使設備不斷的自我學習?

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-12-05 15:06 ? 次閱讀

該研究提出了第一個在單片機上實現(xiàn)訓練的解決方案,并且系統(tǒng)協(xié)同設計(System-Algorithm Co-design)大大減少了訓練所需內(nèi)存。

說到神經(jīng)網(wǎng)絡訓練,大家的第一印象都是 GPU + 服務器 + 云平臺。傳統(tǒng)的訓練由于其巨大的內(nèi)存開銷,往往是云端進行訓練而邊緣平臺僅負責推理。然而,這樣的設計使得 AI 模型很難適應新的數(shù)據(jù):畢竟現(xiàn)實世界是一個動態(tài)的,變化的,發(fā)展的場景,一次訓練怎么能覆蓋所有場景呢?

為了使得模型能夠不斷的適應新數(shù)據(jù),我們能否在邊緣進行訓練(on-device training),使設備不斷的自我學習?在這項工作中,我們僅用了不到 256KB 內(nèi)存就實現(xiàn)了設備上的訓練,開銷不到 PyTorch 的 1/1000,同時在視覺喚醒詞任務上 (VWW) 達到了云端訓練的準確率。該項技術使得模型能夠適應新傳感器數(shù)據(jù)。用戶在享受定制的服務的同時而無需將數(shù)據(jù)上傳到云端,從而保護隱私。

bc68a0d6-73e2-11ed-8abf-dac502259ad0.png

網(wǎng)站:https://tinytraining.mit.edu/

論文:https://arxiv.org/abs/2206.15472

Demo: https://www.bilibili.com/video/BV1qv4y1d7MV

代碼: https://github.com/mit-han-lab/tiny-training

背景

設備上的訓練(On-device Training)允許預訓練的模型在部署后適應新環(huán)境。通過在移動端進行本地訓練和適應,模型可以不斷改進其結果并為用戶定制模型。例如,微調(diào)語言模型讓其能從輸入歷史中學習;調(diào)整視覺模型使得智能相機能夠不斷識別新的物體。通過讓訓練更接近終端而不是云端,我們能有效在提升模型質(zhì)量的同時保護用戶隱私,尤其是在處理醫(yī)療數(shù)據(jù)、輸入歷史記錄這類隱私信息時。

然而,在小型的 IoT 設備進行訓練與云訓練有著本質(zhì)的區(qū)別,非常具有挑戰(zhàn)性,首先, AIoT 設備(MCU)的 SRAM 大小通常有限(256KB)。這種級別的內(nèi)存做推理都十分勉強,更不用說訓練了。再者,現(xiàn)有的低成本高效轉(zhuǎn)移學習算法,例如只訓練最后一層分類器 (last FC),只進行學習 bias 項,往往準確率都不盡如人意,無法用于實踐,更不用說現(xiàn)有的深度學習框架無法將這些算法的理論數(shù)字轉(zhuǎn)化為實測的節(jié)省。最后,現(xiàn)代深度訓練框架(PyTorch,TensorFlow)通常是為云服務器設計的,即便把 batch-size 設置為 1,訓練小模型 (MobileNetV2-w0.35) 也需要大量的內(nèi)存占用。因此,我們需要協(xié)同設計算法和系統(tǒng),以實現(xiàn)智能終端設備上的訓練。

bc7fe14c-73e2-11ed-8abf-dac502259ad0.png

方法與結果

我們發(fā)現(xiàn)設備上訓練有兩個獨特的挑戰(zhàn):(1)模型在邊緣設備上是量化的。一個真正的量化圖(如下圖所示)由于低精度的張量和缺乏批量歸一化層而難以優(yōu)化;(2)小型硬件的有限硬件資源(內(nèi)存和計算)不允許完全反向傳播,其內(nèi)存用量很容易超過微控制器的 SRAM 的限制(一個數(shù)量級以上),但如果只更新最后一層,最后的精度又難免差強人意。

bc95c3f4-73e2-11ed-8abf-dac502259ad0.png

為了應對優(yōu)化的困難,我們提出了 Quantization-Aware Scaling (QAS) 來自動縮放不同位精度的張量的梯度(如下左圖所示)。QAS 在不需要額外超參數(shù)的同時,可以自動匹配梯度和參數(shù) scale 并穩(wěn)定訓練。在 8 個數(shù)據(jù)集上,QAS 均可以達到與浮點訓練一致的性能(如下右圖)。

bcae282c-73e2-11ed-8abf-dac502259ad0.png

為了減少反向傳播所需要的內(nèi)存占用,我們提出了 Sparse Update,以跳過不太重要的層和子張的梯度計算。我們開發(fā)了一種基于貢獻分析的自動方法來尋找最佳更新方案。對比以往的 bias-only, last-k layers update, 我們搜索到的 sparse update 方案擁有 4.5 倍到 7.5 倍的內(nèi)存節(jié)省,在 8 個下游數(shù)據(jù)集上的平均精度甚至更高。

bcc3e6ee-73e2-11ed-8abf-dac502259ad0.png

為了將算法中的理論減少轉(zhuǎn)換為實際數(shù)值,我們設計了 Tiny Training Engine(TTE):它將自動微分的工作轉(zhuǎn)到編譯時,并使用 codegen 來減少運行時開銷。它還支持 graph pruning 和 reordering,以實現(xiàn)真正的節(jié)省與加速。與 Full Update 相比,Sparse Update 有效地減少了 7-9 倍的峰值內(nèi)存,并且可以通過 reorder 進一步提升至 20-21 倍的總內(nèi)存節(jié)省。相比于 TF-Lite,TTE 里經(jīng)過優(yōu)化的內(nèi)核和 sparse update 使整體訓練速度提高了 23-25 倍。

bcdce52c-73e2-11ed-8abf-dac502259ad0.png

bcef21d8-73e2-11ed-8abf-dac502259ad0.png

結論

本文中,我們提出了第一個在單片機上實現(xiàn)訓練的解決方案(僅用 256KB 內(nèi)存和 1MB 閃存)。我們的算法系統(tǒng)協(xié)同設計(System-Algorithm Co-design)大大減少了訓練所需內(nèi)存(1000 倍 vs PyTorch)和訓練耗時(20 倍 vs TF-Lite),并在下游任務上達到較高的準確率。Tiny Training 可以賦能許多有趣的應用,例如手機可以根據(jù)用戶的郵件 / 輸入歷史來定制語言模型,智能相機可以不斷地識別新的面孔 / 物體,一些無法聯(lián)網(wǎng)的 AI 場景也能持續(xù)學習(例如農(nóng)業(yè),海洋,工業(yè)流水線)。通過我們的工作,小型終端設備不僅可以進行推理,還可以進行訓練。在這過程中個人數(shù)據(jù)永遠不會上傳到云端,從而沒有隱私風險,同時 AI 模型也可以不斷自我學習,以適應一個動態(tài)變化的世界

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 內(nèi)存
    +關注

    關注

    8

    文章

    2982

    瀏覽量

    73826
  • IOT
    IOT
    +關注

    關注

    186

    文章

    4163

    瀏覽量

    196028

原文標題:用少于256KB內(nèi)存實現(xiàn)邊緣訓練,開銷不到PyTorch千分之一

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    LLM和傳統(tǒng)機器學習的區(qū)別

    訓練方法 LLM: 預訓練和微調(diào): LLM通常采用預訓練(Pre-training)和微調(diào)(Fine-tuning)的方法。預訓練階段,模
    的頭像 發(fā)表于 11-08 09:25 ?223次閱讀

    PyTorch GPU 加速訓練模型方法

    深度學習領域,GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度
    的頭像 發(fā)表于 11-05 17:43 ?415次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發(fā)表于 10-28 14:05 ?123次閱讀
    Pytorch深度<b class='flag-5'>學習</b><b class='flag-5'>訓練</b>的方法

    邊緣計算與邊緣設備的關系

    邊緣計算與邊緣設備之間存在著密切的關系,它們是相互依存、相互促進的。以下是對這兩者關系的介紹: 一、定義與功能 邊緣計算 邊緣計算是一種分布
    的頭像 發(fā)表于 10-24 14:33 ?235次閱讀

    FPGA做深度學習能走多遠?

    電子領域,F(xiàn)PGA 可能需要在性能、成本和功耗之間進行更精細的平衡,以滿足市場需求。 ? 市場競爭:隨著深度學習市場的不斷發(fā)展,其他技術(如 GPU、ASIC 等)也
    發(fā)表于 09-27 20:53

    如何使物聯(lián)網(wǎng)邊緣設備高效節(jié)能?

    電源效率對于物聯(lián)網(wǎng)的成功至關重要。設備的效率越高,其功能壽命就越長,用戶體驗就越好。您是否組織中實施了物聯(lián)網(wǎng)解決方案,以提高物聯(lián)網(wǎng)邊緣設備的能源效率?本文重點介紹了您應該考慮的15個
    的頭像 發(fā)表于 09-24 15:18 ?494次閱讀
    如何<b class='flag-5'>使</b>物聯(lián)網(wǎng)<b class='flag-5'>邊緣</b><b class='flag-5'>設備</b>高效節(jié)能?

    如何利用AI進行提升自我呢?

    支持,包括稀疏計算、圖學習和語音處理等。選擇適合你學習目標和項目需求的框架。 預訓練模型 :如文心ERNIE 3.0 Tiny v2,它是一個開源的小模型,適用于端側等低資源場景,可以用于各種自然語言處理任務。 理解并應用AI技
    的頭像 發(fā)表于 07-19 10:46 ?474次閱讀

    訓練和遷移學習的區(qū)別和聯(lián)系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們提高模型性能、減少訓練時間和降低
    的頭像 發(fā)表于 07-11 10:12 ?751次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設計的算法。訓練一個深度學習模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),使
    的頭像 發(fā)表于 07-01 16:13 ?1031次閱讀

    部署邊緣設備上的輕量級模型

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)邊緣AI算法是一種將人工智能(AI)算法和計算能力放置接近數(shù)據(jù)源的終端設備中的策略。這種算法通常被部署邊緣
    的頭像 發(fā)表于 05-11 00:17 ?2528次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    函數(shù),位置編碼以及其他關鍵模塊。這些模塊和設計選型都是大語言模型處理各種自然語言處理任務時的基礎,影響模型的學習能力,泛化性和運行效率。 大語言模型通過最常用的訓練任務進行
    發(fā)表于 05-07 17:10

    ChatGPT邊緣設備的應用探索

    這要求更接近數(shù)據(jù)源的地方大幅提高性能,但仍然只能使用非常少的功耗,并且價格便宜。雖然訓練將繼續(xù)云中進行,但長距離移動大量數(shù)據(jù)的成本很高,所以邊緣
    的頭像 發(fā)表于 04-07 12:40 ?526次閱讀

    FPGA深度學習應用中或?qū)⑷〈鶪PU

    上漲,因為事實表明,它們的 GPU 訓練和運行 深度學習模型 方面效果明顯。實際上,英偉達也已經(jīng)對自己的業(yè)務進行了轉(zhuǎn)型,之前它是一家純粹做 GPU 和游戲的公司,現(xiàn)在除了作為一家云
    發(fā)表于 03-21 15:19

    如何使用Python進行圖像識別的自動學習自動訓練

    如何使用Python進行圖像識別的自動學習自動訓練? 使用Python進行圖像識別的自動學習和自動訓練
    的頭像 發(fā)表于 01-12 16:06 ?524次閱讀

    深度學習如何訓練出好的模型

    和足夠的計算資源,還需要根據(jù)任務和數(shù)據(jù)的特點進行合理的超參數(shù)調(diào)整、數(shù)據(jù)增強和模型微調(diào)。本文中,我們將會詳細介紹深度學習模型的訓練流程,探討超參數(shù)設置、數(shù)據(jù)增強技
    的頭像 發(fā)表于 12-07 12:38 ?1041次閱讀
    深度<b class='flag-5'>學習</b>如何<b class='flag-5'>訓練</b>出好的模型