0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

深度學(xué)習(xí)自然語言處理 ? 來源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-24 09:48 ? 次閱讀

編者按:深度學(xué)習(xí)的發(fā)展推動了很多大型神經(jīng)網(wǎng)絡(luò)模型的誕生,這些模型在多個領(lǐng)域中都取得了當(dāng)前最優(yōu)的性能,基于Transformer的預(yù)訓(xùn)練模型也在自然語言理解(NLU)和自然語言生成(NLG)領(lǐng)域中成為主流。然而,這些模型所包含的參數(shù)量巨大,計算成本高昂,極大地阻礙了此類模型在生產(chǎn)環(huán)境中的應(yīng)用。為了解決該問題,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種模型壓縮的新思路。

隨著深度學(xué)習(xí)的流行,很多大型神經(jīng)網(wǎng)絡(luò)模型誕生,并在多個領(lǐng)域中取得當(dāng)前最優(yōu)的性能。尤其是在自然語言處理(NLP)領(lǐng)域中,預(yù)訓(xùn)練和調(diào)參已經(jīng)成為其中大多數(shù)任務(wù)的新范式?;?Transformer 的預(yù)訓(xùn)練模型在自然語言理解(NLU)和自然語言生成(NLG)領(lǐng)域中成為主流。盡管這些模型從“過參數(shù)化”的特性中獲益,但它們往往包含數(shù)百萬甚至數(shù)十億個參數(shù),這就使得此類模型的計算成本高昂,且從內(nèi)存消耗和高延遲的角度來看計算低效。這一缺陷極大地阻礙了此類模型在生產(chǎn)環(huán)境中的應(yīng)用。

為了解決該問題,研究人員提出了很多神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)。一般而言,這些技術(shù)可以分為三類:量化、權(quán)重剪枝和知識蒸餾(Knowledge Distillation)。其中,由于知識蒸餾能夠壓縮預(yù)訓(xùn)練語言模型,所以得到了極大關(guān)注。知識蒸餾利用大型教師模型“教”緊湊的學(xué)生模型模仿教師的行為,從而將教師模型中嵌入的知識遷移到較小的模型中。但是,學(xué)生模型的性能狀況取決于設(shè)計良好的蒸餾損失函數(shù),正是這個函數(shù)使得學(xué)生模型可以模仿教師的行為。近期關(guān)于知識蒸餾的研究甚至利用更復(fù)雜的模型特定蒸餾損失函數(shù),以實現(xiàn)更好的性能。

近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學(xué)生模型距離的知識蒸餾不同的模型壓縮新方法。受到著名哲學(xué)思想實驗“忒修斯之船”的啟發(fā)(即如果船上的木頭逐漸被替換,直到所有的木頭都不是原來的木頭,那這艘船還是原來的那艘船嗎?),研究員們在 EMNLP 2020 上發(fā)表了 Theseus Compression for BERT (BERT-of-Theseus),該方法逐步將 BERT 的原始模塊替換成參數(shù)更少的替代模塊(點擊文末閱讀原文,了解論文詳情)。研究員們將原始模型叫做“前輩”(predecessor),將壓縮后的模型叫做“接替者”(successor),分別對應(yīng)知識蒸餾中的教師和學(xué)生。

該方法的工作流程如下圖所示。首先為每個前輩模塊指定一個接替者模塊,然后在訓(xùn)練階段中以一定的概率(如拋硬幣)決定是否用替代模塊隨機(jī)替換對應(yīng)的前輩模塊,并按照新舊模塊組合的方式繼續(xù)訓(xùn)練。在模型收斂后,將所有接替者模塊組合成接替者模型,進(jìn)而執(zhí)行推斷。這樣就可以將大型前輩模型壓縮成緊湊的接替者模型了。

舉例來說,假設(shè)現(xiàn)在有兩支籃球隊每支各五人,一支是經(jīng)驗老道的全明星球隊,另一支則是年輕球員組成的青訓(xùn)隊。為了提高青訓(xùn)隊的水平,所以隨機(jī)選派青訓(xùn)隊員去替換掉全明星隊中的球員,然后讓這個混合的球隊不斷地練習(xí)、比賽。通過向前輩學(xué)習(xí)經(jīng)驗,新加入成員的實力會有所提升,也能學(xué)會和其他隊員的配合,逐漸的這個混合球隊就擁有了接近全明星球隊的實力。之后重復(fù)這個過程,直到青訓(xùn)隊員都被充分訓(xùn)練,最終青訓(xùn)隊員也能自己組成一支實力突出的球隊。相比之下,如果沒有“老司機(jī)”來帶一帶,青訓(xùn)隊無論如何訓(xùn)練,水平也不會達(dá)到全明星隊的實力。

事實上,Theseus 壓縮與知識蒸餾的思路有些類似,都是鼓勵壓縮模型模仿原始模型的行為,但 Theseus 壓縮有很多獨特的優(yōu)勢。

首先,Theseus 壓縮在壓縮過程中僅使用任務(wù)特定的損失函數(shù)。而基于知識蒸餾的方法除了使用任務(wù)特定的損失函數(shù)外,還需加入繁瑣的蒸餾損失函數(shù)作為優(yōu)化目標(biāo)。

其次,與近期研究 TinyBERT 等不同,Theseus 壓縮不使用Transformer 特定特征進(jìn)行壓縮,這就為壓縮廣泛模型提供了可能性。與知識蒸餾僅使用原始模型執(zhí)行推斷不同,該方法允許前輩模型與壓縮后的接替者模型共同訓(xùn)練,從而實現(xiàn)更深層次的梯度級交互,并簡化訓(xùn)練過程。

此外,混合了前輩模塊和接替者模塊的不同模塊組合還添加了額外的正則化項(類似于 Dropout)。該方法基于課程學(xué)習(xí)(Curriculum Learning)方法來驅(qū)動模塊替換,將模塊替換概率從低到高逐漸增加,從而實現(xiàn)優(yōu)異的 BERT 壓縮性能。利用Theseus 壓縮方法壓縮得到的 BERT 模型運(yùn)算速度是之前的1.94 倍,并且保留了原始模型超過98% 的性能,優(yōu)于其它基于知識蒸餾的壓縮的基線方法。

通過在預(yù)訓(xùn)練語言模型 BERT 上的成功實驗,微軟亞洲研究院的研究員們希望可以為模型壓縮打開一種全新的思路,并希望看到這一方法在計算機(jī)視覺等領(lǐng)域的更廣泛應(yīng)用。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103603
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100002
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4237

    瀏覽量

    61965

原文標(biāo)題:【EMNLP2020】忒修斯之船啟發(fā)下的知識蒸餾新思路 - 微軟研究院

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

    近日,摩爾線程與北京智源人工智能研究院(簡稱:智源研究院)已順利完成基于Triton語言的高性能算子庫FlagGems的適配工作。得益于摩爾線程自研統(tǒng)系統(tǒng)計算架構(gòu)MUSA,雙方在短短
    的頭像 發(fā)表于 08-02 11:06 ?531次閱讀

    長沙北斗研究院總部基地正式奠基

    長沙北斗研究院總部基地正式奠基 日前長沙北斗研究院總部基地正式奠基,項目由長沙北斗研究院牽頭建設(shè);項目又名“北斗足跡”。項目期預(yù)計2025年年底前建成投用。 據(jù)悉,長沙北斗
    的頭像 發(fā)表于 05-16 12:49 ?989次閱讀

    航天宏圖與天儀研究院合作共同推動遙感衛(wèi)星數(shù)據(jù)應(yīng)用創(chuàng)新

    近日,航天宏圖信息技術(shù)股份有限公司(以下簡稱“航天宏圖”)與長沙天儀空間科技研究院有限公司(以下簡稱“天儀研究院”)正式簽署戰(zhàn)略合作框架協(xié)議。
    的頭像 發(fā)表于 04-23 17:11 ?378次閱讀
    航天宏圖與天儀<b class='flag-5'>研究院</b>合作共同推動遙感衛(wèi)星數(shù)據(jù)應(yīng)用創(chuàng)新

    微軟亞洲研究院發(fā)布VASA-1模型,實現(xiàn)圖片人物自動言語表達(dá)

    模型,尤其擅長展現(xiàn)逼真的面部表情及各類情緒,且嘴唇動作高度擬真。然而,盡管研究員坦承目前仍有不足之處,如無法精準(zhǔn)處理頭發(fā)等纖維質(zhì)元素,但相較于其他類似模型,VASA-1 的表現(xiàn)已屬優(yōu)異。
    的頭像 發(fā)表于 04-19 11:21 ?437次閱讀

    本源入榜胡潤研究院2024全球獨角獸榜單!

    4月9日,胡潤研究院于廣州發(fā)布《2024全球獨角獸榜》,榜單列出了全球成立于2000年之后,價值10億美元以上的非上市公司。本源量子成功入圍該榜單,也是中國量子計算領(lǐng)域唯入榜企業(yè)。來源:胡潤
    的頭像 發(fā)表于 04-12 08:22 ?273次閱讀
    本源入榜胡潤<b class='flag-5'>研究院</b>2024全球獨角獸榜單!

    谷歌DeepMind資深A(yù)I研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深A(yù)I研究員Ioannis Antonoglou宣布創(chuàng)辦了家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾擔(dān)任谷歌DeepMind的首席開發(fā)人員,自去年9月份以來,他是第4位離開谷歌Gemini
    的頭像 發(fā)表于 02-04 10:02 ?632次閱讀

    廣東腐蝕科學(xué)與技術(shù)創(chuàng)新研究院選購HS-DR-5導(dǎo)熱系數(shù)測試儀

    廣東腐蝕科學(xué)與技術(shù)創(chuàng)新研究院,作為國內(nèi)腐蝕科學(xué)領(lǐng)域的研究機(jī)構(gòu),直致力于為科研工作提供設(shè)備與技術(shù)支持。近期,該研究院在導(dǎo)熱系數(shù)測試方面做出了
    的頭像 發(fā)表于 01-12 14:04 ?184次閱讀
    廣東腐蝕科學(xué)與技術(shù)創(chuàng)新<b class='flag-5'>研究院</b>選購HS-DR-5導(dǎo)熱系數(shù)測試儀

    微軟內(nèi)部對亞洲研究院的未來持有不同看法

    四位消息人士披露,微軟內(nèi)部曾考慮過關(guān)閉或搬遷MSRA,但高層領(lǐng)導(dǎo)普遍傾向于維持實驗室在中國的運(yùn)作。目前,微軟已在加拿大溫哥華設(shè)立MSR分中心,部分研究員已被調(diào)配至此。此舉旨在作為備用安置點,以應(yīng)對可能面臨的
    的頭像 發(fā)表于 01-11 13:58 ?463次閱讀

    LabVIEW進(jìn)行癌癥預(yù)測模型研究

    LabVIEW進(jìn)行癌癥預(yù)測模型研究 癌癥是一種細(xì)胞異常增生的疾病。隨著年齡的增長,細(xì)胞分裂速度放緩,但癌細(xì)胞會失去控制地不斷分裂,形成可能良性或惡性的腫瘤。 2012年的國際癌癥數(shù)據(jù)顯示,新發(fā)癌癥
    發(fā)表于 12-13 19:04

    周禮棟對話比爾·蓋茨:深入的科學(xué)研究比以往任何時候都更加重要

    2023年是微軟亞洲研究院建院25周年。25年來,微軟亞洲研究院探索并實踐了
    的頭像 發(fā)表于 12-12 15:55 ?266次閱讀
    周禮棟對話比爾·蓋茨:深入的科學(xué)<b class='flag-5'>研究</b>比以往任何時候都更加重要

    英特爾研究院將在NeurIPS大會上展示業(yè)界領(lǐng)先的AI研究成果

    英特爾研究院將重點展示31項研究成果,它們將推進(jìn)面向未來的AI創(chuàng)新。 ? ? ? ?英特爾研究院將在NeurIPS 2023大會上展示系列富有價值、業(yè)界領(lǐng)先的AI創(chuàng)新成果。面向廣大開
    的頭像 發(fā)表于 12-08 09:17 ?593次閱讀

    新華社研究院:商湯“商量”獲評中國大模型市場未來領(lǐng)袖

    SenseChat ” 在定量實測的情商維度上,位居全部10款大模型 , 并在定性評估中入選大模型市場未來領(lǐng)袖象限 。此外,商湯賦能電力AI平臺智能化升級的實踐,也入圍新華社研究院
    的頭像 發(fā)表于 11-29 18:30 ?412次閱讀
    新華社<b class='flag-5'>研究院</b>:商湯“商量”獲評中國大<b class='flag-5'>模型</b>市場未來領(lǐng)袖

    一種基于橫向位移檢測機(jī)制的MXene增強(qiáng)SPR生物傳感技術(shù)

    detection based on MXene-enhanced plasmonic lateral displacement measurement”的研究成果。該團(tuán)隊提出了一種基于MXene材料增強(qiáng)的等離子體共振(SPR
    的頭像 發(fā)表于 10-29 09:16 ?610次閱讀
    <b class='flag-5'>一種</b>基于橫向位移檢測機(jī)制的MXene增強(qiáng)SPR生物傳感技術(shù)

    一種微型有源渦旋光激光器設(shè)計

    Topological Charge)的研究成果。該成果由光子芯片研究院顧敏院士、方心遠(yuǎn)副教授團(tuán)隊和中國科學(xué)院微電子研究所合作完成,顧敏院士、方心遠(yuǎn)副教授、中國科學(xué)院微電子研究所潘冠
    的頭像 發(fā)表于 10-23 09:17 ?488次閱讀
    <b class='flag-5'>一種</b>微型有源渦旋光激光器設(shè)計

    寧波東方理工產(chǎn)業(yè)技術(shù)研究院將建

    東方學(xué)高等研究院稱,寧波東方理工產(chǎn)業(yè)技術(shù)研究院承擔(dān)主要關(guān)鍵通用技術(shù)的研發(fā);關(guān)鍵共性技術(shù)成果轉(zhuǎn)化公共服務(wù)平臺建設(shè),引導(dǎo)基金等四大功能和任務(wù)的國家和省委重大戰(zhàn)略需求為中心,圍繞“地方所需”、“高校所能”和“人才所長”
    的頭像 發(fā)表于 10-11 11:12 ?724次閱讀