0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer模型的上下文嵌入何時(shí)真正值得使用?

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者: Victor Karlsson ? 2020-08-28 10:44 ? 次閱讀

不知道大家在平時(shí)使用時(shí)有沒有發(fā)現(xiàn),BERT的上下文嵌入非?!喊嘿F』,并且可能無法在所有情況下帶來價(jià)值。分享一篇ACL2020的論文,介紹了一些思路。

論文:Contextual Embeddings: When Are They Worth It?

代碼:https://github.com/HazyResearch/random_embedding

寫在前面

諸如BERT或其改進(jìn)后代之類的SOTA模型,使用起來十分"昂貴"。僅僅是預(yù)訓(xùn)練的『BERT-base』模型(用今天的標(biāo)準(zhǔn)幾乎可以認(rèn)為是很小的模型),也需要在16個(gè)TPU芯片上花費(fèi)了超過4天的時(shí)間,而這需要花費(fèi)數(shù)千美元。這甚至都沒有考慮對模型進(jìn)行進(jìn)一步的微調(diào)或最終使用,這兩者都只會增加最終的總成本。

與其嘗試找出創(chuàng)建更小的Transformer模型的方法(如何修剪BERT達(dá)到加速目的?理論與實(shí)現(xiàn)),不如退后一步去問:「基于Transformer模型的上下文嵌入何時(shí)真正值得使用?」在什么情況下,使用GloVe或甚至是隨機(jī)嵌入等計(jì)算成本較低的非上下文嵌入(non-contextual embeddings ),可能達(dá)到類似的性能?

這些是Arora等人提出的一些問題,而答案就在他們的研究中:Contextual Embeddings: When Are They Worth It[1]?本文將概述他們的研究并重點(diǎn)介紹他們的主要發(fā)現(xiàn)。

研究內(nèi)容

該研究分為兩個(gè)部分,首先檢查訓(xùn)練數(shù)據(jù)量的影響,然后檢查這些數(shù)據(jù)集的語言特性。

訓(xùn)練數(shù)據(jù)大小

作者發(fā)現(xiàn),在決定BERT-embedding和Glove-embedding的效果性能方面,訓(xùn)練數(shù)據(jù)量起著關(guān)鍵作用。通過使用更多的訓(xùn)練數(shù)據(jù),非上下文嵌入很快得到了改善,并且在使用所有可用數(shù)據(jù)時(shí),通常能夠在BERT模型用時(shí)的5-10%之內(nèi)完成。

另一方面,作者發(fā)現(xiàn)在某些情況下,可以用少于16倍的數(shù)據(jù)來訓(xùn)練上下文化嵌入,同時(shí)仍然與非上下文化嵌入所獲得的最佳性能相當(dāng)。這就需要在推理(計(jì)算和內(nèi)存)和標(biāo)記數(shù)據(jù)的成本之間進(jìn)行了權(quán)衡,或者如Arora等人所說:

ML practitioners may find that for certain real-world tasks the large gains in efficiency [when using non-contextual embeddings] are well worth the cost of labelling more data. ——— Arora et al

數(shù)據(jù)集的語言特性

對訓(xùn)練數(shù)據(jù)量的研究表明,在某些任務(wù)中,上下文嵌入比非上下文嵌入的表現(xiàn)要好得多,而在其他情況下,這些差異要小得多。這些結(jié)果激發(fā)了作者們的思考,是否有可能找到并量化語言特性,以表明這種情況何時(shí)發(fā)生。

為此,他們定義了三個(gè)度量標(biāo)準(zhǔn),用于量化每個(gè)數(shù)據(jù)集的特征。根據(jù)設(shè)計(jì),這些度量沒有給出一個(gè)單一的定義,而是用來編碼哪些特征影響模型性能的直覺。這使得我們可以對它們進(jìn)行解釋,然后對它們進(jìn)行嚴(yán)格的定義,以用于我們研究的任務(wù)。因此,下面以命名實(shí)體識別數(shù)據(jù)集舉例作者提出的指標(biāo):

文本結(jié)構(gòu)的復(fù)雜性:表示一個(gè)句子中詞與詞之間的依賴性。在NER中表現(xiàn)為每個(gè)實(shí)體跨越的token數(shù)量,如“George Washington”橫跨兩個(gè)token。

詞義模糊:每個(gè)token在訓(xùn)練數(shù)據(jù)集中分配的不同標(biāo)簽的數(shù)量,如“Washington”可以指定人員、地點(diǎn)和組織,這需要考慮到它的背景。

未出現(xiàn)詞的流行度:表示在訓(xùn)練過程出現(xiàn)從未見過詞的概率。在NER中定義為token出現(xiàn)次數(shù)的倒數(shù)。

這些指標(biāo)被用來給數(shù)據(jù)集中的每一項(xiàng)打分,以便我們將它們分成“困難”和“容易”。這使得我們能夠比較來自同一數(shù)據(jù)集的這兩個(gè)分區(qū)的嵌入性能。

如果這些指標(biāo)是非信息性的,那么這兩個(gè)分區(qū)的性能差異將是相等的。幸運(yùn)的是,作者們發(fā)現(xiàn)并非如此。相反,他們觀察到,在42個(gè)案例中,有30個(gè)案例,上下文嵌入和非上下文嵌入之間的差異在困難分區(qū)?上高于簡單分區(qū)。

這意味著,這些指標(biāo)可以作為一個(gè)代理,來自BERT之類模型的上下文嵌入將優(yōu)于非上下文嵌入!然而,從另一個(gè)角度來看,它可能更有用——用于指示來自glove的非上下文嵌入何時(shí)足以達(dá)到最先進(jìn)的性能。

結(jié)論

在研究Contextual Embeddings: When Are They Worth It? 中,Arora等人強(qiáng)調(diào)了數(shù)據(jù)集的關(guān)鍵特征,這些特征指示上下文嵌入何時(shí)值得使用。首先,訓(xùn)練數(shù)據(jù)集大小決定了非上下文化嵌入的潛在有用性,即越多越好。其次,數(shù)據(jù)集的特征也起著重要作用。作者定義了三個(gè)指標(biāo),即文本結(jié)構(gòu)的復(fù)雜性,詞匯使用的模糊性,以及未出現(xiàn)詞的流行度,這有助于我們理解使用上下文嵌入可能帶來的潛在好處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3116

    瀏覽量

    48661
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17056
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    5968

原文標(biāo)題:ACL2020 | 什么時(shí)候值得用BERT上下文嵌入

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    為什么transformer性能這么好?Transformer上下文學(xué)習(xí)能力是哪來的?

    為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學(xué)習(xí) (In-Context Learning) 能力是從何而來?在人工智能領(lǐng)域里,transformer
    的頭像 發(fā)表于 09-25 12:05 ?1308次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么好?<b class='flag-5'>Transformer</b>的<b class='flag-5'>上下文</b>學(xué)習(xí)能力是哪來的?

    關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

    開講之前,咱們有必要看看這兩個(gè)概念:a -- 上下文 上下文是從英文context翻譯過來,指的是一種環(huán)境。相對于進(jìn)程而言,就是進(jìn)程執(zhí)行時(shí)的環(huán)境; 具體來說就是各個(gè)變量和數(shù)據(jù),包括所有的寄存器變量
    發(fā)表于 09-06 09:58

    進(jìn)程上下文與中斷上下文的理解

    來源 網(wǎng)絡(luò)一.什么是內(nèi)核態(tài)和用戶態(tài)內(nèi)核態(tài):在內(nèi)核空間執(zhí)行,通常是驅(qū)動(dòng)程序,中斷相關(guān)程序,內(nèi)核調(diào)度程序,內(nèi)存管理及其操作程序。用戶態(tài):用戶程序運(yùn)行空間。 二.什么是進(jìn)程上下文與中斷上下文1.進(jìn)程上下文
    發(fā)表于 12-11 19:45

    JavaScript的執(zhí)行上下文

    JavaScript執(zhí)行上下文之執(zhí)行上下文
    發(fā)表于 05-29 16:12

    進(jìn)程上下文/中斷上下文及原子上下文的概念

    為什么會有上下文這種概念進(jìn)程上下文/中斷上下文及原子上下文的概念
    發(fā)表于 01-13 07:17

    中斷中的上下文切換詳解

    接口的實(shí)現(xiàn),在中斷上下文中的信號量post動(dòng)作,調(diào)用的是isrRtxSemaphoreRelease接口,此接口調(diào)用osRtxPostProcess進(jìn)行真正的post動(dòng)作,在isr_queue_put
    發(fā)表于 03-23 17:18

    基于多Agent的用戶上下文自適應(yīng)站點(diǎn)構(gòu)架

    自適應(yīng)站點(diǎn)很少考慮對用戶環(huán)境的自適應(yīng)。為此,提出用戶上下文自適應(yīng)站點(diǎn)的概念,給出基于多Agent技術(shù)的用戶上下文自適應(yīng)站點(diǎn)構(gòu)架模型。闡述用戶上下文獲取、挖掘過程以及站
    發(fā)表于 04-11 08:49 ?13次下載

    基于交互上下文的預(yù)測方法

    傳統(tǒng)的上下文預(yù)測是在單用戶的上下文基礎(chǔ)上進(jìn)行的,忽視了實(shí)際普適計(jì)算環(huán)境中由于用戶交互活動(dòng)導(dǎo)致的上下文變化因素。為了合理、有效地解決上述局限性問題,該文提出基
    發(fā)表于 10-04 14:08 ?7次下載

    終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

    該文針對業(yè)務(wù)上下文僅關(guān)注業(yè)務(wù)質(zhì)量較少考慮用戶終端環(huán)境的現(xiàn)狀,提出終端業(yè)務(wù)上下文的概念,為普適業(yè)務(wù)的開展提供必要的信息支撐。給出一種終端業(yè)務(wù)上下文的通用定義方法
    發(fā)表于 03-06 11:06 ?11次下載

    基于Pocket PC的上下文菜單實(shí)現(xiàn)

    介紹了基于 Pocket PC 中的點(diǎn)按操作概念, 論述了在Pocket PC 中上下文菜單的實(shí)現(xiàn)原理及方法, 并給出了基于MFC 下的Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實(shí)例。
    發(fā)表于 07-25 18:26 ?17次下載

    基于Pocket PC的上下文菜單實(shí)現(xiàn)

    本文介紹了基于 Pocket PC 中的“點(diǎn)按”操作概念 論述了在 Pocket PC 中上下文菜單的實(shí)現(xiàn)原理及方法 并給出了基于 MFC 下的 Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實(shí)例 。
    發(fā)表于 04-18 10:46 ?0次下載

    基于上下文相似度的分解推薦算法

    模型,再對目標(biāo)用戶的K個(gè)鄰居用戶建立移動(dòng)用戶一上下文一移動(dòng)服務(wù)三維張量分解模型,獲得目標(biāo)用戶的移動(dòng)服務(wù)預(yù)測值,生成移動(dòng)推薦。實(shí)驗(yàn)結(jié)果顯示,與余弦相似性方法、Pearson相關(guān)系數(shù)方法和Cosinel改進(jìn)相似度
    發(fā)表于 11-27 17:42 ?0次下載

    Web服務(wù)的上下文的訪問控制策略模型

    的訪問控制策略模型。模型的核心思想是將各種與訪問控制有關(guān)的信息統(tǒng)一抽象表示為一個(gè)上下文概念,以上下文為中心來制定和執(zhí)行訪問控制策略,上下文擔(dān)
    發(fā)表于 01-05 16:32 ?0次下載

    初學(xué)OpenGL:什么是繪制上下文

    初學(xué)OpenGL,打開紅寶書,會告訴你OpenGL是個(gè)狀態(tài)機(jī),OpenGL采用了客戶端-服務(wù)器模式,那時(shí)覺得好抽象,直到后來了解了繪制上下文才把這些聯(lián)系起來。我們可以認(rèn)為每一個(gè)硬件GPU是個(gè)服務(wù)器
    發(fā)表于 04-28 11:47 ?2434次閱讀

    如何分析Linux CPU上下文切換問題

    在我的上一篇文章:《探討 Linux CPU 的上下文切換》中,我談到了 CPU 上下文切換的工作原理??焖倩仡櫼幌?,CPU 上下文切換是保證 Linux 系統(tǒng)正常運(yùn)行的核心功能??煞譃檫M(jìn)程
    的頭像 發(fā)表于 05-05 20:11 ?1901次閱讀