0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從BERT得到最強(qiáng)句子Embedding的打開方式

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:夕小瑤的賣萌屋 ? 2020-12-31 10:10 ? 次閱讀

你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎?很多小伙伴的第一反應(yīng)是:不就是直接取頂層的[CLS] token的embedding作為句子表示嘛,難道還有其他套路不成?

nono,你知道這樣得到的句子表示捕捉到的語義信息其實很弱嗎?今天向大家介紹一篇來自于 CMU 和字節(jié)跳動合作,發(fā)表在 EMNLP2020 的 paper, 詳盡地分析了從預(yù)訓(xùn)練模型得到 sentence embedding 的常規(guī)方式的缺陷和最佳打開方式,是一篇非常實用、輕松幫助大家用BERT刷分的文章。論文質(zhì)量蠻高,分析和發(fā)現(xiàn)很有趣,通讀之后感覺收獲多多。

自2018年BERT驚艷眾人之后,基于預(yù)訓(xùn)練模型對下游任務(wù)進(jìn)行微調(diào)已成為煉丹的標(biāo)配。然而近兩年的研究卻發(fā)現(xiàn),沒有經(jīng)過微調(diào),直接由BERT得到的句子表示在語義文本相似性方面明顯薄弱,甚至?xí)跤贕loVe得到的表示。此篇論文中首先從理論上探索了masked language model 跟語義相似性任務(wù)上的聯(lián)系,并通過實驗分析了BERT的句子表示,最后提出了BERT-Flow來解決上述問題。

為什么BERT的句子Embeddings表現(xiàn)弱?

由于Reimers等人之前已實驗證明 context embeddings 取平均要優(yōu)于[CLS] token的embedding。因而在文章中,作者都以最后幾層文本嵌入向量的平均值來作為BERT句子的表示向量。

語義相似性與BERT預(yù)訓(xùn)練的聯(lián)系

為了探究上述問題,作者首先將語言模型(LM)與掩蓋語言模型(MLM) 統(tǒng)一為: 給定context(c)預(yù)測得到 token(x) 的概率分布,即

這里 是context的embedding, 表示 的word embedding。進(jìn)一步,由于將 embedding 正則化到單位超球面時,兩個向量的點(diǎn)積等價于它們的cosine 相似度,我們便可以將BERT句子表示的相似度簡化為文本表示的相似度,即 。

另外,考慮到在訓(xùn)練中,當(dāng) c 與 w 同時出現(xiàn)時,它們對應(yīng)的向量表示也會更接近。換句話說,context-context 的相似度可以通過 context-words 之間的相似度推出或加強(qiáng)。

各向異性嵌入空間

Jun Gao, Lingxiao Wang 等人在近幾年的ICLR paper中有提到語言模型中最大似然目標(biāo)的訓(xùn)練會產(chǎn)生各向異性的詞向量空間,即向量各個方向分布并不均勻,并且在向量空間中占據(jù)了一個狹窄的圓錐體,如下圖所示~

這種情況同樣也存在于預(yù)訓(xùn)練好的基于Transformer的模型中,比如BERT,GPT-2。而在這篇paper中,作者通過實驗得到以下兩個發(fā)現(xiàn):

詞頻率影響詞向量空間的分布:文中通過度量BERT詞向量表示與原點(diǎn) l_2 距離的均值得到以下的圖表。我們可以看到高頻的詞更接近原點(diǎn)。由于word embedding在訓(xùn)練過程中起到連接文本embedding的作用,我們所需的句子表示向量可能會相應(yīng)地被單詞頻率信息誤導(dǎo),且其保留的語義信息可能會被破壞。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低頻詞分布偏向稀疏:文中度量了詞向量空間中與K近鄰單詞的 l_2 距離的均值。我們可以看到高頻詞分布更集中,而低頻詞分布則偏向稀疏。然而稀疏性的分布會導(dǎo)致表示空間中存在很多“洞”,這些洞會破壞向量空間的“凸性”。考慮到BERT句子向量的產(chǎn)生保留了凸性,因而直接使用其句子embeddings會存在問題。

Flow-based 生成模型

那么,如何無監(jiān)督情況下充分利用BERT表示中的語義信息?為了解決上述存在的問題,作者提出了一種將BERT embedding空間映射到一個標(biāo)準(zhǔn)高斯隱空間的方法(如下圖所示),并稱之為“BERT-flow”。而選擇 Gaussian 空間的動機(jī)也是因為其自身的特點(diǎn):

標(biāo)準(zhǔn)高斯分布滿足各向同性

高斯分布區(qū)域沒有“洞”,即不存在破壞“凸性”的情況

上圖中 表示隱空間, 表示觀測到的空間,f: 是可逆的變換。根據(jù)概率密度函數(shù)中變量替換的定理,我們可以得到觀測變量的概率密度函數(shù)如下:

進(jìn)一步,作者通過最大化BERT句子表示的邊緣似然函數(shù)來學(xué)習(xí)基于流的生成模型,即通過如下的公式來訓(xùn)練flow的參數(shù)

其中 表示數(shù)據(jù)集分布, 為神經(jīng)網(wǎng)絡(luò)。需要注意的是,在訓(xùn)練中,不需要任何人工標(biāo)注!另外,BERT的參數(shù)保持不變,僅有流的參數(shù)進(jìn)行優(yōu)化更新。其次,在實驗中,作者基于Glow (Dinh et al., 2015)的設(shè)計(多個可逆變換組合)進(jìn)行改動,比如將仿射耦合(affine coupling)替換為了加法耦合(additive coupling)。

實驗及結(jié)果

論文的實驗部分在7個數(shù)據(jù)集上進(jìn)行衡量語義文本相似性任務(wù)的效果。

實驗步驟:

通過句子encoder得到每個句子的向量表示。

計算句子之間的cosine similarity 作為模型預(yù)測的相似度。

計算Spearman系數(shù)。

實驗結(jié)果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上圖匯報了sentence embeddings的余弦相似度同多個數(shù)據(jù)集上真實標(biāo)簽之間的Spearman等級相關(guān)性得分(),其中flow-target 表示在完整的目標(biāo)數(shù)據(jù)集(train+validation+test)上進(jìn)行學(xué)習(xí),flow-NLI 表示模型在NLI(natual language inference)任務(wù)的測試,綠色箭頭表示相對于BERT的baseline,模型的效果有提升,紅色反之。

我們可以注意到模型的改進(jìn)對于效果的提升還是很顯著滴!文章同樣還在無監(jiān)督問答任務(wù)證明模型的有效性,并將BERT-flow得到的語義相似度同詞法相似度(通過編輯距離來衡量)進(jìn)行對比,結(jié)果同樣證明模型在引入流的可逆映射后減弱了語義相似性與詞法相似性之間的聯(lián)系!具體信息大家可查閱paper~

小結(jié)

總之,這篇paper探究了BERT句子表示對于語義相似性上潛在的問題,并提出了基于流的可逆映射來改進(jìn)在對應(yīng)任務(wù)上的表現(xiàn)。想多了解的童鞋可以看看原文,相信你們也會喜歡上這篇paper!

原文標(biāo)題:還在用[CLS]?從BERT得到最強(qiáng)句子Embedding的打開方式!

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7174

    瀏覽量

    87156
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48359

原文標(biāo)題:還在用[CLS]?從BERT得到最強(qiáng)句子Embedding的打開方式!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    換熱設(shè)備清洗的正確打開方式,不僅清洗效果好,而且安全無腐蝕

    換熱器目前常用的換熱介質(zhì)多為水或蒸汽,在熱交換過程中,水或蒸汽中的鹽類和污垢容易析出導(dǎo)致結(jié)垢,產(chǎn)生的這些污垢會使設(shè)備和管道線路失效,裝置系統(tǒng)會發(fā)生生產(chǎn)下降,能耗、物耗增加等不良情況,污垢腐蝕特別嚴(yán)重時還會使流程中斷,裝置系統(tǒng)被迫停產(chǎn),直接造成各種經(jīng)濟(jì)損失,甚至還有可能發(fā)生惡性生產(chǎn)事故。
    的頭像 發(fā)表于 08-12 15:33 ?156次閱讀
    換熱設(shè)備清洗的正確<b class='flag-5'>打開方式</b>,不僅清洗效果好,而且安全無腐蝕

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調(diào)制格式越來越復(fù)雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT。
    的頭像 發(fā)表于 08-06 17:27 ?318次閱讀

    新品|酷暑的新打開方式:SXB3568主板

    開源鴻蒙硬件方案領(lǐng)跑者觸覺智能選主板,接口雜太多?成本太高?性能不夠?來看看觸覺智能全新推出基于RockchipRK3568處理器開發(fā)設(shè)計的SXB3568商顯行業(yè)主板,低成本、高性能、全功能模塊拓展,帶你開啟暑期狂歡!RK3568系列產(chǎn)品采用瑞芯微SOC芯片RK3568,集成了四核Cortex-A55CPU,主頻高達(dá)2.0G。RK3568支持PCIE2.0/
    的頭像 發(fā)表于 07-13 08:33 ?227次閱讀
    新品|酷暑的新<b class='flag-5'>打開方式</b>:SXB3568主板

    Jacob:純提效的工具,也許不是AI正確的打開方式

    每一個新領(lǐng)域的誕生、每一個新企業(yè)的崛起,都是在建立新的連接,組成新的網(wǎng)絡(luò)結(jié)構(gòu),形成新的壟斷形態(tài)。在別人穩(wěn)定的網(wǎng)絡(luò)里競爭,尤其是已經(jīng)存在頭部壟斷者,并存在明顯競爭規(guī)則的網(wǎng)絡(luò)里去尋求創(chuàng)新,屬于極度吃力不討好。互聯(lián)網(wǎng)時代的一個關(guān)鍵是“減少信息的不對稱性”,因為信息的不對稱,很多連接無法建立,甚至不知道可以建立,這些連接一旦建立,將釋放出比以往任何時候都更巨大的價值
    的頭像 發(fā)表于 05-24 08:05 ?129次閱讀
    Jacob:純提效的工具,也許不是AI正確的<b class='flag-5'>打開方式</b>

    汽車水箱氣密性檢測儀的正確打開方式

    在車輛日常維護(hù)中,水箱作為冷卻系統(tǒng)的核心部件,其密封性能對發(fā)動機(jī)的正常運(yùn)作至關(guān)重要。今天,就讓我們一起走進(jìn)汽車維修的小秘密——如何使用汽車水箱氣密性檢測儀,確保您的愛車始終保持良好的狀態(tài)。首先,我們需要了解什么是汽車水箱氣密性檢測儀。簡而言之,它是一種用于檢測汽車水箱是否能夠保持良好的氣密性,防止冷卻液泄漏的專用工具。正確使用這種儀器,不僅可以避免因漏液造成
    的頭像 發(fā)表于 04-30 11:56 ?257次閱讀
    汽車水箱氣密性檢測儀的正確<b class='flag-5'>打開方式</b>

    使用FreeRTOS的時候,在GPIO口中斷回調(diào)中調(diào)用了osMessagePut,消息是接到了,但是里面的值一直是0為什么?

    各位:最近使用FreeRTOS的時候,在GPIO口中斷回調(diào)中調(diào)用了osMessagePut,用任務(wù)接這個消息。 結(jié)果發(fā)現(xiàn)消息是接到了,但是里面的值一直是0. 1、有誰知道這個原因 2、我想進(jìn)這個消息隊列中看看,但是keil貌似不給看,是我打開方式出錯了?誰知道?
    發(fā)表于 04-26 06:32

    亮風(fēng)臺AR解鎖奇幻山海經(jīng),上古奇書的全新打開方式

    “把跨越時空、超越國度、富有永恒魅力、具有當(dāng)代價值的文化精神弘揚(yáng)起來,讓收藏在博物館里的文物、陳列在廣闊大地上的遺產(chǎn)、書寫在古籍里的文字都活起來”。日前,“探秘山海經(jīng)·沉浸藝術(shù)展”蘇州站在誠品生活蘇州拉開帷幕,本次展覽是“探秘山海經(jīng)”系列全國巡展中又一具有代表性的沉浸式藝術(shù)展覽形式,通過古籍原物、國風(fēng)畫作、立體雕塑、裝置藝術(shù)、多媒體光影、AR體驗、文創(chuàng)互動等
    的頭像 發(fā)表于 12-16 08:01 ?1786次閱讀
    亮風(fēng)臺AR解鎖奇幻山海經(jīng),上古奇書的全新<b class='flag-5'>打開方式</b>

    EPLAN帶你做項目,PLC高效設(shè)計與批量編輯方式

    對PLC進(jìn)行編輯,首先應(yīng)打開PLC的導(dǎo)航器來輔助進(jìn)行高效設(shè)計,打開方式:視圖→導(dǎo)航器→打開命令下拉找到PLC數(shù)據(jù) (前提是需要打開項目的圖紙頁,否則視圖選項卡不會顯示)。
    的頭像 發(fā)表于 11-17 16:34 ?1273次閱讀
    EPLAN帶你做項目,PLC高效設(shè)計與批量編輯<b class='flag-5'>方式</b>

    FPGA新IP核學(xué)習(xí)的正確打開方式

    的情況時,總會遇到一些以前未曾接觸過的新內(nèi)容,這些新內(nèi)容會讓我們感到陌生和恐懼,不知道該如何下手。 那么今天以xilinx vivado 為例分享學(xué)習(xí)FPGA 新IP核的正確打開方式。 一、常規(guī)
    發(fā)表于 11-17 11:09

    請問arduino如何嵌入?yún)R編進(jìn)行數(shù)學(xué)開方等運(yùn)算進(jìn)行提速?

    請問arduino如何嵌入?yún)R編進(jìn)行數(shù)學(xué)開方等運(yùn)算進(jìn)行提速?
    發(fā)表于 11-09 07:16

    PLC的高效設(shè)計與批量編輯的方式

    對PLC進(jìn)行編輯,首先應(yīng)打開PLC的導(dǎo)航器來輔助進(jìn)行高效設(shè)計,打開方式:視圖→導(dǎo)航器→打開命令下拉找到PLC數(shù)據(jù) (前提是需要打開項目的圖紙頁,否則視圖選項卡不會顯示)。在PLC導(dǎo)航器
    發(fā)表于 11-07 15:22 ?408次閱讀
    PLC的高效設(shè)計與批量編輯的<b class='flag-5'>方式</b>

    SIMCom在智慧果園里的正確打開方式,了解一下?

    隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,以前的人工維護(hù)、采摘和運(yùn)輸?shù)?b class='flag-5'>方式逐漸淘汰,AI蟲情監(jiān)測、無人機(jī)、智能溯源防偽、智能包裝、智慧防凍等方式成為智慧果園的新選擇。芯訊通深耕物聯(lián)網(wǎng)通信模組行業(yè)20
    的頭像 發(fā)表于 11-02 19:30 ?575次閱讀
    SIMCom在智慧果園里的正確<b class='flag-5'>打開方式</b>,了解一下?

    基于BERT算法搭建一個問答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽說過,它是Google推出的NLP領(lǐng)域“王炸級”預(yù)訓(xùn)練模型,其在NLP任務(wù)中刷新了多項記錄,并取得state of the art的成績。 但是有很多深度
    的頭像 發(fā)表于 10-30 11:46 ?505次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建一個問答搜索引擎

    高端MiniLED電視正確打開方式:5184級背光分區(qū)、六晶方芯、5000nits峰值亮度

    搬新家少不了MiniLED電視,趁雙十一入手,畫質(zhì)好得不敢相信眼睛 作為名副其實的扛把子,TCL蟬聯(lián)Mini LED電視領(lǐng)域霸主多年,在這一領(lǐng)域積累大量技術(shù)經(jīng)驗,以實際體驗征服了無數(shù)消費(fèi)者的錢包,相繼取得了2022全年中國Mini LED電視市場第一,2023年上半年全球電視市場銷量第二的成績。京東雙十一期間,TCL Mini LED電視全線爆賣,截止目前占到京東Mini LED電視排行榜前10名的8席。 今年年初,TCL推出了Mini LED電視畫質(zhì)天花板產(chǎn)品——TCL X11G,首次將背光分區(qū)推高到5184級,成為截止
    的頭像 發(fā)表于 10-27 16:03 ?584次閱讀

    請問卡片電腦性能最強(qiáng)的是哪一個?

    卡片電腦性能最強(qiáng)的是哪一個?
    發(fā)表于 09-28 06:21