1. Abstract
這篇paper主要是針對(duì)于傳統(tǒng)的預(yù)訓(xùn)練語言模型捕捉細(xì)微差異能力不足的問題,像添加和刪除單詞、修改句子等微小的噪音就可能會(huì)導(dǎo)致模型預(yù)測(cè)錯(cuò)誤
因此,該論文提出一種新型的雙流注意力增強(qiáng)型bert(DABERT,Dual Attention Enhanced BERT ),用來提高捕捉句子對(duì)中細(xì)微差異的能力,包括兩個(gè)模塊,
(1)雙流注意力模塊,通過引入新的雙通道對(duì)齊機(jī)制來測(cè)量軟詞匹配,來建模相似注意力和差異注意力
(2)自適應(yīng)融合模塊,使用注意力機(jī)制來學(xué)習(xí)差異和相似特征的聚合,并生成一個(gè)描述句對(duì)匹配細(xì)節(jié)的向量
2. Motivation
之前的研究提出的方法在區(qū)分字面上相似但語義不同的句子對(duì)方面表現(xiàn)不佳,這可能是因?yàn)閟elf-attention機(jī)制是利用上下文來理解token的語義,但這樣忽略了句子對(duì)之間的語義差異,因此為了更好的整合句子對(duì)之間的更加細(xì)粒度的差別,將difference向量和affinity向量放在一起建模
difference vector為差異向量
affinity vector為相似向量,即普通的attention得到的向量表示
字面意義相似但語義不同的例句,S1和S2是一對(duì)句子
2.1 Two questions
有了上面的思路之后,就自然而然的產(chǎn)生了兩個(gè)關(guān)鍵問題
Q1:如何使普通的注意力機(jī)制能夠?qū)渥訉?duì)之間細(xì)微差別的語義進(jìn)行建模?
Vanilla attention,或稱為affinity attention,并不太關(guān)注句子對(duì)之間的細(xì)微差別,要提升這個(gè)能力,一個(gè)直觀的解決方案是在表示向量之間做減法,以捕獲它們的語義差異。論文中提出了一個(gè)雙注意力模塊,包括差異注意力和普通注意力。差異注意力使用基于減法的cross-attention來聚合詞和短語層面的交互差異。同時(shí),為了充分利用差異信息,使用雙通道將差異信息注入Transformer中的multi-head attention,以獲得描述相似和差異的語義表示。
Q2:如何將兩類語義表示融合為一個(gè)統(tǒng)一的表示?
通過額外的結(jié)構(gòu)對(duì)兩種信號(hào)進(jìn)行硬融合可能會(huì)破壞預(yù)訓(xùn)練模型的表示能力,如何將這些信息更柔和地注入到預(yù)訓(xùn)練的模型中仍然是一個(gè)難題。論文中提出了一個(gè)自適應(yīng)融合模塊,使用額外的注意力來學(xué)習(xí)差異和相似特征,以產(chǎn)生描述句子匹配細(xì)節(jié)的向量。
它首先通過不同的注意力將兩個(gè)信號(hào)相互對(duì)齊以捕獲語義交互,然后使用門控來自適應(yīng)地融合差異特征。這些生成的向量通過另一個(gè) fuse-gate 進(jìn)一步縮放,以減少差異信息對(duì)預(yù)訓(xùn)練模型的損害,輸出的最終向量可以更好地描述句子對(duì)的匹配細(xì)節(jié)。
3. Main contributions
明確地對(duì)句子對(duì)之間的細(xì)粒度差異語義進(jìn)行建模,進(jìn)而有效地提升句子語義匹配任務(wù)的效果,并且提出了一種基于BERT的新型雙流注意力增強(qiáng)機(jī)制
提出的DABERT模型使用雙流注意力來分別關(guān)注句子對(duì)中的相似性和差異性特征,并采用soft-integrated的調(diào)節(jié)機(jī)制來自適應(yīng)地聚合這兩個(gè)特征,使得生成的向量可以更好地描述句子對(duì)的匹配細(xì)節(jié)
4. Semantic Sentence Matching
先介紹一下句子語義匹配任務(wù)(SSM, Semantic Sentence Matching),其目標(biāo)是比較兩個(gè)句子并識(shí)別它們的語義關(guān)系。
在轉(zhuǎn)述識(shí)別中,SSM用來確定兩個(gè)句子是否是轉(zhuǎn)述關(guān)系;在自然語言推理任務(wù)中,SSM用來判斷一個(gè)假設(shè)句是否可以從一個(gè)前提句中推斷出來;在QA任務(wù)中,SSM被用來評(píng)估問題-答案之間的相關(guān)性,并對(duì)所有候選回答進(jìn)行排序。
處理句子語義匹配任務(wù)一般可分為兩個(gè)主要的研究方向:
利用句子編碼器將句子轉(zhuǎn)換為潛在空間中的低維向量,并應(yīng)用參數(shù)化的函數(shù)來學(xué)習(xí)二者之間的匹配分?jǐn)?shù)
采用注意力機(jī)制來計(jì)算兩個(gè)句子token之間的分?jǐn)?shù),然后將匹配分?jǐn)?shù)匯總,做出句子級(jí)的決策
還有通過注入知識(shí)來解決該問題的嘗試,如SemBERT,UER-BERT,Syntax-BERT等
5. Model architecture
DABERT是對(duì)原始 Transformer結(jié)構(gòu)的修改,其結(jié)構(gòu)如下所示
The overall architecture of Dual Attention Enhanced BERT (DABERT). The left side is the Dual attention module, and the right side is the Adaptive Fusion module
在這個(gè)新結(jié)構(gòu)中包括兩個(gè)子模塊
(1)雙注意力模塊,它在多頭注意力中使用雙通道機(jī)制來匹配兩個(gè)句子之間的單詞,每個(gè)通道使用不同的注意力頭,分別計(jì)算affinity 和 difference分?jǐn)?shù),得到兩個(gè)表征,分別測(cè)量相似 和 差異信息。
(2)自適應(yīng)融合模塊,用于融合雙流注意力得到的表征,首先使用guide-attention來對(duì)齊兩個(gè)信號(hào),然后使用多個(gè)門控模塊來融合這兩個(gè)信號(hào),最終輸出一個(gè)包括更細(xì)粒度的匹配細(xì)節(jié)的向量
5.1 Dual Attention Module
在這個(gè)模塊中,使用兩個(gè)不同的注意力函數(shù),即常規(guī)注意力和差異注意力,來比較兩個(gè)句子之間向量的相似度和差異度。雙重注意力模塊的輸入是的三要素,其中是潛在維度,是序列長(zhǎng)度。
雙流注意力模塊通過兩個(gè)獨(dú)立的注意力機(jī)制計(jì)算K、Q和V之間的潛在關(guān)系,以測(cè)量它們的相似度和差異度。因此該模塊會(huì)產(chǎn)生兩組注意力表征,后續(xù)由自適應(yīng)融合模塊處理。
雙流注意力模塊
5.1.1 Affinity Attention
相似注意力是雙流注意力的一部分,它是標(biāo)準(zhǔn)的點(diǎn)積注意力,按照Transformer的默認(rèn)操作進(jìn)行計(jì)算。該模塊的輸入包括query和維度為的key,以及維度為的value。
計(jì)算query與所有key的點(diǎn)積,將每個(gè)點(diǎn)積除以,并使用softmax函數(shù)來獲得數(shù)值的權(quán)重,將輸出的相似向量表示為
其中,表示描述由Transformer原始注意力模塊生成的相似表達(dá)的向量。
5.1.2 Difference Attention
雙流注意力的第二部分是差異注意力模塊,用于捕捉和聚合句子對(duì)之間的差異信息,采用基于減法的cross-attention機(jī)制,它允許模型通過element-wise的減法來捕獲句子對(duì)之間的差別,如
其中,是輸入序列長(zhǎng)度,
表示差異注意力模塊所產(chǎn)生的表示。是一個(gè)Mask操作。相似注意力和差異注意力都被用來建模句子對(duì)之間的語義關(guān)系,并分別從相似和差異的角度獲得相同維度的表征,這種雙通道機(jī)制可以獲得描述句子匹配的更詳細(xì)的表征。
5.2 Adaptive Fusion Module
使用自適應(yīng)融合模塊來融合相似表示A和差異表示D,因?yàn)橹苯尤诤希雌骄度胂蛄浚┛赡軙?huì)損害預(yù)訓(xùn)練模型的原始表示能力
自適應(yīng)融合模塊
融合過程包括三個(gè)步驟
通過affinity-guided attention和difference-guided attention,靈活地與這兩個(gè)表示進(jìn)行互動(dòng)和對(duì)齊
采用多個(gè)門控模塊來選擇性地提取交互語義信息
為了減輕差異表示對(duì)預(yù)訓(xùn)練模型的損害,我們利用filter gates來自適應(yīng)地過濾掉噪聲信息,最后生成更好描述句子匹配細(xì)節(jié)的向量
6. Experimental and Results analysis
6.1 Datasets
作者主要做了語義匹配和模型魯棒性的實(shí)驗(yàn),用到的數(shù)據(jù)集分別如下
Semantic Matching
GLUE的6個(gè)句對(duì)數(shù)據(jù)集:MRPC、QQP、STS-B、MNLI、RTE、QNLI
其他4個(gè)流行的數(shù)據(jù)集:SNLI、SICK、TwitterURL、Scitail
Robustness Test
利用TextFlint對(duì)多個(gè)數(shù)據(jù)集(Quora、SNLI、MNLI-m/mm)進(jìn)行轉(zhuǎn)化,包括特定任務(wù)的轉(zhuǎn)化(SwapAnt、NumWord、AddSent)和一般轉(zhuǎn)化(InsertAdv、Appendlrr、AddPunc、BackTrans、TwitterType、SwapNamedEnt、SwapSyn-WordNet)
TextFlint是一個(gè)自然語言處理模型的魯棒性評(píng)估平臺(tái)。它包括80多種模式來變形數(shù)據(jù),包括插入標(biāo)點(diǎn)符號(hào),改變文本中的數(shù)字,替換同義詞,修改副詞,刪除單詞等,可以有效地評(píng)估模型的魯棒性和泛化性
6.2 Baselines
BERT、SemBERT、SyntaxBERT、URBERT和其他多個(gè)PLM
此外,還選擇了幾個(gè)沒有預(yù)訓(xùn)練的競(jìng)爭(zhēng)模型作為基線,如ESIM,Transformer等
在魯棒性實(shí)驗(yàn)中,比較了多個(gè)預(yù)訓(xùn)練模型和SemBERT,URBERT、Syntax-BERT
6.3 Results analysis
更具體的實(shí)驗(yàn)結(jié)果這里就不羅列了,只看一下論文作者對(duì)于一些結(jié)果的解釋
模型表現(xiàn)優(yōu)于SyntaxBERT,這是之前利用外部知識(shí)的最佳模型,基于BERT-large的平均相對(duì)改進(jìn)為0.86%。在QQP數(shù)據(jù)集上,DABERT的準(zhǔn)確性比SyntaxBERT明顯提高了2.4%。造成這種結(jié)果的主要原因有兩個(gè)
使用雙流注意力來增強(qiáng)DABERT捕捉差異特征的能力,這使得DABERT能夠獲得更精細(xì)的交互匹配特征
對(duì)于外部結(jié)構(gòu)引入的潛在噪聲問題,自適應(yīng)融合模塊可以有選擇地過濾掉不合適的信息,以抑制噪聲的傳播,而以前的工作似乎沒有對(duì)這個(gè)問題給予足夠的關(guān)注
SyntaxBERT仍在幾個(gè)數(shù)據(jù)集上取得了稍好的準(zhǔn)確性,作者認(rèn)為這是句法和依存知識(shí)的內(nèi)在關(guān)聯(lián)性的結(jié)果
The performance comparison of DABERT with other methods. Accuracy × 100 on 6 GLUE datasets. Methods with ? indicate the results from their papers, while methods with ? indicate our implementation
Robustness Test Performance
下表列出了DABERT和六個(gè)基線模型在三個(gè)數(shù)據(jù)集上的準(zhǔn)確性??梢杂^察到,
SwapAnt的性能表現(xiàn)最差,而DABERT在SwapAnt(QQP)上優(yōu)于最佳模型SemBert近10%,這表明DABERT比基線模型更能處理反義詞引起的語義矛盾
NumWord轉(zhuǎn)換,BERT模型性能下降到56.96%,而DABERT優(yōu)于BERT近6%,因?yàn)樗竽P?strong>捕捉細(xì)微的數(shù)字差異,以進(jìn)行正確的語言推理
SwapSyn變換,UERBERT明顯優(yōu)于其他基線模型,因?yàn)樗鞔_使用同義詞相似性矩陣來校準(zhǔn)注意力分布,而DABERT在不添加外部知識(shí)的情況下仍能達(dá)到與UERBERT相當(dāng)?shù)男阅?/strong>
TwitterType和AddPunc,注入句法樹的SyntaxBERT性能明顯下降,這可能是因?yàn)閷⑽谋巨D(zhuǎn)換為twitter類型或添加標(biāo)點(diǎn)符號(hào)破壞了句子的正常句法結(jié)構(gòu),而DABERT在這兩種轉(zhuǎn)換中仍然取得了不錯(cuò)的的性能
在其他情況下,DABERT也取得了更好的性能,因?yàn)樗蹲降搅司渥訉?duì)的細(xì)微差別。同時(shí),ESIM的表現(xiàn)最差,結(jié)果反映出預(yù)訓(xùn)練機(jī)制得益于豐富的外部資源,并提供了比從頭訓(xùn)練的模型更好的泛化能力。
而改進(jìn)后的預(yù)訓(xùn)練模型SyntaxBERT比原來的BERT模型表現(xiàn)更好,這反映出足夠的預(yù)訓(xùn)練語料和合適的外部知識(shí)融合策略有助于提高模型的泛化性能。
Robustness Test Performance
6.4 Ablation Study
作者在QQP和QNLI數(shù)據(jù)集上進(jìn)行了基于BERT的消融實(shí)驗(yàn)
去掉相似注意力后,模型在兩個(gè)數(shù)據(jù)集上的性能分別下降了1.8%和0.7%。相似注意力可以捕捉到詞對(duì)之間的動(dòng)態(tài)對(duì)齊關(guān)系,這對(duì)SSM任務(wù)至關(guān)重要
去掉差異注意力后,兩個(gè)數(shù)據(jù)集的性能分別下降了1.5%和0.6%。差異信息可以進(jìn)一步描述詞與詞之間的相互作用,并且可以為預(yù)訓(xùn)練的模型提供更精細(xì)的比較信息,從而使模型獲得更好的表現(xiàn)
上述實(shí)驗(yàn)表明,去除子模塊后,性能急劇下降,這表明了雙流注意力模塊內(nèi)部組件的有效性
自適應(yīng)融合模塊中,作者也進(jìn)行了幾次實(shí)驗(yàn)來驗(yàn)證相似和差異向量的融合效果。在QQP數(shù)據(jù)集上,
刪除引導(dǎo)注意力模塊(guide attention),性能下降到90.4%。因?yàn)橐龑?dǎo)注意力可以捕捉到兩種表示之間的相互作用,這種相互作用信息對(duì)于融合兩個(gè)不同的信息至關(guān)重要
去掉fusion gate后,只通過簡(jiǎn)單的平均來整合兩個(gè)表示,準(zhǔn)確率下降到91.4%,表明根據(jù)不同的權(quán)重動(dòng)態(tài)地合并相似和差異向量可以提高模型的性能
移出filter gate后,準(zhǔn)確率下降了0.4%,表明沒有filter gate,模型抑制噪聲的能力被削弱了
用簡(jiǎn)單的平均代替整體聚合和調(diào)節(jié)模塊,性能急劇下降到89.4%。雖然差異信息對(duì)判斷句對(duì)關(guān)系至關(guān)重要,但將差異信息硬性整合到PLM中會(huì)破壞其預(yù)存的知識(shí),而更柔和的聚合和處理可以更好地利用差異信息
總的來說,通過各個(gè)部分的有效組合,DABERT可以自適應(yīng)地將差異特征融合到預(yù)訓(xùn)練的模型中,并利用其強(qiáng)大的上下文表示法來更好地推斷語義
Results of component ablation experiment
6.5 Case Study
為了直觀地了解DABERT的工作情況,作者使用下表中的三個(gè)案例進(jìn)行定性分析。
在第一種情況下,非預(yù)訓(xùn)練的語言模型ESIM很難捕捉到由差異詞引起的語義沖突。因此,ESIM在案例1中給出了錯(cuò)誤的預(yù)測(cè)結(jié)果。
BERT在案例1中可以借助于上下文來識(shí)別語義差異,但在案例3中,BERT不能捕捉到數(shù)字 "12 "和 "24 "之間的差異,并給出了錯(cuò)誤的預(yù)測(cè)。
SyntaxBERT通過引入句法樹來加強(qiáng)文本理解,由于案例2和案例3具有相同的句法結(jié)構(gòu),SyntaxBERT也給出了錯(cuò)誤的預(yù)測(cè)
總的來說,這幾種不同的情況,上述三種模型都有其處理不了的原因,反觀DABERT在上述所有的情況下都做出了正確的預(yù)測(cè)。
由于DABERT通過差異注意力明確地關(guān)注句子對(duì)中的不同部分,并在自適應(yīng)融合模塊中自適應(yīng)地聚合相似和差異信息,它可以識(shí)別由句子對(duì)內(nèi)的細(xì)微差異引起的語義差異
Example sentence pairs, Red and Blue are difference phrases in sentence pair.
Attention Distribution
為了驗(yàn)證基于減法的注意力對(duì)差異信息的融合效果,作者還在下圖中展示了BERT和DABERT的權(quán)重分布并進(jìn)行比較。
可以看出,雙流注意力得到的注意力矩陣分布變得更加合理,尤其是 "hardware "和 "software"之間的注意力權(quán)重明顯增加,這表明DABERT給句子對(duì)的差異之處給予了更多的關(guān)注
Distribution of BERT (a) and DABERT (b)
7. Conclusion
總結(jié)一下,這篇論文是通過改變傳統(tǒng)Transformer中的注意力結(jié)構(gòu)來達(dá)到優(yōu)化注意力權(quán)重分布的效果,進(jìn)而讓模型可以將句子對(duì)之間的向量表示有差別的地方凸顯出來,而相似的地方更加靠近。
在保持原始預(yù)訓(xùn)練語言模型不被影響到情況下,增強(qiáng)模型的表示能力,并且做了大量的實(shí)驗(yàn)來證明,比之前的工作得到了更好的效果。
審核編輯:劉清
-
ssm
+關(guān)注
關(guān)注
0文章
14瀏覽量
11359 -
MRPC
+關(guān)注
關(guān)注
0文章
2瀏覽量
1252
原文標(biāo)題:清華&美團(tuán)提出:DABERT — 雙流注意力增強(qiáng)型BERT,自適應(yīng)融合提升模型效果 | COLING'22
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論