0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新型的雙流注意力增強(qiáng)型BERT來提高捕捉句子對(duì)中細(xì)微差異的能力

深度學(xué)習(xí)自然語言處理 ? 來源:克魯斯卡 ? 作者:吳彧zero ? 2022-11-11 16:04 ? 次閱讀

1. Abstract

這篇paper主要是針對(duì)于傳統(tǒng)的預(yù)訓(xùn)練語言模型捕捉細(xì)微差異能力不足的問題,像添加和刪除單詞、修改句子等微小的噪音就可能會(huì)導(dǎo)致模型預(yù)測(cè)錯(cuò)誤

因此,該論文提出一種新型的雙流注意力增強(qiáng)型bert(DABERT,Dual Attention Enhanced BERT ),用來提高捕捉句子對(duì)中細(xì)微差異的能力,包括兩個(gè)模塊,

(1)雙流注意力模塊,通過引入新的雙通道對(duì)齊機(jī)制來測(cè)量軟詞匹配,來建模相似注意力和差異注意力

(2)自適應(yīng)融合模塊,使用注意力機(jī)制來學(xué)習(xí)差異和相似特征的聚合,并生成一個(gè)描述句對(duì)匹配細(xì)節(jié)的向量

2. Motivation

之前的研究提出的方法在區(qū)分字面上相似但語義不同的句子對(duì)方面表現(xiàn)不佳,這可能是因?yàn)閟elf-attention機(jī)制是利用上下文來理解token的語義,但這樣忽略了句子對(duì)之間的語義差異,因此為了更好的整合句子對(duì)之間的更加細(xì)粒度的差別,將difference向量和affinity向量放在一起建模

difference vector為差異向量

affinity vector為相似向量,即普通的attention得到的向量表示

7badfadc-4b79-11ed-a3b6-dac502259ad0.png

字面意義相似但語義不同的例句,S1和S2是一對(duì)句子

2.1 Two questions

有了上面的思路之后,就自然而然的產(chǎn)生了兩個(gè)關(guān)鍵問題

Q1:如何使普通的注意力機(jī)制能夠?qū)渥訉?duì)之間細(xì)微差別的語義進(jìn)行建模?

Vanilla attention,或稱為affinity attention,并不太關(guān)注句子對(duì)之間的細(xì)微差別,要提升這個(gè)能力,一個(gè)直觀的解決方案是在表示向量之間做減法,以捕獲它們的語義差異。論文中提出了一個(gè)雙注意力模塊,包括差異注意力和普通注意力。差異注意力使用基于減法的cross-attention來聚合詞和短語層面的交互差異。同時(shí),為了充分利用差異信息,使用雙通道將差異信息注入Transformer中的multi-head attention,以獲得描述相似和差異的語義表示。

Q2:如何將兩類語義表示融合為一個(gè)統(tǒng)一的表示?

通過額外的結(jié)構(gòu)對(duì)兩種信號(hào)進(jìn)行硬融合可能會(huì)破壞預(yù)訓(xùn)練模型的表示能力,如何將這些信息更柔和地注入到預(yù)訓(xùn)練的模型中仍然是一個(gè)難題。論文中提出了一個(gè)自適應(yīng)融合模塊,使用額外的注意力來學(xué)習(xí)差異和相似特征,以產(chǎn)生描述句子匹配細(xì)節(jié)的向量。

它首先通過不同的注意力將兩個(gè)信號(hào)相互對(duì)齊以捕獲語義交互,然后使用門控來自適應(yīng)地融合差異特征。這些生成的向量通過另一個(gè) fuse-gate 進(jìn)一步縮放,以減少差異信息對(duì)預(yù)訓(xùn)練模型的損害,輸出的最終向量可以更好地描述句子對(duì)的匹配細(xì)節(jié)。

3. Main contributions

明確地對(duì)句子對(duì)之間的細(xì)粒度差異語義進(jìn)行建模,進(jìn)而有效地提升句子語義匹配任務(wù)的效果,并且提出了一種基于BERT的新型雙流注意力增強(qiáng)機(jī)制

提出的DABERT模型使用雙流注意力來分別關(guān)注句子對(duì)中的相似性和差異性特征,并采用soft-integrated的調(diào)節(jié)機(jī)制來自適應(yīng)地聚合這兩個(gè)特征,使得生成的向量可以更好地描述句子對(duì)的匹配細(xì)節(jié)

4. Semantic Sentence Matching

先介紹一下句子語義匹配任務(wù)(SSM, Semantic Sentence Matching),其目標(biāo)是比較兩個(gè)句子并識(shí)別它們的語義關(guān)系。

在轉(zhuǎn)述識(shí)別中,SSM用來確定兩個(gè)句子是否是轉(zhuǎn)述關(guān)系;在自然語言推理任務(wù)中,SSM用來判斷一個(gè)假設(shè)句是否可以從一個(gè)前提句中推斷出來;在QA任務(wù)中,SSM被用來評(píng)估問題-答案之間的相關(guān)性,并對(duì)所有候選回答進(jìn)行排序。

處理句子語義匹配任務(wù)一般可分為兩個(gè)主要的研究方向:

利用句子編碼器將句子轉(zhuǎn)換為潛在空間中的低維向量,并應(yīng)用參數(shù)化的函數(shù)來學(xué)習(xí)二者之間的匹配分?jǐn)?shù)

采用注意力機(jī)制來計(jì)算兩個(gè)句子token之間的分?jǐn)?shù),然后將匹配分?jǐn)?shù)匯總,做出句子級(jí)的決策

還有通過注入知識(shí)來解決該問題的嘗試,如SemBERT,UER-BERT,Syntax-BERT等

5. Model architecture

DABERT是對(duì)原始 Transformer結(jié)構(gòu)的修改,其結(jié)構(gòu)如下所示

7bc2d056-4b79-11ed-a3b6-dac502259ad0.png

The overall architecture of Dual Attention Enhanced BERT (DABERT). The left side is the Dual attention module, and the right side is the Adaptive Fusion module

在這個(gè)新結(jié)構(gòu)中包括兩個(gè)子模塊

(1)雙注意力模塊,它在多頭注意力中使用雙通道機(jī)制來匹配兩個(gè)句子之間的單詞,每個(gè)通道使用不同的注意力頭,分別計(jì)算affinity 和 difference分?jǐn)?shù),得到兩個(gè)表征,分別測(cè)量相似 和 差異信息。

(2)自適應(yīng)融合模塊,用于融合雙流注意力得到的表征,首先使用guide-attention來對(duì)齊兩個(gè)信號(hào),然后使用多個(gè)門控模塊來融合這兩個(gè)信號(hào),最終輸出一個(gè)包括更細(xì)粒度的匹配細(xì)節(jié)的向量

5.1 Dual Attention Module

在這個(gè)模塊中,使用兩個(gè)不同的注意力函數(shù),即常規(guī)注意力和差異注意力,來比較兩個(gè)句子之間向量的相似度和差異度。雙重注意力模塊的輸入是的三要素,其中是潛在維度,是序列長(zhǎng)度。

雙流注意力模塊通過兩個(gè)獨(dú)立的注意力機(jī)制計(jì)算K、Q和V之間的潛在關(guān)系,以測(cè)量它們的相似度和差異度。因此該模塊會(huì)產(chǎn)生兩組注意力表征,后續(xù)由自適應(yīng)融合模塊處理。

7becf048-4b79-11ed-a3b6-dac502259ad0.png

雙流注意力模塊

5.1.1 Affinity Attention

相似注意力是雙流注意力的一部分,它是標(biāo)準(zhǔn)的點(diǎn)積注意力,按照Transformer的默認(rèn)操作進(jìn)行計(jì)算。該模塊的輸入包括query和維度為的key,以及維度為的value。

計(jì)算query與所有key的點(diǎn)積,將每個(gè)點(diǎn)積除以,并使用softmax函數(shù)來獲得數(shù)值的權(quán)重,將輸出的相似向量表示為

其中,表示描述由Transformer原始注意力模塊生成的相似表達(dá)的向量。

5.1.2 Difference Attention

雙流注意力的第二部分是差異注意力模塊,用于捕捉和聚合句子對(duì)之間的差異信息,采用基于減法的cross-attention機(jī)制,它允許模型通過element-wise的減法來捕獲句子對(duì)之間的差別,如

其中,是輸入序列長(zhǎng)度,
表示差異注意力模塊所產(chǎn)生的表示。是一個(gè)Mask操作。相似注意力和差異注意力都被用來建模句子對(duì)之間的語義關(guān)系,并分別從相似和差異的角度獲得相同維度的表征,這種雙通道機(jī)制可以獲得描述句子匹配的更詳細(xì)的表征。

5.2 Adaptive Fusion Module

使用自適應(yīng)融合模塊來融合相似表示A和差異表示D,因?yàn)橹苯尤诤希雌骄度胂蛄浚┛赡軙?huì)損害預(yù)訓(xùn)練模型的原始表示能力

7c06ae48-4b79-11ed-a3b6-dac502259ad0.png

自適應(yīng)融合模塊

融合過程包括三個(gè)步驟

通過affinity-guided attention和difference-guided attention,靈活地與這兩個(gè)表示進(jìn)行互動(dòng)和對(duì)齊

采用多個(gè)門控模塊來選擇性地提取交互語義信息

為了減輕差異表示對(duì)預(yù)訓(xùn)練模型的損害,我們利用filter gates來自適應(yīng)地過濾掉噪聲信息,最后生成更好描述句子匹配細(xì)節(jié)的向量

poYBAGNuAuSAI8xmAAG9dHdCw40842.jpg
pYYBAGNuAuuAWhkwAAE0dIetS7s373.jpg

6. Experimental and Results analysis

6.1 Datasets

作者主要做了語義匹配和模型魯棒性的實(shí)驗(yàn),用到的數(shù)據(jù)集分別如下

Semantic Matching

GLUE的6個(gè)句對(duì)數(shù)據(jù)集:MRPC、QQP、STS-B、MNLI、RTE、QNLI

其他4個(gè)流行的數(shù)據(jù)集:SNLI、SICK、TwitterURL、Scitail

Robustness Test

利用TextFlint對(duì)多個(gè)數(shù)據(jù)集(Quora、SNLI、MNLI-m/mm)進(jìn)行轉(zhuǎn)化,包括特定任務(wù)的轉(zhuǎn)化(SwapAnt、NumWord、AddSent)和一般轉(zhuǎn)化(InsertAdv、Appendlrr、AddPunc、BackTrans、TwitterType、SwapNamedEnt、SwapSyn-WordNet)

TextFlint是一個(gè)自然語言處理模型的魯棒性評(píng)估平臺(tái)。它包括80多種模式來變形數(shù)據(jù),包括插入標(biāo)點(diǎn)符號(hào),改變文本中的數(shù)字,替換同義詞,修改副詞,刪除單詞等,可以有效地評(píng)估模型的魯棒性和泛化性

6.2 Baselines

BERT、SemBERT、SyntaxBERT、URBERT和其他多個(gè)PLM

此外,還選擇了幾個(gè)沒有預(yù)訓(xùn)練的競(jìng)爭(zhēng)模型作為基線,如ESIM,Transformer等

在魯棒性實(shí)驗(yàn)中,比較了多個(gè)預(yù)訓(xùn)練模型和SemBERT,URBERT、Syntax-BERT

6.3 Results analysis

更具體的實(shí)驗(yàn)結(jié)果這里就不羅列了,只看一下論文作者對(duì)于一些結(jié)果的解釋

模型表現(xiàn)優(yōu)于SyntaxBERT,這是之前利用外部知識(shí)的最佳模型,基于BERT-large的平均相對(duì)改進(jìn)為0.86%。在QQP數(shù)據(jù)集上,DABERT的準(zhǔn)確性比SyntaxBERT明顯提高了2.4%。造成這種結(jié)果的主要原因有兩個(gè)

使用雙流注意力來增強(qiáng)DABERT捕捉差異特征的能力,這使得DABERT能夠獲得更精細(xì)的交互匹配特征

對(duì)于外部結(jié)構(gòu)引入的潛在噪聲問題,自適應(yīng)融合模塊可以有選擇地過濾掉不合適的信息,以抑制噪聲的傳播,而以前的工作似乎沒有對(duì)這個(gè)問題給予足夠的關(guān)注

SyntaxBERT仍在幾個(gè)數(shù)據(jù)集上取得了稍好的準(zhǔn)確性,作者認(rèn)為這是句法和依存知識(shí)的內(nèi)在關(guān)聯(lián)性的結(jié)果

7c36196c-4b79-11ed-a3b6-dac502259ad0.png

The performance comparison of DABERT with other methods. Accuracy × 100 on 6 GLUE datasets. Methods with ? indicate the results from their papers, while methods with ? indicate our implementation

Robustness Test Performance

下表列出了DABERT和六個(gè)基線模型在三個(gè)數(shù)據(jù)集上的準(zhǔn)確性??梢杂^察到,

SwapAnt的性能表現(xiàn)最差,而DABERT在SwapAnt(QQP)上優(yōu)于最佳模型SemBert近10%,這表明DABERT比基線模型更能處理反義詞引起的語義矛盾

NumWord轉(zhuǎn)換,BERT模型性能下降到56.96%,而DABERT優(yōu)于BERT近6%,因?yàn)樗竽P?strong>捕捉細(xì)微的數(shù)字差異,以進(jìn)行正確的語言推理

SwapSyn變換,UERBERT明顯優(yōu)于其他基線模型,因?yàn)樗鞔_使用同義詞相似性矩陣來校準(zhǔn)注意力分布,而DABERT在不添加外部知識(shí)的情況下仍能達(dá)到與UERBERT相當(dāng)?shù)男阅?/strong>

TwitterType和AddPunc,注入句法樹的SyntaxBERT性能明顯下降,這可能是因?yàn)閷⑽谋巨D(zhuǎn)換為twitter類型或添加標(biāo)點(diǎn)符號(hào)破壞了句子的正常句法結(jié)構(gòu),而DABERT在這兩種轉(zhuǎn)換中仍然取得了不錯(cuò)的的性能

在其他情況下,DABERT也取得了更好的性能,因?yàn)樗蹲降搅司渥訉?duì)的細(xì)微差別。同時(shí),ESIM的表現(xiàn)最差,結(jié)果反映出預(yù)訓(xùn)練機(jī)制得益于豐富的外部資源,并提供了比從頭訓(xùn)練的模型更好的泛化能力。

而改進(jìn)后的預(yù)訓(xùn)練模型SyntaxBERT比原來的BERT模型表現(xiàn)更好,這反映出足夠的預(yù)訓(xùn)練語料和合適的外部知識(shí)融合策略有助于提高模型的泛化性能

7c6bc9ea-4b79-11ed-a3b6-dac502259ad0.png

Robustness Test Performance

6.4 Ablation Study

作者在QQP和QNLI數(shù)據(jù)集上進(jìn)行了基于BERT的消融實(shí)驗(yàn)

去掉相似注意力后,模型在兩個(gè)數(shù)據(jù)集上的性能分別下降了1.8%和0.7%。相似注意力可以捕捉到詞對(duì)之間的動(dòng)態(tài)對(duì)齊關(guān)系,這對(duì)SSM任務(wù)至關(guān)重要

去掉差異注意力后,兩個(gè)數(shù)據(jù)集的性能分別下降了1.5%和0.6%。差異信息可以進(jìn)一步描述詞與詞之間的相互作用,并且可以為預(yù)訓(xùn)練的模型提供更精細(xì)的比較信息,從而使模型獲得更好的表現(xiàn)

上述實(shí)驗(yàn)表明,去除子模塊后,性能急劇下降,這表明了雙流注意力模塊內(nèi)部組件的有效性

自適應(yīng)融合模塊中,作者也進(jìn)行了幾次實(shí)驗(yàn)來驗(yàn)證相似和差異向量的融合效果。在QQP數(shù)據(jù)集上,

刪除引導(dǎo)注意力模塊(guide attention),性能下降到90.4%。因?yàn)橐龑?dǎo)注意力可以捕捉到兩種表示之間的相互作用,這種相互作用信息對(duì)于融合兩個(gè)不同的信息至關(guān)重要

去掉fusion gate后,只通過簡(jiǎn)單的平均來整合兩個(gè)表示,準(zhǔn)確率下降到91.4%,表明根據(jù)不同的權(quán)重動(dòng)態(tài)地合并相似和差異向量可以提高模型的性能

移出filter gate后,準(zhǔn)確率下降了0.4%,表明沒有filter gate,模型抑制噪聲的能力被削弱了

用簡(jiǎn)單的平均代替整體聚合和調(diào)節(jié)模塊,性能急劇下降到89.4%。雖然差異信息對(duì)判斷句對(duì)關(guān)系至關(guān)重要,但將差異信息硬性整合到PLM中會(huì)破壞其預(yù)存的知識(shí),而更柔和的聚合和處理可以更好地利用差異信息

總的來說,通過各個(gè)部分的有效組合,DABERT可以自適應(yīng)地將差異特征融合到預(yù)訓(xùn)練的模型中,并利用其強(qiáng)大的上下文表示法來更好地推斷語義

7c873cac-4b79-11ed-a3b6-dac502259ad0.png

Results of component ablation experiment

6.5 Case Study

為了直觀地了解DABERT的工作情況,作者使用下表中的三個(gè)案例進(jìn)行定性分析。

在第一種情況下,非預(yù)訓(xùn)練的語言模型ESIM很難捕捉到由差異詞引起的語義沖突。因此,ESIM在案例1中給出了錯(cuò)誤的預(yù)測(cè)結(jié)果。

BERT在案例1中可以借助于上下文來識(shí)別語義差異,但在案例3中,BERT不能捕捉到數(shù)字 "12 "和 "24 "之間的差異,并給出了錯(cuò)誤的預(yù)測(cè)。

SyntaxBERT通過引入句法樹來加強(qiáng)文本理解,由于案例2和案例3具有相同的句法結(jié)構(gòu),SyntaxBERT也給出了錯(cuò)誤的預(yù)測(cè)

總的來說,這幾種不同的情況,上述三種模型都有其處理不了的原因,反觀DABERT在上述所有的情況下都做出了正確的預(yù)測(cè)。

由于DABERT通過差異注意力明確地關(guān)注句子對(duì)中的不同部分,并在自適應(yīng)融合模塊中自適應(yīng)地聚合相似和差異信息,它可以識(shí)別由句子對(duì)內(nèi)的細(xì)微差異引起的語義差異

7cac64fa-4b79-11ed-a3b6-dac502259ad0.png

Example sentence pairs, Red and Blue are difference phrases in sentence pair.

Attention Distribution

為了驗(yàn)證基于減法的注意力對(duì)差異信息的融合效果,作者還在下圖中展示了BERT和DABERT的權(quán)重分布并進(jìn)行比較。

可以看出,雙流注意力得到的注意力矩陣分布變得更加合理,尤其是 "hardware "和 "software"之間的注意力權(quán)重明顯增加,這表明DABERT給句子對(duì)的差異之處給予了更多的關(guān)注

7d337986-4b79-11ed-a3b6-dac502259ad0.png

Distribution of BERT (a) and DABERT (b)

7. Conclusion

總結(jié)一下,這篇論文是通過改變傳統(tǒng)Transformer中的注意力結(jié)構(gòu)來達(dá)到優(yōu)化注意力權(quán)重分布的效果,進(jìn)而讓模型可以將句子對(duì)之間的向量表示有差別的地方凸顯出來,而相似的地方更加靠近。

在保持原始預(yù)訓(xùn)練語言模型不被影響到情況下,增強(qiáng)模型的表示能力,并且做了大量的實(shí)驗(yàn)來證明,比之前的工作得到了更好的效果。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ssm
    ssm
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    11359
  • MRPC
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    1252

原文標(biāo)題:清華&美團(tuán)提出:DABERT — 雙流注意力增強(qiáng)型BERT,自適應(yīng)融合提升模型效果 | COLING'22

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Bondout、增強(qiáng)型Hooks芯片和標(biāo)準(zhǔn)產(chǎn)品芯片

    Hooks芯片作為仿真CPU需要些額外的特殊功能電路從復(fù)用的芯片引腳,分解出地址和數(shù)據(jù)總線以及些必須的控制信號(hào),用戶的目標(biāo)板沒有這些電路,所有仍然是單片工作模式。采用bondo
    發(fā)表于 08-11 14:20

    一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

    一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪
    發(fā)表于 01-07 22:23 ?0次下載

    DeepMind為視覺問題回答提出了一種新的硬注意力機(jī)制

    然而,在基于梯度的學(xué)習(xí)框架(如深度學(xué)習(xí))存在個(gè)關(guān)鍵的缺點(diǎn):因?yàn)檫x擇要處理的信息的過程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機(jī)制支持基于梯度的優(yōu)化。目前研究
    的頭像 發(fā)表于 08-10 08:44 ?6191次閱讀

    北大研究者創(chuàng)建了一種注意力生成對(duì)抗網(wǎng)絡(luò)

    同時(shí)我們還將完整的GAN結(jié)構(gòu)和我們網(wǎng)絡(luò)的部分相對(duì)比:A表示只有自動(dòng)編碼器,沒有注意力地圖;A+D表示沒有注意力自動(dòng)編碼器,也沒有注意力判別器;A+AD表示沒有注意力自動(dòng)編碼器,但是有
    的頭像 發(fā)表于 08-11 09:22 ?4922次閱讀

    一種通過引入硬注意力機(jī)制引導(dǎo)學(xué)習(xí)視覺回答任務(wù)的研究

    ),用于通過頂層正則化項(xiàng)選擇固定數(shù)量的特征向量。第二個(gè)版本我們稱之為自適應(yīng)的硬注意力網(wǎng)絡(luò) AdaHAN (Hard Hard Attention Network),這是基于輸入決定特征向量的可變數(shù)量的
    的頭像 發(fā)表于 10-04 09:23 ?5438次閱讀

    深度分析NLP注意力機(jī)制

    注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn),因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力機(jī)制做了較為全面的綜述。
    的頭像 發(fā)表于 02-17 09:18 ?3822次閱讀

    注意力機(jī)制的誕生、方法及幾種常見模型

    簡(jiǎn)而言之,深度學(xué)習(xí)注意力機(jī)制可以被廣義地定義為個(gè)描述重要性的權(quán)重向量:通過這個(gè)權(quán)重向量為了預(yù)測(cè)或者推斷個(gè)元素,比如圖像的某個(gè)像素或
    的頭像 發(fā)表于 03-12 09:49 ?4.1w次閱讀

    一種自監(jiān)督同變注意力機(jī)制,利用自監(jiān)督方法彌補(bǔ)監(jiān)督信號(hào)差異

    本文提出了一種自監(jiān)督同變注意力機(jī)制(self-supervised equivariant attention mechanism,簡(jiǎn)稱SEAM),利用自監(jiān)督方法彌補(bǔ)監(jiān)督信號(hào)差異。在
    的頭像 發(fā)表于 05-12 10:16 ?7766次閱讀
    <b class='flag-5'>一種</b>自監(jiān)督同變<b class='flag-5'>注意力</b>機(jī)制,利用自監(jiān)督方法<b class='flag-5'>來</b>彌補(bǔ)監(jiān)督信號(hào)<b class='flag-5'>差異</b>

    一種全新的多階段注意力答案選取模型

    信息與問題關(guān)鍵信息的多階段注意力答案選取模型。該方法首先利用雙向LSTM模型分別對(duì)問題和候選答案進(jìn)行語義表示;然后采用問題的關(guān)鍵信息,包括問題類型和問題中心詞,利用注意力機(jī)制對(duì)候選答案集合進(jìn)行信息增強(qiáng),篩選?opK個(gè)候
    發(fā)表于 03-24 11:17 ?8次下載
    <b class='flag-5'>一種</b>全新的多階段<b class='flag-5'>注意力</b>答案選取模型

    一種注意力增強(qiáng)的自然語言推理模型aESIM

    在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此,提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層
    發(fā)表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b><b class='flag-5'>注意力</b><b class='flag-5'>增強(qiáng)</b>的自然語言推理模型aESIM

    一種上下文感知與層級(jí)注意力網(wǎng)絡(luò)的文檔分類方法

    集中于當(dāng)前所編碼的句子,并沒有有效地將文檔結(jié)構(gòu)知識(shí)整合到體系結(jié)構(gòu)。針對(duì)此問題,提出種上下文感知與層級(jí)注意力網(wǎng)絡(luò)的文檔分類方法( CAHAN)。該方法采用分層結(jié)構(gòu)表示文檔的層次結(jié)構(gòu),
    發(fā)表于 04-02 14:02 ?3次下載
    <b class='flag-5'>一種</b>上下文感知與層級(jí)<b class='flag-5'>注意力</b>網(wǎng)絡(luò)的文檔分類方法

    增強(qiáng)型鉛塑封裝的應(yīng)用注意事項(xiàng)

    增強(qiáng)型鉛塑封裝的應(yīng)用注意事項(xiàng)
    發(fā)表于 05-14 14:34 ?5次下載
    熱<b class='flag-5'>增強(qiáng)型</b>鉛塑封裝的應(yīng)用<b class='flag-5'>注意</b>事項(xiàng)

    如何用番茄鐘提高注意力

    電子發(fā)燒友網(wǎng)站提供《如何用番茄鐘提高注意力.zip》資料免費(fèi)下載
    發(fā)表于 10-28 14:29 ?0次下載
    如何用番茄鐘<b class='flag-5'>提高</b><b class='flag-5'>注意力</b>

    計(jì)算機(jī)視覺注意力機(jī)制

    計(jì)算機(jī)視覺注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡(jiǎn)介與分類 注意力機(jī)制(Attention Mechanism) 是機(jī)器學(xué)習(xí)
    發(fā)表于 05-22 09:46 ?0次下載
    計(jì)算機(jī)視覺<b class='flag-5'>中</b>的<b class='flag-5'>注意力</b>機(jī)制

    一種新的深度注意力算法

    本文簡(jiǎn)介了一種新的深度注意力算法,即深度殘差收縮網(wǎng)絡(luò)(Deep Residual Shrinkage Network)。從功能上講,深度殘差收縮網(wǎng)絡(luò)是一種面向強(qiáng)噪聲或者高度冗余數(shù)據(jù)的特征學(xué)習(xí)方法
    發(fā)表于 05-24 16:28 ?0次下載
    <b class='flag-5'>一種</b>新的深度<b class='flag-5'>注意力</b>算法