0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種通用匹配對(duì)齊框架MAF

深度學(xué)習(xí)自然語言處理 ? 來源:知識(shí)工場(chǎng) ? 作者:黃世洲 ? 2022-09-06 16:16 ? 次閱讀

命名實(shí)體識(shí)別是NLP領(lǐng)域中的一項(xiàng)基礎(chǔ)任務(wù),在文本搜索、文本推薦、知識(shí)圖譜構(gòu)建等領(lǐng)域都起著至關(guān)重要的作用,一直是熱點(diǎn)研究方向之一。多模態(tài)命名實(shí)體識(shí)別在傳統(tǒng)的命名實(shí)體識(shí)別基礎(chǔ)上額外引入了圖像,可以為文本補(bǔ)充語義信息來進(jìn)行消岐,近些年來受到人們廣泛的關(guān)注。

盡管當(dāng)前的多模態(tài)命名實(shí)體識(shí)別方法取得了成功,但仍然存在著兩個(gè)問題:(1)當(dāng)前大部分方法基于注意力機(jī)制來進(jìn)行文本和圖像間的交互,但由于不同模態(tài)的表示來自于不同的編碼器,想要捕捉文本中token和圖像中區(qū)域之間的關(guān)系是困難的。如下圖所示,句子中的‘Rob’應(yīng)該和圖像中存在貓的區(qū)域(V5,V6,V9等)有著較高的相似度,但由于文本和圖像的表示并不一致,在通過點(diǎn)積等形式計(jì)算相似度時(shí),‘Rob’可能會(huì)和其它區(qū)域有著較高的相似度得分。因此,表示的不一致會(huì)導(dǎo)致模態(tài)之間難以建立起較好的關(guān)系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)當(dāng)前的方法認(rèn)為文本與其隨附的圖像是匹配的,并且可以幫助識(shí)別文本中的命名實(shí)體。然而,并不是所有的文本和圖像都是匹配的,模型考慮這種不匹配的圖像將會(huì)做出錯(cuò)誤的預(yù)測(cè)。如下圖所示,圖片中沒有任何與命名實(shí)體“Siri”相關(guān)的信息,如果模型考慮這張不匹配的圖像,便會(huì)受圖中“人物”的影響將“Siri”預(yù)測(cè)為PER(人)。而在只有文本的情況下,預(yù)訓(xùn)練模型(BERT等)通過預(yù)訓(xùn)練任務(wù)中學(xué)到的知識(shí)可以將“Siri”的類型預(yù)測(cè)為MISC(雜項(xiàng))。

為了解決上述存在的問題,本文提出了MAF,一種通用匹配對(duì)齊框架(General Matching and Alignment Framework),將文本和圖像的表示進(jìn)行對(duì)齊并通過圖文匹配的概率過濾圖像信息 。由于該框架中的模塊是插件式的,其可以很容易地被拓展到其它多模態(tài)任務(wù)上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整體框架

本文框架如下圖所示,由5個(gè)主要部分組成:

Input Representations

將原始的文本輸入轉(zhuǎn)為token序列的表示以及文本整體的表示,將原始的圖像輸入轉(zhuǎn)為圖像區(qū)域的表示以及圖像整體的表示。

Cross-Modal Alignment Module

接收文本整體的表示和圖像整體的表示作為輸入,通過對(duì)比學(xué)習(xí)將文本和圖像的表示變得更為一致。

Cross-Modal Interaction Module

接收token序列的表示以及圖像區(qū)域的表示作為輸入,使用注意力機(jī)制建立起文本token和圖像區(qū)域之間的聯(lián)系得到文本增強(qiáng)后的圖像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增強(qiáng)后的圖像的表示作為輸入,用于判斷文本和圖像匹配的概率,并用輸出的概率對(duì)圖像信息進(jìn)行過濾。

Cross-Modal Fusion Module

將文本token序列的表示和最終圖像的表示結(jié)合在一起輸入到CRF層進(jìn)行預(yù)測(cè)。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

實(shí)驗(yàn)

主要結(jié)果

本文的方法在Twitter-2015和Twitter-2017數(shù)據(jù)集上效果均優(yōu)于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

運(yùn)行時(shí)間

本文的方法相比于之前的方法除了有著模態(tài)之間交互的模塊(本文中為CI),還添加了對(duì)齊模態(tài)表示的CA以及判斷圖文是否匹配的CM,這可能會(huì)導(dǎo)致訓(xùn)練成本以及預(yù)測(cè)成本增加。但本文簡(jiǎn)化了模態(tài)之間交互的過程,因此整體訓(xùn)練和預(yù)測(cè)時(shí)間以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融實(shí)驗(yàn)

本文進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

樣例分析

本文還進(jìn)行了樣例分析來更加直觀地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    44

    文章

    3531

    瀏覽量

    133350
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4185

原文標(biāo)題:用于多模態(tài)命名實(shí)體識(shí)別的通用匹配對(duì)齊框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    榮耀終端發(fā)布指紋匹配專利,聚焦電子設(shè)備領(lǐng)域

    此項(xiàng)技術(shù)研究揭示了一種指紋匹配方法及其對(duì)應(yīng)的電子設(shè)備應(yīng)用,具有增強(qiáng)指印解鎖圖像與指紋模板圖像配對(duì)成功率的優(yōu)勢(shì),從而提升用戶的使用體驗(yàn)。其具體策略包括:在指印解鎖圖像無法與電子設(shè)備指紋模板圖像相
    的頭像 發(fā)表于 03-21 09:43 ?418次閱讀
    榮耀終端發(fā)布指紋<b class='flag-5'>匹配</b>專利,聚焦電子設(shè)備領(lǐng)域

    一種高效的KV緩存壓縮框架--GEAR

    GEAR框架通過結(jié)合三互補(bǔ)的技術(shù)來解決這挑戰(zhàn):首先對(duì)大多數(shù)相似幅度的條目應(yīng)用超低精度量化;然后使用低秩矩陣來近似量化誤差。
    發(fā)表于 03-19 10:12 ?265次閱讀
    <b class='flag-5'>一種</b>高效的KV緩存壓縮<b class='flag-5'>框架</b>--GEAR

    介紹一種OpenAtom OpenHarmony輕量系統(tǒng)適配方案

    本文在不改變?cè)邢到y(tǒng)基礎(chǔ)框架的基礎(chǔ)上, 介紹一種OpenAtom OpenHarmony(以下簡(jiǎn)稱“OpenHarmony”)輕量系統(tǒng)適配方案。
    的頭像 發(fā)表于 03-05 09:24 ?908次閱讀
    <b class='flag-5'>介紹</b><b class='flag-5'>一種</b>OpenAtom OpenHarmony輕量系統(tǒng)適配方案

    大語言模型中的語言與知識(shí):一種神秘的分離現(xiàn)象

    自然語言處理領(lǐng)域存在著個(gè)非常有趣的現(xiàn)象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對(duì)齊關(guān)系。
    發(fā)表于 02-20 14:53 ?372次閱讀
    大語言模型中的語言與知識(shí):<b class='flag-5'>一種</b>神秘的分離現(xiàn)象

    無線遙控開關(guān)原理 無線遙控開關(guān)怎么配對(duì)

    。 第部分:無線遙控開關(guān)的原理 無線遙控開關(guān)是一種通過無線傳輸技術(shù),將信號(hào)發(fā)送給控制繼電器的設(shè)備,實(shí)現(xiàn)對(duì)電器開關(guān)的遠(yuǎn)程控制。其原理主要包括無線信號(hào)發(fā)射和接收。 無線信號(hào)發(fā)射:無線遙控開關(guān)通過無線發(fā)射模塊將控制信
    的頭像 發(fā)表于 01-22 16:27 ?5807次閱讀

    什么是匹配濾波器?如何理解匹配濾波器?

    [導(dǎo)讀]為增進(jìn)大家對(duì)匹配濾波器的認(rèn)識(shí),本文將對(duì)匹配濾波器、匹配濾波器的詳細(xì)理解予以介紹。 匹配濾?波器作為濾波器的
    的頭像 發(fā)表于 01-12 08:39 ?1366次閱讀

    OneLLM:對(duì)齊所有模態(tài)的框架

    OneLLM 是第個(gè)在單個(gè)模型中集成八不同模態(tài)的MLLM。通過統(tǒng)框架和漸進(jìn)式多模態(tài)對(duì)齊pipelines,可以很容易地?cái)U(kuò)展OneLL
    的頭像 發(fā)表于 01-04 11:27 ?727次閱讀
    OneLLM:<b class='flag-5'>對(duì)齊</b>所有模態(tài)的<b class='flag-5'>框架</b>!

    一種基于表征工程的生成式語言大模型人類偏好對(duì)齊策略

    最近復(fù)旦大學(xué)自然語言處理組鄭驍慶和黃萱菁團(tuán)隊(duì)提出了基于表征工程(Representation Engineering)的生成式語言大模型人類偏好對(duì)齊方法RAHF(如圖1所示),作為基于人類反饋的強(qiáng)化
    的頭像 發(fā)表于 01-03 14:25 ?392次閱讀
    <b class='flag-5'>一種</b>基于表征工程的生成式語言大模型人類偏好<b class='flag-5'>對(duì)齊</b>策略

    springboot框架介紹

    Spring Boot 是個(gè)開源的、用于開發(fā)微服務(wù)的框架,它基于 Java 平臺(tái)。它提供了一種快速、敏捷的方式來構(gòu)建獨(dú)立的、可部署的、生產(chǎn)級(jí)別的 Spring 應(yīng)用程序。Spring Boot
    的頭像 發(fā)表于 11-22 15:53 ?1106次閱讀

    一種高性能多通道通用DMA設(shè)計(jì)與實(shí)現(xiàn)

    為充分發(fā)揮異構(gòu)多核DSP芯片的實(shí)時(shí)計(jì)算能力,設(shè)計(jì)并實(shí)現(xiàn)了一種高性能多通道的通用DMA,該DMA最大支持64個(gè)通道的數(shù)據(jù)搬運(yùn),并支持維、二維、轉(zhuǎn)置以及級(jí)聯(lián)描述符等多種傳輸模式。芯片實(shí)測(cè)傳輸性能最高可達(dá)11.7 GB/s,實(shí)現(xiàn)了高
    的頭像 發(fā)表于 11-20 15:52 ?1064次閱讀
    <b class='flag-5'>一種</b>高性能多通道<b class='flag-5'>通用</b>DMA設(shè)計(jì)與實(shí)現(xiàn)

    一種應(yīng)用于智能家電嵌入式軟件的框架構(gòu)件規(guī)范

    電子發(fā)燒友網(wǎng)站提供《一種應(yīng)用于智能家電嵌入式軟件的框架構(gòu)件規(guī)范.pdf》資料免費(fèi)下載
    發(fā)表于 11-17 10:56 ?1次下載
    <b class='flag-5'>一種</b>應(yīng)用于智能家電嵌入式軟件的<b class='flag-5'>框架</b>構(gòu)件規(guī)范

    一種通用的汽車車身電子單元測(cè)試工裝的研究設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《一種通用的汽車車身電子單元測(cè)試工裝的研究設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 11-07 10:07 ?1次下載
    <b class='flag-5'>一種</b><b class='flag-5'>通用</b>的汽車車身電子單元測(cè)試工裝的研究設(shè)計(jì)

    一種利用幾何信息的自監(jiān)督單目深度估計(jì)框架

    本文方法是一種自監(jiān)督的單目深度估計(jì)框架,名為GasMono,專門設(shè)計(jì)用于室內(nèi)場(chǎng)景。本方法通過應(yīng)用多視圖幾何的方式解決了室內(nèi)場(chǎng)景中幀間大旋轉(zhuǎn)和低紋理導(dǎo)致自監(jiān)督深度估計(jì)困難的挑戰(zhàn)。
    發(fā)表于 11-06 11:47 ?331次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的自監(jiān)督單目深度估計(jì)<b class='flag-5'>框架</b>

    一種通用基于CPLD實(shí)現(xiàn)的CAN接口連接設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《一種通用基于CPLD實(shí)現(xiàn)的CAN接口連接設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 10-27 11:29 ?0次下載
    <b class='flag-5'>一種</b><b class='flag-5'>通用</b>基于CPLD實(shí)現(xiàn)的CAN接口連接設(shè)計(jì)

    非常實(shí)用,推薦一種面向?qū)ο笏季S的單片機(jī)程序框架

    非常實(shí)用,推薦一種面向?qū)ο笏季S的單片機(jī)程序框架
    的頭像 發(fā)表于 10-24 18:03 ?444次閱讀
    非常實(shí)用,推薦<b class='flag-5'>一種</b>面向?qū)ο笏季S的單片機(jī)程序<b class='flag-5'>框架</b>