0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

介紹一種信息抽取的大一統(tǒng)方法USM

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-02-15 14:13 ? 次閱讀

一句話總結

信息抽取任務具有多樣的抽取目標和異構的結構,而傳統(tǒng)的模型需要針對特定的任務進行任務設計和標簽標注,這樣非常的耗時耗力。本文提出一種USM方法,將各種信息抽取任務通過一種統(tǒng)一的模型方法完成。

USM

信息抽取(IE)的挑戰(zhàn)在于標簽模式的多樣性和結構的異構性。

傳統(tǒng)方法需要針對特定任務的模型設計,并且嚴重依賴昂貴的監(jiān)督,因此很難推廣到新模式。

在本文中,我們將 IE 分解為兩種基本能力,「結構化」(Structuring)和「概念化」(Conceptualizing),它們由不同的任務和模式共享。

abc7115e-a3c1-11ed-bfe3-dac502259ad0.png

基于這種范式,我們建議使用「統(tǒng)一語義匹配 (Unified Semantic Matching, USM)」 框架對各種 IE 任務進行通用建模,該框架引入了三個統(tǒng)一的標記鏈接操作來建模結構化和概念化的能力。

abece0e6-a3c1-11ed-bfe3-dac502259ad0.pngac0badfa-a3c1-11ed-bfe3-dac502259ad0.png

這樣,USM 可以聯(lián)合編碼模式和輸入文本,并行地統(tǒng)一提取子結構,并按需可控地解碼目標結構。

本文的貢獻為:

ac4c707e-a3c1-11ed-bfe3-dac502259ad0.png

算法細節(jié)

ac58de0e-a3c1-11ed-bfe3-dac502259ad0.pngac70e24c-a3c1-11ed-bfe3-dac502259ad0.png

ac828a74-a3c1-11ed-bfe3-dac502259ad0.png

實驗分析

對 4 個 IE 任務的實證評估表明,所提出的方法在監(jiān)督實驗下實現(xiàn)了最先進的性能,并在零/少鏡頭傳輸設置中表現(xiàn)出強大的泛化能力。

ac97968a-a3c1-11ed-bfe3-dac502259ad0.png

USM在不同數(shù)據(jù)集上的結果

acbd6996-a3c1-11ed-bfe3-dac502259ad0.png

零樣本遷移實驗

acca6448-a3c1-11ed-bfe3-dac502259ad0.png

少樣本實驗

總結

在本文中,我們提出了一個統(tǒng)一的語義匹配框架——USM,它對提取模式和輸入文本進行聯(lián)合編碼,并行地統(tǒng)一提取子結構,并按需可控地解碼目標結構。

實驗結果表明,USM 在監(jiān)督實驗下實現(xiàn)了最先進的性能,并在零/少場景設置下表現(xiàn)出強大的泛化能力,驗證了 USM 是一種新穎、可傳輸、可控和高效的框架。

對于未來的工作,我們希望將 USM 擴展到 NLU 任務,例如文本分類,并研究 IE 的更多間接監(jiān)督信號,例如文本蘊含。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3573

    瀏覽量

    133982
  • 編解碼
    +關注

    關注

    1

    文章

    140

    瀏覽量

    19578
  • USM
    USM
    +關注

    關注

    0

    文章

    7

    瀏覽量

    7210

原文標題:AAAI2023 | 百度+中科院提出USM:一種信息抽取的大一統(tǒng)方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問下VGA應用中硅器件注定要改變砷化鎵一統(tǒng)的局面?

    請問下VGA應用中硅器件注定要改變砷化鎵一統(tǒng)的局面?
    發(fā)表于 05-21 07:05

    PD快充協(xié)議有望一統(tǒng)嗎?

    PD快充有望一統(tǒng)?市面上存在著多種快充協(xié)議,QC 4.0, QC 3.0, SCP, FCP, PE3.0, PE2.0, VOOC, 在魚龍混雜的市場上,作為USB標準制作者,USB-IF(USB
    發(fā)表于 11-30 10:01

    基于子樹廣度的Web信息抽取

    提出一種新的網(wǎng)頁信息抽取方法,基于子樹的廣度可不加區(qū)分地對不同科技文獻網(wǎng)站的頁面信息進行自動抽取
    發(fā)表于 03-28 10:03 ?14次下載

    文本分類中一種混合型特征降維方法

    提出一種基于特征選擇和特征抽取的混合型文本特征降維方法,分析基于選擇和抽取的特征降維方法各自的特點,借助特征項的類別分布差異
    發(fā)表于 04-01 08:46 ?7次下載

    快遞好壞京東人說了算,天天快遞服務太爛?躺著被“封殺”

    京東的野心勃勃,業(yè)內都是知道的,但大可以不必吃相如此難看。更何況,有時候,實力是撐不起大一統(tǒng)野心的。
    發(fā)表于 07-21 10:36 ?1903次閱讀

    基于WebHarvest的健康領域Web信息抽取方法

    針對Web信息抽取(WIE)技術在健康領域應用的問題,提出了一種基于WebHarvest的健康領域Web信息抽取
    發(fā)表于 12-26 13:44 ?0次下載

    蘋果實現(xiàn)大一統(tǒng):打通PC、平板、手機隔閡

    特意發(fā)布了macOS Big Sur系統(tǒng),從而充分利用自研M1芯片,并且讓開發(fā)者可以更加簡單的將相應的直接適配到Mac上,做到自由體系內平板、PC和手機的大一統(tǒng)。 事實上,早在2006年,蘋果給開發(fā)者們準備了Rosetta,方便開發(fā)者們從Power PC芯片過渡到Intel新品。
    的頭像 發(fā)表于 11-11 10:22 ?1203次閱讀

    為應對蘋果大一統(tǒng),微軟盡力讓win10全力擁抱Android

    很顯然蘋果的大一統(tǒng)刺激到了微軟,而前者的野心是,讓手機、平板和PC能夠真正的打通,所以M1處理器下的新品能夠運行iOS應用,就是最重要的步。
    的頭像 發(fā)表于 11-30 10:26 ?1231次閱讀

    美國正式宣布放棄DSRC車聯(lián)網(wǎng)標準轉向C-V2X

    車聯(lián)網(wǎng)大一統(tǒng)時代來臨!
    的頭像 發(fā)表于 12-06 08:58 ?2005次閱讀

    華為要最終實現(xiàn)其全場景、大一統(tǒng)的生態(tài)

    體量上已經(jīng)擁有與谷歌和蘋果生態(tài)抗衡的能力。盡管如此,國內的主流手機廠商是否會采用鴻蒙OS及鴻蒙OS生態(tài)方面仍面臨挑戰(zhàn),華為要最終實現(xiàn)其全場景、大一統(tǒng)的生態(tài),真正成為全球第三大生態(tài)系統(tǒng)仍需產(chǎn)業(yè)合力。? ? 全球網(wǎng)站通信流量監(jiān)測機構Statcounter數(shù)據(jù)
    的頭像 發(fā)表于 01-13 11:49 ?2272次閱讀

    個接口一統(tǒng)江湖!Intel雷電成功了

    個接口 一統(tǒng)江湖!Intel花了10年 成功了,英特爾,顯示器,處理器,雷電,擴展塢
    發(fā)表于 03-08 11:43 ?976次閱讀

    一種面向維吾爾語的停用詞抽取方法

    為提高信息處理效率,文本信息檢索系統(tǒng)通常將停用詞作為噪音過濾掉,影理的效果提出一種應用于維吾爾語的停用詞抽取方法用詞特點的基礎上,采用文檔頻
    發(fā)表于 05-25 16:11 ?3次下載

    一種全新易用的基于Word-Word關系的NER統(tǒng)模型

    最近的研究都在考慮如何通過大一統(tǒng)模型次性解決這三問題。目前的最佳的方法基本都是基于span-based和seq2seq的,然而spa
    的頭像 發(fā)表于 03-23 13:37 ?2727次閱讀

    基于統(tǒng)語義匹配的通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的實體、關系、事件等,其不同的任務具有多樣的抽取目標和異質的機構,因此,傳統(tǒng)的方法需要針對特定的任務進行模型設計和數(shù)據(jù)標注,使得難以推廣到新的模式中,極
    的頭像 發(fā)表于 01-16 10:21 ?1051次閱讀

    學技術 | 充電器大一統(tǒng):USB Type-C接口PD協(xié)議解決方案

    充電器大一統(tǒng):USBType-C接口PD協(xié)議解決方案2022年10月24日,歐洲理事會最終批準了“在歐盟范圍內統(tǒng)充電器接口”的法案。這意味著到2024年,USB-C(USBType-C)接口將成
    的頭像 發(fā)表于 11-21 16:15 ?4018次閱讀
    學技術 | 充電器<b class='flag-5'>大一統(tǒng)</b>:USB Type-C接口PD協(xié)議解決方案