一句話總結
信息抽取任務具有多樣的抽取目標和異構的結構,而傳統(tǒng)的模型需要針對特定的任務進行任務設計和標簽標注,這樣非常的耗時耗力。本文提出一種USM方法,將各種信息抽取任務通過一種統(tǒng)一的模型方法完成。
USM
信息抽取(IE)的挑戰(zhàn)在于標簽模式的多樣性和結構的異構性。
傳統(tǒng)方法需要針對特定任務的模型設計,并且嚴重依賴昂貴的監(jiān)督,因此很難推廣到新模式。
在本文中,我們將 IE 分解為兩種基本能力,「結構化」(Structuring)和「概念化」(Conceptualizing),它們由不同的任務和模式共享。
基于這種范式,我們建議使用「統(tǒng)一語義匹配 (Unified Semantic Matching, USM)」 框架對各種 IE 任務進行通用建模,該框架引入了三個統(tǒng)一的標記鏈接操作來建模結構化和概念化的能力。
這樣,USM 可以聯(lián)合編碼模式和輸入文本,并行地統(tǒng)一提取子結構,并按需可控地解碼目標結構。
本文的貢獻為:
算法細節(jié)
實驗分析
對 4 個 IE 任務的實證評估表明,所提出的方法在監(jiān)督實驗下實現(xiàn)了最先進的性能,并在零/少鏡頭傳輸設置中表現(xiàn)出強大的泛化能力。
USM在不同數(shù)據(jù)集上的結果
零樣本遷移實驗
少樣本實驗
總結
在本文中,我們提出了一個統(tǒng)一的語義匹配框架——USM,它對提取模式和輸入文本進行聯(lián)合編碼,并行地統(tǒng)一提取子結構,并按需可控地解碼目標結構。
實驗結果表明,USM 在監(jiān)督實驗下實現(xiàn)了最先進的性能,并在零/少場景設置下表現(xiàn)出強大的泛化能力,驗證了 USM 是一種新穎、可傳輸、可控和高效的框架。
對于未來的工作,我們希望將 USM 擴展到 NLU 任務,例如文本分類,并研究 IE 的更多間接監(jiān)督信號,例如文本蘊含。
審核編輯:劉清
-
編碼器
+關注
關注
45文章
3573瀏覽量
133982 -
編解碼
+關注
關注
1文章
140瀏覽量
19578 -
USM
+關注
關注
0文章
7瀏覽量
7210
原文標題:AAAI2023 | 百度+中科院提出USM:一種信息抽取的大一統(tǒng)方法
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論