0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習:小樣本學習下的多標簽分類問題初探

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:侯宇泰 ? 2021-01-07 14:51 ? 次閱讀

摘要

小樣本學習(Few-shot Learning)近年來吸引了大量的關注,但是針對多標簽問題(Multi-label)的研究還相對較少。在本文中,我們以用戶意圖檢測任務為切入口,研究了的小樣本多標簽分類問題。對于多標簽分類的SOTA方法往往會先估計標簽-樣本相關性得分,然后使用閾值來選擇多個關聯(lián)的標簽。

為了在只有幾個樣本的Few-shot場景下確定合適的閾值,我們首先在數(shù)據(jù)豐富的多個領域上學習通用閾值設置經(jīng)驗,然后采用一種基于非參數(shù)學習的校準(Calibration)將閾值適配到Few-shot的領域上。為了更好地計算標簽-樣本相關性得分,我們將標簽名稱嵌入作為表示(Embedding)空間中的錨點,以優(yōu)化不同類別的表示,使它們在表示空間中更好的彼此分離。在兩個數(shù)據(jù)集上進行的實驗表明,所提出的模型在1-shot和5-shot實驗均明顯優(yōu)于最強的基線模型(baseline)。

1.Introduction

1.1 背景一:用戶意圖識別

用戶意圖識別是任務型對話理解的關鍵組成部分,它的任務是識別用戶輸入的話語屬于哪一個領域的哪一種意圖 [1]。

當下的用戶意圖識別系統(tǒng)面臨著兩方面的關鍵挑戰(zhàn):

頻繁變化的領域和任務需求經(jīng)常導致數(shù)據(jù)不足

用戶在一輪對話中經(jīng)常會同時包含多個意圖 [2,3]

a1b2d2a6-5036-11eb-8b86-12bb97331649.png

圖1. 示例:意圖理解同時面領域繁多帶來數(shù)據(jù)不足和多標簽的挑戰(zhàn)

1.2 背景二:多標簽分類 & 小樣本學習

小樣本學習(Few-shot Learning)旨在像人一樣利用少量樣本完成學習,近年來吸引了大量的關注 [4,5]。

但是針對多標簽問題的小樣本學習研究還相對較少。

1.3 本文研究內(nèi)容

本文以用戶意圖檢測任務為切入口,研究了的小樣本多標簽分類問題,并提出了Meta Calibrated Threshold (MCT) 和 Anchored Label Reps (ALR) 從兩個角度系統(tǒng)地為小樣本多標簽學習提供解決方案。

2. Problem Definition

2.1 多標簽意圖識別

如圖2所示,目前State-of-the-art多標簽意圖識別系統(tǒng)往往使用基于閾值(Threshold)的方法 [3,6,7],其工作流程可以大致分為兩步:

計算樣本-標簽類別相關性分數(shù)

然后用預設或從數(shù)據(jù)學習的閾值選擇標簽

2.2小樣本多標簽用戶意圖識別

觀察一個給定的有少量樣例的支持集(Support Set)

預測未見樣本(Query Instance)的意圖標簽

a1e07080-5036-11eb-8b86-12bb97331649.png

圖2. 小樣本多標簽意圖識別框架概覽

3. 方法

a20ccd1a-5036-11eb-8b86-12bb97331649.png

圖3. 我們提出的小樣本多標簽識別模型

3.1 閾值計算

(1)挑戰(zhàn):

多標簽分類任務在小樣本情景下主要面臨如下挑戰(zhàn):

a. 因為要從數(shù)據(jù)中學習閾值,現(xiàn)有方法只適用于數(shù)據(jù)充足情況。小樣本情景下,模型很難從幾個樣本中歸納出閾值;

b. 此外,不同領域間閾值無法直接遷移,難以利用先驗知識。

(2)解決方案:

為了解決上述挑戰(zhàn),我們提出Meta Calibrated Threshold (MCT),具體可以分為兩步(如圖3左邊所示):

a. 首先在富數(shù)據(jù)領域,學習通用的thresholding經(jīng)驗

a28d7ee2-5036-11eb-8b86-12bb97331649.png

b. 然后在Few-shot領域上,用Kernel Regression 來用領域內(nèi)的知識矯正閾值 (Calibration)

a2c75306-5036-11eb-8b86-12bb97331649.png

這樣,我們在估計閾值時,既能遷移先驗知識,又能利用領域特有的知識:

a2e9003c-5036-11eb-8b86-12bb97331649.png

3.2 樣本-標簽類別相關度計算

(1)挑戰(zhàn):

如圖4所示,經(jīng)典的小樣本方法利用相似度計算樣本-標簽類別相關性,這在多標簽場景下會失效。

a315937c-5036-11eb-8b86-12bb97331649.png

圖4. 經(jīng)典的基于相似度的小樣本學習模型:原型網(wǎng)絡

如圖3所示,例子中,time和location兩個標簽因為support example相同,導致這兩個類別由樣本得到的表示相同不可分,進而無法進行基于相似度的樣本-類別標簽相關度計算。

(2)解決方案:

為了解決上述挑戰(zhàn),我們提出了Anchored Label Reps (ALR)。具體的,如圖三右邊所示,我們

a. 利用標簽名作為錨點來優(yōu)化Embedding空間學習

b. 利用標簽名語義來分開多標簽下的類別表示

4. 實驗

4.1 主實驗結(jié)果

實驗結(jié)果顯示,我們的方法在兩個數(shù)據(jù)集上顯著的優(yōu)于最強baseline。同時可以看到,我們的方法很多時候只用小的預訓練模型就超過了所有使用大預訓練模型的baseline,這在計算資源受限的情景下格外有意義。

a33248fa-5036-11eb-8b86-12bb97331649.png

表1. 主實驗結(jié)果。+E 代表使用 Electra-small (14M);+B為 BERT-base (110M)

4.2 實驗分析

圖5的消融實驗顯示所提出的ALR和MCT都對最終的效果產(chǎn)生了較大的貢獻。

a3a1d42c-5036-11eb-8b86-12bb97331649.png

圖5. 消融實驗

在圖6中,我們對Meta Calibrated Threshold中各步驟對最終標簽個數(shù)準確率的影響進行了探索。結(jié)果顯示Meta學習和基于Kernel Regression的Calibration過程都會極大地提升最終模型的準確率。

a3b775a2-5036-11eb-8b86-12bb97331649.png

圖6. 標簽個數(shù)準確率結(jié)果

參考文獻

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ′ 2013. Pomdp-based statistical spoken dialog systems: A review. In Proc. of the IEEE, volume 101, 1160–1179. IEEE.

[2] Xu, P.; and Sarikaya, R. 2013. Exploiting shared information for multi-intent natural language sentence classification. In Proc. of Interspeech, 3785–3789.

[3]Qin, L.; Xu, X.; Che, W.; and Liu, T. 2020. TD-GIN: Token-level Dynamic Graph-Interactive Network for Joint Multiple Intent Detection and Slot Filling. arXiv preprint arXiv:2004.10087 .

[4] Vinyals, O.; Blundell, C.; Lillicrap, T.; Kavukcuoglu, K.; and Wierstra, D. 2016. Matching networks for one shot learning. In Proc. of NeurIPS, 3630–3638.

[5] Bao, Y.; Wu, M.; Chang, S.; and Barzilay, R. 2020. Few-shot Text Classification with Distributional Signatures. In Proc. of the ICLR.

[6] Xu, G.; Lee, H.; Koo, M.-W.; and Seo, J. 2017. Convolutional neural network using a threshold predictor for multilabel speech act classification. In IEEE international conference on big data and smart computing (BigComp), 126–130.

[7]Gangadharaiah, R.; and Narayanaswamy, B. 2019. Joint Multiple Intent Detection and Slot Labeling for GoalOriented Dialog. In Proc. of the ACL, 564–569.

責任編輯:xj

原文標題:【賽爾AAAI2021】小樣本學習下的多標簽分類問題初探

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    29806

    瀏覽量

    268106
  • 機器學習
    +關注

    關注

    66

    文章

    8349

    瀏覽量

    132315
  • 深度學習
    +關注

    關注

    73

    文章

    5463

    瀏覽量

    120890

原文標題:【賽爾AAAI2021】小樣本學習下的多標簽分類問題初探

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發(fā)表于 10-27 11:13 ?286次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?306次閱讀

    利用Matlab函數(shù)實現(xiàn)深度學習算法

    在Matlab中實現(xiàn)深度學習算法是一個復雜但強大的過程,可以應用于各種領域,如圖像識別、自然語言處理、時間序列預測等。這里,我將概述一個基本的流程,包括環(huán)境設置、數(shù)據(jù)準備、模型設計、訓練過程、以及測試和評估,并提供一個基于Matlab的
    的頭像 發(fā)表于 07-14 14:21 ?1795次閱讀

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統(tǒng)監(jiān)測、金融預測、醫(yī)療診斷等多個領域。隨
    的頭像 發(fā)表于 07-09 15:54 ?653次閱讀

    深度學習中的無監(jiān)督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度學習模型
    的頭像 發(fā)表于 07-09 10:50 ?386次閱讀

    深度學習與nlp的區(qū)別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學習與NLP的區(qū)別。 深度
    的頭像 發(fā)表于 07-05 09:47 ?749次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設計的算法。訓練一個深度學習模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),使模型能夠更好地擬合數(shù)據(jù),提高預測或
    的頭像 發(fā)表于 07-01 16:13 ?1019次閱讀

    深度學習與傳統(tǒng)機器學習的對比

    在人工智能的浪潮中,機器學習深度學習無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但
    的頭像 發(fā)表于 07-01 11:40 ?1100次閱讀

    深度學習與度量學習融合的綜述

    如今,機器學習的應用廣泛,包括人臉識別、醫(yī)療診斷等,為復雜問題和大量數(shù)據(jù)提供解決方案。機器學習算法能基于數(shù)據(jù)產(chǎn)生成功的分類模型,但每個數(shù)據(jù)都有其問題,需定義區(qū)別特征進行正確分類。
    發(fā)表于 04-24 09:49 ?369次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>與度量<b class='flag-5'>學習</b>融合的綜述

    深度解析深度學習的語義SLAM

    隨著深度學習技術的興起,計算機視覺的許多傳統(tǒng)領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入深度
    發(fā)表于 04-23 17:18 ?1227次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>下</b>的語義SLAM

    深度學習檢測小目標常用方法

    深度學習的效果在某種意義上是靠大量數(shù)據(jù)喂出來的,小目標檢測的性能同樣也可以通過增加訓練集中小目標樣本的種類和數(shù)量來提升。
    發(fā)表于 03-18 09:57 ?663次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>檢測小目標常用方法

    為什么深度學習的效果更好?

    導讀深度學習是機器學習的一個子集,已成為人工智能領域的一項變革性技術,在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?580次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的效果更好?

    【技術科普】主流的深度學習模型有哪些?AI開發(fā)工程師必備!

    接近于人工智能。它通過學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,對文字、圖像和聲音等數(shù)據(jù)進行解釋。深度學習的目標是讓機器像人一樣具有分析學習能力,能
    的頭像 發(fā)表于 01-30 15:26 ?564次閱讀
    【技術科普】主流的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>模型有哪些?AI開發(fā)工程師必備!

    什么是深度學習?機器學習深度學習的主要差異

    2016年AlphaGo 擊敗韓國圍棋冠軍李世石,在媒體報道中,曾多次提及“深度學習”這個概念。
    的頭像 發(fā)表于 01-15 10:31 ?969次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>學習</b>?機器<b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的主要差異

    異構(gòu)信號驅(qū)動小樣本跨域軸承故障診斷的GMAML算法

    論文提出了一種通用的模型不可知元學習(GMAML)方法,用于在異質(zhì)信號驅(qū)動的不同工況,進行軸承的少樣本故障診斷。
    的頭像 發(fā)表于 12-06 15:07 ?1000次閱讀
    異構(gòu)信號驅(qū)動<b class='flag-5'>下</b><b class='flag-5'>小樣本</b>跨域軸承故障診斷的GMAML算法