0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本分類的一個大型“真香現(xiàn)場”來了

深度學習自然語言處理 ? 來源:高能AI ? 作者:JayLou婁杰 ? 2021-02-05 11:02 ? 次閱讀

文本分類的一個大型“真香現(xiàn)場”來了:JayJay的推文《超強文本半監(jiān)督MixText》中告訴大家不要浪費沒有標注過的數(shù)據(jù),但還是需要有標注數(shù)據(jù)的!但今天介紹的這篇paper,文本分類居然不需要任何標注數(shù)據(jù)啦!哇,真香!

當前的文本分類任務(wù)需要利用眾多標注數(shù)據(jù),標注成本是昂貴的。而半監(jiān)督文本分類雖然減少了對標注數(shù)據(jù)的依賴,但還是需要領(lǐng)域?qū)<沂謩舆M行標注,特別是在類別數(shù)目很大的情況下。

試想一下,我們?nèi)祟愂侨绾螌π侣勎谋具M行分類的?其實,我們不要任何標注樣本,只需要利用和分類類別相關(guān)的少數(shù)詞匯就可以啦,這些詞匯也就是我們常說的關(guān)鍵詞。

BUT!我們之前獲取分類關(guān)鍵詞的方式,大多還是需要靠人工標注數(shù)據(jù)、或者人工積累關(guān)鍵詞表的;而就算積累了某些關(guān)鍵詞,關(guān)鍵詞在不同上下文中也會代表不同類別。

那么,有沒有一種方式,可以讓文本分類不再需要任何標注數(shù)據(jù)呢?

本文JayJay就介紹一篇來自「伊利諾伊大學香檳分校韓家煒老師課題組」的EMNLP20論文《Text Classification Using Label Names Only: A Language Model Self-Training Approach》。

這篇論文的最大亮點就是:不需要任何標注數(shù)據(jù),只需利用標簽名稱,就在四個分類數(shù)據(jù)上獲得了近90%的準確率!

為此,論文提出一種LOTClass模型,即Label-name-OnlyTextClassification,LOTClass模型的主要亮點有:

不需要任何標注數(shù)據(jù),只需要標簽名稱!只依賴預(yù)訓練語言模型(LM),不需要其他依賴!

提出了類別指示詞匯獲取方法和基于上下文的單詞類別預(yù)測任務(wù),經(jīng)過如此訓練的LM進一步對未標注語料進行自訓練后,可以很好泛化!

在四個分類數(shù)據(jù)集上,LOTClass明顯優(yōu)于各弱監(jiān)督模型,并具有與強半監(jiān)督和監(jiān)督模型相當?shù)男阅堋?/p>

本文的組織結(jié)構(gòu)為:

c64932a0-603e-11eb-8b86-12bb97331649.png

LOTClass總體流程

LOTClass將BERT作為其backbone模型,其總體實施流程分為以下三個步驟:

標簽名稱替換:利用并理解標簽名稱,通過MLM生成類別詞匯;

類別預(yù)測:通過MLM獲取類別指示詞匯集合,并構(gòu)建基于上下文的單詞類別預(yù)測任務(wù),訓練LM模型;

自訓練:基于上述LM模型,進一步對未標注語料進行自訓練后,以更好泛化!

下面我們就詳細介紹上述過程。

第一步:標簽名稱替換

在做文本分類的時候,我們可以根據(jù)標簽名稱聯(lián)想到與之相關(guān)聯(lián)的其他關(guān)鍵詞,這些關(guān)鍵詞代表其類別。當然,這就需要我們從一個蘊含常識的模型去理解每個標簽的語義。很明顯,BERT等預(yù)訓練LM模型就是一個首選!

論文采取的方法很直接:對于含標簽名稱的文本,通過MLM來預(yù)測其可以替換的其他相似詞匯。

如上圖展示了AG新聞?wù)Z料(體育新聞)中,對于標簽名稱“sports”,可通過MLM預(yù)測出替換「sports」的相似詞匯。

具體地,每一個標簽名稱位置通過MLM預(yù)測出TOP-50最相似的替換詞,然后再整體對每一個類別的標簽名稱(Label Name)根據(jù)詞頻大小、結(jié)合停用詞共選取TOP-100,最終構(gòu)建類型詞匯表(Category Vocabulary)。

通過上述方式找出了AG新聞?wù)Z料每一個類別-標簽名稱對應(yīng)的類別詞匯表,如上圖所示。

第二步:類別預(yù)測

像人類如何進行分類一樣,一種直接的方法是:利用上述得到的類型詞匯表,然后統(tǒng)計語料中類別詞匯出現(xiàn)的次數(shù)。但這種方式存在2個缺陷:

不同詞匯在不同的上下文中代表不同意思,不是所有在語料中出現(xiàn)的類型詞匯都指示該類型。在第一幅圖中,我們就可以清晰發(fā)現(xiàn):單詞「sports」在第2個句子并不代表體育主題。

類型詞匯表的覆蓋范圍有限:在特定上下文中,某些詞匯與類別關(guān)鍵詞具有相似的含義,但不包含在類別詞匯表中。

為了解決上述缺陷,論文構(gòu)建了一個新的MCP任務(wù)——基于MASK的類別預(yù)測任務(wù)(Masked Category Prediction,MCP),如下圖所示:

c95033c2-603e-11eb-8b86-12bb97331649.png

MCP任務(wù)共分為兩步:

獲取類別指示詞:上述已經(jīng)提到,類別詞匯表中不同的詞匯在不同上下文會指代不同類別。論文建立了一種獲取類別詞匯指示的方法(如上圖左邊所示):對于當前詞匯,首先通過BERT的MLM任務(wù)預(yù)測當前詞匯可替代的TOP50相似詞,然后TOP50相似詞與每個類別詞匯表進行比對,如果有超過20個詞在當前類別詞匯表中,則選取當前詞匯作為該類別下的「類別指示詞」。

進行遮蔽類別預(yù)測:通過上一步,遍歷語料中的每一個詞匯,我們就可得到類別指示詞集合和詞匯所對應(yīng)的標簽。對于類別指示詞集合中每一個的單詞,我們將其替換為「MASK」然后對當前位置進行標簽分類訓練。

值得注意的是:MASK類別指示詞、進行類別預(yù)測至關(guān)重要,因為這會迫使模型根據(jù)單詞上下文來推斷類別,而不是簡單地記住無上下文的類別關(guān)鍵字。通過MCP任務(wù),BERT將更好編碼類別判斷信息。

第三步:自訓練

論文將通過MCP任務(wù)訓練好的BERT模型,又對未標注語料進行了自訓練。這樣做的原因為:

仍有大規(guī)模語料未被MCP任務(wù)利用,畢竟不是每一個語料樣本含有類別指示詞。

MCP任務(wù)進行類別預(yù)測不是在「CLS」位置,「CLS」位置更利于編碼全局信息并進行分類任務(wù)。

論文采取的自訓練方式很簡單,如上圖所示,每50個batch通過軟標簽方式更新一次標簽類別。

LOTClass表現(xiàn)如何?

為了驗證LOTClass的效果,論文在4個分類數(shù)據(jù)集上與監(jiān)督、半監(jiān)督和弱監(jiān)督進行了對比。

對于弱監(jiān)督方法,則將整個訓練集作為未標注數(shù)據(jù);對于半監(jiān)督方法,每個類別選舉10個樣本作為標注數(shù)據(jù);對于監(jiān)督方法,則全部訓練集就是標注數(shù)據(jù)。

如上圖所示,沒有自訓練的LOTClass方法就超過了一眾弱監(jiān)督方法,而利用自訓練方法后LOTClass甚至在AG-News上可以與半監(jiān)督學習的SOTA——谷歌提出的UDA相媲美了,與有監(jiān)督的char-CNN方法也相差不多啦!自訓練self-trainng為何如此強大?我們將在接下來的推文中會進一步介紹。

也許你還會問:LOTClass相當于使用多少標注數(shù)據(jù)呢?

ce3feaa8-603e-11eb-8b86-12bb97331649.png

如上圖,論文給出了答案,那就是:LOTClass效果相當于 每個類別使用48個標注文檔的有監(jiān)督BERT模型!

總結(jié)與展望:利用標簽名稱,真香!

首先對本文總結(jié)一下:本文提出的LOTClass模型僅僅利用標簽名稱,無需任務(wù)標注數(shù)據(jù)!在四個分類數(shù)據(jù)上獲得了近90%的準確率,與相關(guān)半監(jiān)督、有監(jiān)督方法相媲美!LOTClass模型總體實施流程分三個步驟:標簽名稱替換,MASK類別預(yù)測,自訓練。

本文提出的LOTClass模型只是基于BERT,并沒有采取更NB的LM模型,每個類別最多使用3個單詞作為標簽名稱,沒有依賴其他工具(如回譯方式)。我們可以預(yù)測:隨著LM模型的升級,數(shù)據(jù)增強技術(shù)的使用,指標性能會更好!

利用標簽名稱,我們是不是還可以暢想一些“真香現(xiàn)場”呢?例如:

應(yīng)用于NER任務(wù):發(fā)現(xiàn)實體類別下的更多指示詞,如「PERSON」類別;嗯嗯,再好好想象怎么把那套MCP任務(wù)嵌入到NER任務(wù)中吧~

與半監(jiān)督學習更好協(xié)作:1)沒有標注數(shù)據(jù)時,可以通過LOTClass構(gòu)建初始標注數(shù)據(jù)再進行半監(jiān)督流程;2)將MCP任務(wù)設(shè)為半監(jiān)督學習的輔助任務(wù)。

原文標題:韓家煒課題組重磅發(fā)文:文本分類只需標簽名稱,不需要任何標注數(shù)據(jù)!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6814

    瀏覽量

    88743
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46656

    瀏覽量

    237093

原文標題:韓家煒課題組重磅發(fā)文:文本分類只需標簽名稱,不需要任何標注數(shù)據(jù)!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    從零開始訓練個大語言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓練個大型語言模型(LLM)是耗時且復(fù)雜的過程。幾乎每個做大型
    的頭像 發(fā)表于 11-08 14:15 ?83次閱讀
    從零開始訓練<b class='flag-5'>一</b><b class='flag-5'>個大</b>語言模型需要投資多少錢?

    使用LLM進行自然語言處理的優(yōu)缺點

    語言任務(wù),如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的些優(yōu)缺點: 優(yōu)點 強大的語言理解能力 : LLM通過訓練學習了大量的語言模式和結(jié)構(gòu),能夠理解和生成自然語言文本。 它們能夠捕捉到語言中的細微差別,包括語境
    的頭像 發(fā)表于 11-08 09:27 ?197次閱讀

    雷達的基本分類方法

    電子發(fā)燒友網(wǎng)站提供《雷達的基本分類方法.pdf》資料免費下載
    發(fā)表于 09-11 09:09 ?6次下載

    谷歌擬在越南建立其首個大型數(shù)據(jù)中心

    8月29日最新消息,據(jù)路透社援引內(nèi)部消息源透露,谷歌正醞釀項重要投資計劃,擬在越南這東南亞國家建立其首個大型數(shù)據(jù)中心。這決定標志著美國科技巨頭在地區(qū)布局上的新篇章。
    的頭像 發(fā)表于 08-29 16:01 ?319次閱讀

    如何訓練有效的eIQ基本分類模型

    在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是直觀的圖形用戶界面(GUI),簡化了ML開發(fā)。開發(fā)人員可以創(chuàng)建、優(yōu)化、調(diào)試和導(dǎo)出ML模型,以及導(dǎo)入數(shù)據(jù)集和模型,快速訓練并部署神經(jīng)網(wǎng)絡(luò)模型和ML工作負載。
    的頭像 發(fā)表于 08-01 09:29 ?1685次閱讀
    如何訓練<b class='flag-5'>一</b><b class='flag-5'>個</b>有效的eIQ基<b class='flag-5'>本分類</b>模型

    利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

    要利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的文本分類模型,我們首先需要明確幾個關(guān)鍵步驟:數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓練、模型評估與調(diào)優(yōu),以及最終的模型部署(盡管在本文中,我們將重點放在前四
    的頭像 發(fā)表于 07-12 16:39 ?638次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是種雙向預(yù)訓練模型,通過大量文本數(shù)據(jù)進行預(yù)訓練,可以用于各種NLP任務(wù),如文本分類、問答、命名實體識別等。 b. GPT(
    的頭像 發(fā)表于 07-09 09:59 ?518次閱讀

    llm模型和chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是類使用深度學習技術(shù)構(gòu)建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務(wù),如文本生成、文本分類、機
    的頭像 發(fā)表于 07-09 09:55 ?850次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語言處理(NLP)領(lǐng)域,文本分類直是重要的研究方向。隨著深度學習技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)在圖像識
    的頭像 發(fā)表于 07-01 16:25 ?575次閱讀

    交換機的基本分類

      交換機作為網(wǎng)絡(luò)通訊中的核心設(shè)備之,其在網(wǎng)絡(luò)架構(gòu)中起著至關(guān)重要的作用。隨著信息技術(shù)的飛速發(fā)展,交換機也在不斷演進和革新,以滿足日益復(fù)雜的網(wǎng)絡(luò)需求。本文將對交換機的分類及其特點進行詳細介紹,以期為讀者提供清晰、深入的理解。
    的頭像 發(fā)表于 06-06 11:06 ?1494次閱讀

    了解大型語言模型 (LLM) 領(lǐng)域中的25關(guān)鍵術(shù)語

    1.LLM(大語言模型)大型語言模型(LLMs)是先進的人工智能系統(tǒng),經(jīng)過大量文本數(shù)據(jù)集的訓練,可以理解和生成類似人類的文本。他們使用深度學習技術(shù)以上下文相關(guān)的方式處理和生成語言。OpenAI
    的頭像 發(fā)表于 05-10 08:27 ?1205次閱讀
    了解<b class='flag-5'>大型</b>語言模型 (LLM) 領(lǐng)域中的25<b class='flag-5'>個</b>關(guān)鍵術(shù)語

    請問個大數(shù)組是不是不能同時跨用內(nèi)外部SRAM?

    1048576main.o(.bss) BIgData就是那個大數(shù)組,大小1024*1024字節(jié) 那么問題來了,只要BigData的大小超過外部SRAM大小,哪怕超1字節(jié),編譯器就會報錯說內(nèi)存不夠了 這是不是就說明單一一
    發(fā)表于 03-26 07:06

    了解如何使用PyTorch構(gòu)建圖神經(jīng)網(wǎng)絡(luò)

    圖神經(jīng)網(wǎng)絡(luò)直接應(yīng)用于圖數(shù)據(jù)集,您可以訓練它們以預(yù)測節(jié)點、邊緣和與圖相關(guān)的任務(wù)。它用于圖和節(jié)點分類、鏈路預(yù)測、圖聚類和生成,以及圖像和文本分類。
    發(fā)表于 02-21 12:19 ?695次閱讀
    了解如何使用PyTorch構(gòu)建圖神經(jīng)網(wǎng)絡(luò)

    中國批準14個大語言模型供公眾使用,趕超美國AI進程加速

    據(jù)鈦媒體報道,近期中國監(jiān)管部門已經(jīng)批準了14個大語言模型公開服務(wù),自啟動審批流程至今剛好半年時間,已核準40多個AI大型模型,顯示出我國在該領(lǐng)域的積極進取,以期趕超美國。
    的頭像 發(fā)表于 01-30 09:40 ?818次閱讀

    人工智能中文本分類的基本原理和關(guān)鍵技術(shù)

    在本文中,我們?nèi)嫣接懥?b class='flag-5'>文本分類技術(shù)的發(fā)展歷程、基本原理、關(guān)鍵技術(shù)、深度學習的應(yīng)用,以及從RNN到Transformer的技術(shù)演進。文章詳細介紹了各種模型的原理和實戰(zhàn)應(yīng)用,旨在提供對文本分類技術(shù)深入理解的全面視角。
    的頭像 發(fā)表于 12-16 11:37 ?1149次閱讀
    人工智能中<b class='flag-5'>文本分類</b>的基本原理和關(guān)鍵技術(shù)