0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何優(yōu)雅地使用bert處理長文本

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:wangThr ? 2020-12-26 09:17 ? 次閱讀

這是今年清華大學(xué)及阿里巴巴發(fā)表在NIPS 2020上的一篇論文《CogLTX: Applying BERT to Long Texts》,介紹了如何優(yōu)雅地使用bert處理長文本。作者同時(shí)開源了不同NLP任務(wù)下使用COGLTX的代碼:

論文題目:

CogLTX: Applying BERT to Long Texts

論文鏈接:

http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf

Github:

https://github.com/Sleepychord/CogLTX

bert在長文本處理一般分為三種方法[1]:

截?cái)喾ǎ?/p>

Pooling法;

壓縮法。

該論文就是壓縮法的一種,是三種方法中最好的。我們在科研和工作中都會遇到該問題,例如我最近關(guān)注的一個(gè)文本分類比賽:

面向數(shù)據(jù)安全治理的數(shù)據(jù)內(nèi)容智能發(fā)現(xiàn)與分級分類 競賽 - DataFountain[2].

其文本數(shù)據(jù)長度就都在3000左右,無法將其完整輸入bert,使用COGLTX就可以很好地處理該問題,那么就一起來看看該論文具體是怎么做的吧。

1.背景

基于以下情形:

bert作為目前最優(yōu)秀的PLM,不用是不可能的;

長文本數(shù)據(jù)普遍存在,且文本中包含的信息非常分散,難以使用滑動窗口[3]截?cái)唷?/p>

而由于bert消耗計(jì)算資源和時(shí)間隨著token的長度是平方級別增長的,所以其無法處理太長的token,目前最長只支持512個(gè)token,token過長也很容易會內(nèi)存溢出,所以在使用bert處理長文本時(shí)需要設(shè)計(jì)巧妙的方法來解決這個(gè)問題。

b48db3fa-4690-11eb-8b86-12bb97331649.jpg

2.提出模型

COGLTX模型在三類NLP任務(wù)中的結(jié)構(gòu)如下:

b5408b9c-4690-11eb-8b86-12bb97331649.jpg

b5acc258-4690-11eb-8b86-12bb97331649.jpg

首先假設(shè):存在短文本 可以完全表達(dá)原長文本 的語義:

那么令 代替 輸入原來的模型即可,那么怎么找到這個(gè) 呢

1、使用動態(tài)規(guī)劃算法將長文本 劃分為文本塊集合 ;

2、使用MemRecall對原長句中的子句進(jìn)行打分,MemRecall結(jié)構(gòu)如圖,而表現(xiàn)如下式:

從而選擇出分?jǐn)?shù)最高的子句組成 再進(jìn)行訓(xùn)練,這樣一來的話,COGLTX相當(dāng)于使用了了兩個(gè)bert,MemRecall中bert就是負(fù)責(zé)打分,另一個(gè)bert執(zhí)行原本的NLP任務(wù)。

可以發(fā)現(xiàn)剛才找到 例子將問題Q放在了初始化 的開頭,但是并不是每個(gè)NLP任務(wù)都可以這么做,分類的時(shí)候就沒有類似Q的監(jiān)督,這時(shí)候COGLTX采用的策略是將每個(gè)子句從原句中移除判斷其是否是必不可少的(t是一個(gè)閾值):

作者通過設(shè)計(jì)不同任務(wù)下的MemRecall實(shí)現(xiàn)了在長文本中使用bert并通過實(shí)驗(yàn)證明了方法的有效性。

3.實(shí)驗(yàn)

b63a5dd4-4690-11eb-8b86-12bb97331649.jpg

通過多維度地對比,證明了本文提出算法的有效性。

參考文獻(xiàn)

[1]https://zhuanlan.zhihu.com/p/88944564

[2]https://www.datafountain.cn/competitions/471

[3]Z. Wang, P. Ng, X. Ma, R. Nallapati, and B. Xiang. Multi-passage bert: A globally normalized bert model for open-domain question answering. arXiv preprint arXiv:1908.08167, 2019.

責(zé)任編輯:xj

原文標(biāo)題:【NIPS 2020】通過文本壓縮,讓BERT支持長文本

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17031
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    481

    瀏覽量

    21934

原文標(biāo)題:【NIPS 2020】通過文本壓縮,讓BERT支持長文本

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    單日獲客成本超20萬,國產(chǎn)大模型開卷200萬字以上的長文本處理

    更精準(zhǔn)的推理和高并發(fā)流量以外,似乎已經(jīng)沒有太多值得廠商大肆宣傳的特性了,直到最近超長文本處理的爆火。 ? 國產(chǎn)大模型的新卷法,長文本處理 ? 當(dāng)下將大模型長文本處理炒熱的,無疑是來自月之暗面的Kimi。作為去年發(fā)布的大模型,Ki
    的頭像 發(fā)表于 03-27 00:53 ?3192次閱讀
    單日獲客成本超20萬,國產(chǎn)大模型開卷200萬字以上的<b class='flag-5'>長文本處理</b>

    MiniMax推出“海螺AI”,支持超長文本處理

    近日,大模型公司MiniMax宣布,其全新產(chǎn)品“海螺AI”已正式上架。這款強(qiáng)大的AI工具支持高達(dá)200ktokens的上下文長度,能夠在1秒內(nèi)處理近3萬字的文本。
    的頭像 發(fā)表于 05-17 09:30 ?565次閱讀

    訊飛星火長文本功能全新升級

    科大訊飛近日宣布,其首個(gè)長文本、長圖文、長語音大模型已完成全新升級。這一大模型不僅具備強(qiáng)大的學(xué)習(xí)能力,可以快速吸收海量文本、圖文資料以及會議錄音等多元化信息,更能在各行業(yè)場景中提供精準(zhǔn)、專業(yè)的回答。
    的頭像 發(fā)表于 05-06 11:22 ?427次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介一些經(jīng)典的預(yù)訓(xùn)練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列模型,幫助讀者初步感知大語言模型。文本主要由詞序列構(gòu)成,詞是自然語言處理的基本單元。
    發(fā)表于 05-05 12:17

    科大訊飛創(chuàng)新推出長文本、長圖文、長語音大模型,解決落地難題

    近期,科大訊飛推出了首個(gè)支持長文本、長圖及語音大數(shù)據(jù)處理的大模型,該系統(tǒng)融合了多元化數(shù)據(jù)源,包括海量文字、圖片以及會議音頻等,能為各行業(yè)場景提供專業(yè)化、精準(zhǔn)化的答案。
    的頭像 發(fā)表于 04-28 09:32 ?288次閱讀

    訊飛星火大模型V3.5春季升級,多領(lǐng)域知識問答超越GPT-4 Turbo?

    劉慶峰指出,現(xiàn)如今,星火大模型在通用長文本處理能力方面已相當(dāng)成熟,覆蓋長文檔信息抽取、知識問答、歸納總結(jié)、文本生成等諸多領(lǐng)域,整體表現(xiàn)已達(dá)GPT-4 Turbo今年4月最新版的97%水準(zhǔn);
    的頭像 發(fā)表于 04-26 14:26 ?667次閱讀

    Kimi爆火背后的技術(shù)奧秘 大模型長文本能力的技術(shù)難點(diǎn)

    當(dāng)用戶認(rèn)為在國內(nèi)的大模型中,長文本=kimi的時(shí)候,除非競爭對手能以絕對的實(shí)力碾壓幾個(gè)量級,但凡與kimi打平或者是微弱超越,都很難威脅到kimi在用戶心目中的地位。
    發(fā)表于 04-17 10:11 ?1012次閱讀
    Kimi爆火背后的技術(shù)奧秘 大模型<b class='flag-5'>長文本</b>能力的技術(shù)難點(diǎn)

    OpenHarmony開發(fā)案例:【自定義通知】

    通知類型包括基本類型、長文本類型、多行文本類型、圖片類型、帶按鈕的通知、點(diǎn)擊可跳轉(zhuǎn)到應(yīng)用的通知。
    的頭像 發(fā)表于 04-15 15:58 ?377次閱讀
    OpenHarmony開發(fā)案例:【自定義通知】

    360開源70億參數(shù)模型,助力360k長文本輸入

    周鴻祎指出,近期大模型產(chǎn)業(yè)正在以數(shù)據(jù)量為競爭重點(diǎn),百萬字文本處理能力“有望成為未來標(biāo)配”。他表示,360決定發(fā)布這項(xiàng)功能,以避免相關(guān)行業(yè)研發(fā)者重復(fù)投入精力,同時(shí)360K作為長度單位也是象征性的選擇。
    的頭像 發(fā)表于 03-29 15:54 ?307次閱讀

    阿里通義千問重磅升級,免費(fèi)開放1000萬字長文處理功能

    近日,阿里巴巴旗下的人工智能應(yīng)用通義千問迎來重磅升級,宣布向所有人免費(fèi)開放1000萬字的長文處理功能,這一創(chuàng)新舉措使得通義千問成為全球文檔處理容量第一的AI應(yīng)用。
    的頭像 發(fā)表于 03-26 11:09 ?623次閱讀

    快速全面了解大模型長文本能力

    那關(guān)于LLM的長文本能力,目前業(yè)界通常都是怎么做的?有哪些技術(shù)點(diǎn)或者方向?今天我們就來總結(jié)一波,供大家快速全面了解。
    發(fā)表于 02-22 14:04 ?721次閱讀
    快速全面了解大模型<b class='flag-5'>長文本</b>能力

    優(yōu)雅停機(jī)是什么?SpringBoot+Nacos+k8s實(shí)現(xiàn)優(yōu)雅停機(jī)

    優(yōu)雅停機(jī)是什么?網(wǎng)上說的優(yōu)雅下線、無損下線,都是一個(gè)意思。
    的頭像 發(fā)表于 02-20 10:00 ?1435次閱讀
    <b class='flag-5'>優(yōu)雅</b>停機(jī)是什么?SpringBoot+Nacos+k8s實(shí)現(xiàn)<b class='flag-5'>優(yōu)雅</b>停機(jī)

    如何用AI聊天機(jī)器人寫出萬字長文

    如何用AI聊天機(jī)器人寫出萬字長文
    的頭像 發(fā)表于 12-26 16:25 ?944次閱讀

    基于BERT算法搭建一個(gè)問答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽說過,它是Google推出的NLP領(lǐng)域“王炸級”預(yù)訓(xùn)練模型,其在NLP任務(wù)中刷新了多項(xiàng)記錄,并取得state of the art的成績。 但是有很多深度
    的頭像 發(fā)表于 10-30 11:46 ?506次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建一個(gè)問答搜索引擎

    港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長文本擴(kuò)展技術(shù),打破LLM遺忘魔咒

    它代表著業(yè)界對長文本大語言模型的重新思考和關(guān)注,有效擴(kuò)展了大語言模型的上下文窗口,允許模型考慮和處理較長的文本序列,是大語言模型的革新性發(fā)明。
    的頭像 發(fā)表于 10-18 15:54 ?511次閱讀
    港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超<b class='flag-5'>長文本</b>擴(kuò)展技術(shù),打破LLM遺忘魔咒