0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI:用可擴(kuò)展的多任務(wù)系統(tǒng),在多語(yǔ)言任務(wù)上取得了良好的成績(jī)

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 09:20 ? 次閱讀

編者按:近日,OpenAI在博客上宣布,他們用可擴(kuò)展的多任務(wù)系統(tǒng),在多語(yǔ)言任務(wù)上取得了良好的成績(jī)。研究人員結(jié)合了transformer和無監(jiān)督預(yù)訓(xùn)練這兩種現(xiàn)有方法。結(jié)果證明,監(jiān)督學(xué)習(xí)方法和無監(jiān)督預(yù)訓(xùn)練結(jié)合得非常好。以下是論智對(duì)原博文的編譯。

我們的系統(tǒng)工作分為兩個(gè)階段:首先,我們?cè)诖罅繑?shù)據(jù)上訓(xùn)練一個(gè)transformer模型,利用語(yǔ)言建模作為訓(xùn)練信號(hào),然后在稍小的監(jiān)督數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào),以幫助解決特殊任務(wù)。

在此之前我們?cè)l(fā)布了一篇有關(guān)“情感神經(jīng)元”的研究,其中我們注意到無監(jiān)督學(xué)習(xí)技術(shù)能產(chǎn)生非常明顯的特定。這里,我們想將這一技術(shù)進(jìn)一步拓展:是否能創(chuàng)建一個(gè)模型,將其在大量數(shù)據(jù)上進(jìn)行無監(jiān)督訓(xùn)練,之后再在多種不同任務(wù)上進(jìn)行微調(diào)?結(jié)果證明,這一方法非常有效。模型只需要微小調(diào)整就能適應(yīng)多種任務(wù)。

這項(xiàng)工作建立在論文Semi-supervised Sequence Learning所提出的方法上,它展示了如何用LSTM的無監(jiān)督預(yù)訓(xùn)練以及監(jiān)督式的微調(diào)提高文本分類的性能。它還擴(kuò)展了ULMFiT,該研究展示了單一無數(shù)據(jù)集的LSTM語(yǔ)言模型可以在多種文本分類數(shù)據(jù)集上微調(diào)后達(dá)到最優(yōu)性能。

而我們的研究展示了一個(gè)基于Transformer的模型可以通過這種方法做到除了文本分類以外的事,例如常識(shí)推理、語(yǔ)義相似度、閱讀理解。它也有點(diǎn)像ELMo,同樣也是加入預(yù)訓(xùn)練,再用特定任務(wù)框架得到最優(yōu)結(jié)果。

為了達(dá)到我們的結(jié)果只需要微調(diào),并且所有數(shù)據(jù)集只用了一個(gè)前向語(yǔ)言模型,沒有任何集成,并且大部分結(jié)果用的參數(shù)都是相通的。

令人激動(dòng)的是,我們的方法在COPA、RACE和ROCStories三個(gè)數(shù)據(jù)集上都表現(xiàn)的很好,這三種數(shù)據(jù)集是用來測(cè)試常識(shí)推理和閱讀理解的。我們的模型在這些數(shù)據(jù)集上表現(xiàn)出了頂尖的結(jié)果,與其他方法的對(duì)比十分明顯。通常人們認(rèn)為這些數(shù)據(jù)集需要多語(yǔ)句推理和豐富的知識(shí),這也表明我們的模型只能靠無監(jiān)督學(xué)習(xí)提升水準(zhǔn)。這也意味著未來也許能通過無監(jiān)督技術(shù)讓模型理解復(fù)雜語(yǔ)言。

為什么用無監(jiān)督學(xué)習(xí)?

監(jiān)督學(xué)習(xí)最近在機(jī)器學(xué)習(xí)的很多方面都取得了成功。然而,成功的背后需要大型、經(jīng)過清洗的數(shù)據(jù)集。無監(jiān)督學(xué)習(xí)不會(huì)有這些問題,也是它受歡迎的原因。由于無監(jiān)督學(xué)習(xí)無需人類對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,所以在目前計(jì)算量增加并且有可用元數(shù)據(jù)的趨勢(shì)下,它仍然適應(yīng)得很好。無監(jiān)督學(xué)習(xí)是很受歡迎的研究領(lǐng)域,但是付諸實(shí)踐的卻很少。

最近我們嘗試用無監(jiān)督學(xué)習(xí)增強(qiáng)系統(tǒng),進(jìn)一步研究語(yǔ)言能力。無監(jiān)督技術(shù)訓(xùn)練能通過含有巨大信息量的數(shù)據(jù)庫(kù)訓(xùn)練單詞的表示,與監(jiān)督學(xué)習(xí)結(jié)合后,模型的性能會(huì)進(jìn)一步提高。最近,這些NLP領(lǐng)域的無監(jiān)督技術(shù)(例如GLoVe和word2vec)利用了簡(jiǎn)單模型(詞向量)和訓(xùn)練信號(hào)。Skip-Thought向量是一種是對(duì)這種提升的早期展示。但是目前在用的技術(shù)讓性能得到了進(jìn)一步提升。這些都包括了使用預(yù)訓(xùn)練句子的模型表示、語(yǔ)境化的詞向量、用定制架構(gòu)連接無監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)的方法。

在大量文本語(yǔ)料上對(duì)模型進(jìn)行預(yù)訓(xùn)練顯著提高了它在自然語(yǔ)言處理上的表現(xiàn)

我們還注意到,我們可以用基礎(chǔ)的語(yǔ)言模型直接執(zhí)行任務(wù),不用訓(xùn)練它們。例如,隨著基礎(chǔ)語(yǔ)言模型的升級(jí),選擇題模型的表現(xiàn)也有了提升。雖然這種方法和監(jiān)督方法相比結(jié)果還是有差距,但是無監(jiān)督學(xué)習(xí)方法能在多種任務(wù)上執(zhí)行任務(wù)已經(jīng)很讓人興奮了。

我們還能用模型中現(xiàn)有的語(yǔ)言功能執(zhí)行情感分析。斯坦福的Sentiment Treebank數(shù)據(jù)集中包含了許多積極和消極的電影評(píng)論,如果在一句話的結(jié)尾添加“very”這個(gè)詞,我們可以用語(yǔ)言模型猜測(cè)評(píng)論的屬性。這種方法完全沒用對(duì)模型進(jìn)行適應(yīng)調(diào)整,最終達(dá)到了約80%的準(zhǔn)確度。

我們的方法也是驗(yàn)證transformer架構(gòu)的魯棒性和有用性的標(biāo)準(zhǔn),這說明想在多種任務(wù)上達(dá)到頂尖的結(jié)果,同時(shí)不需要定制化或調(diào)參是非常靈活的。

目前存在的缺點(diǎn)

這一項(xiàng)目同時(shí)還存在著一些不足之處:

計(jì)算需求:此前NLP任務(wù)中的許多方法都是從零開始在單個(gè)GPU上訓(xùn)練,模型比較小。我們的方法在預(yù)訓(xùn)練時(shí)需要一個(gè)月左右的時(shí)間,并且要用8個(gè)GPU。幸運(yùn)的是,預(yù)訓(xùn)練只要做一次。不過跟之前的其他工作相比,這算是比較大的計(jì)算量和內(nèi)存了。我們用了一個(gè)37層的Transformer架構(gòu),訓(xùn)練了最多有512個(gè)token的序列,大多數(shù)都是在4個(gè)或8個(gè)GPU系統(tǒng)上進(jìn)行的。模型可以快速地針對(duì)新問題進(jìn)行微調(diào),這也減少了額外所需要的資源。

在學(xué)習(xí)時(shí)通過文本對(duì)世界的理解有偏差和偏見:網(wǎng)絡(luò)上所能看見的書或文字也許不能涵蓋世界所有的信息,也許不準(zhǔn)確。最近的研究表明,用文本和通過數(shù)據(jù)分布建立的模型學(xué)習(xí)特定的信息很困難。

生成時(shí)很脆弱:雖然我們的方法在很多任務(wù)中都提高了性能,目前的深度學(xué)習(xí)NLP模型仍然表現(xiàn)出令人驚訝的反常行為,尤其是系統(tǒng)地進(jìn)行對(duì)抗測(cè)試時(shí)更加明顯。但是我們的方法在這些測(cè)試面前很脆弱,盡管有一些進(jìn)步。對(duì)比之前完全用神經(jīng)網(wǎng)絡(luò)的方法,我們的方法在詞匯魯棒性上更勝一籌。在Glockner等人的數(shù)據(jù)集上,我們的模型達(dá)到了83.75%的方法,和KIM接近。

未來方向

擴(kuò)展我們的方法:我們看到在語(yǔ)言模型和其相關(guān)的模型上已經(jīng)有了很大提升。目前我們正在用一個(gè)8個(gè)GPU的機(jī)器和含有上千本書的訓(xùn)練集進(jìn)行實(shí)驗(yàn),說明還有很大的擴(kuò)展空間。

改進(jìn)微調(diào)方法:我們的方法目前很簡(jiǎn)潔。也許未來我們會(huì)用更加復(fù)雜的調(diào)整和遷移技術(shù)進(jìn)行改進(jìn)。

深入了解為什么生成預(yù)訓(xùn)練很有幫助:雖然我們對(duì)研究成果做出了解釋,但是只有對(duì)比其他實(shí)驗(yàn)和研究才能有更清晰的認(rèn)知。例如,技術(shù)提升后到底有多少好處?

具體案例

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:OpenAI:無監(jiān)督訓(xùn)練加微小調(diào)整,只用一個(gè)模型即可解決多種NLP任務(wù)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    多語(yǔ)言開發(fā)的流程詳解

    現(xiàn)在不少應(yīng)用都是要求有多語(yǔ)言切換的, 使用QT開發(fā)上位機(jī)也同樣需要做多語(yǔ)言功能, 不過QT是自帶了多語(yǔ)言翻譯功能, 可以很方便的借助原生工具進(jìn)行, 下面就簡(jiǎn)單來看看多語(yǔ)言開發(fā)的流程!
    的頭像 發(fā)表于 11-30 09:08 ?1026次閱讀

    setjmp構(gòu)建簡(jiǎn)單協(xié)作式多任務(wù)系統(tǒng)

    實(shí)際應(yīng)用中,搶中式的多任務(wù)某種程序帶來了用戶程序設(shè)計(jì)時(shí)數(shù)據(jù)保護(hù)的困難,并且,具備搶占功能的多任務(wù)內(nèi)核設(shè)計(jì)時(shí)困難也比較多,這會(huì)增加操作系統(tǒng)
    發(fā)表于 12-07 15:55

    實(shí)時(shí)多任務(wù)操作系統(tǒng)(RTOS)

    策略允許兩個(gè)或更多進(jìn)程并發(fā)共享一個(gè)處理器時(shí),事實(shí)處理器某一時(shí)刻只會(huì)給一件任務(wù)提供服務(wù)。因?yàn)?b class='flag-5'>任務(wù)調(diào)度機(jī)制保證不同任務(wù)之間的切換速度十分迅速
    發(fā)表于 08-24 06:34

    多任務(wù)系統(tǒng)與單任務(wù)系統(tǒng)分別是指什么

    多任務(wù)與單任務(wù)所謂"單任務(wù)系統(tǒng)"是指該系統(tǒng)不能支持多任務(wù)并發(fā)操作,宏觀串行地執(zhí)行一個(gè)
    發(fā)表于 12-22 07:20

    多任務(wù)編程多任務(wù)處理是指什么

    嵌入式Linux應(yīng)用編程-多任務(wù)編程多任務(wù)處理是指用戶可在同一時(shí)間內(nèi)運(yùn)行多個(gè)應(yīng)用程序,每個(gè)正在執(zhí)行的應(yīng)用程序被稱為一個(gè)任務(wù)。Linux就是一個(gè)支持多任務(wù)的操作
    發(fā)表于 12-22 08:30

    任務(wù)裸機(jī)系統(tǒng)多任務(wù)系統(tǒng)的區(qū)別在哪

    外部事件驅(qū)動(dòng)就能完成的事情前后臺(tái)系統(tǒng)輪詢系統(tǒng)的基礎(chǔ)加入了終斷,終端即前臺(tái),無限循環(huán)的部分叫后臺(tái)多任務(wù)
    發(fā)表于 02-18 07:03

    多語(yǔ)言綜合信息服務(wù)系統(tǒng)研究與設(shè)計(jì)

    基于多語(yǔ)言的綜合信息服務(wù)正成為信息服務(wù)領(lǐng)域的一個(gè)重要的發(fā)展方向。該文提出面向2010年上海世博會(huì)和城市信息服務(wù)的多語(yǔ)言綜合信息服務(wù)應(yīng)用的總體架構(gòu),該系統(tǒng)基于下一代網(wǎng)
    發(fā)表于 04-01 09:41 ?24次下載

    SoC多語(yǔ)言協(xié)同驗(yàn)證平臺(tái)技術(shù)研究

    SoC基于IP設(shè)計(jì)的特點(diǎn)使驗(yàn)證項(xiàng)目中多語(yǔ)言VIP(Verification IP)協(xié)同驗(yàn)證的需求不斷增加,給驗(yàn)證工作帶來了很大的挑戰(zhàn)。為了解決多語(yǔ)言VIPSoC驗(yàn)證環(huán)境靈活重用的問題。提出了一種
    發(fā)表于 12-31 09:25 ?12次下載

    OpenAI介紹擴(kuò)展的,與任務(wù)無關(guān)的的自然語(yǔ)言處理(NLP)系統(tǒng)

    近日,OpenAI 在其官方博客發(fā)文介紹了他們最新的自然語(yǔ)言處理(NLP)系統(tǒng)。這個(gè)系統(tǒng)擴(kuò)展
    的頭像 發(fā)表于 06-17 22:20 ?3834次閱讀
    <b class='flag-5'>OpenAI</b>介紹<b class='flag-5'>可</b><b class='flag-5'>擴(kuò)展</b>的,與<b class='flag-5'>任務(wù)</b>無關(guān)的的自然<b class='flag-5'>語(yǔ)言</b>處理(NLP)<b class='flag-5'>系統(tǒng)</b>

    多語(yǔ)言翻譯新范式的工作:機(jī)器翻譯界的BERT

    思想就是打造“機(jī)器翻譯界的BERT”,通過預(yù)訓(xùn)練技術(shù)再在具體語(yǔ)種上微調(diào)即可達(dá)到領(lǐng)先的翻譯效果,其32個(gè)語(yǔ)種上預(yù)訓(xùn)練出的統(tǒng)一模型47個(gè)翻譯測(cè)試集取得了全面顯著的提升。 目錄 機(jī)器翻
    的頭像 發(fā)表于 03-31 17:24 ?2947次閱讀
    <b class='flag-5'>多語(yǔ)言</b>翻譯新范式的工作:機(jī)器翻譯界的BERT

    Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

    FacebookCrosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語(yǔ)言模型,整體思路基于BERT,并提出了針對(duì)多語(yǔ)言預(yù)訓(xùn)練的3個(gè)優(yōu)化
    的頭像 發(fā)表于 05-05 15:23 ?2910次閱讀

    多語(yǔ)言任務(wù)在內(nèi)的多種NLP任務(wù)實(shí)現(xiàn)

    WeLM是一個(gè)百億級(jí)別的中文模型,能夠零樣本以及少樣本的情境下完成包括對(duì)話-采訪、閱讀理解、翻譯、改寫、續(xù)寫、多語(yǔ)言閱讀理解在內(nèi)的多種NLP任務(wù),并具備記憶能力、自我糾正和檢查能力。
    發(fā)表于 10-13 11:52 ?603次閱讀

    Arduino多任務(wù)處理

    電子發(fā)燒友網(wǎng)站提供《Arduino多任務(wù)處理.zip》資料免費(fèi)下載
    發(fā)表于 06-14 11:05 ?0次下載
    Arduino<b class='flag-5'>上</b>的<b class='flag-5'>多任務(wù)</b>處理

    基于LLaMA的多語(yǔ)言數(shù)學(xué)推理大模型

    MathOctopus多語(yǔ)言數(shù)學(xué)推理任務(wù)中,表現(xiàn)出了強(qiáng)大的性能。MathOctopus-7B 可以將LLmMA2-7BMGSM不同語(yǔ)言
    發(fā)表于 11-08 10:37 ?445次閱讀
    基于LLaMA的<b class='flag-5'>多語(yǔ)言</b>數(shù)學(xué)推理大模型

    ChatGPT 的多語(yǔ)言支持特點(diǎn)

    )技術(shù)迎來了巨大的挑戰(zhàn)和機(jī)遇。ChatGPT,作為一個(gè)領(lǐng)先的語(yǔ)言模型,其多語(yǔ)言支持的特點(diǎn)成為了它在眾多應(yīng)用場(chǎng)景中不可或缺的優(yōu)勢(shì)。 1. 多語(yǔ)言理解能力 ChatGPT 的多語(yǔ)言支持首先
    的頭像 發(fā)表于 10-25 17:30 ?608次閱讀