伊人色综合久久天天人手人停,麻豆免费国产无码AV,午夜免费理论片在线看

導(dǎo)讀

NLP遷移學(xué)習(xí)中的一些問題，感覺有點(diǎn)道理。

自然語言處理(NLP)最近取得了巨大的進(jìn)步，每隔幾天就會(huì)發(fā)布最新的結(jié)果。排行榜瘋狂是指最常見的NLP基準(zhǔn)，如GLUE和SUPERGLUE，它們的得分越來越接近人類的水平。這些結(jié)果大多是通過超大(數(shù)十億個(gè)參數(shù))模型從大規(guī)模數(shù)據(jù)集中遷移學(xué)習(xí)得到的。本文的目的是指出遷移學(xué)習(xí)面臨的問題和挑戰(zhàn)，并提出一些可能的解決方法。

計(jì)算量

目前NLP中最成功的遷移學(xué)習(xí)形式是序列遷移學(xué)習(xí)(STL)，通常采用語言預(yù)訓(xùn)練的形式(https://arxiv.org/abs/1801.06146)。最近幾乎所有的SOTA結(jié)果主要是由兩步方案驅(qū)動(dòng)的：

大型通用語料庫上進(jìn)行語言模型的建模(數(shù)據(jù)越多越好)。

Finetune目標(biāo)任務(wù)上的模型(或其子集)。

ELMO, BERT, GPT, GPT-2, XLNET and RoBERTa是都是用的同樣的技術(shù)。這些方法的一個(gè)主要問題是巨大的資源需求。我所說的資源是指數(shù)據(jù)和計(jì)算能力。例如，據(jù)估計(jì)，在512個(gè)TPU v3芯片上訓(xùn)練XLNET大約需要25萬美元，相比于在3/4的數(shù)據(jù)集中訓(xùn)練的BERT，只提升了1-2%。

這就引出了下一個(gè)問題：

難以復(fù)現(xiàn)

可復(fù)現(xiàn)性已經(jīng)成為機(jī)器學(xué)習(xí)研究中的一個(gè)問題。例如，Dacrema et al.)分析了18個(gè)不同的基于神經(jīng)的推薦系統(tǒng)，發(fā)現(xiàn)其中只有7個(gè)經(jīng)過合理的努力是可復(fù)現(xiàn)的。一般來說，為了能夠使用或建立在一個(gè)特定的研究理念，這個(gè)理念必須易于復(fù)現(xiàn)。由于需要大量的計(jì)算資源來訓(xùn)練這些巨大的NLP模型并復(fù)現(xiàn)它們的結(jié)果，小型科技公司、初創(chuàng)公司、研究實(shí)驗(yàn)室和獨(dú)立研究人員將無法競(jìng)爭(zhēng)。

不再需要排行榜的任務(wù)

Anna Rogers在她的博客文章為什么“更多的數(shù)據(jù)和計(jì)算= SOTA”不是研究新聞。她認(rèn)為，排行榜的主要問題在于，一個(gè)模型的排名完全取決于它的任務(wù)分?jǐn)?shù)，而沒有考慮到達(dá)到這個(gè)分?jǐn)?shù)所需的數(shù)據(jù)量、計(jì)算量或訓(xùn)練時(shí)間。

Rohit Pgarg建議在任務(wù)精度和計(jì)算資源的二維尺度上比較模型的性能。請(qǐng)看下面的圖表。我建議我們添加另一個(gè)維度，它對(duì)應(yīng)于模型訓(xùn)練時(shí)候的數(shù)據(jù)量。但是，這種可視化并不能洞察哪種模型通常更好。還有Alexandr Savinov的一個(gè)非常有趣的評(píng)論，他建議使用算法能夠在一單位CPU時(shí)間內(nèi)將多少輸入信息“打包”到一單位輸出(模型參數(shù))表示中。

NLP遷移學(xué)習(xí)面臨的問題和解決

在比較模型性能時(shí)，使用計(jì)算資源作為任務(wù)準(zhǔn)確性的額外度量

這不像是我們學(xué)習(xí)的方式

孩子們通過嘈雜、模糊的輸入和極少的監(jiān)督來學(xué)習(xí)語言。一個(gè)孩子只要接觸一個(gè)單詞幾次，就能開始理解它的意思。這與STL設(shè)置中使用的訓(xùn)練前步驟非常不同，在STL設(shè)置中，模型需要查看數(shù)百萬個(gè)上下文，其中包括一個(gè)特定的單詞，以掌握該單詞的含義。一個(gè)非常重要的問題是，是否可以只從原始文本中學(xué)習(xí)語義而不受任何外部監(jiān)督。如果你對(duì)關(guān)于這個(gè)話題的twitter辯論感興趣，請(qǐng)?jiān)L問這個(gè)帖子：https://twitter.com/jacobandreas/status/1023246560082063366。如果答案是否定的，那就意味著在訓(xùn)練前，這些模型實(shí)際上并沒有給他們真正的語言理解能力。然而，我們?cè)谌粘Ｉ钪写_實(shí)使用了遷移學(xué)習(xí)。例如，如果我們知道如何駕駛一輛手動(dòng)汽車，我們就很容易利用所學(xué)的知識(shí)(如使用剎車和油門踏板)來駕駛一輛自動(dòng)汽車。但這是人類學(xué)習(xí)語言的必經(jīng)之路嗎？不太可能。然而，有人可能會(huì)說，只要一種方法能產(chǎn)生好的結(jié)果，它是否與人類的學(xué)習(xí)方式相似實(shí)際上并不重要。不幸的是，這些模型產(chǎn)生的一些好的結(jié)果是有問題的，我們將在下一節(jié)看到。

從另一個(gè)角度來看，人類在語言學(xué)習(xí)上采取了一種持續(xù)終生的學(xué)習(xí)方式。每當(dāng)我們學(xué)習(xí)一個(gè)新任務(wù)時(shí)，這種學(xué)習(xí)通常不會(huì)干擾之前學(xué)習(xí)過的任務(wù)。另一方面，當(dāng)新的訓(xùn)練數(shù)據(jù)的分布發(fā)生變化的時(shí)候，普通的只在一個(gè)任務(wù)上訓(xùn)練過的機(jī)器學(xué)習(xí)模型(包括遷移學(xué)習(xí)方法)通常不能利用過去學(xué)到知識(shí)，這種現(xiàn)象稱為災(zāi)難性的遺忘。

膚淺的語言理解

語言建模任務(wù)的確是一個(gè)復(fù)雜的任務(wù)。例如這個(gè)句子：“The man in the red shirt is running fast. He must be…”，為了讓模型完成這句話，模型必須理解running fast通常意味著being in a hurry。那么這些預(yù)先訓(xùn)練過的模型到底能理解多少語言呢？不幸的是，事實(shí)并非如此。Niven et al.， 2019分析了BERT在論證推理和理解任務(wù)(ARCT)上的表現(xiàn)。ARCT可以這樣描述：給定一個(gè)聲明和一個(gè)推理，任務(wù)是選擇正確的證據(jù)，而不是另一個(gè)干擾項(xiàng)。正確的證明應(yīng)符合，而其他證明應(yīng)符合。參見下圖。

NLP遷移學(xué)習(xí)面臨的問題和解決

論證和理解任務(wù)的范例

值得一提的是，BERT在這項(xiàng)任務(wù)中獲得了極具競(jìng)爭(zhēng)力的77%的準(zhǔn)確性，僅比人類基線低3分。首先，這說明BERT有很強(qiáng)的推理能力。為了進(jìn)一步調(diào)查，Niven et al.， 2019使用了所謂的“探針”。也就是說，他們?cè)谶@個(gè)任務(wù)上對(duì)BERT進(jìn)行了finetune，但是對(duì)BERT的輸入只是正確的和可選的證據(jù)，而沒有暴露它的聲明或推理。假設(shè)是，如果BERT依賴證據(jù)中的一些統(tǒng)計(jì)線索，即使他只看到證據(jù)而沒有其他信息，他也應(yīng)該表現(xiàn)良好。有趣的是，他們的研究結(jié)果顯示，與使用推理和聲明相比，他們的準(zhǔn)確率僅下降了6%。這表明，BERT實(shí)際上并沒有進(jìn)行任何類型的推理，但證明本身有足夠的線索，使BERT能夠達(dá)到如此高的準(zhǔn)確性。值得注意的是，用一個(gè)沒有BERT所依賴的這些線索的對(duì)抗性的測(cè)試集代替了這個(gè)測(cè)試集，BERT只能達(dá)到53%的正確率，剛好高于隨機(jī)概率。

另一篇相關(guān)論文是“Can a Machine Really Finish your Sentence?”(Zellers et al.， 2019)。他們考慮的是常識(shí)自然語言推理的任務(wù)，即機(jī)器應(yīng)該選擇最可能的后續(xù)語句。例如，給定句子：“the team played so well”，系統(tǒng)應(yīng)該選擇“They won the game”作為后續(xù)。作者認(rèn)為，盡管BERT能夠達(dá)到86%的正確率(僅比人類基線低2點(diǎn))，如此高的正確率并不是由于BERT的高級(jí)推理形式，而是由于BERT學(xué)會(huì)了識(shí)別數(shù)據(jù)集特有的分布偏差。他們發(fā)現(xiàn)，通過對(duì)抗性篩選(一種旨在為任何可能的訓(xùn)練、測(cè)試分割生成對(duì)抗性數(shù)據(jù)集的技術(shù))創(chuàng)建一個(gè)更困難的數(shù)據(jù)集(HellaSwag)， BERT準(zhǔn)確率下降到53%。本文討論了數(shù)據(jù)集性能和任務(wù)性能之間的細(xì)微差別。對(duì)特定任務(wù)的數(shù)據(jù)集執(zhí)行得非常好并不意味著解決了底層任務(wù)。

NLP遷移學(xué)習(xí)面臨的問題和解決

BERT在SWAG上的表現(xiàn)與HellaSwag相比

很明顯，這里發(fā)生了一些事情。是否可能BERT的好結(jié)果實(shí)際上是由它利用各種分布線索和偏差劫持目標(biāo)數(shù)據(jù)集的能力驅(qū)動(dòng)的?對(duì)BERT的研究結(jié)果進(jìn)行更多的調(diào)查能得出其他類似的發(fā)現(xiàn)和結(jié)論嗎?如果是這樣，我相信我們不僅需要建立更好的模型，還需要建立更好的數(shù)據(jù)集。我們需要的數(shù)據(jù)集能夠真實(shí)地反映底層任務(wù)的困難，而不是讓模型很容易達(dá)到欺騙的準(zhǔn)確性和排行榜分?jǐn)?shù)。

高碳不環(huán)保

信不信由你，但是訓(xùn)練這些壯觀的模型對(duì)環(huán)境有負(fù)面影響。Strubell等人比較了訓(xùn)練大型Transformer架構(gòu)產(chǎn)生的排放與其他來源造成的排放。令人驚訝的是，使用神經(jīng)結(jié)構(gòu)搜索訓(xùn)練單個(gè)Transformer arhcitectue所釋放的大約是一輛汽車一生所釋放的的6.0倍。

NLP遷移學(xué)習(xí)面臨的問題和解決

Schwartz等人介紹了他們所謂的“綠色人工智能”，這是一種實(shí)踐，使人工智能更加“高效”和“包容”。與我們上面討論的類似，他們強(qiáng)烈建議除了任務(wù)準(zhǔn)確性之外，還應(yīng)該增加效率。他們還認(rèn)為，研究論文有必要包括“價(jià)格標(biāo)簽”或模型訓(xùn)練的成本。這將鼓勵(lì)對(duì)更高效、更少資源需求的模型架構(gòu)的研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

nlp

nlp

+關(guān)注

關(guān)注
1

文章
486

瀏覽量
21987
遷移學(xué)習(xí)

遷移學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
74

瀏覽量
5554

評(píng)論

相關(guān)推薦

大算力芯片面臨的技術(shù)挑戰(zhàn)和解決策略

在灣芯展SEMiBAY2024《HBM與存儲(chǔ)器技術(shù)與應(yīng)用論壇》上，億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬發(fā)表了題為《超越極限：大算力芯片面臨的技術(shù)挑戰(zhàn)和解決策略》的演講。

發(fā)表于 10-23 14:50 ?250次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念，它們?cè)谔岣吣Ｐ托阅堋p少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討預(yù)訓(xùn)

發(fā)表于 07-11 10:12 ?722次閱讀

nlp邏輯層次模型的特點(diǎn)

NLP（自然語言處理）邏輯層次模型是一種用于理解和生成自然語言文本的計(jì)算模型。它將自然語言文本分解為不同的層次，以便于計(jì)算機(jī)更好地處理和理解。以下是對(duì)NLP邏輯層次模型特點(diǎn)的分析：詞匯層次詞匯

發(fā)表于 07-09 10:39 ?297次閱讀

nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

來改變我們的行為和情感。NLP的目標(biāo)是幫助人們實(shí)現(xiàn)自我改進(jìn)，提高溝通技巧，增強(qiáng)領(lǐng)導(dǎo)力和解決問題的能力。 NLP的主要組成部分包括：感知：了解我們?nèi)绾谓邮蘸吞幚硇畔ⅰ?語言：研究我們?nèi)绾问褂谜Z言來表達(dá)我們的思想和情感。編程：研

發(fā)表于 07-09 10:35 ?679次閱讀

nlp自然語言處理框架有哪些

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解和處理人類語言。隨著技術(shù)的發(fā)展，NLP領(lǐng)域出現(xiàn)了

發(fā)表于 07-09 10:28 ?467次閱讀

nlp自然語言處理的主要任務(wù)及技術(shù)方法

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域都有廣泛

發(fā)表于 07-09 10:26 ?775次閱讀

nlp自然語言處理模型怎么做

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)對(duì)人類語言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，NLP領(lǐng)域取得了顯著

發(fā)表于 07-05 09:59 ?495次閱讀

nlp自然語言處理模型有哪些

自然語言處理（Natural Language Processing，NLP）是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語言。以下是對(duì)NLP領(lǐng)域一些模型的介紹

發(fā)表于 07-05 09:57 ?578次閱讀

深度學(xué)習(xí)與nlp的區(qū)別在哪

深度學(xué)習(xí)和自然語言處理（NLP）是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系，也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。深度學(xué)習(xí)

發(fā)表于 07-05 09:47 ?749次閱讀

遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

遷移學(xué)習(xí)（Transfer Learning）是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念，其核心思想是利用在一個(gè)任務(wù)或領(lǐng)域中學(xué)到的知識(shí)來加速或改進(jìn)另一個(gè)相關(guān)任務(wù)或領(lǐng)域的學(xué)習(xí)過程。這種方法在數(shù)據(jù)稀缺

發(fā)表于 07-04 17:30 ?1202次閱讀

NLP技術(shù)在機(jī)器人中的應(yīng)用

人類語言的能力，還使得機(jī)器人能夠以更加自然、流暢的方式與人類進(jìn)行交互，從而在服務(wù)、教育、醫(yī)療、娛樂等多個(gè)領(lǐng)域展現(xiàn)出巨大的潛力和價(jià)值。本文將從NLP技術(shù)在機(jī)器人中的應(yīng)用現(xiàn)狀、核心技術(shù)、應(yīng)用場(chǎng)景、面臨的挑戰(zhàn)及未來發(fā)展趨勢(shì)等方面進(jìn)行深入探討。

發(fā)表于 07-04 16:04 ?392次閱讀

NLP技術(shù)在人工智能領(lǐng)域的重要性

在自然語言處理（Natural Language Processing, NLP）與人工智能（Artificial Intelligence, AI）的交織發(fā)展中，NLP技術(shù)作為連接人類語言與機(jī)器

發(fā)表于 07-04 16:03 ?396次閱讀

NLP模型中RNN與CNN的選擇

在自然語言處理（NLP）領(lǐng)域，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）與卷積神經(jīng)網(wǎng)絡(luò)（CNN）是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì)，適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN

發(fā)表于 07-03 15:59 ?374次閱讀

什么是自然語言處理 (NLP)

自然語言處理（Natural Language Processing, NLP）是人工智能領(lǐng)域中的一個(gè)重要分支，它專注于構(gòu)建能夠理解和生成人類語言的計(jì)算機(jī)系統(tǒng)。NLP的目標(biāo)是使計(jì)算機(jī)能夠像人類一樣

發(fā)表于 07-02 18:16 ?864次閱讀

navicat的數(shù)據(jù)遷移工具

數(shù)據(jù)遷移是當(dāng)今數(shù)據(jù)管理的核心任務(wù)之一。在數(shù)據(jù)遷移的過程中，我們經(jīng)常面臨著數(shù)據(jù)庫結(jié)構(gòu)不同和數(shù)據(jù)量龐大等難題。而Navicat作為一款功能強(qiáng)大的數(shù)據(jù)庫管理工具，其數(shù)據(jù)遷移工具更是為我們解決

發(fā)表于 11-21 10:55 ?988次閱讀

搜索歷史

NLP遷移學(xué)習(xí)面臨的問題和解決

評(píng)論

大算力芯片面臨的技術(shù)挑戰(zhàn)和解決策略

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

nlp邏輯層次模型的特點(diǎn)

nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

nlp自然語言處理框架有哪些

nlp自然語言處理的主要任務(wù)及技術(shù)方法

nlp自然語言處理模型怎么做

nlp自然語言處理模型有哪些

深度學(xué)習(xí)與nlp的區(qū)別在哪

遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

NLP技術(shù)在機(jī)器人中的應(yīng)用

NLP技術(shù)在人工智能領(lǐng)域的重要性

NLP模型中RNN與CNN的選擇

什么是自然語言處理 (NLP)

navicat的數(shù)據(jù)遷移工具