0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

魚與熊掌:Bert應(yīng)用模式比較與選擇

電子工程師 ? 來源:lq ? 2019-05-14 09:25 ? 次閱讀

最近兩個(gè)月,我比較關(guān)注Bert的領(lǐng)域應(yīng)用現(xiàn)狀,以及Bert存在哪些問題及對應(yīng)的解決方案。于是,收集了不少相關(guān)論文,正在梳理這兩個(gè)問題,并形成了兩篇文章。這部分內(nèi)容本來是第一篇“應(yīng)用篇”的一部分,后來發(fā)現(xiàn)文章實(shí)在太長,于是從介紹Bert領(lǐng)域應(yīng)用現(xiàn)狀的文章中剝離出來。本部分涉及具體技術(shù)較少,比較務(wù)虛,所以單獨(dú)抽出來了,主題也比較散。所講純屬個(gè)人思考,眼光有限,錯(cuò)誤難免,謹(jǐn)慎參考。

魚與熊掌:Bert應(yīng)用模式比較與選擇

我們知道,ELMO/GPT/Bert這幾個(gè)自然語言預(yù)訓(xùn)練模型給NLP帶來了方向性的指引,一般在應(yīng)用這些預(yù)訓(xùn)練模型的時(shí)候,采取兩階段策略:首先是利用通用語言模型任務(wù),采用自監(jiān)督學(xué)習(xí)方法,選擇某個(gè)具體的特征抽取器來學(xué)習(xí)預(yù)訓(xùn)練模型;第二個(gè)階段,則針對手頭的具體監(jiān)督學(xué)習(xí)任務(wù),采取特征集成或者Fine-tuning的應(yīng)用模式,表達(dá)清楚自己到底想要Bert干什么,然后就可以高效地解決手頭的問題和任務(wù)了。

關(guān)于Bert大的應(yīng)用框架如此,但是,其實(shí)有幾個(gè)懸而未決的應(yīng)用模式問題并沒有探討清楚,比如以下兩個(gè)問題,它們的答案是什么?首先搞清楚這些問題其實(shí)是很重要的,因?yàn)檫@對于后續(xù)的Bert領(lǐng)域應(yīng)用起到了明確的指導(dǎo)作用。哪兩個(gè)問題呢?

問題一:下游任務(wù)在利用預(yù)訓(xùn)練模型的時(shí)候,有兩種可能的選擇:特征集成(Feature Ensemble)或者微調(diào)(Fine-tuning)模式。那么對于Bert應(yīng)用來說,這兩種模式,到底哪種應(yīng)用效果更好呢?還是說兩者效果其實(shí)差不多?這是一個(gè)問題,這個(gè)問題如果有明確答案,那么在做應(yīng)用的時(shí)候,可以直接選擇那個(gè)較好的方案。

我們知道,ELMO在下游任務(wù)使用預(yù)訓(xùn)練模型的時(shí)候,采用的是特征集成的方式:就是說把當(dāng)前要判斷的輸入句子,走一遍ELMO預(yù)訓(xùn)練好的的雙層雙向LSTM網(wǎng)絡(luò),然后把每個(gè)輸入單詞對應(yīng)位置的高層LSTM激活embedding(或者輸入單詞對應(yīng)位置的若干層embedding進(jìn)行加權(quán)求和),作為下游任務(wù)單詞對應(yīng)的輸入。這是一種典型的應(yīng)用預(yù)訓(xùn)練模型的方法,更側(cè)重于單詞的上下文特征表達(dá)方面。

GPT和Bert則采取了另外一種應(yīng)用模式:Fine-tuning。意思是:在獲得了預(yù)訓(xùn)練模型以及對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)(Transformer)后,第二個(gè)階段仍然采用與預(yù)訓(xùn)練過程相同的網(wǎng)絡(luò)結(jié)構(gòu),拿出手頭任務(wù)的部分訓(xùn)練數(shù)據(jù),直接在這個(gè)網(wǎng)絡(luò)上進(jìn)行模型訓(xùn)練,以針對性地修正預(yù)訓(xùn)練階段獲得的網(wǎng)絡(luò)參數(shù),一般這個(gè)階段被稱為Fine-tuning。這是另外一種典型的應(yīng)用模式。

當(dāng)然,在實(shí)際應(yīng)用的時(shí)候,只要有了預(yù)訓(xùn)練模型,應(yīng)用模式是可選的。其實(shí)ELMO也可以改造成Fine-tuning的模式,GPT和Bert同樣也可以改造成特征集成的應(yīng)用模式。 那么,這兩種應(yīng)用模式對應(yīng)用來說,有效果方面的差異嗎?

有篇論文專門探討了這個(gè)問題,論文的名字是:“To Tune or Not to Tune? Adapting Pre-trained Representations to Diverse Tasks”,這篇論文還是挺有意思的,有時(shí)間的同學(xué)可以仔細(xì)看看。

它的目的是對比ELMO和Bert的上述兩種應(yīng)用模式的差異,希望得出到底哪種模式更適合下游任務(wù)的結(jié)論。它使用了7種不同的NLP任務(wù)來評估,如果歸納一下實(shí)驗(yàn)結(jié)果(參考上圖),可以看出這個(gè)問題的結(jié)論如下:

對于ELMO來說,特征集成的應(yīng)用方式,在不同數(shù)據(jù)集合下,效果穩(wěn)定地優(yōu)于Fine-tuning;而Bert的結(jié)論正好相反,F(xiàn)ine-tuning應(yīng)用模式的效果,在大部分任務(wù)中與特征集成模式效果相當(dāng)或者稍好些,但是對于sentence pair句子對匹配類的任務(wù),則Fine-tuning效果明顯好于特征集成的方式。這可能是因?yàn)锽ert在預(yù)訓(xùn)練的過程中包含Next Sentence Prediction任務(wù),考慮到了句間關(guān)系問題,所以和下游的sentence pair任務(wù)比較匹配導(dǎo)致的。

另外還有一個(gè)證據(jù)。清華大學(xué)最近有篇論文(Understanding the Behaviors of BERT in Ranking),盡管它的主題不是專門探討上述問題的,但是有組相關(guān)的實(shí)驗(yàn),也能在一定程度上說明問題,所以我把那篇論文的結(jié)論也列在這里。

它的結(jié)論是:對于比如QA這種句子匹配類問題,如果僅僅把Bert作為特征表達(dá)工具,也就是說,Bert的輸入側(cè)只是單獨(dú)輸入Question或者單獨(dú)輸入Passage,取出Bert高層的[CLS]標(biāo)記作為Question或者Passage的語義表示;這種應(yīng)用方式,效果遠(yuǎn)不如在Bert端同時(shí)輸入Question和Passage,意思是讓Transformer自己去做Question和Passage的匹配過程,應(yīng)用效果會(huì)更好,而且兩者效果相差甚遠(yuǎn)。這從側(cè)面說明了:在QA任務(wù)中,F(xiàn)ine-tuning模式效果是要遠(yuǎn)好于特征集成模式的。

這在一定程度上說明了:起碼對于句子匹配類任務(wù),F(xiàn)ine-tuning這種應(yīng)用模式效果是要遠(yuǎn)好于特征集成那種特征表示應(yīng)用模式的。當(dāng)然,因?yàn)闆]有看到更多的工作來對兩種模式做對比,所以謹(jǐn)慎的做法是:僅僅把這個(gè)結(jié)論限制在句子對匹配任務(wù)上,其它非句子對匹配任務(wù)目前并沒有特別明確的結(jié)論,這塊值得通過更多實(shí)驗(yàn)繼續(xù)深入摸索一下。

Bert的原始論文,也簡單對比了下兩種模式,我印象是Fine-tuning模式要略優(yōu)于特征集成模式。

綜合上述三個(gè)工作,我覺得目前可以得出的結(jié)論是:對于句子匹配類任務(wù),或者說是輸入由多個(gè)不同組成部分構(gòu)成的NLP任務(wù),那么在應(yīng)用Bert的時(shí)候,采用Fine-tuning效果是要明顯好于特征集成模式的。所以遇到這種類型的任務(wù),你不用猶豫,直接上Fine-tuning沒有大錯(cuò)。而對于其它類型的任務(wù),在應(yīng)用Bert的時(shí)候,F(xiàn)ine-tuning模式要稍好于特征集成模式,或者兩者效果差不多。

再簡練點(diǎn)的話,結(jié)論是:對于Bert應(yīng)用,安全穩(wěn)妥的做法是,建議采取Fine-tuning的模式,而不是特征集成的模式。

問題二:假設(shè)我們選定了Fine-tuning的應(yīng)用模式,在標(biāo)準(zhǔn)的Bert的Fine-tuning過程或應(yīng)用中的推斷過程中,一般而言,分類層的輸入信息來自于Bert的Transformer特征抽取器的最高層輸出。我們知道,Transformer Base版本是有12層的,一種直觀感覺有意義的想法是:也許不僅僅最高層的Transformer包含有效的分類特征信息,底下的11層Transformer中間層,可能編碼了輸入句子的不同抽象粒度的特征信息。

那么,如果我們在分類前,通過一定方式把每個(gè)單詞對應(yīng)的Transformer的多層中間層的響應(yīng)值集成起來,在這個(gè)集成好的特征基礎(chǔ)上,上接分類層,從直覺上感覺應(yīng)該是有效的,因?yàn)楦杏X好像融入多層特征后,信息更豐富一些。

那么事實(shí)到底如何呢?這種集成多層特征的模式,與只使用Transformer最高層特征的使用模式,到底哪個(gè)效果更好呢?這個(gè)問題其實(shí)也挺有意思。

清華大學(xué)那篇論文:Understanding the Behaviors of BERT in Ranking。其實(shí)主要可以用來回答上面這個(gè)問題。它在分類層之前,采用了幾種不同的特征集成方式,并對比了在QA任務(wù)上的性能差異。如果進(jìn)行歸納,結(jié)論如下:直接使用Bert輸入的第一個(gè)起始標(biāo)記[CLS]對應(yīng)位置的最高層Transformer的Embedding作為分類層的輸入,以此作為文本匹配特征表示,既簡潔效果又最好。

其它的幾個(gè)對比方案,包括集成最高層Transformer各個(gè)單詞的embedding,或者集成不同層Transformer的響應(yīng)值,或者更復(fù)雜的方案,效果是不如這種最簡單的方案的(參考上圖,一個(gè)數(shù)據(jù)集合中Only高層特征明顯占優(yōu),另外一個(gè)兩者效果相近)。我覺得,這說明了:對于句子對匹配任務(wù),這個(gè)[CLS]標(biāo)記已經(jīng)編碼了足夠多的句子匹配所需要的特征信息,所以不再需要額外的特征進(jìn)行補(bǔ)充。

當(dāng)然,上述實(shí)驗(yàn)結(jié)果的結(jié)論,還僅僅局限在QA任務(wù)上,我估計(jì)頂多能擴(kuò)充到句子對匹配類任務(wù)上。至于NLP其它類型任務(wù),比如單句分類或者序列標(biāo)注任務(wù),還需要額外的證據(jù)說明或進(jìn)行比較分析。

關(guān)于序列標(biāo)注任務(wù),有篇論文:“Multi-Head Multi-Layer Attention to Deep Language Representations for Grammatical Error Detection”是用來驗(yàn)證這兩種模式不同效果的,它做的是語法錯(cuò)誤檢測任務(wù),這是一種序列標(biāo)注任務(wù),也就是說,每個(gè)輸入單詞都需要對應(yīng)一個(gè)分類結(jié)果輸出。

它提出了的實(shí)驗(yàn)結(jié)果證明了:在這個(gè)任務(wù)中,與只使用最高層特征模式相比,集成多層特征的具體方式對效果有影響,如果在集成各層特征的時(shí)候,把每層特征的重要性看作是相同的(取均值),那么效果跟只使用最高層特征比,不同數(shù)據(jù)集合下效果有好有壞,總體看差不太多或者稍微好點(diǎn)。

如果加入Attention來自適應(yīng)的學(xué)習(xí)每層特征的權(quán)重,那么效果穩(wěn)定地好于只使用高層特征的模式。這說明:在序列標(biāo)注任務(wù)中,傾向于選擇多層特征融合的應(yīng)用模式。

我們?nèi)ツ暝谟肂ert改進(jìn)微博打標(biāo)簽(文本分類任務(wù))應(yīng)用的時(shí)候,也嘗試過集成不同層的embedding特征,當(dāng)時(shí)測試對于應(yīng)用效果的F1數(shù)值有大約不到2個(gè)百分點(diǎn)的提升(相對僅使用Bert最高層特征的方法)。不過除此外,我還沒看到有其它發(fā)表工作說明這個(gè)問題。

所以,我覺得關(guān)于這個(gè)問題,目前的結(jié)論貌似可以這樣下:對于句子匹配等多輸入的NLP任務(wù),直接使用Bert高層的[CLS]標(biāo)記作為輸出的信息基礎(chǔ),這是效果最好的,也是最簡單的模式。對于序列標(biāo)注類任務(wù),可能多層特征融合更適合應(yīng)用場景,但是在融合各層特征時(shí),要做細(xì)致些。

對于單句分類等其它任務(wù),因?yàn)闆]有更多的工作或者實(shí)驗(yàn)來說明這個(gè)問題,所以尚未能下明確的結(jié)論,這塊還需要后續(xù)更多的驗(yàn)證工作。我的預(yù)感是,這可能跟任務(wù)類型有關(guān),不同類型的任務(wù)可能結(jié)論不太一樣,背后可能有更深層的原因在起作用。

困境與希望:Bert到底給NLP領(lǐng)域帶來了什么

毫無疑問,Bert是NLP領(lǐng)域的極為重大的技術(shù)進(jìn)展,在我看來,Bert的重要性,很可能比把深度學(xué)習(xí)引入NLP領(lǐng)域這種研究模式轉(zhuǎn)換的進(jìn)展重要性都要高,因?yàn)镈L剛引進(jìn)NLP的時(shí)候,說實(shí)話,效果跟傳統(tǒng)模型相比,并沒有體現(xiàn)出明顯優(yōu)勢。但是Bert的效果之好,出人意料,它完全可以跟CV領(lǐng)域以Resnet為代表的Skip Connection相比,屬于深度學(xué)習(xí)在兩個(gè)不同領(lǐng)域的熠熠奪目雙子星。

盡管后面才會(huì)提,但是這里可以一句話歸納一下:從NLP各個(gè)領(lǐng)域的應(yīng)用效果可以看出,在使用了Bert后,在很多領(lǐng)域,指標(biāo)一般都有不同幅度的增長,不同領(lǐng)域情況不同,不少領(lǐng)域有大幅度地增長,很多領(lǐng)域有30%甚至100%的提升。

這些事實(shí)擺在我們面前,按理說,這說明Bert的技術(shù)突破給NLP研究與應(yīng)用帶來了很大希望,同時(shí)指明了發(fā)展方向:就是通過預(yù)訓(xùn)練的模式,充分使用大量的無標(biāo)注語言數(shù)據(jù),利用自監(jiān)督模型,發(fā)揮Transformer特征吸收能力強(qiáng)的特點(diǎn),來對語言知識(shí)進(jìn)行特征編碼。用這些知識(shí)來促進(jìn)很多下游NLP任務(wù)的效果,以彌補(bǔ)有監(jiān)督任務(wù)往往訓(xùn)練數(shù)據(jù)規(guī)模不夠大,無法充分編碼語言知識(shí)的困境。

既然前途如此光明,那么我們完全可以只講希望與方向,對于所謂的“困境”,貌似沒什么可談的。其實(shí)不然,世間事都是人做出來的,如果我們的思考對象是身處其中的研發(fā)人員,則對于很多局中人,有著顯而易見的困境或者說是困擾。這體現(xiàn)了另外一種理想和現(xiàn)實(shí)的差距。這個(gè)距離有多遠(yuǎn)?

相信有一定生活閱歷的人都理解,答案是:與天海之間的距離是一樣的,在站在海邊的人眼里,遠(yuǎn)看無限近,近看無窮遠(yuǎn)。這正像,我們每個(gè)人都希望自己能活出“美麗的外表,有趣的靈魂”,但是活著活著,在生活的重力擠壓下,活成了“有趣的外表,美麗的靈魂”,甚至,可能連美麗的靈魂都已蒙塵。

最近感概有點(diǎn)多,說遠(yuǎn)了,跑回來。

那么,對于很多局中人,Bert的出現(xiàn)帶來的困擾是什么呢?

現(xiàn)在很多證據(jù)表明:直接簡單應(yīng)用Bert,往往就會(huì)對很多任務(wù)的指標(biāo)有大幅度地提升。在Bert出來之前,我相信有很多人,在絞盡腦汁地嘗試著各種不同的NLP改進(jìn)方法,也許思路各異,但是能夠像Bert這樣直接對應(yīng)用有這么高幅度提升的方法,我相信這種方法應(yīng)該基本沒有。否則,現(xiàn)在大家看到的,除了Bert外,應(yīng)該有另外一個(gè)“模型震驚部”推出的新模型,但是骨感的現(xiàn)實(shí)是,并沒有,所以我這個(gè)假設(shè)看上去并沒什么大毛病。

順著這個(gè)假設(shè)推理下去,這又說明什么呢?說明了有大量懷胎十月哇哇墜地甚至還剛受孕的NLP論文,因?yàn)锽ert的出現(xiàn),它們已經(jīng)沒有出生的必要了?!皬膩碇灰?a target="_blank">新人笑,有誰記得舊人哭”。剛看到Bert論文的時(shí)候,我的耳邊仿佛傳來很多無奈的苦笑聲,而這笑聲,應(yīng)該來自于這些技術(shù)創(chuàng)新的發(fā)明者。

從另外一個(gè)角度考慮,Bert的出現(xiàn),快速拉高了很多NLP應(yīng)用領(lǐng)域的Benchmark或者對比baseline,所以會(huì)引發(fā)一個(gè)對很多NLP領(lǐng)域研究者,尤其是憋論文的研究生的一個(gè)現(xiàn)實(shí)的問題。什么問題?就是在一夜之間大幅提升的基線方法高壓下,如果不在Bert的基礎(chǔ)上進(jìn)行方法創(chuàng)新,那么提出一種效果要好于Bert效果的新方法,概率是非常低的。這意味著有了Bert后,創(chuàng)新難度大大增加了,這對于應(yīng)用人員沒什么,對于有創(chuàng)新要求的人來說,門檻變高了。

你會(huì)反問:為什么將Bert作為對比參照系,原先的方法就失靈了呢?我可以在Bert基礎(chǔ)上,再套用我原先想的辦法來創(chuàng)新嗎不是?當(dāng)然,不排除有些點(diǎn)子具備不管風(fēng)吹浪打,我自閑庭信步的成功可能性,但是對于絕大多數(shù)方法,我相信這條路是走不通的。為什么?因?yàn)楹芸赡苣惚锪税肽甑哪莻€(gè)方法產(chǎn)生的一點(diǎn)收益,已經(jīng)被Bert自身帶來的收益覆蓋或者吃掉了。

意思是說,如果沒有Bert,你的改進(jìn)可能看著還算有些效果,但是你想疊加到Bert上,既想吃到Bert帶來的技術(shù)紅利,又能體現(xiàn)你方法的優(yōu)點(diǎn),這個(gè)良好愿望,實(shí)現(xiàn)的概率,是很低的。如果你還這么樂觀地想這個(gè)問題,那么,我覺得你該定個(gè)鬧鐘早點(diǎn)叫醒自己了??吹竭@,你體會(huì)到我上面說的理想和現(xiàn)實(shí)的距離問題了嗎?

不過話說回來,創(chuàng)新難度增加,看你怎么看這個(gè)問題了。其實(shí)從領(lǐng)域長遠(yuǎn)發(fā)展來看,是有好處的。好處是:也不局限于NLP領(lǐng)域,大多數(shù)AI領(lǐng)域的98%以上的所謂創(chuàng)新,如果把眼光放長遠(yuǎn),是沒有太大價(jià)值的。怎么判斷?再過幾年不會(huì)被人提起的創(chuàng)新,都屬于這種。

如果這個(gè)假設(shè)成立,那么Bert的出現(xiàn),會(huì)逼迫從業(yè)者不要浪費(fèi)時(shí)間在這些沒有什么長遠(yuǎn)領(lǐng)域價(jià)值的點(diǎn)子上,而逼迫你去解決那些真正有價(jià)值的問題。沒有Bert的時(shí)候,只能靠自覺或者研究品味來做到這一點(diǎn),有了Bert,你就不能不這么做了。從這點(diǎn)講,出現(xiàn)突破模型,對于領(lǐng)域人力資源的投入優(yōu)化配置,是具有非常積極的作用的。所以很多事情,看你是站在什么角度去看的,不同的角度,可能得出相反的結(jié)論。

不過,我想,除了上面觀察角度各異結(jié)論會(huì)不同的判斷外,Bert確實(shí)可能存在一個(gè)壞處:很多非常新的想法,在剛提出來的時(shí)候,效果可能并不能達(dá)到類似Bert這種碾壓效果,甚至效果不太明顯,需要后面有個(gè)靈機(jī)一動(dòng)的改進(jìn),讓它的效果發(fā)揮出來。但是面臨Bert的高基線,很可能很多具備高潛力的點(diǎn)子,根本發(fā)表不出來。意味著Bert這堵高墻,可能遮蔽了很多低垂灌木的陽光,使得它們還沒長大就夭折了。這是Bert可能帶來的負(fù)面效果。

另外一個(gè)容易讓人感到無奈的事實(shí)是:Bert的出現(xiàn)預(yù)示著,使用Transformer這種重模型,利用幾乎無窮多的自然語言文本資源進(jìn)行自監(jiān)督訓(xùn)練,這條路看樣子是能走通的,而這是一條通向NLP之峰的陽關(guān)大道。但是復(fù)雜模型加上超量數(shù)據(jù),也預(yù)示著要想沿著這條路線繼續(xù)往后走,在預(yù)訓(xùn)練階段,對機(jī)器資源的消耗非常之大,這種金錢游戲,不是你我這種NLP屆的窮人們玩的起的。

這就像什么呢?打個(gè)比方,漫威電影里的超級英雄們,各個(gè)身手非凡,但是如果追究下他們超能力的來源問題,就上升到階級問題了,所謂“富人靠科技,窮人靠變異”,這句力透屏幕的扎心總結(jié),透著濃濃的馬克思主義的氣息。換成Bert時(shí)代,那就是 “富人靠機(jī)器,窮人靠運(yùn)氣”。各位還請檢查下銀行卡余額,對號(hào)入座。

不過話說回來,有些事,接受事實(shí)就好,不要想太多,想太多,除了苦惱,什么也得不到。雖說世事本多無奈,但我們要永保赤子之心,畢竟無奈著無奈著……..慢慢你也就習(xí)慣了……..

路在何方:Bert時(shí)代的可能NLP創(chuàng)新路徑

上面既然談到了可能的困境與希望,不妨再進(jìn)一步深入思考一下:對于有創(chuàng)新要求的局中人,在Bert時(shí)代,未來可以選擇怎樣的創(chuàng)新路徑呢?這個(gè)問題其實(shí)還是很重要的。

以我的私見,將來能走的路有幾條,各自難度不同,我來列一列,你可以衡量看看你打算怎么走。再次強(qiáng)調(diào),純屬個(gè)人意見,謹(jǐn)慎參考。

第一條路是條康莊大道。就是說,在完全不依賴Bert的基礎(chǔ)上,提出一個(gè)與Bert效果相當(dāng)或者更好的新模型或新方法。這絕對是條金光閃閃的正路,但是,走通的概率有多大你自己自我評估一下。當(dāng)然,私心里,我本人是特別贊成沒有各種短期壓力,無論是創(chuàng)新成果壓力還是經(jīng)濟(jì)壓力,的同志走這條路的。也對能選擇走上這條路的同志表示敬意,能選這條路是非常不容易的,而且我相信,一定會(huì)有人會(huì)堅(jiān)定不移地選擇這條路。

這條路拼的是對領(lǐng)域的認(rèn)識(shí)深刻程度,速度不關(guān)鍵。

第二條路,不考慮模型創(chuàng)新,可以利用Bert預(yù)訓(xùn)練模型,直接去做各種應(yīng)用,以實(shí)證Bert在各種領(lǐng)域是有效果的。當(dāng)然,在應(yīng)用Bert的時(shí)候,也可能適應(yīng)領(lǐng)域應(yīng)用特點(diǎn),做出些模型的改動(dòng),但是無疑這種改進(jìn)不會(huì)大。這是一條相對好走的路,好走的路走的人自然就會(huì)多,所以這條路拼的是誰的速度快。目前大量Bert的后續(xù)工作屬于這一種,這很正常。后面應(yīng)用篇文章總結(jié)的也是這一類的工作。

第三條路,通過各種偏實(shí)驗(yàn)性的研究,以更深入地了解Bert的特性,其實(shí)我們目前并沒有對Bert及Transformer有很深刻的了解,而我們目前也非常急迫地需要做到這一點(diǎn)。如果我們能夠?qū)λ鼈兗由盍私?,這也是非常有價(jià)值的,因?yàn)閷ert進(jìn)一步做較大的改進(jìn),改起來會(huì)更有針對性。而且只有了解了Bert的本質(zhì)特性,才有可能拋開Bert,提出更好的全新的模型。這條路其實(shí)也不算難走,但是做的人感覺不太多。我倒是建議有心的同學(xué)多想想這條路。

第四條路,直接改進(jìn)Bert模型。針對Bert目前還做得不太好的地方,改進(jìn)優(yōu)化它,或者改造使得它能夠適用更廣的應(yīng)用范圍。這條路是比較務(wù)實(shí)且有可能作出比較重要?jiǎng)?chuàng)新的一條路。目前很多Bert后續(xù)工作也集中在這里。這里的創(chuàng)新難度要求方差較大,有些會(huì)比較常規(guī),有些問題則需要巧思。目前這塊的工作也相對多,后面“Bert改進(jìn)篇”文章主要集中在這塊。

第五條路,想出那些在Bert基礎(chǔ)之上,又看上去與Bert無關(guān)的改進(jìn),期待新技術(shù)疊加到Bert上去之后,新方法仍然有效。就是說它的技術(shù)紅利點(diǎn)和Bert的技術(shù)紅利點(diǎn)不重合,那么可以產(chǎn)生累計(jì)疊加紅利,這也是一條較好的路,應(yīng)該也能走得通,當(dāng)然肯定也不太好走。

第六條路,找Bert做不好的任務(wù)或應(yīng)用領(lǐng)域,就是說Bert的優(yōu)點(diǎn)在這個(gè)領(lǐng)域里發(fā)揮不出來,既然Bert沒法侵入該領(lǐng)域,所以對于常規(guī)的技術(shù)創(chuàng)新并沒有什么阻礙或影響。如果選擇這條路,你的首要任務(wù)是找出這些領(lǐng)域。而且,在這些領(lǐng)域里面,參考Bert的基本思想,是很有可能引入大的改進(jìn)模型的。

還有其它可能走的路嗎?貌似不多了吧。好了,上面的路有好走的,也有荊棘密布的,您可以在上面的可能options中選一條,然后堅(jiān)定地走下去。祝好運(yùn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 應(yīng)用
    +關(guān)注

    關(guān)注

    2

    文章

    438

    瀏覽量

    34122
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    933

    瀏覽量

    54731
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    35

    瀏覽量

    3794

原文標(biāo)題:Bert時(shí)代的創(chuàng)新:Bert應(yīng)用模式比較及其它 | 技術(shù)頭條

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    vmware11/12 openSUSE 不能進(jìn)入unity模式???

    ,但是vmware10、9、8不能正常和win7共享文件夾,真的是魚與熊掌不可兼得嗎?怎么才能在vmware11上正常進(jìn)入unity模式???
    發(fā)表于 10-23 08:14

    如何在比較模式下對CCP定時(shí)器進(jìn)行選擇?

    PIC16(L)F18324/1834428.3比較模式本節(jié)中描述的比較模式功能可用于所有CCP模塊,并且是相同的。比較
    發(fā)表于 06-28 09:04

    BERT原理詳解

    BERT原理詳解
    發(fā)表于 07-02 16:45

    串行BERT軟件安裝指南

    7G / 13.5G 串行 BERT 固化軟件和 GUI 軟件的文檔。
    發(fā)表于 09-10 11:05

    串行BERT用戶指南

    A guide on using the Serial BERT
    發(fā)表于 09-23 11:01

    串行BERT編程指南

    A guide on programming the Serial BERT
    發(fā)表于 09-24 17:15

    J-BERT N4903A高性能串行BERT手冊

    Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages
    發(fā)表于 09-26 12:17

    回收M8040A 64 Gbaud 高性能 BERT

    回收M8040A 64 Gbaud 高性能 BERT曾S:***;Q號(hào):3140751627;M8040A 64 Gbaud 高性能 BERTM8030A 多通道比特誤碼率測試儀M8062A
    發(fā)表于 07-03 11:08

    BERT模型的PyTorch實(shí)現(xiàn)

    BertModel是一個(gè)基本的BERT Transformer模型,包含一個(gè)summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個(gè)blocks, BERT
    的頭像 發(fā)表于 11-13 09:12 ?1.4w次閱讀

    電壓模式與電流模式比較

    電壓模式控制這是最早的開關(guān)穩(wěn)壓器設(shè)計(jì)所采用的方法,而且多年來很好地滿足了業(yè)界的需要。本文主要詳細(xì)闡述了電壓模式與電流模式比較。
    的頭像 發(fā)表于 12-02 10:45 ?1.9w次閱讀
    電壓<b class='flag-5'>模式</b>與電流<b class='flag-5'>模式</b>的<b class='flag-5'>比較</b>

    華為MateX解析 魚與熊掌可兼得

    在北京時(shí)間2月24號(hào)晚上結(jié)束的華為巴塞羅那的發(fā)布會(huì)上,華為正式推出傳聞已久的折疊屏手機(jī)——HUAWEI Mate X。
    的頭像 發(fā)表于 04-26 14:14 ?5698次閱讀

    BERT的自注意力模式

    BERT代表Transformer的雙向編碼器表示。該模型基本上是一個(gè)多層雙向Transformer編碼器 (Devlin, Chang, Lee, & Toutanova, 2019),有多個(gè)關(guān)于它的工作原理的優(yōu)秀指南,包括圖解的Transformer.。
    的頭像 發(fā)表于 04-19 11:37 ?3602次閱讀
    <b class='flag-5'>BERT</b>的自注意力<b class='flag-5'>模式</b>

    圖解BERT預(yù)訓(xùn)練模型!

    BERT的發(fā)布是這個(gè)領(lǐng)域發(fā)展的最新的里程碑之一,這個(gè)事件標(biāo)志著NLP 新時(shí)代的開始。BERT模型打破了基于語言處理的任務(wù)的幾個(gè)記錄。在 BERT 的論文發(fā)布后不久,這個(gè)團(tuán)隊(duì)還公開了模型的代碼,并提供了模型的下載版本
    的頭像 發(fā)表于 11-24 10:08 ?3604次閱讀

    什么是BERT?為何選擇BERT?

    由于絕大多數(shù) BERT 參數(shù)專門用于創(chuàng)建高質(zhì)量情境化詞嵌入,因此該框架非常適用于遷移學(xué)習(xí)。通過使用語言建模等自我監(jiān)督任務(wù)(不需要人工標(biāo)注的任務(wù))訓(xùn)練 BERT,可以利用 WikiText 和 BookCorpus 等大型無標(biāo)記數(shù)據(jù)集
    的頭像 發(fā)表于 04-26 14:24 ?4247次閱讀

    總結(jié)FasterTransformer Encoder(BERT)的cuda相關(guān)優(yōu)化技巧

    FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。
    的頭像 發(fā)表于 01-30 09:34 ?2163次閱讀
    總結(jié)FasterTransformer Encoder(<b class='flag-5'>BERT</b>)的cuda相關(guān)優(yōu)化技巧