0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

我們可以使用transformer來干什么?

深度學(xué)習(xí)自然語言處理 ? 來源:AI部落聯(lián)盟 ? 作者:AI部落聯(lián)盟 ? 2021-04-22 10:49 ? 次閱讀

前言

2021年4月,距離論文“Attention is all you need”問市過去快4年了。這篇論文的引用量正在沖擊2萬大關(guān)。

筆者所在的多個(gè)學(xué)習(xí)交流群也經(jīng)常有不少同學(xué)在討論:transformer是什么?transformer能干啥?為什么要用transformer?transformer能替代cnn嗎?怎么讓transformer運(yùn)行快一點(diǎn)?以及各種個(gè)樣的transformer技術(shù)細(xì)節(jié)問題。

解讀以上所有問題不再本文范疇內(nèi),但筆者也將在后續(xù)文章中繼續(xù)探索以上問題。本文重點(diǎn)關(guān)注:我們用transformer干啥?

我們用transformer干啥?筆者突然發(fā)現(xiàn)這句話有兩種理解(orz中文博大精深),希望我的語文不是體育老師教的。

疑問句:

我們使用transformer在做什么?

解決什么深度學(xué)習(xí)任務(wù)?

反問句:

我們用用transformer干啥?

為啥不用LSTM和CNN或者其他神經(jīng)網(wǎng)絡(luò)呢?

疑問句:用transformer干啥?

谷歌學(xué)術(shù)看一眼。

為了簡潔+有理有據(jù)回答這個(gè)問題(有缺失之處忘大家指出),筆者首先在谷歌學(xué)術(shù)上搜尋了一下“Attention is all you need”看了一下被引,到底是哪些文章在引用transformer呢?

“Attention is all you need”被引:19616次。

先看一下前幾名引用的被引:

最高引用的“Bert:Pre-training of deep bidirectional transformers for language understanding“被引:17677次。BERT在做自然語言處理領(lǐng)域的語言模型。

第2和4名:“Squeeze and Excitaion Networks”被引用6436次,“Non-local neural networks”。計(jì)算機(jī)視覺領(lǐng)域,但還沒有直接用transformer。

第3名:“Graph attention networks”被引用3413,一種圖神經(jīng)網(wǎng)絡(luò),該文也不是直接使用transformer的,但使用了attention。

第5和6名:“Xlnet:Generalized autoregressive pretraining for language undersstanding“ 2318次和 ”Improving language understanding by generative pretraining“ 1876次。自然語言處理領(lǐng)域預(yù)訓(xùn)練/語言模型/生成模型。

第7名“self-attention generative adversarial networks” 1508次?;趕elf-attetnion的生成對抗網(wǎng)絡(luò)。

第8、9、10都屬于自然語言處理領(lǐng)域,一個(gè)是GLUE數(shù)據(jù)集,一個(gè)做multi-task learning。

從Top的引用已經(jīng)看出自然語言處理領(lǐng)域肯定是使用transformer的大頭了。隨后筆者對熟悉的深度學(xué)習(xí)任務(wù)關(guān)鍵詞搜了一下被引用:

計(jì)算機(jī)視覺領(lǐng)域vision前2的被引用:“Vibert”和“Stand-alone self-attetnion in vision model”分別為385和171次。

語音信號處理領(lǐng)域speech:“state-of-the-art speech recognition with sequence-to-sequence model” 被引710次。

多模態(tài)任務(wù)modal:“Unicoder-Vl:

A universal encoder for vision and language by cross-model pre-training。

檢索領(lǐng)域etrieval:“multilingual universal sentence encoder for semantic retrieval”被引73次

推薦領(lǐng)域recommendation:驚訝的我發(fā)現(xiàn)居然只有10篇文章orz。

初步結(jié)論:transformer在自然語言處理任務(wù)中大火,隨后是語音信號領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域,然后信息檢索領(lǐng)域也有所啟航,推薦領(lǐng)域文章不多似乎剛剛起步。

執(zhí)著的筆者擴(kuò)大搜索范圍直接谷歌搜索了一下,找到了這篇文章BERT4Rec(被引用128):”BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer“。

Github上搜一搜。

排名第1的是HuggingFace/transformers代碼庫。筆者對這個(gè)庫還算熟悉,但最近瘋狂新增的模型缺失還沒有完全跟進(jìn)過,于是也整理看了一下。

7d5ac588-a295-11eb-aece-12bb97331649.png

圖1 HuggingFace/transformers代碼庫關(guān)系圖

如圖1所示,左邊展示了Huggingface/transformers代碼庫能處理的各種深度學(xué)習(xí)任務(wù),中間展示的是處理這些任務(wù)的統(tǒng)一流水線(pipeline),右邊展示的是與任務(wù)對應(yīng)的transformers模型名稱,下方表示用transformers解決這些深度學(xué)習(xí)任務(wù)可以在cpu或者gpu上進(jìn)行,可以使用tensorflow也可以使用pytorch框架。

那么根據(jù)谷歌和github結(jié)果基本可以得到這個(gè)核心結(jié)論啦:transformer能干啥?目前已有的transformer開源代碼和模型里自然語言處理任務(wù)占大頭(幾乎覆蓋了所有自然語言處理任務(wù)),隨后是計(jì)算機(jī)視覺和語音信號處理,最后自然而然進(jìn)行多模態(tài)信號處理啦,推薦系統(tǒng)中的序列建模也逐步開始應(yīng)用transformer啦。

有一點(diǎn)值得注意:自然語言處理里,所有研究同學(xué)的詞表庫基本統(tǒng)一,所有谷歌/facebook在大規(guī)模語料上預(yù)訓(xùn)練的transformer模型大家都可以使用。推薦系統(tǒng)不像自然語言處理,各家對user ID,Item ID或者物品類別ID的定義是不一樣的,所以各家的pretrain的模型基本也沒法分享給其他家使用(哈哈哈商業(yè)估計(jì)也不讓分享),也或許也是為什么transformer的開源推薦系統(tǒng)較少的原因之一吧,但不代表各大廠/研究機(jī)構(gòu)用的少哦。

反問句:用transformer干啥?

為什么非要使用transformer呢?

筆者從一個(gè)散修(哈哈修仙界對修煉者的一種稱呼)的角度聊一聊自己的看法。

不得不用。

首先谷歌/Facebook一眾大廠做出來了基于transformer的BERT/roberta/T5等,刷新了各種任務(wù)的SOTA,還開源了模型和代碼。

注意各種任務(wù)啊,啊這,咱們做論文一般都得在幾個(gè)數(shù)據(jù)集上驗(yàn)證自己的方法是否有效,人家都SOTA了,咱得引,得復(fù)現(xiàn)呀,再說,站在巨人的肩上創(chuàng)下新SOTA也是香的。

的確好用。

Transformer是基于self-attetion的,self-attention的確有著cnn和lstm都沒有的優(yōu)勢:

比如比cnn看得更寬更遠(yuǎn),比lstm訓(xùn)練更快。

重復(fù)累加多層multi-head self-attetion還在被不短證明著其強(qiáng)大的表達(dá)能力!

改了繼續(xù)用。

如果不說transformer的各種優(yōu)點(diǎn),說一個(gè)大缺點(diǎn)自然就是:

參數(shù)量大、耗時(shí)耗機(jī)器。

但這些問題又被一眾efficient transformers再不斷被解決。

比如本來整型數(shù)運(yùn)算的硬件開發(fā)板無法使用transformers,隨后就有INT-BERT說我們不僅可以用,還能更快更好。

上手就用。

以Huggingface/Transformers為例子,一個(gè)代碼庫包含多種深度學(xué)習(xí)任務(wù),多個(gè)開源的transfromer模型,各種預(yù)訓(xùn)練transformer模型,以至于各種深度學(xué)習(xí)任務(wù)上手就來,十分方便。

筆者似乎并沒有看到其他模型結(jié)構(gòu)有如此大的應(yīng)用范圍和規(guī)模了。

未來還要用。

從上一章節(jié)可以看出,transformer這股風(fēng)已經(jīng)從自然語言處理領(lǐng)域吹出去了,其他領(lǐng)域的SOTA也在不斷被transformer打破,那么以為這,自然語言處理領(lǐng)域的歷史逐漸在其他領(lǐng)域復(fù)現(xiàn)(當(dāng)然只是筆者個(gè)人觀點(diǎn)哈)。

原文標(biāo)題:我們用transformer干啥?

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8767
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120593

原文標(biāo)題:我們用transformer干啥?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    LM318 COMP管腳是什么引腳,干什么用的?

    LM318 COMP 管腳是什么引腳,干什么用的,PSPICEFORTI 里面沒有318的COMP管腳在怎么應(yīng)用
    發(fā)表于 07-31 07:45

    請問CUBE中SPI配置的CRC Polynomial多項(xiàng)式是干什么用的?

    初學(xué)STM32,用原子的板子在學(xué),現(xiàn)在學(xué)到SPI,配置的時(shí)候看到這個(gè)東西,請問是干什么用的?和傳統(tǒng)庫中哪個(gè)匹配的? 而且這個(gè)配置沒有選項(xiàng),貌似全是自己輸入的。
    發(fā)表于 05-07 06:41

    美國云服務(wù)器是干什么

    美國云服務(wù)器主要用于提供計(jì)算資源、托管網(wǎng)站、應(yīng)用程序以及存儲(chǔ)數(shù)據(jù)等。很多用戶想要了解美國云服務(wù)器具體是干什么的,rak部落小編為您整理發(fā)布美國云服務(wù)器是干什么的。 美國云服務(wù)器是一種**基于云
    的頭像 發(fā)表于 04-10 10:16 ?308次閱讀

    請問CYUSB3014芯片的OTG_ID引腳是干什么用的?

    USB3014芯片的OTG_ID引腳是干什么用的??用電阻下拉接地可以嗎? 電阻的大小有要求嗎?
    發(fā)表于 02-29 08:21

    在整個(gè)電路的最末端,有一個(gè)4.7K的電阻并在5V和地中間,是干什么用的?

    在整個(gè)電路的最末端,有一個(gè)4.7K的電阻并在5V和地中間,是干什么用的?
    發(fā)表于 02-22 07:49

    美國云服務(wù)器是干什么

    對于美國服務(wù)器是干什么的,相信很多小白用戶不是非常了解,接下來小編就為您整理發(fā)布美國云服務(wù)器是干什么的相關(guān)資訊,希望對您有幫助。
    的頭像 發(fā)表于 02-19 09:53 ?339次閱讀

    云服務(wù)器是干什么

     云服務(wù)器是干什么的?很多小白用戶會(huì)有疑惑,今天小編為您整理云服務(wù)器是干什么的相關(guān)資料,希望對您了解云服務(wù)器是干什么的有幫助。
    的頭像 發(fā)表于 02-18 09:58 ?1310次閱讀

    法拉電容是干什么用的?

    法拉電容是干什么用的? 法拉電容是一種用于儲(chǔ)存和釋放電荷的電子元件。它是電容器的一種,與傳統(tǒng)的微型電容器相比,法拉電容能夠儲(chǔ)存更多的電能,并且能夠更快速地釋放電能。它的容量單位是法拉(F)。在本文
    的頭像 發(fā)表于 02-02 10:51 ?2120次閱讀

    云服務(wù)器是干什么的?服務(wù)器的主要功能有哪些?

    云服務(wù)器是干什么的,主要功能是什么?相信很多技術(shù)人員已經(jīng)很了解,但是對于其他行業(yè)的人群云服務(wù)器又有什么用呢?擁有云服務(wù)器有什么用處呢,RAKsmart小編今天為您做詳細(xì)的解答。
    的頭像 發(fā)表于 01-09 09:48 ?583次閱讀

    什么是電源適配器?是干什么用的?電源適配器可以通用嗎?

    什么是電源適配器?是干什么用的?電源適配器可以通用嗎? 電源適配器是一種電子設(shè)備,用于將電源電壓轉(zhuǎn)換為適合其他設(shè)備使用的電壓。它通常由一個(gè)輸入接口、一個(gè)輸出接口和一個(gè)電路板組成,它可以連接到墻上
    的頭像 發(fā)表于 12-29 11:28 ?2628次閱讀

    光纜是干什么用的 光纜、電纜、網(wǎng)線有哪些區(qū)別

    光纜是干什么用的 光纜、電纜、網(wǎng)線有哪些區(qū)別? 光纜是一種用于傳輸光信號的傳輸介質(zhì),它由一根或多根纖維光導(dǎo)芯和外部保護(hù)層組成。光纜的主要作用是傳輸光信號,用于實(shí)現(xiàn)遠(yuǎn)距離的數(shù)據(jù)傳輸和通信。 光纜與電纜
    的頭像 發(fā)表于 12-27 14:09 ?2827次閱讀

    LCR數(shù)字電橋的原理是什么?LCR數(shù)字電橋是用來干什么的?

    LCR數(shù)字電橋的原理是什么?LCR數(shù)字電橋是用來干什么的? LCR數(shù)字電橋原理的詳解 LCR數(shù)字電橋是一種測試電路中被稱為LCR元件的電感、電容和電阻的值的儀器。通過測量該元件在不同頻率下的電壓
    的頭像 發(fā)表于 12-21 15:37 ?1774次閱讀

    混合矩陣是干什么用的?高清混合矩陣怎么使用?

    混合矩陣是干什么用的?高清混合矩陣怎么使用? 混合矩陣(confusion matrix),也被稱為錯(cuò)誤矩陣(error matrix),是用來評估分類模型性能的一種工具。它可以對分類算法的結(jié)果進(jìn)行
    的頭像 發(fā)表于 12-04 14:40 ?901次閱讀

    既然有電阻分壓,還需要這個(gè)5伏的電壓去干什么?

    許多同學(xué)會(huì)有這樣的學(xué)問,這主要是因?yàn)閯倢W(xué)習(xí)理論,實(shí)踐經(jīng)驗(yàn)不足造成的。關(guān)鍵是我們需要這個(gè)5伏的電壓去干什么?
    的頭像 發(fā)表于 11-02 15:51 ?831次閱讀
    既然有電阻分壓,還需要這個(gè)5伏的電壓去<b class='flag-5'>干什么</b>?

    LVDS中的時(shí)鐘脈沖信號是干什么的?

    LVDS中的時(shí)鐘脈沖信號是干什么的? LVDS(Low Voltage Differential Signaling)中的時(shí)鐘脈沖信號(Clock)是用于同步數(shù)據(jù)傳輸?shù)?,是整個(gè)LVDS接口的重要
    的頭像 發(fā)表于 10-18 15:38 ?1128次閱讀