0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究科學(xué)家:告別卷積

新機(jī)器視覺 ? 來源:AI科技大本營 ? 作者:AI科技大本營 ? 2020-10-23 09:45 ? 次閱讀

編譯 |凱隱 出品 | AI科技大本營(ID:rgznai100)

Transformer是由谷歌于2017年提出的具有里程碑意義的模型,同時(shí)也是語言AI革命的關(guān)鍵技術(shù)。在此之前的SOTA模型都是以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)(RNN, LSTM等)。從本質(zhì)上來講,RNN是以串行的方式來處理數(shù)據(jù),對(duì)應(yīng)到NLP任務(wù)上,即按照句中詞語的先后順序,每一個(gè)時(shí)間步處理一個(gè)詞語。


相較于這種串行模式,Transformer的巨大創(chuàng)新便在于并行化的語言處理:文本中的所有詞語都可以在同一時(shí)間進(jìn)行分析,而不是按照序列先后順序。為了支持這種并行化的處理方式,Transformer依賴于注意力機(jī)制。注意力機(jī)制可以讓模型考慮任意兩個(gè)詞語之間的相互關(guān)系,且不受它們?cè)谖谋拘蛄兄形恢玫挠绊?。通過分析詞語之間的兩兩相互關(guān)系,來決定應(yīng)該對(duì)哪些詞或短語賦予更多的注意力。

相較于RNN必須按時(shí)間順序進(jìn)行計(jì)算,Transformer并行處理機(jī)制的顯著好處便在于更高的計(jì)算效率,可以通過并行計(jì)算來大大加快訓(xùn)練速度,從而能在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。例如GPT-3(Transformer的第三代)的訓(xùn)練數(shù)據(jù)集大約包含5000億個(gè)詞語,并且模型參數(shù)量達(dá)到1750億,遠(yuǎn)遠(yuǎn)超越了現(xiàn)有的任何基于RNN的模型。

現(xiàn)有的各種基于Transformer的模型基本只是與NLP任務(wù)有關(guān),這得益于GPT-3等衍生模型的成功。然而,最近ICLR 2021的一篇投稿文章開創(chuàng)性地將Transformer模型跨領(lǐng)域地引用到了計(jì)算機(jī)視覺任務(wù)中,并取得了不錯(cuò)地成果。這也被許多AI學(xué)者認(rèn)為是開創(chuàng)了CV領(lǐng)域的新時(shí)代,甚至可能完全取代傳統(tǒng)的卷積操作。 其中,Google的Deepmind 研究科學(xué)家Oriol Vinyals的看法很直接:告別卷積。 以下為該論文的詳細(xì)工作:

基本內(nèi)容 Transformer的核心原理是注意力機(jī)制,注意力機(jī)制在具體實(shí)現(xiàn)時(shí)主要以矩陣乘法計(jì)算為基礎(chǔ),這意味著可以通過并行化來加快計(jì)算速度,相較于只能按時(shí)間順序進(jìn)行串行計(jì)算的RNN模型而言,大大提高了訓(xùn)練速度,從而能夠在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。 此外,Transformer模型還具有良好的可擴(kuò)展性和伸縮性,在面對(duì)具體的任務(wù)時(shí),常用的做法是先在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在指定任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào)。并且隨著模型大小和數(shù)據(jù)集的增長,模型本身的性能也會(huì)跟著提升,目前為止還沒有一個(gè)明顯的性能天花板。

Transformer的這兩個(gè)特性不僅讓其在NLP領(lǐng)域大獲成功,也提供了將其遷移到其他任務(wù)上的潛力。此前已經(jīng)有文章嘗試將注意力機(jī)制應(yīng)用到圖像識(shí)別任務(wù)上,但他們要么是沒有脫離CNN的框架,要么是對(duì)注意力機(jī)制進(jìn)行了修改,導(dǎo)致計(jì)算效率低,不能很好地實(shí)現(xiàn)并行計(jì)算加速。因此在大規(guī)模圖片分類任務(wù)中,以ResNet為基本結(jié)構(gòu)的模型依然是主流。

這篇文章首先嘗試在幾乎不做改動(dòng)的情況下將Transformer模型應(yīng)用到圖像分類任務(wù)中,在 ImageNet 得到的結(jié)果相較于 ResNet 較差,這是因?yàn)門ransformer模型缺乏歸納偏置能力,例如并不具備CNN那樣的平移不變性和局部性,因此在數(shù)據(jù)不足時(shí)不能很好的泛化到該任務(wù)上。然而,當(dāng)訓(xùn)練數(shù)據(jù)量得到提升時(shí),歸納偏置的問題便能得到緩解,即如果在足夠大的數(shù)據(jù)集上進(jìn)行與訓(xùn)練,便能很好地遷移到小規(guī)模數(shù)據(jù)集上。 在此基礎(chǔ)上,作者提出了Vision Transformer模型。下面將介紹模型原理。

模型原理 該研究提出了一種稱為Vision Transformer(ViT)的模型,在設(shè)計(jì)上是盡可能遵循原版Transformer結(jié)構(gòu),這也是為了盡可能保持原版的性能。 雖然可以并行處理,但Transformer依然是以一維序列作為輸入,然而圖片數(shù)據(jù)都是二維的,因此首先要解決的問題是如何將圖片以合適的方式輸入到模型中。本文采用的是切塊 + embedding的方法,如下圖:

首先將原始圖片劃分為多個(gè)子圖(patch),每個(gè)子圖相當(dāng)于一個(gè)word,這個(gè)過程也可以表示為:

其中x是輸入圖片,xp則是處理后的子圖序列,P2則是子圖的分辨率,N則是切分后的子圖數(shù)量(即序列長度),顯然有。由于Transformer只接受1D序列作為輸入,因此還需要對(duì)每個(gè)patch進(jìn)行embedding,通過一個(gè)線性變換層將二維的patch嵌入表示為長度為D的一維向量,得到的輸出被稱為patch嵌入。 ? 類似于BERT模型的[class] token機(jī)制,對(duì)每一個(gè)patch嵌入,都會(huì)額外預(yù)測(cè)一個(gè)可學(xué)習(xí)的嵌入表示,然后將這個(gè)嵌入表示在encoder中的最終輸出()作為對(duì)應(yīng)patch的表示。在預(yù)訓(xùn)練和微調(diào)階段,分類頭都依賴于。 ? 此外還加入了位置嵌入信息(圖中的0,1,2,3…),因?yàn)樾蛄谢膒atch丟失了他們?cè)趫D片中的位置信息。作者嘗試了各種不同的2D嵌入方法,但是相較于一般的1D嵌入并沒有任何顯著的性能提升,因此最終使用聯(lián)合嵌入作為輸入。 ? 模型結(jié)構(gòu)與標(biāo)準(zhǔn)的Transformer相同(如上圖右側(cè)),即由多個(gè)交互層多頭注意力(MSA)和多層感知器(MLP)構(gòu)成。在每個(gè)模塊前使用LayerNorm,在模塊后使用殘差連接。使用GELU作為MLP的激活函數(shù)。整個(gè)模型的更新公式如下:

其中(1)代表了嵌入層的更新,公式(2)和(3)則代表了MSA和MLP的前向傳播。 此外本文還提出了一種直接采用ResNet中間層輸出作為圖片嵌入表示的方法,可以作為上述基于patch分割方法的替代。

模型訓(xùn)練和分辨率調(diào)整 和之前常用的做法一樣,在針對(duì)具體任務(wù)時(shí),先在大規(guī)模數(shù)據(jù)集上訓(xùn)練,然后根據(jù)具體的任務(wù)需求進(jìn)行微調(diào)。這里主要是更換最后的分類頭,按照分類數(shù)來設(shè)置分類頭的參數(shù)形狀。此外作者還發(fā)現(xiàn)在更高的分辨率進(jìn)行微調(diào)往往能取得更好的效果,因?yàn)樵诒3謕atch分辨率不變的情況下,原始圖像分辨率越高,得到的patch數(shù)越大,因此得到的有效序列也就越長。

對(duì)比實(shí)驗(yàn)4.1 實(shí)驗(yàn)設(shè)置 首先作者設(shè)計(jì)了多個(gè)不同大小的ViT變體,分別對(duì)應(yīng)不同的復(fù)雜度。

數(shù)據(jù)集主要使用ILSVRC-2012,ImageNet-21K,以及JFT數(shù)據(jù)集。 4.2 與SOTA模型的性能對(duì)比 首先是和ResNet以及efficientNet的對(duì)比,這兩個(gè)模型都是比較有代表的基于CNN的模型。

其中ViT模型都是在JFT-300M數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。從上表可以看出,復(fù)雜度較低,規(guī)模較小的ViT-L在各個(gè)數(shù)據(jù)集上都超過了ResNet,并且其所需的算力也要少十多倍。ViT-H規(guī)模更大,但性能也有進(jìn)一步提升,在ImageNet, CIFAR,Oxford-IIIT, VTAB等數(shù)據(jù)集上超過了SOTA,且有大幅提升。 作者進(jìn)一步將VTAB的任務(wù)分為多組,并對(duì)比了ViT和其他幾個(gè)SOTA模型的性能:

可以看到除了在Natrual任務(wù)中ViT略低于BiT外,在其他三個(gè)任務(wù)中都達(dá)到了SOTA,這再次證明了ViT的性能強(qiáng)大。 4.3 不同預(yù)訓(xùn)練數(shù)據(jù)集對(duì)性能的影響 預(yù)訓(xùn)練對(duì)于該模型而言是一個(gè)非常重要的環(huán)節(jié),預(yù)訓(xùn)練所用數(shù)據(jù)集的規(guī)模將影響模型的歸納偏置能力,因此作者進(jìn)一步探究了不同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集對(duì)性能的影響:

上圖展示了不同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集(橫軸)對(duì)不同大小的模型的性能影響,注意微調(diào)時(shí)的數(shù)據(jù)集固定為ImageNet??梢钥吹綄?duì)大部分模型而言,預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模越大,最終的性能越好。并且隨著數(shù)據(jù)集的增大,較大的ViT模型(ViT-H/14)要由于較小的ViT模型(ViT-L)。 此外,作者還在不同大小的JFT數(shù)據(jù)集的子集上進(jìn)行了模型訓(xùn)練:

可以發(fā)現(xiàn)ViT-L對(duì)應(yīng)的兩個(gè)模型在數(shù)據(jù)集規(guī)模增大時(shí)有非常明顯的提升,而ResNet則幾乎沒有變化。這里可以得出兩個(gè)結(jié)論,一是ViT模型本身的性能上限要優(yōu)于ResNet,這可以理解為注意力機(jī)制的上限高于CNN。二是在數(shù)據(jù)集非常大的情況下,ViT模型性能大幅超越ResNet, 這說明在數(shù)據(jù)足夠的情況下,注意力機(jī)制完全可以代替CNN,而在數(shù)據(jù)集較小的情況下(10M),卷積則更為有效。 除了以上實(shí)驗(yàn),作者還探究了ViT模型的遷移性能,實(shí)驗(yàn)結(jié)果表明不論是性能還是算力需求,ViT模型在進(jìn)行遷移時(shí)都優(yōu)于ResNet。

可視化分析 可視化分析可以幫助我們了解ViT的特征學(xué)習(xí)過程。顯然,ViT模型的注意力一定是放在了與分類有關(guān)的區(qū)域:

總結(jié) 本文提出的基于patch分割的圖像解釋策略,在結(jié)合Transformer的情況下取得了非常好的效果,這為CV領(lǐng)域的其他研究提供了一個(gè)很好的思路。此外,接下來應(yīng)該會(huì)出現(xiàn)許多基于這篇工作的研究,進(jìn)一步將這一劃時(shí)代的模型應(yīng)用到更多的任務(wù)上,例如目標(biāo)檢測(cè)、實(shí)例分割、行為識(shí)別等等。此外,也會(huì)出現(xiàn)針對(duì)patch分割策略的改進(jìn),來進(jìn)一步提高模型性能。

原文標(biāo)題:告別 CNN?一張圖等于 16x16 個(gè)字,計(jì)算機(jī)視覺也用上 Transformer 了

文章出處:【微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6087

    瀏覽量

    104457
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29013

    瀏覽量

    266453
  • CV
    CV
    +關(guān)注

    關(guān)注

    0

    文章

    51

    瀏覽量

    16801
  • 解釋器
    +關(guān)注

    關(guān)注

    0

    文章

    103

    瀏覽量

    6468

原文標(biāo)題:告別 CNN?一張圖等于 16x16 個(gè)字,計(jì)算機(jī)視覺也用上 Transformer 了

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    上海科學(xué)家精準(zhǔn)操控原子“人造”藍(lán)寶石 為低功耗芯片研制開辟新路

    當(dāng)芯片中的晶體管隨著摩爾定律向納米級(jí)不斷縮小時(shí),發(fā)揮絕緣作用的介質(zhì)材料卻因?yàn)楹穸瓤s小而性能快速降低。如何為更小的晶體管匹配更佳的介質(zhì)材料,成為集成電路領(lǐng)域科學(xué)家們的苦苦追尋的目標(biāo)。 如今,中國科學(xué)
    的頭像 發(fā)表于 08-09 15:38 ?200次閱讀

    受人眼啟發(fā)!科學(xué)家開發(fā)出新型改良相機(jī)

    新型事件相機(jī)系統(tǒng)與標(biāo)準(zhǔn)事件相機(jī)系統(tǒng)對(duì)比圖。 馬里蘭大學(xué)計(jì)算機(jī)科學(xué)家領(lǐng)導(dǎo)的一個(gè)研究小組發(fā)明了一種照相機(jī)裝置,可以改善機(jī)器人觀察周圍世界并做出反應(yīng)的方式。受人眼工作原理的啟發(fā),他們的創(chuàng)新型照相機(jī)系統(tǒng)模仿
    的頭像 發(fā)表于 07-22 06:24 ?204次閱讀
    受人眼啟發(fā)!<b class='flag-5'>科學(xué)家</b>開發(fā)出新型改良相機(jī)

    中國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體

    據(jù)新華社報(bào)道,我國科學(xué)家再立新功,又一新型高溫超導(dǎo)體被發(fā)現(xiàn)。 復(fù)旦大學(xué)物理學(xué)系趙俊團(tuán)隊(duì)利用高壓光學(xué)浮區(qū)技術(shù)成功生長了三層鎳氧化物,成功證實(shí)在鎳氧化物中具有壓力誘導(dǎo)的體超導(dǎo)電性,而且超導(dǎo)體積分?jǐn)?shù)達(dá)到
    的頭像 發(fā)表于 07-19 15:14 ?508次閱讀

    天津大學(xué)科學(xué)家突破人類大腦器官成功驅(qū)動(dòng)機(jī)器人

    在科技探索的征途上,天津大學(xué)的科研團(tuán)隊(duì)再次邁出了令人矚目的步伐。7月5日,該校宣布了一項(xiàng)革命性的成果——科學(xué)家們利用前沿的干細(xì)胞技術(shù),成功培育出了高度模擬人類大腦的類腦器官,并創(chuàng)新性地將其與機(jī)器人系統(tǒng)通過先進(jìn)的片上腦機(jī)接口技術(shù)緊密相連,開啟了人腦與機(jī)器深度融合的新紀(jì)元。
    的頭像 發(fā)表于 07-08 16:00 ?477次閱讀

    新華社:突破性成果!祝賀我國科學(xué)家成功研發(fā)這一傳感器!

    6月25日,新華社以《突破性成果!祝賀我國科學(xué)家》為標(biāo)題,報(bào)道了由我國科學(xué)家研發(fā)的傳感器成果。 我國科學(xué)家研發(fā)高通道神經(jīng)探針實(shí)現(xiàn)獼猴全腦尺度神經(jīng)活動(dòng)監(jiān)測(cè) 神經(jīng)探針是一種用來記錄神經(jīng)活動(dòng)的針狀電傳
    的頭像 發(fā)表于 06-27 18:03 ?317次閱讀
    新華社:突破性成果!祝賀我國<b class='flag-5'>科學(xué)家</b>成功研發(fā)這一傳感器!

    前OpenAI首席科學(xué)家創(chuàng)辦新的AI公司

    消息在業(yè)界引起了廣泛關(guān)注,因?yàn)樘K茨克維曾是OpenAI的聯(lián)合創(chuàng)始人及首席科學(xué)家,并在去年在OpenAI董事會(huì)上扮演了重要角色。
    的頭像 發(fā)表于 06-21 10:42 ?439次閱讀

    助力科學(xué)發(fā)展,NVIDIA AI加速HPC研究

    科學(xué)家研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。
    的頭像 發(fā)表于 05-14 09:17 ?310次閱讀
    助力<b class='flag-5'>科學(xué)</b>發(fā)展,NVIDIA AI加速HPC<b class='flag-5'>研究</b>

    本源量子參與的國家重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)順利召開

    2024年4月23日,國家重點(diǎn)研發(fā)計(jì)劃“先進(jìn)計(jì)算與新興軟件”重點(diǎn)專項(xiàng)“面向復(fù)雜物理系統(tǒng)求解的量子科學(xué)計(jì)算算法、軟件、應(yīng)用與驗(yàn)證”青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)暨實(shí)施方案論證會(huì)在合肥順利召開。該項(xiàng)目由合肥綜合性國家科學(xué)中心人工智能
    的頭像 發(fā)表于 05-11 08:22 ?413次閱讀
    本源量子參與的國家重點(diǎn)研發(fā)計(jì)劃青年<b class='flag-5'>科學(xué)家</b>項(xiàng)目啟動(dòng)會(huì)順利召開

    NVIDIA首席科學(xué)家Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    Bill Dally于2009年1月加入NVIDIA擔(dān)任首席科學(xué)家,此前在斯坦福大學(xué)任職12年,擔(dān)任計(jì)算機(jī)科學(xué)系主任。Dally及其斯坦福團(tuán)隊(duì)開發(fā)了系統(tǒng)架構(gòu)、網(wǎng)絡(luò)架構(gòu)、信號(hào)傳輸、路由和同步技術(shù),在今天的大多數(shù)大型并行計(jì)算機(jī)中都可以找到。
    的頭像 發(fā)表于 02-25 16:16 ?910次閱讀
    NVIDIA首席<b class='flag-5'>科學(xué)家</b>Bill Dally:深度學(xué)習(xí)硬件趨勢(shì)

    康奈爾大學(xué)科學(xué)家研制出5分鐘快速充電鋰電池

    鋰離子電池如今廣泛應(yīng)用于電動(dòng)汽車及智能手機(jī)領(lǐng)域。其優(yōu)點(diǎn)包括輕巧、抗震、環(huán)保,但充電時(shí)間較長及承受大功率電涌的能力不足。隨著最新研究成果發(fā)布,科學(xué)家找到了一種獨(dú)特的銦陽極材料,與鋰離子電池內(nèi)的陰極材料實(shí)現(xiàn)良好配合。
    的頭像 發(fā)表于 01-26 09:57 ?534次閱讀
    康奈爾大學(xué)<b class='flag-5'>科學(xué)家</b>研制出5分鐘快速充電鋰電池

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?398次閱讀

    飛騰首席科學(xué)家竇強(qiáng)榮獲 “國家卓越工程師” 稱號(hào)

    ? ? ?飛騰首席科學(xué)家竇強(qiáng)榮獲 “國家卓越工程師” 稱號(hào) 1月19日上午,首屆 “國家工程師獎(jiǎng)” 表彰大會(huì)在北京人民大會(huì)堂隆重舉行。81 名個(gè)人被授予 “國家卓越工程師” 稱號(hào),50 個(gè)團(tuán)隊(duì)被授予
    的頭像 發(fā)表于 01-19 19:22 ?1456次閱讀
    飛騰首席<b class='flag-5'>科學(xué)家</b>竇強(qiáng)榮獲 “國家卓越工程師” 稱號(hào)

    中國聯(lián)通研究院副院長、首席科學(xué)家唐雄燕一行蒞臨中科馭數(shù)交流合作

    12月7日,中國聯(lián)通研究院副院長、首席科學(xué)家唐雄燕蒞臨中科馭數(shù)參觀調(diào)研, 中國聯(lián)通研究院未來研究部總監(jiān)曹暢、高級(jí)專家楊文聰陪同考察, 與中科馭數(shù)創(chuàng)始人、CEO鄢貴海以及公司管理團(tuán)隊(duì)就D
    的頭像 發(fā)表于 12-08 18:40 ?508次閱讀
    中國聯(lián)通<b class='flag-5'>研究</b>院副院長、首席<b class='flag-5'>科學(xué)家</b>唐雄燕一行蒞臨中科馭數(shù)交流合作

    Open AI首席科學(xué)家:ChatGPT可能已經(jīng)有了意識(shí),AI將萬世不朽

    我是來和OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家Sutskever會(huì)面的,他的公司位于舊金山傳教區(qū)一條不起眼的街道上,辦公樓沒有任何標(biāo)志,我想聽聽他一手打造的這項(xiàng)顛覆世界的技術(shù)的下一步計(jì)劃。我還想知道他的下一步計(jì)劃,尤其是,為什么建立他公司的下一代旗艦生成模型不再是他的工作重點(diǎn)。
    的頭像 發(fā)表于 11-02 15:58 ?662次閱讀

    中國科學(xué)家成功研制“九章三號(hào)” 255個(gè)光子的量子計(jì)算原型機(jī)

    ? ? ? ?中國科學(xué)家再立新功,中國科學(xué)技術(shù)大學(xué)潘建偉、陸朝陽、劉乃樂等組成的研究團(tuán)隊(duì)與中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所、國家并行計(jì)算
    的頭像 發(fā)表于 10-11 17:06 ?1326次閱讀