0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

DPVg_AI_era ? 來源:YXQ ? 2019-06-16 11:29 ? 次閱讀

為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團(tuán)隊在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer架構(gòu)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果,與原始的Transformer相比,它還展示了語言建模的改進(jìn)性能。

自幾年前推出以來,Google的Transformer架構(gòu)已經(jīng)應(yīng)用于從制作奇幻小說到編寫音樂和聲的各種挑戰(zhàn)。重要的是,Transformer的高性能已經(jīng)證明,當(dāng)應(yīng)用于序列任務(wù)(例如語言建模和翻譯)時,前饋神經(jīng)網(wǎng)絡(luò)可以與遞歸神經(jīng)網(wǎng)絡(luò)一樣有效。雖然用于序列問題的Transformer和其他前饋模型越來越受歡迎,但它們的架構(gòu)幾乎完全是手動設(shè)計的,與計算機(jī)視覺領(lǐng)域形成鮮明對比。AutoML方法已經(jīng)找到了最先進(jìn)的模型,其性能優(yōu)于手工設(shè)計的模型。當(dāng)然,我們想知道AutoML在序列域中的應(yīng)用是否同樣成功。

在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,我們使用翻譯作為一般的序列任務(wù)的代理,我們找到了Evolved Transformer,這是一種新的Transformer架構(gòu),它展示了對各種自然語言處理(NLP)任務(wù)的有希望的改進(jìn)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果,而且與原始的Transformer相比,它還展示了語言建模的改進(jìn)性能。我們是將此新模型作為Tensor2Tensor的部分發(fā)布,它可用于任何序列問題。

開發(fā)技術(shù)

要開始進(jìn)化NAS,我們有必要開發(fā)新技術(shù),因?yàn)橛糜谠u估每個架構(gòu)的“適應(yīng)性”的任務(wù)——WMT'14英語-德語翻譯——計算量很大。這使得搜索比在視覺領(lǐng)域中執(zhí)行的類似搜索更加昂貴,這可以利用較小的數(shù)據(jù)集,如CIFAR-10。

這些技術(shù)中的第一種是溫啟動——在初始進(jìn)化種群中播種Transformer架構(gòu)而不是隨機(jī)模型。這有助于在我們熟悉的搜索空間區(qū)域中進(jìn)行搜索,從而使其能夠更快地找到更好的模型。

第二種技術(shù)是我們開發(fā)的一種稱為漸進(jìn)動態(tài)障礙(PDH)(Progressive Dynamic Hurdles)的新方法,這種算法增強(qiáng)了進(jìn)化搜索,以便為最強(qiáng)的候選者分配更多的資源,這與先前的工作相反,其中NAS的每個候選模型被分配相同的評估時的資源量。如果模型明顯不好,PDH允許我們提前終止對模型的評估,從而使有前途的架構(gòu)獲得更多資源。

Evolved Transformer簡介

使用這些方法,我們在翻譯任務(wù)上進(jìn)行了大規(guī)模的NAS,并發(fā)現(xiàn)了Evolved Transformer(ET)。與大多數(shù)序列到序列(seq2seq)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)一樣,它有一個編碼器,將輸入序列編碼為嵌入,解碼器使用這些嵌入構(gòu)造輸出序列;在翻譯的情況下,輸入序列是要翻譯的句子,輸出序列是翻譯。

演化變壓器最有趣的特征是其編碼器和解碼器模塊底部的卷積層,在兩個地方都以類似的分支模式添加(即輸入在加到一起之前通過兩個單獨(dú)的卷積層)。

Evolved Transformer與原始Transformer編碼器架構(gòu)的比較。注意模塊底部的分支卷積結(jié)構(gòu),它獨(dú)立地在編碼器和解碼器中形成。

這一點(diǎn)特別有趣,因?yàn)樵贜AS期間編碼器和解碼器架構(gòu)不共享,因此獨(dú)立發(fā)現(xiàn)該架構(gòu)對編碼器和解碼器都很有用,這說明了該設(shè)計的優(yōu)勢。雖然最初的Transformer完全依賴于自我關(guān)注,但Evolved Transformer是一種混合體,利用了自我關(guān)注和廣泛卷積的優(yōu)勢。

對Evolved Transformer的評估

為了測試這種新架構(gòu)的有效性,我們首先將它與我們在搜索期間使用的英語-德語翻譯任務(wù)的原始Transformer進(jìn)行了比較。我們發(fā)現(xiàn)在所有參數(shù)尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,擁有最大增益與移動設(shè)備兼容(約700萬個參數(shù)),證明了參數(shù)的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上達(dá)到了最先進(jìn)的性能,BLEU得分為29.8,SacreBLEU得分為29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer與原Transformer的比較。性能的最大提高發(fā)生在較小的尺寸上,而ET在較大的尺寸上也顯示出強(qiáng)度,優(yōu)于最大的Transformer,參數(shù)減少37.6%(要比較的模型用綠色圈出)。

為了測試普遍性,我們還在其他NLP任務(wù)上將ET與Transformer進(jìn)行了比較。首先,我們研究了使用不同語言對的翻譯,發(fā)現(xiàn)ET表現(xiàn)提升,其邊緣與英語-德語相似;再次,由于其有效使用參數(shù),對于中型模型觀察到了最大的提升。我們還比較了使用LM1B進(jìn)行語言建模的兩種模型的解碼器,并且看到性能提升近2個perplexity。

未來工作

這些結(jié)果是探索體系結(jié)構(gòu)搜索在前饋序列模型中應(yīng)用的第一步。Evolved Transformer作為Tensor2Tensor的一部分已開源,在那里它可以用于任何序列問題。為了提高可重復(fù)性,我們還開源了我們用于搜索的搜索空間,以及實(shí)施漸進(jìn)動態(tài)障礙的Colab。我們期待著看到研究團(tuán)體用新模型做了什么,并希望其他人能夠利用這些新的搜索技術(shù)!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104951
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3218

    瀏覽量

    42329

原文標(biāo)題:谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升,已開源!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TI TSC應(yīng)用于各種和多種功能

    電子發(fā)燒友網(wǎng)站提供《TI TSC應(yīng)用于各種和多種功能.pdf》資料免費(fèi)下載
    發(fā)表于 10-22 10:15 ?0次下載
    <b class='flag-5'>將</b>TI TSC<b class='flag-5'>應(yīng)用于</b>各種和多種功能

    SensiML開源AutoML解決方案-Piccolo AI發(fā)布

    SensiML強(qiáng)大的Analytics Studio軟件開發(fā)工具的開源版本-Piccolo AI發(fā)布了!Piccolo AI遵循AGPL許可,面向個人開發(fā)者、研究人員和AI愛好者,旨在AutoML
    的頭像 發(fā)表于 07-22 16:53 ?702次閱讀

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于
    的頭像 發(fā)表于 07-10 11:48 ?1117次閱讀

    Transformer架構(gòu)在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來了革命性的變革。本文深入探討Transformer
    的頭像 發(fā)表于 07-09 11:42 ?667次閱讀

    Transformer 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

    當(dāng)Transformer模型發(fā)布時,它徹底革新了機(jī)器翻譯領(lǐng)域。雖然最初是為特定任務(wù)設(shè)計的,但這種革命性的架構(gòu)顯示出它可以輕松適應(yīng)不同的任務(wù)。隨后成為了Transformer一個標(biāo)準(zhǔn),甚
    的頭像 發(fā)表于 07-02 08:27 ?316次閱讀
    <b class='flag-5'>Transformer</b> 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    就無法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:每個詞映射為一個低維稠密的實(shí)值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言模型進(jìn)行預(yù)訓(xùn)練,然后將其應(yīng)用到下游任務(wù)中,詞
    發(fā)表于 05-05 12:17

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機(jī)視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?594次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動的過程中,通過試錯來學(xué)習(xí)最優(yōu)的行為策略。
    發(fā)表于 02-20 09:55 ?1.2w次閱讀
    一文詳解<b class='flag-5'>Transformer</b>神經(jīng)網(wǎng)絡(luò)模型

    Transformer壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    隨著人工智能技術(shù)的迅速發(fā)展,Transformer在自然語言處理、機(jī)器翻譯、問答系統(tǒng)等領(lǐng)域取得了顯著的性能提升。
    的頭像 發(fā)表于 01-24 14:05 ?1093次閱讀
    <b class='flag-5'>Transformer</b>壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì), Transformer 架構(gòu)簡單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題是很困難的。
    發(fā)表于 01-23 11:39 ?705次閱讀
    基于<b class='flag-5'>Transformer</b>的多模態(tài)BEV融合方案

    大語言模型背后的Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網(wǎng)報道(文/李彎彎)近年來,隨著大語言模型的不斷出圈,Transformer這一概念也走進(jìn)了大眾視野。Transformer是一種非常流行的深度學(xué)習(xí)模型,最早于2017年由谷歌
    的頭像 發(fā)表于 12-25 08:36 ?3651次閱讀
    大語言模型背后的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    淺談網(wǎng)絡(luò)變壓器(Network Transformer

    網(wǎng)絡(luò)變壓器(Network Transformer)是一種用于信號轉(zhuǎn)換和傳輸?shù)碾娮釉O(shè)備,廣泛應(yīng)用于網(wǎng)絡(luò)設(shè)備中,如路由器、交換機(jī)、網(wǎng)卡等。網(wǎng)絡(luò)變壓器的主要作用有以下幾點(diǎn)。
    的頭像 發(fā)表于 11-24 09:31 ?3387次閱讀

    如何正確的8009應(yīng)用于反相放大電路中?

    左右(正相飽和),但是我使用multisim仿真是沒有問題的,請問應(yīng)如何正確的8009應(yīng)用于反相放大電路中?如果不能用于反相放大電路請問如何通過手冊鑒別?其中的機(jī)理是什么? 仿真輸出波形 通道A
    發(fā)表于 11-21 07:07

    一種應(yīng)用于智能家電嵌入式軟件的框架構(gòu)件規(guī)范

    電子發(fā)燒友網(wǎng)站提供《一種應(yīng)用于智能家電嵌入式軟件的框架構(gòu)件規(guī)范.pdf》資料免費(fèi)下載
    發(fā)表于 11-17 10:56 ?1次下載
    一種<b class='flag-5'>應(yīng)用于</b>智能家電嵌入式軟件的框<b class='flag-5'>架構(gòu)</b>件規(guī)范

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

    Transformer 本質(zhì)上是一個 Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?491次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實(shí)現(xiàn)方案