一区二区狠狠色丁香久久婷婷,国产精品乱子伦XXXX,高清h片欧美人妻

FAIR和谷歌大腦的合作研究，專注于“反向翻譯”方法，用上億合成單語句子訓(xùn)練NMT模型，在WMT’14 英語-德語測試集上達(dá)到35 BLEU的最優(yōu)性能。論文在EMNLP 2018發(fā)表。

機(jī)器翻譯依賴于大型平行語料庫，即源語和目的語中成對句子的數(shù)據(jù)集。但是，雙語語料是十分有限的，而單語語料更容易獲得。傳統(tǒng)上，單語語料被用于訓(xùn)練語言模型，大大提高了統(tǒng)計(jì)機(jī)器翻譯的流暢性。

進(jìn)展到神經(jīng)機(jī)器翻譯（NMT）的背景下，已經(jīng)有大量的工作研究如何改進(jìn)單語模型，包括語言模型融合、反向翻譯（back-translation/回譯）和對偶學(xué)習(xí)（dual learning）。這些方法具有不同的優(yōu)點(diǎn)，結(jié)合起來能夠達(dá)到較高的精度。

Facebook AI Research和谷歌大腦的發(fā)表的新論文Understanding Back-Translation at Scale是這個(gè)問題的最新成果。這篇論文專注于反向翻譯（BT），在半監(jiān)督設(shè)置中運(yùn)行，其中目標(biāo)語言的雙語和單語數(shù)據(jù)都是可用的。

反向翻譯首先在并行數(shù)據(jù)上訓(xùn)練一個(gè)中間系統(tǒng)，該系統(tǒng)用于將目標(biāo)單語數(shù)據(jù)轉(zhuǎn)換為源語言。其結(jié)果是一個(gè)平行的語料庫，其中源語料是合成的機(jī)器翻譯輸出，而目標(biāo)語料是人類編寫的真實(shí)文本。

然后，將合成的平行語料添加到真實(shí)的雙語語料（bitext）中，以訓(xùn)練將源語言轉(zhuǎn)換為目標(biāo)語言的最終系統(tǒng)。

雖然這種方法很簡單，但已被證明對基于短語的翻譯、NMT和無監(jiān)督MT很有效。

具體到這篇論文，研究人員通過向雙語語料中添加了數(shù)億個(gè)反向翻譯得到的句子，對神經(jīng)機(jī)器翻譯的反向翻譯進(jìn)行了大規(guī)模的研究。

實(shí)驗(yàn)基于在WMT競賽的公共雙語語料上訓(xùn)練的強(qiáng)大基線模型。該研究擴(kuò)展了之前的研究(Sennrich et al. , 2016a ; Poncelas et al. , 2018) 對反譯法的分析，對生成合成源句的不同方法進(jìn)行了全面的分析，并證明這種選擇很重要：從模型分布中采樣或噪聲beam輸出優(yōu)于單純的beam search，在幾個(gè)測試集中平均 BLEU高1.7。

作者的分析表明，基于采樣或noised beam search的合成數(shù)據(jù)比基于argmax inference的合成數(shù)據(jù)提供了更強(qiáng)的訓(xùn)練信號。

文章還研究了受控設(shè)置中添加合成數(shù)據(jù)和添加真實(shí)雙語數(shù)據(jù)的比較，令人驚訝的是，結(jié)果顯示合成數(shù)據(jù)有時(shí)能得到與真實(shí)雙語數(shù)據(jù)不相上下的準(zhǔn)確性。

實(shí)驗(yàn)中，最好的設(shè)置是在WMT ’14 英語-德語測試集上，達(dá)到了35 BLEU，訓(xùn)練數(shù)據(jù)只使用了WMT雙語語料庫和2.26億個(gè)合成的單語句子。這比在大型優(yōu)質(zhì)數(shù)據(jù)集上訓(xùn)練的DeepL系統(tǒng)的性能更好，提高了1.7 BLEU。在WMT ‘14英語-法語測試集上，我們的系統(tǒng)達(dá)到了45.6 BLEU。

合成源語句子

反向翻譯通常使用beam search或greed search來生成合成源句子。這兩種算法都是識別最大后驗(yàn)估計(jì)(MAP)輸出的近似算法，即在給定輸入條件下，估計(jì)概率最大的句子。Beam search通常能成功地找到高概率的輸出。

然而，MAP預(yù)測可能導(dǎo)致翻譯不夠豐富，因?yàn)樗偸莾A向于在模棱兩可的情況下選擇最有可能的選項(xiàng)。這在具有高度不確定性的任務(wù)中尤其成問題，例如對話和說故事。我們認(rèn)為這對于數(shù)據(jù)增強(qiáng)方案(如反向翻譯)來說也是有問題的。

Beam search和greed search都集中在模型分布的頭部，這會導(dǎo)致非常規(guī)則的合成源句子，不能正確地覆蓋真正的數(shù)據(jù)分布。

作為替代方法，我們考慮從模型分布中采樣，并向beam search輸出添加噪聲。

具體而言，我們用三種類型的噪音來轉(zhuǎn)換源句子：以0.1的概率刪除單詞，以0.1的概率用填充符號代替單詞，以及交換在token上隨機(jī)排列的單詞。

模型和實(shí)驗(yàn)結(jié)果

我們使用fairseq工具包在pytorch中重新實(shí)現(xiàn)了Transformer 模型。所有的實(shí)驗(yàn)都是基于Big Transformer 架構(gòu)，它的編碼器和解碼器都有6個(gè)block。所有實(shí)驗(yàn)都使用相同的超參數(shù)。

實(shí)驗(yàn)結(jié)果：不同反向翻譯生成方法的準(zhǔn)確性比較

實(shí)驗(yàn)評估首先比較了反向翻譯生成方法的準(zhǔn)確性，并分析了結(jié)果。

圖1：在不同數(shù)量的反向翻譯數(shù)據(jù)上訓(xùn)練的模型的準(zhǔn)確性，這些數(shù)據(jù)分別通過greedy search、beam search (k = 5)和隨機(jī)采樣得到。

如圖1所示，sampling和beam+noise方法優(yōu)于MAP方法，BLEU要高0.8-1.1。在數(shù)據(jù)量最大的設(shè)置下，sampling和beam+noise方法比bitext-only (5M)要好1.7-2 BLEU。受限采樣(top10)的性能優(yōu)于beam 和 greedy，但不如非受限抽樣(sampling)或beam+noise。

圖2：對于不同的合成數(shù)據(jù)，每個(gè)epoch的Training perplexity (PPL)。

圖2顯示，基于greedy或beam的合成數(shù)據(jù)與來自采樣、top10、 beam+noise和bitext的數(shù)據(jù)相比更容易擬合。

表1

表1展示了更廣泛的測試集的結(jié)果(newstest2013-2017)。 Sampling和beam+noise 的表現(xiàn)大致相同，其余實(shí)驗(yàn)采用sampling。

資源少 vs 資源多設(shè)置

接下來，我們模擬了一個(gè)資源缺乏的設(shè)置，以進(jìn)一步嘗試不同的生成方法。

圖3：在80K、640K和5M句子對的bitext系統(tǒng)中添加來自beam search和sampling的合成數(shù)據(jù)時(shí)，BLEU的變化

圖3顯示，對于數(shù)據(jù)量較大的設(shè)置(640K和5.2M bitext)，sampling比beam更有效，而對于資源少的設(shè)置(80K bitext)則相反。

大規(guī)模的結(jié)果

最后，我們擴(kuò)展到非常大的設(shè)置，使用多達(dá)226M的單語句子，并且與先前的研究進(jìn)行了比較。

表4：WMT英語-法語翻譯任務(wù)中，不同測試集上的Tokenized BLEU

表5：WMT英語-法語翻譯任務(wù)中，不同測試集上的De-tokenized BLEU (sacreBLEU)

表6：WMT 英語-德語 (En-De)和英語-法語 (En-Fr)在newstest2014上的BLEU。

表7：WMT英語-德語newstest17和newstest18上的非標(biāo)記、不區(qū)分大小寫的sacreBLEU。

結(jié)論

反向翻譯是一種非常有效的神經(jīng)機(jī)器翻譯數(shù)據(jù)增強(qiáng)技術(shù)。通過采樣或在beam輸出中添加噪聲來生成合成源句子，比通常使用的argmax inference 具有更高的精度。

特別是，在newstest2013-2017的WMT英德翻譯中，采樣和加入噪聲的beam比單純beam的平均表現(xiàn)好1.7 BLEU。這兩種方法都為資源缺乏的設(shè)置提供了更豐富的訓(xùn)練信號。

此外，這一研究還發(fā)現(xiàn)，合成數(shù)據(jù)訓(xùn)練的模型可以達(dá)到真實(shí)雙語語料訓(xùn)練模型性能的83%。

最后，我們只使用公開的基準(zhǔn)數(shù)據(jù)，在WMT ‘14英語-德語測試集上實(shí)現(xiàn)了35 BLEU的新的最優(yōu)水平。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14836
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24538

原文標(biāo)題：NLP重磅！谷歌、Facebook新研究：2.26億合成數(shù)據(jù)訓(xùn)練神經(jīng)機(jī)器翻譯創(chuàng)最優(yōu)！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

電路反向研究。。

本帖最后由 gk320830 于 2015-3-7 18:20 編輯版主近期工作辭職了。準(zhǔn)備干些抄板之類的活?！，F(xiàn)接受項(xiàng)目有pcb抄板，設(shè)計(jì)，電子項(xiàng)目原理設(shè)計(jì)與pcb布線。電路反向研究（即仿造。）。歡迎廣大好友來找我。。

發(fā)表于 08-21 14:55

人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”，更精確模擬神經(jīng)網(wǎng)絡(luò)！

`近日，凱斯西儲大學(xué)醫(yī)學(xué)院、紐約干細(xì)胞基金會（NYSCF）研究所和喬治華盛頓大學(xué)的研究人員聯(lián)合提出了一種新方法，通過人類胚胎干細(xì)胞培育生成3D版的“迷你大腦”。這些“迷你

發(fā)表于 08-21 09:26

程序員的大腦有什么不同？

會激活大腦與工作記憶相關(guān)的區(qū)域。有研究表明，音樂家的大腦強(qiáng)化了工作記憶能力。我夫人是一位技術(shù)代理，而我是她的技術(shù)顧問。在跟軟件開發(fā)者合作的這幾年當(dāng)中，我們注意到其中的很多也是音樂人。

發(fā)表于 10-25 10:09

基于淺層句法信息的翻譯實(shí)例獲取方法研究

翻譯實(shí)例庫是基于實(shí)例的機(jī)器翻譯系統(tǒng)的主要知識源。本文采用基于淺層句法分析的方法進(jìn)行翻譯實(shí)例的獲取。首先根據(jù)淺層句法信息劃分源語言和目標(biāo)語言的翻譯

發(fā)表于 11-24 15:32 ?13次下載

神奇大腦信號翻譯器可將思想變語言

神奇大腦信號翻譯器可將思想變語言據(jù)美國媒體報(bào)道，近日，美國科學(xué)家發(fā)明了一種可以實(shí)時(shí)翻譯大腦信號的技術(shù)，置入大腦內(nèi)部的裝置

發(fā)表于 12-25 10:12 ?1188次閱讀

美國研制出大腦思維翻譯器欲將思想變語言

美國研制出大腦思維翻譯器欲將思想變語言據(jù)美國媒體報(bào)道，近日，美國科學(xué)家發(fā)明了一種可以實(shí)時(shí)翻譯大腦信號的技術(shù)，置入大腦內(nèi)部的裝置以無線的方

發(fā)表于 12-25 10:30 ?744次閱讀

谷歌翻譯對比有道翻譯東北話，高下立見！

聽說谷歌翻譯正式回歸中國區(qū)，國內(nèi)網(wǎng)民可無障礙使用。小編第一時(shí)間去下了個(gè)試用，想著怎么也得來個(gè)高能句子，刁難一下這個(gè)號稱加入了人工智能的Google翻譯官。

發(fā)表于 03-30 14:13 ?1519次閱讀

谷歌翻譯竟然預(yù)言世界末日?

谷歌發(fā)言人Justin Burr在一封電子郵件中表示：“Google Translate從網(wǎng)絡(luò)上的翻譯范例學(xué)習(xí)，不使用‘私人信息’進(jìn)行翻譯，系統(tǒng)甚至都無法訪問到這些內(nèi)容?！?“這只是將無意義的話語輸入系統(tǒng)，導(dǎo)致產(chǎn)生的也是無意義的

發(fā)表于 07-23 09:07 ?4131次閱讀

谷歌翻譯加入離線AI翻譯功能，離線也能翻譯而且更準(zhǔn)確

更強(qiáng)、更方便使用的離線 AI 翻譯可不是微軟的專利，谷歌今天也宣布為旗下的翻譯應(yīng)用加入相關(guān)功能，讓使用者的 Android 或 iOS 設(shè)備即使在沒有網(wǎng)絡(luò)連接的情況下，也可以通過離線的神經(jīng)機(jī)器

發(fā)表于 08-13 15:56 ?5407次閱讀

DARPA專注于無需手術(shù)的神經(jīng)技術(shù)研究，讓身體健全的士兵擁有超能力技術(shù)

到目前為止，DARPA（美國國防部高級研究計(jì)劃局）的神經(jīng)科學(xué)項(xiàng)目部（也稱為國防部瘋狂科學(xué)部門）一直專注于可服務(wù)于那些因身體或大腦殘疾回國的士

發(fā)表于 09-16 10:17 ?2140次閱讀

小扎邀請LeCun：FAIR誕生，與谷歌爭人才

與谷歌大腦（Google Brain）存在競爭，而且研究和代碼是孤立的。LeCun說：“因此，幾年后，谷歌或許會有人疑惑：我們?yōu)槭裁匆ㄟ@么多錢？這不是我想要的情況?！保?/div>
發(fā)表于 11-10 10:31 ?2748次閱讀

谷歌大腦開發(fā)人類翻譯器打破AI黑盒新方式

如果一個(gè)醫(yī)生告訴你需要做手術(shù)，你肯定會想知道為什么，進(jìn)一步地，你會希望他給你一個(gè)就算沒學(xué)過醫(yī)也能聽得懂的明確解釋。谷歌大腦（Google Brain）的研究科學(xué)家Been Kim認(rèn)為，我們應(yīng)該對人工智能抱有同樣的期望。作為“可解

發(fā)表于 01-29 09:59 ?3093次閱讀

谷歌宣布Android Things轉(zhuǎn)為專注于智能音箱的平臺

2016年底谷歌宣布了物聯(lián)網(wǎng)平臺Android Things，希望能夠用安卓連接所有物聯(lián)網(wǎng)設(shè)備。不過龐大的野心迎來了終結(jié)的一天，谷歌在2月13日發(fā)布博文，宣布Android Things轉(zhuǎn)為專注

發(fā)表于 02-14 17:16 ?1094次閱讀

谷歌希望為現(xiàn)實(shí)世界帶來更多機(jī)器人專注于更簡單的自動化工作

據(jù)報(bào)道，谷歌希望為現(xiàn)實(shí)世界帶來更多機(jī)器人。但這家科技巨頭并沒有專注于科幻傳奇的幻想，而是專注于更簡單的自動化工作。例如能對特定物體進(jìn)行分類的

發(fā)表于 04-18 16:14 ?524次閱讀

手語識別、翻譯及生成研究綜述

，而手語生成是根據(jù)口語或文本語句合成手語視頻。換言辶，手語識別翻譯與手語生成可視為互逆過程。文中綜述了手語硏究的最新進(jìn)展，介紹了研究的背景現(xiàn)狀和面臨的挑戰(zhàn);回顧了手語識別、翻譯和生成任務(wù)的典型

發(fā)表于 04-08 10:20 ?25次下載

搜索歷史

FAIR和谷歌大腦的合作研究，專注于“反向翻譯”方法

評論

電路反向研究。。

人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”，更精確模擬神經(jīng)網(wǎng)絡(luò)！

程序員的大腦有什么不同？

基于淺層句法信息的翻譯實(shí)例獲取方法研究

神奇大腦信號翻譯器可將思想變語言

美國研制出大腦思維翻譯器欲將思想變語言

谷歌翻譯對比有道翻譯東北話，高下立見！

谷歌翻譯竟然預(yù)言世界末日?

谷歌翻譯加入離線AI翻譯功能，離線也能翻譯而且更準(zhǔn)確

DARPA專注于無需手術(shù)的神經(jīng)技術(shù)研究，讓身體健全的士兵擁有超能力技術(shù)

小扎邀請LeCun：FAIR誕生，與谷歌爭人才

谷歌大腦開發(fā)人類翻譯器打破AI黑盒新方式

谷歌宣布Android Things轉(zhuǎn)為專注于智能音箱的平臺

谷歌希望為現(xiàn)實(shí)世界帶來更多機(jī)器人專注于更簡單的自動化工作

手語識別、翻譯及生成研究綜述

搜索歷史

FAIR和谷歌大腦的合作研究，專注于“反向翻譯”方法

評論

FAIR和谷歌大腦的合作研究，專注于“反向翻譯”方法