大乳熟女中文字幕久久,综合国产日韩欧美,色秀视频网

Facebook研究人員提出了一種全新的無監(jiān)督機(jī)器翻譯方法，在BLUE基準(zhǔn)測試上取得了10分以上提升。研究人員表示，這種無監(jiān)督方法不僅適用于機(jī)器翻譯，也可以擴(kuò)展到其他領(lǐng)域，讓智能體在使用無標(biāo)記數(shù)據(jù)的情況下，完成只有極少甚至沒有訓(xùn)練數(shù)據(jù)的任務(wù)。這是機(jī)器翻譯以及無監(jiān)督學(xué)習(xí)的一項重大突破。而其實現(xiàn)方法本身也十分巧妙，相關(guān)論文已被EMNLP 2018接收。

自動語言翻譯對于Facebook來說非常重要，因為Facebook用戶高達(dá)數(shù)十億，可以想見其平臺每天承載和需要轉(zhuǎn)換的語種數(shù)量。當(dāng)然，有了神經(jīng)機(jī)器翻譯（NMT）技術(shù)以后，機(jī)器翻譯的速度和水平都得到了大幅提升。

不過，傳統(tǒng)的統(tǒng)計機(jī)器翻譯也好，NMT也罷，都需要大量的訓(xùn)練數(shù)據(jù)，比如中英、英德、英法等大量語言對。而對于訓(xùn)練數(shù)據(jù)較少的語種，比如尼泊爾語，就很難應(yīng)對了。這也是之前谷歌翻譯出現(xiàn)奇怪宗教預(yù)言的原因之一，因為《圣經(jīng)》是被翻譯成最多語種的文本之一，專家推測谷歌應(yīng)該使用《圣經(jīng)》文本來訓(xùn)練谷歌機(jī)器翻譯系統(tǒng)，而當(dāng)出現(xiàn)雜亂無章的輸入以后，機(jī)器拼命想要從中“找出”意義，才會出現(xiàn)一些來自《圣經(jīng)》中的語句。

話題扯遠(yuǎn)了?；貋鞦acebook面對的問題上來。

正如前文所說，如何解決小語種，也即沒有大量可供訓(xùn)練的數(shù)據(jù)時，機(jī)器翻譯的問題呢？

Facebook的研究人員提出了一種“不需要任何翻譯資源的MT模型”，也即“無監(jiān)督翻譯”，他們認(rèn)為這是機(jī)器翻譯未來的發(fā)展方向。在即將舉行的EMNLP 2018上，F(xiàn)acebook研究人員將展示的他們的結(jié)果。

新方法比以前最先進(jìn)的無監(jiān)督方法有了顯著的改進(jìn)，其效果相當(dāng)于使用近10萬個參考譯文訓(xùn)練過的監(jiān)督方法。用機(jī)器翻譯常用的基準(zhǔn)BLEU衡量，F(xiàn)acebook的新方法實現(xiàn)了超過10分的改善（BLEU上提高1分就已經(jīng)是相當(dāng)了不起的成果了）。

對于機(jī)器翻譯而言，這是一個非常重要的發(fā)現(xiàn)，特別是小語種而言，有些訓(xùn)練數(shù)據(jù)很少，有些甚至連訓(xùn)練數(shù)據(jù)都沒有。而Facebook提出的無監(jiān)督機(jī)器翻譯，能夠初步解決這一問題，比如在烏爾都語（注釋：巴基斯坦的國語，屬于印歐語系印度-伊朗語族的印度-雅利安語支；是全球使用人數(shù)排名第20的語言）和英語之間進(jìn)行自動翻譯——不需要任何翻譯好的語言對。

這種新方法為更快、更準(zhǔn)確地翻譯更多的語言打開了一扇門。同時，相關(guān)的技術(shù)原理或許也能用于其他機(jī)器學(xué)習(xí)和人工智能的應(yīng)用。

通過旋轉(zhuǎn)對齊詞嵌入結(jié)構(gòu)，進(jìn)行詞到詞的翻譯

Facebook無監(jiān)督機(jī)器翻譯的方法，首先是讓系統(tǒng)學(xué)習(xí)雙語詞典，將一個詞與其他語言對應(yīng)的多種翻譯聯(lián)系起來。舉個例子，就好比讓系統(tǒng)學(xué)會“Bug”在作為名詞時，既有“蟲子”、“計算機(jī)漏洞”，也有“竊聽器”的意思。

Facebook使用了他們在之前發(fā)表于ICLR 2018的論文《Word Translation Without Parallel Data》中介紹的方法，讓系統(tǒng)首先為每種語言中的每個單詞學(xué)習(xí)詞嵌入，也即單詞的向量表示。

然后，系統(tǒng)會訓(xùn)練詞嵌入，根據(jù)其上下文（例如，給定單詞前后的各5個單詞）來預(yù)測給定單詞周圍的單詞。盡管詞嵌入是一種非常簡單的表示方法，但從中可以獲得很有趣的語義結(jié)構(gòu)。例如，與“kitty”（小貓）這個詞距離最近的是“cat”（貓），并且“kitty”這個詞與“animal”（動物）之間的距離要遠(yuǎn)遠(yuǎn)小于它與“rocket”（火箭）這個詞的距離。換句話說，“kitty”很少出現(xiàn)在有“rocket”的上下文里。

可以通過簡單的旋轉(zhuǎn)并對齊兩種語言（X和Y）的二維詞嵌入，然后通過最近鄰搜索實現(xiàn)單詞翻譯。

此外，不同語言中意思相近的詞匯具有相似的鄰域結(jié)構(gòu)，因為世界各地的人們生活在相同的物理環(huán)境中。例如，英語中“cat”和“furry”（毛茸茸）之間的關(guān)系，類似于它們在西班牙語中對應(yīng)的翻譯“gato”和“peludo”，因為這些單詞的出現(xiàn)頻率及其上下文是非常相似的。

鑒于這些相似之處，F(xiàn)acebook的研究人員提出了一種方法，讓系統(tǒng)通過對抗訓(xùn)練等方法，學(xué)習(xí)將一種語言的詞嵌入結(jié)構(gòu)進(jìn)行旋轉(zhuǎn)，從而匹配另一種語言的詞嵌入結(jié)構(gòu)。有了這些信息以后，他們就可以推斷出一個相當(dāng)準(zhǔn)確的雙語詞典，無需任何已經(jīng)翻譯好的語句，并且基本上可以做到逐字翻譯。

通過旋轉(zhuǎn)并對齊不同語言的詞嵌入結(jié)構(gòu)，得到詞到詞的翻譯

用無監(jiān)督反向翻譯技術(shù)，訓(xùn)練句到句的機(jī)器翻譯系統(tǒng)

當(dāng)逐字翻譯實現(xiàn)以后，接下來就是詞組乃至句子的翻譯了。

當(dāng)然，逐字翻譯的結(jié)果是無法直接用在句子翻譯上的。于是，F(xiàn)acebook的研究人員又使用了一種方法，他們訓(xùn)練了一個單語種語言模型，對逐字翻譯系統(tǒng)給出的結(jié)果打分，從而盡可能排除不符合語法規(guī)則或有語病的句子。

這個單語模型比較好獲得，只要有小語種（比如烏爾都語）的大量單語數(shù)據(jù)集就可以。英語的單語模型則更好構(gòu)建了。

通過使用單語模型對逐字翻譯模型進(jìn)行優(yōu)化，就得到了一個比較原始的機(jī)器翻譯系統(tǒng)。

雖然翻譯結(jié)果不是很理想，但這個系統(tǒng)已經(jīng)比逐字翻譯的結(jié)果更好了，并且它可以將大量句子從源語言（比如烏爾都語）翻譯成目標(biāo)語言（比如英語）。

接下來，F(xiàn)acebook研究人員再將這些機(jī)器翻譯所得到的句子（從烏爾都語到英語的翻譯）作為ground truth，用于訓(xùn)練從英語到烏爾都語的機(jī)器翻譯。這種技術(shù)最先由R. Sennrich等人在ACL 2015時提出，叫做“反向翻譯”，當(dāng)時使用的是半監(jiān)督學(xué)習(xí)方法（有大量的語言對）。這還是反向翻譯技術(shù)首次應(yīng)用于完全無監(jiān)督的系統(tǒng)。

不可否認(rèn)，由于第一個系統(tǒng)（從烏爾都語到英語的原始機(jī)器翻譯系統(tǒng)）的翻譯錯誤，作為訓(xùn)練數(shù)據(jù)輸入的英語句子質(zhì)量并不高，因此第二個反向翻譯系統(tǒng)輸出的烏爾都語翻譯效果可想而知。

不過，有了剛才訓(xùn)練好的那個烏爾都語單語模型，就可以用它來對第二個反向翻譯系統(tǒng)輸出的烏爾都語譯文進(jìn)行校正，從而不斷優(yōu)化、迭代，逐漸完善第二個反向翻譯系統(tǒng)。

無監(jiān)督機(jī)器翻譯三原則：詞到詞的翻譯、語言建模和反向翻譯

在Facebook的這項工作中，他們確定了三個步驟——詞到詞的翻譯（word-by-word initialization）、語言建模和反向翻譯——作為無監(jiān)督機(jī)器翻譯的重要原則。有了這些原則后，就可以推導(dǎo)出各種模型。

紅點代表源語言，紅圈代表未觀測到的目標(biāo)語言翻譯，紅叉代表系統(tǒng)對目標(biāo)語言的翻譯；藍(lán)點代表目標(biāo)語言，藍(lán)圈代表未觀測到的源語言翻譯，藍(lán)叉代表系統(tǒng)對源語言的翻譯。A) 構(gòu)建兩種語言的詞嵌入模型；B) 通過旋轉(zhuǎn)對齊詞嵌入進(jìn)行詞到詞的翻譯；C) 通過單語種模型訓(xùn)練改善；D) 反向翻譯。

Facebook研究人員用其構(gòu)建了兩種不同的模型，以解決無監(jiān)督機(jī)器翻譯的目標(biāo)。

第一個是無監(jiān)督神經(jīng)模型，其結(jié)果比逐字翻譯更流暢，但卻沒有產(chǎn)生研究人員想要的質(zhì)量翻譯。但是，這個無監(jiān)督神經(jīng)模型的翻譯結(jié)果可以用作反向翻譯的訓(xùn)練數(shù)據(jù)。使用這種方法得到的翻譯結(jié)果，與使用100,000個語言對進(jìn)行訓(xùn)練的監(jiān)督模型效果相當(dāng)。

接下來，F(xiàn)acebook的研究人員上述原則應(yīng)用于基于經(jīng)典計數(shù)統(tǒng)計方法的另一個機(jī)器翻譯模型，叫做“基于短語的機(jī)器翻譯”（phrase-based MT）。通常而言，這些模型在訓(xùn)練數(shù)據(jù)（也即翻譯好的語言對）較少時表現(xiàn)更好，這也是首次將其應(yīng)用于無監(jiān)督的機(jī)器翻譯。基于短語的機(jī)器翻譯系統(tǒng)，能夠得出正確的單詞，但仍然不能形成流暢的句子。但是，這種方法取得的結(jié)果也優(yōu)于以前最先進(jìn)的無監(jiān)督模型。

最后，他們將兩種模型結(jié)合起來，得到一個既流暢又準(zhǔn)確翻譯的模型。其方法是，從一個訓(xùn)練好的神經(jīng)模型開始，用基于短語的模型生成的反向翻譯句子，對這個神經(jīng)模型進(jìn)行訓(xùn)練。

根據(jù)實證結(jié)果，研究人員發(fā)現(xiàn)最后一種組合方法顯著提高了先前無監(jiān)督機(jī)器翻譯的準(zhǔn)確性，在BLEU基準(zhǔn)測試上，英法和英德兩個語種的翻譯提高了超過10分（英法和英德翻譯也是使用無監(jiān)督學(xué)習(xí)訓(xùn)練的，僅在測試時使用了翻譯好的語言對進(jìn)行評估）。

研究人員還測試了在語種上相隔較遠(yuǎn)的語種（英俄），訓(xùn)練資源較少的語種（英語—羅馬尼亞語），以及語種相隔極遠(yuǎn)且訓(xùn)練資源極少的語種（英語—烏爾都語）的翻譯。在所有情況下，新的方法比其他無監(jiān)督方法都有很大的改進(jìn)，有時甚至超過了使用監(jiān)督學(xué)習(xí)方法進(jìn)行訓(xùn)練的翻譯系統(tǒng)得出的結(jié)果。

適用于任何領(lǐng)域的無監(jiān)督學(xué)習(xí)，讓智能體利用無標(biāo)記數(shù)據(jù)執(zhí)行罕見任務(wù)

Facebook的研究人員表示，在BLEU測試基準(zhǔn)上提高超過10分是一個令人興奮的開始，但對他們來說更令人興奮的是這種方法為未來改進(jìn)開啟的可能性。

從短期來看，這肯定有助于我們翻譯更多的語言并提高訓(xùn)練數(shù)據(jù)少的語言的翻譯質(zhì)量。但是，從這種新方法和基本原則中獲得的知識，可以遠(yuǎn)遠(yuǎn)超出機(jī)器翻譯的范疇。

Facebook的研究人員認(rèn)為，這項研究有可能應(yīng)用于任何領(lǐng)域的無監(jiān)督學(xué)習(xí)，并可以讓智能體利用沒有標(biāo)記的數(shù)據(jù)執(zhí)行當(dāng)前只有少量甚至沒有專家演示的任務(wù)。這項工作表明，系統(tǒng)至少可以在沒有監(jiān)督的情況下學(xué)習(xí)，并建立一個耦合系統(tǒng)，其中每個組件都在一個良性循環(huán)中，隨著時間的推移而不斷改進(jìn)。

現(xiàn)在，這個項目已經(jīng)在Github開源，代碼可以訪問下面的鏈接獲得：

https://github.com/facebookresearch/UnsupervisedMT

相關(guān)論文：https://arxiv.org/pdf/1804.07755.pdf

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Facebook

Facebook

+關(guān)注

關(guān)注
3

文章
1429

瀏覽量
54610
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8349

瀏覽量
132312
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14862

原文標(biāo)題：Facebook全新無監(jiān)督機(jī)器翻譯法，BLUE測試提升超過10分！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普

，David Chang進(jìn)一步提出了層次短語模型，同時基于語法樹的翻譯模型方面研究也取得了長足的進(jìn)步；繁榮階段：2013年和14年，牛津大學(xué)、谷歌、蒙特利爾大學(xué)研究人員提出端到端的神經(jīng)機(jī)器翻譯

發(fā)表于 07-06 10:30

機(jī)器翻譯三大核心技術(shù)原理 | AI知識科普 2

是端到端序列生成模型，是將輸入序列變換到輸出序列的一種框架和方法。其核心部分有兩點，一是如何表征輸入序列（編碼），二是如何獲得輸出序列（解碼）。對于機(jī)器翻譯而言不僅包括了編碼和解碼兩個

發(fā)表于 07-06 10:46

機(jī)器翻譯不可不知的Seq2Seq模型

搭建更加靈活，效率高，由于RNN訓(xùn)練時往往需要前一時刻的狀態(tài)，很難并行，特別是在大數(shù)據(jù)集上，CNN-Seq2Seq往往能取得比RNN-Seq2Seq更好的效果。5、應(yīng)用領(lǐng)域

發(fā)表于 07-20 04:00

神經(jīng)機(jī)器翻譯的方法有哪些？

之間的翻譯，也就是通過只訓(xùn)練一個模型就能夠支持在多個語言之間的翻譯。盡管目前最流行的Transformer模型已經(jīng)大大推動了機(jī)器翻譯

發(fā)表于 11-23 12:14

英漢機(jī)器翻譯中基于模式的譯文生成

本文介紹一種基于模式的機(jī)器翻譯的譯文生成方法，并提出一種句法結(jié)構(gòu)與語義信息相結(jié)合的模板匹配算法。最后給出本算法對英語句子進(jìn)行測試的實驗結(jié)果。

發(fā)表于 09-25 16:26 ?15次下載

機(jī)器翻譯系統(tǒng)實現(xiàn)了自然語言處理的又一里程碑突破

微軟機(jī)器翻譯團(tuán)隊研究經(jīng)理Arul Menezes表示，團(tuán)隊想要證明的是：當(dāng)一種語言對（比如中-英）擁有較多的訓(xùn)練數(shù)據(jù)，且測試集中包含的是常見的大眾類新聞詞匯時，那么在人工智能技術(shù)的加持

發(fā)表于 03-16 14:15 ?5764次閱讀

從冷戰(zhàn)到深度學(xué)習(xí)_機(jī)器翻譯歷史不簡單

實現(xiàn)高質(zhì)量機(jī)器翻譯的夢想已經(jīng)存在了很多年，很多科學(xué)家都為這一夢想貢獻(xiàn)了自己的時間和心力。從早期的基于規(guī)則的機(jī)器翻譯到如今廣泛應(yīng)用的神經(jīng)機(jī)器翻譯，機(jī)器

發(fā)表于 06-01 14:47 ?1152次閱讀

阿里巴巴機(jī)器翻譯在跨境電商場景下的應(yīng)用和實踐

摘要： ?本文將與大家分享機(jī)器翻譯相關(guān)背景知識，再深入介紹機(jī)器翻譯在阿里生態(tài)中的具體應(yīng)用實踐，介紹基于機(jī)器翻譯技術(shù)搭建的一套完善的電商多語言

發(fā)表于 07-31 17:22 ?374次閱讀

從冷戰(zhàn)到深度學(xué)習(xí)，機(jī)器翻譯歷史不簡單！

深度學(xué)習(xí)機(jī)器翻譯 實現(xiàn)高質(zhì)量機(jī)器翻譯的夢想已經(jīng)存在了很多年，很多科學(xué)家都為這一夢想貢獻(xiàn)了自己的時間和心力。從早期的基于規(guī)則的機(jī)器翻譯到如今廣泛應(yīng)用的神經(jīng)

發(fā)表于 09-17 09:23 ?403次閱讀

換個角度來聊機(jī)器翻譯

同時期國內(nèi)科技企業(yè)在機(jī)器翻譯上的進(jìn)展也非常迅速，以語音和語義理解見長的科大訊飛在2014年國際口語翻譯大賽IWSLT上獲得中英和英中兩個

發(fā)表于 04-24 13:55 ?3449次閱讀

機(jī)器翻譯走紅的背后是什么

未來需要新的算法和語義層面的綜合性突破，促進(jìn)機(jī)器翻譯產(chǎn)品的迭代和產(chǎn)業(yè)全面升級。

發(fā)表于 07-14 10:02 ?1009次閱讀

人工智能翻譯mRASP：可翻譯32種語言

利用計算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程就是機(jī)器翻譯。 機(jī)器翻譯對于信息時代下海量信息的捕獲無疑具有重要作用，事實上，人們對于

發(fā)表于 12-01 14:03 ?3162次閱讀

未來機(jī)器翻譯會取代人工翻譯嗎

所謂機(jī)器翻譯，就是利用計算機(jī)將一種自然語言（源語言）轉(zhuǎn)換為另一種自然語言（目標(biāo)語言）的過程。它是計算語言學(xué)的一個分支，是人工智能的終極目標(biāo)之一

發(fā)表于 12-29 10:12 ?4963次閱讀

多語言翻譯新范式的工作：機(jī)器翻譯界的BERT

思想就是打造“機(jī)器翻譯界的BERT”，通過預(yù)訓(xùn)練技術(shù)再在具體語種上微調(diào)即可達(dá)到領(lǐng)先的翻譯效果，其在32個語種上預(yù)訓(xùn)練出的統(tǒng)一模型在47個

發(fā)表于 03-31 17:24 ?2946次閱讀

機(jī)器翻譯研究進(jìn)展

機(jī)器翻譯使用計算機(jī)將一種語言翻譯成另一種語言，具有低成本、高效率和高翻譯質(zhì)量等優(yōu)勢，在語音

發(fā)表于 07-06 11:19 ?746次閱讀