Facebook研究人員提出了一種全新的無監(jiān)督機(jī)器翻譯方法,在BLUE基準(zhǔn)測試上取得了10分以上提升。研究人員表示,這種無監(jiān)督方法不僅適用于機(jī)器翻譯,也可以擴(kuò)展到其他領(lǐng)域,讓智能體在使用無標(biāo)記數(shù)據(jù)的情況下,完成只有極少甚至沒有訓(xùn)練數(shù)據(jù)的任務(wù)。這是機(jī)器翻譯以及無監(jiān)督學(xué)習(xí)的一項重大突破。而其實現(xiàn)方法本身也十分巧妙,相關(guān)論文已被EMNLP 2018接收。
自動語言翻譯對于Facebook來說非常重要,因為Facebook用戶高達(dá)數(shù)十億,可以想見其平臺每天承載和需要轉(zhuǎn)換的語種數(shù)量。當(dāng)然,有了神經(jīng)機(jī)器翻譯(NMT)技術(shù)以后,機(jī)器翻譯的速度和水平都得到了大幅提升。
不過,傳統(tǒng)的統(tǒng)計機(jī)器翻譯也好,NMT也罷,都需要大量的訓(xùn)練數(shù)據(jù),比如中英、英德、英法等大量語言對。而對于訓(xùn)練數(shù)據(jù)較少的語種,比如尼泊爾語,就很難應(yīng)對了。這也是之前谷歌翻譯出現(xiàn)奇怪宗教預(yù)言的原因之一,因為《圣經(jīng)》是被翻譯成最多語種的文本之一,專家推測谷歌應(yīng)該使用《圣經(jīng)》文本來訓(xùn)練谷歌機(jī)器翻譯系統(tǒng),而當(dāng)出現(xiàn)雜亂無章的輸入以后,機(jī)器拼命想要從中“找出”意義,才會出現(xiàn)一些來自《圣經(jīng)》中的語句。
話題扯遠(yuǎn)了?;貋鞦acebook面對的問題上來。
正如前文所說,如何解決小語種,也即沒有大量可供訓(xùn)練的數(shù)據(jù)時,機(jī)器翻譯的問題呢?
Facebook的研究人員提出了一種“不需要任何翻譯資源的MT模型”,也即“無監(jiān)督翻譯”,他們認(rèn)為這是機(jī)器翻譯未來的發(fā)展方向。在即將舉行的EMNLP 2018上,F(xiàn)acebook研究人員將展示的他們的結(jié)果。
新方法比以前最先進(jìn)的無監(jiān)督方法有了顯著的改進(jìn),其效果相當(dāng)于使用近10萬個參考譯文訓(xùn)練過的監(jiān)督方法。用機(jī)器翻譯常用的基準(zhǔn)BLEU衡量,F(xiàn)acebook的新方法實現(xiàn)了超過10分的改善(BLEU上提高1分就已經(jīng)是相當(dāng)了不起的成果了)。
對于機(jī)器翻譯而言,這是一個非常重要的發(fā)現(xiàn),特別是小語種而言,有些訓(xùn)練數(shù)據(jù)很少,有些甚至連訓(xùn)練數(shù)據(jù)都沒有。而Facebook提出的無監(jiān)督機(jī)器翻譯,能夠初步解決這一問題,比如在烏爾都語(注釋:巴基斯坦的國語,屬于印歐語系印度-伊朗語族的印度-雅利安語支;是全球使用人數(shù)排名第20的語言)和英語之間進(jìn)行自動翻譯——不需要任何翻譯好的語言對。
這種新方法為更快、更準(zhǔn)確地翻譯更多的語言打開了一扇門。同時,相關(guān)的技術(shù)原理或許也能用于其他機(jī)器學(xué)習(xí)和人工智能的應(yīng)用。
通過旋轉(zhuǎn)對齊詞嵌入結(jié)構(gòu),進(jìn)行詞到詞的翻譯
Facebook無監(jiān)督機(jī)器翻譯的方法,首先是讓系統(tǒng)學(xué)習(xí)雙語詞典,將一個詞與其他語言對應(yīng)的多種翻譯聯(lián)系起來。舉個例子,就好比讓系統(tǒng)學(xué)會“Bug”在作為名詞時,既有“蟲子”、“計算機(jī)漏洞”,也有“竊聽器”的意思。
Facebook使用了他們在之前發(fā)表于ICLR 2018的論文《Word Translation Without Parallel Data》中介紹的方法,讓系統(tǒng)首先為每種語言中的每個單詞學(xué)習(xí)詞嵌入,也即單詞的向量表示。
然后,系統(tǒng)會訓(xùn)練詞嵌入,根據(jù)其上下文(例如,給定單詞前后的各5個單詞)來預(yù)測給定單詞周圍的單詞。盡管詞嵌入是一種非常簡單的表示方法,但從中可以獲得很有趣的語義結(jié)構(gòu)。例如,與“kitty”(小貓)這個詞距離最近的是“cat”(貓),并且“kitty”這個詞與“animal”(動物)之間的距離要遠(yuǎn)遠(yuǎn)小于它與“rocket”(火箭)這個詞的距離。換句話說,“kitty”很少出現(xiàn)在有“rocket”的上下文里。
可以通過簡單的旋轉(zhuǎn)并對齊兩種語言(X和Y)的二維詞嵌入,然后通過最近鄰搜索實現(xiàn)單詞翻譯。
此外,不同語言中意思相近的詞匯具有相似的鄰域結(jié)構(gòu),因為世界各地的人們生活在相同的物理環(huán)境中。例如,英語中“cat”和“furry”(毛茸茸)之間的關(guān)系,類似于它們在西班牙語中對應(yīng)的翻譯“gato”和“peludo”,因為這些單詞的出現(xiàn)頻率及其上下文是非常相似的。
鑒于這些相似之處,F(xiàn)acebook的研究人員提出了一種方法,讓系統(tǒng)通過對抗訓(xùn)練等方法,學(xué)習(xí)將一種語言的詞嵌入結(jié)構(gòu)進(jìn)行旋轉(zhuǎn),從而匹配另一種語言的詞嵌入結(jié)構(gòu)。有了這些信息以后,他們就可以推斷出一個相當(dāng)準(zhǔn)確的雙語詞典,無需任何已經(jīng)翻譯好的語句,并且基本上可以做到逐字翻譯。
通過旋轉(zhuǎn)并對齊不同語言的詞嵌入結(jié)構(gòu),得到詞到詞的翻譯
用無監(jiān)督反向翻譯技術(shù),訓(xùn)練句到句的機(jī)器翻譯系統(tǒng)
當(dāng)逐字翻譯實現(xiàn)以后,接下來就是詞組乃至句子的翻譯了。
當(dāng)然,逐字翻譯的結(jié)果是無法直接用在句子翻譯上的。于是,F(xiàn)acebook的研究人員又使用了一種方法,他們訓(xùn)練了一個單語種語言模型,對逐字翻譯系統(tǒng)給出的結(jié)果打分,從而盡可能排除不符合語法規(guī)則或有語病的句子。
這個單語模型比較好獲得,只要有小語種(比如烏爾都語)的大量單語數(shù)據(jù)集就可以。英語的單語模型則更好構(gòu)建了。
通過使用單語模型對逐字翻譯模型進(jìn)行優(yōu)化,就得到了一個比較原始的機(jī)器翻譯系統(tǒng)。
雖然翻譯結(jié)果不是很理想,但這個系統(tǒng)已經(jīng)比逐字翻譯的結(jié)果更好了,并且它可以將大量句子從源語言(比如烏爾都語)翻譯成目標(biāo)語言(比如英語)。
接下來,F(xiàn)acebook研究人員再將這些機(jī)器翻譯所得到的句子(從烏爾都語到英語的翻譯)作為ground truth,用于訓(xùn)練從英語到烏爾都語的機(jī)器翻譯。這種技術(shù)最先由R. Sennrich等人在ACL 2015時提出,叫做“反向翻譯”,當(dāng)時使用的是半監(jiān)督學(xué)習(xí)方法(有大量的語言對)。這還是反向翻譯技術(shù)首次應(yīng)用于完全無監(jiān)督的系統(tǒng)。
不可否認(rèn),由于第一個系統(tǒng)(從烏爾都語到英語的原始機(jī)器翻譯系統(tǒng))的翻譯錯誤,作為訓(xùn)練數(shù)據(jù)輸入的英語句子質(zhì)量并不高,因此第二個反向翻譯系統(tǒng)輸出的烏爾都語翻譯效果可想而知。
不過,有了剛才訓(xùn)練好的那個烏爾都語單語模型,就可以用它來對第二個反向翻譯系統(tǒng)輸出的烏爾都語譯文進(jìn)行校正,從而不斷優(yōu)化、迭代,逐漸完善第二個反向翻譯系統(tǒng)。
無監(jiān)督機(jī)器翻譯三原則:詞到詞的翻譯、語言建模和反向翻譯
在Facebook的這項工作中,他們確定了三個步驟——詞到詞的翻譯(word-by-word initialization)、語言建模和反向翻譯——作為無監(jiān)督機(jī)器翻譯的重要原則。有了這些原則后,就可以推導(dǎo)出各種模型。
紅點代表源語言,紅圈代表未觀測到的目標(biāo)語言翻譯,紅叉代表系統(tǒng)對目標(biāo)語言的翻譯;藍(lán)點代表目標(biāo)語言,藍(lán)圈代表未觀測到的源語言翻譯,藍(lán)叉代表系統(tǒng)對源語言的翻譯。A) 構(gòu)建兩種語言的詞嵌入模型;B) 通過旋轉(zhuǎn)對齊詞嵌入進(jìn)行詞到詞的翻譯;C) 通過單語種模型訓(xùn)練改善;D) 反向翻譯。
Facebook研究人員用其構(gòu)建了兩種不同的模型,以解決無監(jiān)督機(jī)器翻譯的目標(biāo)。
第一個是無監(jiān)督神經(jīng)模型,其結(jié)果比逐字翻譯更流暢,但卻沒有產(chǎn)生研究人員想要的質(zhì)量翻譯。但是,這個無監(jiān)督神經(jīng)模型的翻譯結(jié)果可以用作反向翻譯的訓(xùn)練數(shù)據(jù)。使用這種方法得到的翻譯結(jié)果,與使用100,000個語言對進(jìn)行訓(xùn)練的監(jiān)督模型效果相當(dāng)。
接下來,F(xiàn)acebook的研究人員上述原則應(yīng)用于基于經(jīng)典計數(shù)統(tǒng)計方法的另一個機(jī)器翻譯模型,叫做“基于短語的機(jī)器翻譯”(phrase-based MT)。通常而言,這些模型在訓(xùn)練數(shù)據(jù)(也即翻譯好的語言對)較少時表現(xiàn)更好,這也是首次將其應(yīng)用于無監(jiān)督的機(jī)器翻譯。基于短語的機(jī)器翻譯系統(tǒng),能夠得出正確的單詞,但仍然不能形成流暢的句子。但是,這種方法取得的結(jié)果也優(yōu)于以前最先進(jìn)的無監(jiān)督模型。
最后,他們將兩種模型結(jié)合起來,得到一個既流暢又準(zhǔn)確翻譯的模型。其方法是,從一個訓(xùn)練好的神經(jīng)模型開始,用基于短語的模型生成的反向翻譯句子,對這個神經(jīng)模型進(jìn)行訓(xùn)練。
根據(jù)實證結(jié)果,研究人員發(fā)現(xiàn)最后一種組合方法顯著提高了先前無監(jiān)督機(jī)器翻譯的準(zhǔn)確性,在BLEU基準(zhǔn)測試上,英法和英德兩個語種的翻譯提高了超過10分(英法和英德翻譯也是使用無監(jiān)督學(xué)習(xí)訓(xùn)練的,僅在測試時使用了翻譯好的語言對進(jìn)行評估)。
研究人員還測試了在語種上相隔較遠(yuǎn)的語種(英俄),訓(xùn)練資源較少的語種(英語—羅馬尼亞語),以及語種相隔極遠(yuǎn)且訓(xùn)練資源極少的語種(英語—烏爾都語)的翻譯。在所有情況下,新的方法比其他無監(jiān)督方法都有很大的改進(jìn),有時甚至超過了使用監(jiān)督學(xué)習(xí)方法進(jìn)行訓(xùn)練的翻譯系統(tǒng)得出的結(jié)果。
適用于任何領(lǐng)域的無監(jiān)督學(xué)習(xí),讓智能體利用無標(biāo)記數(shù)據(jù)執(zhí)行罕見任務(wù)
Facebook的研究人員表示,在BLEU測試基準(zhǔn)上提高超過10分是一個令人興奮的開始,但對他們來說更令人興奮的是這種方法為未來改進(jìn)開啟的可能性。
從短期來看,這肯定有助于我們翻譯更多的語言并提高訓(xùn)練數(shù)據(jù)少的語言的翻譯質(zhì)量。但是,從這種新方法和基本原則中獲得的知識,可以遠(yuǎn)遠(yuǎn)超出機(jī)器翻譯的范疇。
Facebook的研究人員認(rèn)為,這項研究有可能應(yīng)用于任何領(lǐng)域的無監(jiān)督學(xué)習(xí),并可以讓智能體利用沒有標(biāo)記的數(shù)據(jù)執(zhí)行當(dāng)前只有少量甚至沒有專家演示的任務(wù)。這項工作表明,系統(tǒng)至少可以在沒有監(jiān)督的情況下學(xué)習(xí),并建立一個耦合系統(tǒng),其中每個組件都在一個良性循環(huán)中,隨著時間的推移而不斷改進(jìn)。
現(xiàn)在,這個項目已經(jīng)在Github開源,代碼可以訪問下面的鏈接獲得:
https://github.com/facebookresearch/UnsupervisedMT
相關(guān)論文:https://arxiv.org/pdf/1804.07755.pdf
-
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54610 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132312 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14862
原文標(biāo)題:Facebook全新無監(jiān)督機(jī)器翻譯法,BLUE測試提升超過10分!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論