欧美图片亚洲综合日韩,亚洲色图五月天,免费观看亚洲人成网站

神經(jīng)機器翻譯（NMT）關(guān)注的是通過 AI 在不同人類語言之間進(jìn)行翻譯的過程。2015 年，蒙特利爾學(xué)習(xí)算法研究所的研究人員開發(fā)出了一項新的算法模型，最終讓機器給出了對應(yīng)的翻譯。一夜之間，像谷歌翻譯這樣的翻譯軟件質(zhì)量得到了大幅度提升。

盡管此次改進(jìn)非常顯著，但它仍需要兩種語言的句子對，例如：“I like to eat”和“me gusta comer”分別為英語和法語中的“我想要吃”。對于從烏爾都語到英語等沒有句子對的語言翻譯而言，翻譯系統(tǒng)則顯得無能為力。從那時起，研究人員就開始構(gòu)建無需句子對也能翻譯的系統(tǒng)，無監(jiān)督神經(jīng)機器翻譯（UNMT）就是其一。

去年 10 月末，來自西班牙圣塞巴斯蒂安巴斯克大學(xué)（UPV）和互聯(lián)網(wǎng)科技公司 Facebook 人工智能研究院（FAIR）的兩支團(tuán)隊，向2018ICLR分別遞交了各自的最新研究成果——無監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯模型。

當(dāng)時，兩篇論文共同表明，神經(jīng)網(wǎng)絡(luò)可以在沒有平行文本的情況下學(xué)習(xí)翻譯。

這意味著該模型將突破原有的神經(jīng)機器翻譯（NMT）需要足夠大的平行語料庫的限制，創(chuàng)造了一種可以使用單語語料庫進(jìn)行訓(xùn)練的翻譯模型，并克服了平行語料庫不足的問題。從社會學(xué)的角度講，這將有助于我們翻譯一些語言已經(jīng)丟失了的文字，或者讓機器去實時翻譯一些稀有語言，如斯瓦西里語和白俄羅斯語。

過去一年間，不斷有研究人員試圖通過無監(jiān)督學(xué)習(xí)用大量無標(biāo)記數(shù)據(jù)訓(xùn)練以進(jìn)一步提高系統(tǒng)的翻譯能力。Facebook、紐約大學(xué)、巴斯克大學(xué)、索邦大學(xué)的研究團(tuán)隊成果顯著，成功讓機器在不知道“house”的西班牙對應(yīng)詞是“casa”的情況下翻譯出來。

近日，F(xiàn)acebook 人工智能實驗室再次公布了有關(guān)無監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯的最新模型，相當(dāng)于用 10 萬個參考譯文訓(xùn)練過的監(jiān)督模型?！霸跈C器翻譯領(lǐng)域，這是一個重大的發(fā)現(xiàn)，盡管世界上有超過 6500 種語言，但可利用的翻譯訓(xùn)練資源池要么不存在、要么就是太小不足以運用在現(xiàn)有系統(tǒng)中?！?/p>

為了證明這一進(jìn)步的價值，研究人員給出了以下陳述：“ 1 個 BLEU 點（判斷機器翻譯準(zhǔn)確度的常用指標(biāo)）的進(jìn)步被視為該領(lǐng)域一項了不起的成就。我們的方法相當(dāng)于有 10 個 BLEU 點的進(jìn)步。” 實際上，該項研究使得很多沒有平行文本的語言翻譯變得更為容易，如從烏爾都語到英語的翻譯。

▌研究原理

1、字節(jié)對編碼：不像此前為系統(tǒng)提供完整單詞的方式，只給系統(tǒng)提供單詞的一部分。例如，單詞“hello”可拆分為四部分，分別是“he”“l(fā)”“l(fā)”“o”。這意味系統(tǒng)可以學(xué)習(xí)“he”的譯詞，盡管系統(tǒng)此前從來沒有見過該詞。

2、語言模型：訓(xùn)練神經(jīng)網(wǎng)路學(xué)習(xí)生成在語言中“聽起來不錯”的句子。例如，這個神經(jīng)網(wǎng)絡(luò)可能會將句子“您好嘛”改為“您好嗎”。

3、反向翻譯：這是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)向后翻譯的另一個技巧。例如，如果想將西班牙語翻譯稱英語，就需要先教會神經(jīng)網(wǎng)絡(luò)從英語翻譯成西班牙語，然后用它來生成合成數(shù)據(jù)，從而增加已有的數(shù)據(jù)量。

▌逐字翻譯

讓系統(tǒng)學(xué)習(xí)雙語詞典，將一個單詞與其他語言的合理翻譯聯(lián)系起來，即系統(tǒng)學(xué)習(xí)每種語言中的單詞嵌入。

訓(xùn)練嵌入詞以預(yù)測跟給定上下文中單詞近似的單詞，可以發(fā)現(xiàn)很多有趣的語義結(jié)構(gòu)。例如，“kitty”的近義詞是“cat”，而“kitty”的嵌入詞與“animal”相近，卻與“rocket”相差很遠(yuǎn)。

此外，不同語言的嵌入詞有相似的領(lǐng)域結(jié)構(gòu)，這在于世界各地的人都擁有相同的物理環(huán)境。例如，英語中的單詞“cat”和“furry”之間的關(guān)系類似于它們在西班牙語中的相應(yīng)翻譯（“gato”和“peludo”），因為這些單詞的頻率和其上下文是相似的。

鑒于這些相似之處，研究人員建議使用對抗訓(xùn)練，以推導(dǎo)出一個相當(dāng)準(zhǔn)確的雙語詞典，無需訪問任何平行文本，便可實現(xiàn)逐字翻譯。

▌句子修正

不過，研究人員還是建議無監(jiān)督的方式進(jìn)行逐字翻譯，也有可能造成單詞丟失，或無序甚至是錯誤。所以，接下來，需要在已知大量單詞數(shù)據(jù)的基礎(chǔ)上進(jìn)行編輯，對不流暢或不符合語法結(jié)構(gòu)的句子進(jìn)行修正。

另外，研究人員還給出以下兩種方法，一個是基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)（NMT），一個是基于短語的系統(tǒng)（PBSMT）。雖然任何一種方法都可以提高翻譯質(zhì)量，但二者并用將產(chǎn)生更新的顯著效果。

據(jù)了解，PBSMT（Facebook統(tǒng)計機器翻譯）是 FAIR 此前的研究成果。該系統(tǒng)學(xué)習(xí)每種語言中短語的概率分布，并教會另一個系統(tǒng)旋轉(zhuǎn)第二組的數(shù)據(jù)點以匹配第一組的數(shù)據(jù)點。

以一個比較形象的方式展示：假設(shè)有兩個圖像，一個是杯子與蓋子彼此相鄰，另一個是蓋子在杯子上。該系統(tǒng)將學(xué)習(xí)如何在沒有蓋子的情況下，在圖像周圍移動像素以生成有蓋子的圖像。

目前，F(xiàn)acebook 人工智能實驗室將免費開放代碼，方便開發(fā)者獲取搭建系統(tǒng)。

▌寫在最后

要知道，多數(shù)現(xiàn)有的 AI 模型是通過“監(jiān)督學(xué)習(xí)”訓(xùn)練而成的，這也意味著必須耗費大量的人力對樣本數(shù)據(jù)進(jìn)行標(biāo)記與分類。盡管強化學(xué)習(xí)與生成式對抗網(wǎng)絡(luò)的出現(xiàn)從一定程度上解決了這一問題，但數(shù)據(jù)標(biāo)記仍是目前阻礙 AI 系統(tǒng)發(fā)展的最大障礙。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4749

瀏覽量
100434
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
46696

瀏覽量
237182
機器翻譯

機器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14863

原文標(biāo)題：翻譯們又要失業(yè)？Facebook最新無監(jiān)督機器翻譯成果，BLEU提升10個點！

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

ROM對計算機性能的影響

是一種非易失性存儲器，即使在斷電的情況下也能保持數(shù)據(jù)不丟失。它通常用于存儲固件，這些固件是計算機啟動和運行操作系統(tǒng)所必需的。ROM的內(nèi)容在制造過程中被寫入，并且通常不能被用戶更改。 R

發(fā)表于 11-04 10:31 ?130次閱讀

龍芯中科亮相第二屆中國計算機學(xué)會芯片大會

近日，由CCF體系結(jié)構(gòu)專業(yè)委員會、集成電路設(shè)計專業(yè)委員會、容錯計算專業(yè)委員會、計算機工程與工藝專業(yè)委員會聯(lián)合舉辦的第二屆中國計算機學(xué)會芯片大會在上海成功舉辦。大會以“發(fā)展芯技術(shù)，智算芯

發(fā)表于 07-30 15:47 ?679次閱讀

ESP8266如何在沒有SNTP的情況下寫入當(dāng)前的系統(tǒng)時間？

當(dāng)我開發(fā)SSL應(yīng)用程序時，我首先需要SNTP。我們希望通過添加外部RTC模塊來記錄有效時間，從而避免每次使用SSL時先使用SNTP。但是，我們沒有找到設(shè)置系統(tǒng)時間的接口。如何在沒有SNTP的情

發(fā)表于 07-09 07:19

如何在UDP的情況下監(jiān)聽自己通信是否中斷？

請教大佬一個問題。我如何在UDP的情況下監(jiān)聽自己通信是否中斷？不知道有沒有什么可以參考的？

發(fā)表于 06-24 06:04

工業(yè)計算機與普通計算機的區(qū)別

在信息化和自動化日益發(fā)展的今天，計算機已經(jīng)成為了我們?nèi)粘Ｉ詈凸ぷ髦胁豢苫蛉钡墓ぞ?。然而，?b class='flag-5'>計算機領(lǐng)域中，工業(yè)計算機和普通計算機雖然都具備基本的計算

發(fā)表于 06-06 16:45 ?1112次閱讀

工業(yè)計算機是什么？如何在不同行業(yè)中使用？

工業(yè)電腦是專為在工業(yè)環(huán)境中使用而設(shè)計的計算機。它們可用于各個行業(yè)，包括制造、運輸和能源。它們通常比普通計算機更強大，并且能夠在大多數(shù)計算機無法運行的環(huán)境中運行。在本文中，我們將更深入地了解什么是工業(yè)

發(fā)表于 04-01 15:45 ?728次閱讀

【量子計算機重構(gòu)未來 | 閱讀體驗】+ 了解量子疊加原理

如何生產(chǎn)制造。。。。。。近來通過閱讀《量子計算機—重構(gòu)未來》一書，結(jié)合網(wǎng)絡(luò)資料，了解了一點點量子疊加知識，分享給大家。先提一下電子計算機，電子計算機使用二進(jìn)制表示信息

發(fā)表于 03-13 17:19

【量子計算機重構(gòu)未來 | 閱讀體驗】+量子計算機的原理究竟是什么以及有哪些應(yīng)用

很多有名人物，也可以概覽下。總結(jié)本人作為科普小品還是可以看看的，一些距離也比較形象比較有意思，但是個人覺得還是沒有解釋清楚前面已開始提到的兩個問題，量子

發(fā)表于 03-11 12:50

【量子計算機重構(gòu)未來 | 閱讀體驗】+ 初識量子計算機

話對我觸動很大：量子計算機不僅能解決身邊的問題，還能解決社會層面的重大課題。看來真是“天下武功，唯快不破”，只要處理速度足夠快，海量數(shù)據(jù)處理就像計算1+1一樣簡單，可以想象一下，用量

發(fā)表于 03-05 17:37

沒有觸摸的情況下寄生電容怎么計算Cp的值？

如果在沒有觸摸的情況，CS=Cp，用公式計算的，raw count取值滿量程的85%的情況下計算，是否可行 or 在不觸摸的

發(fā)表于 02-01 06:36

計算機系統(tǒng)如何應(yīng)對大模型時代的挑戰(zhàn)與機遇

“操作系統(tǒng)管理著計算機的資源和進(jìn)程，以及所有的硬件和軟件。計算機的操作系統(tǒng)讓用戶在不需要了解計算機語言的情況下與

發(fā)表于 01-23 11:06 ?499次閱讀

按下計算機電源開關(guān)時，工控機沒有任何反應(yīng)，不能正常啟動解決方法

按下計算機電源開關(guān)時，計算機沒有任何反應(yīng)，不能正常啟動。 (1) 檢查電源連接是否良好，確保電源供應(yīng)正常； (2) 檢查計算機電源是否能正常

發(fā)表于 01-10 14:43

如何使用NVIDIA DeepStream和Edge Impulse快速推進(jìn)計算機視覺部署

基于 AI 的計算機視覺（CV）應(yīng)用日益增多，這對于從視頻流中提取實時洞察至關(guān)重要。這項革命性的技術(shù)使作業(yè)人員能夠在沒有大量操作干預(yù)的情況下獲得有價值的信息，從而為創(chuàng)新和解決問題帶來了

發(fā)表于 01-02 10:48 ?659次閱讀

計算機網(wǎng)絡(luò)中速率和帶寬的區(qū)別

計算機網(wǎng)絡(luò)中速率和帶寬的區(qū)別速率，指的是連接在計算機網(wǎng)絡(luò)上的主機在數(shù)字信道上傳送數(shù)據(jù)的速率，它也稱為數(shù)據(jù)率或比特率，單位是bps。速率往往指的是額定速率或者標(biāo)稱速率，意思也就是在非常

發(fā)表于 11-27 16:29

如何在電壓不穩(wěn)的情況下保障SSD的穩(wěn)定性能？

如何在電壓不穩(wěn)的情況下保障SSD的穩(wěn)定性能？

發(fā)表于 11-24 15:50 ?580次閱讀