91精品人妻系列无码专区久久,精品无码久久久久久电影

“世界末日時(shí)鐘是23點(diǎn)57分。我們正在經(jīng)歷世界上的戲劇性的發(fā)展，這表明我們?cè)絹?lái)越接近末日和耶穌的回歸。”這段驚悚的“預(yù)言”來(lái)自谷歌翻譯。2016年，谷歌宣布機(jī)器翻譯“重大突破”——神經(jīng)機(jī)器翻譯（GNMT），將翻譯質(zhì)量提高到接近人類筆譯的水平。然而，它將無(wú)意義的文本翻譯成怪異的宗教預(yù)言引起了新的恐慌。這次，要怪AI是“黑盒”，還是拖出谷歌員工來(lái)背鍋？

在Google Translate中鍵入“dog”一詞19次，然后選擇將這段無(wú)意義的文本從毛利語(yǔ)翻譯成英語(yǔ)，結(jié)果會(huì)怎樣？

彈出來(lái)的是一段看似亂碼宗教預(yù)言：

Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments in the world, which indicate that we are increasingly approaching the end times and Jesus’ return.

“世界末日時(shí)鐘還差3分鐘到12點(diǎn)。我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展，這表明我們?cè)絹?lái)越接近末日和耶穌的回歸?！?/p>

這只是Reddit以及其他網(wǎng)站用戶從谷歌翻譯中挖掘出來(lái)的眾多怪異、有時(shí)甚至是不祥的翻譯的一個(gè)例子。將原文設(shè)為索馬里語(yǔ)，連續(xù)輸入“ag”一詞，這個(gè)字符串會(huì)被翻譯成“sons of Gershon”（革順的兒子），“name of the LORD”（上帝的名字），并且會(huì)引用圣經(jīng)里的術(shù)語(yǔ)，例如“cubits”（肘，圣經(jīng)中的度量衡）和Deuteronomy（《申命記》）。谷歌翻譯是谷歌已經(jīng)推出10年的服務(wù)，現(xiàn)在可以翻譯超過(guò)100種語(yǔ)言。

在推特上，這些翻譯引起恐慌，有人甚至將這些奇怪的翻譯歸咎于鬼魂和惡魔。reddit上TranslateGate子論壇上有用戶推測(cè)，其中一些奇怪的翻譯輸出可能來(lái)自收集自電子郵件或私人消息的文本。

谷歌發(fā)言人Justin Burr在一封電子郵件中表示：“Google Translate從網(wǎng)絡(luò)上的翻譯范例學(xué)習(xí)，不使用‘私人信息’進(jìn)行翻譯，系統(tǒng)甚至都無(wú)法訪問(wèn)到這些內(nèi)容。”“這只是將無(wú)意義的話語(yǔ)輸入系統(tǒng)，導(dǎo)致產(chǎn)生的也是無(wú)意義的內(nèi)容的一種功能。”

對(duì)于這種怪異的輸出，有幾種可能的解釋。比如，這些惡意消息可能是心懷不滿的谷歌員工造成的，也可能是惡作劇用戶濫用“提供建議”按鈕造成的，該選項(xiàng)將接受用戶提供的有助于改善翻譯質(zhì)量的建議。

罪魁禍?zhǔn)卓赡苁巧窠?jīng)機(jī)器翻譯

哈佛大學(xué)研究自然語(yǔ)言處理和計(jì)算機(jī)翻譯的助理教授Andrew Rush認(rèn)為，內(nèi)部的質(zhì)量過(guò)濾器（quality filter）可能會(huì)捕捉到這種類型的惡意操作。Rush說(shuō)，更有可能的是，這些奇怪的翻譯與2016年時(shí)谷歌翻譯的一個(gè)重大變化有關(guān)——它開(kāi)始使用一種叫做“神經(jīng)機(jī)器翻譯”的技術(shù)。

在神經(jīng)機(jī)器翻譯中，使用一種語(yǔ)言的大量文本和另一種語(yǔ)言的相應(yīng)譯文來(lái)訓(xùn)練系統(tǒng)，以創(chuàng)建一個(gè)能夠在兩種語(yǔ)言之間相互翻譯的模型。Rush說(shuō)，當(dāng)系統(tǒng)被輸入無(wú)意義的文本時(shí)，它就會(huì)“產(chǎn)生幻覺(jué)”，生成怪異的輸出——就像谷歌的DeepDream視覺(jué)系統(tǒng)會(huì)產(chǎn)生可怕的圖像一樣。

谷歌DeepDream的作畫(huà)

“這些模型都是黑盒，你能找到多少訓(xùn)練實(shí)例，它就能學(xué)到多少。” Rush說(shuō)：“訓(xùn)練實(shí)例中絕大部分看起來(lái)都像人類語(yǔ)言，因此當(dāng)你給它一個(gè)新的實(shí)例時(shí)，它受到的訓(xùn)練就是，不惜一切代價(jià)創(chuàng)造出一些看起來(lái)也像人類語(yǔ)言的東西。然而，如果你給它一些非常不同的東西，最好的翻譯將是一些看起來(lái)仍然流暢的文本，但根本與輸入無(wú)關(guān)。”

BBN Technologies的資深科學(xué)家、從事機(jī)器翻譯工作的Sean Colbath也同意，奇怪的輸出可能是由于Google Translate的算法試圖在混亂中尋找秩序。他還指出，這些產(chǎn)生最奇怪結(jié)果的語(yǔ)言——索馬里語(yǔ)、夏威夷語(yǔ)和毛利語(yǔ)——它們用于訓(xùn)練的翻譯文本比英語(yǔ)或漢語(yǔ)等更廣泛使用的語(yǔ)言要小得多。因此，Colbath說(shuō)，谷歌可能會(huì)使用《圣經(jīng)》這類的宗教文本（《圣經(jīng)》已經(jīng)被翻譯成多種語(yǔ)言），用這些文本來(lái)訓(xùn)練它的模型，導(dǎo)致產(chǎn)生宗教內(nèi)容。

Rush也同意這種說(shuō)法，如果谷歌使用《圣經(jīng)》來(lái)訓(xùn)練它的神經(jīng)翻譯模型，那么就可以解釋一些奇怪的輸出了。事實(shí)上，索馬里語(yǔ)的幾個(gè)奇怪的翻譯版本與《舊約》中的某些章節(jié)很相似。比如《出埃及記》27：18提到“a hundred cubits”（長(zhǎng)一百肘），并且有幾節(jié)經(jīng)文，包括《民數(shù)記》3:18討論了“sons of Gershon”（革順的兒子）。

谷歌發(fā)言人Justin Burr拒絕回答Google Translate的訓(xùn)練數(shù)據(jù)是否包含宗教文本。

但有時(shí)候，確實(shí)感覺(jué)這個(gè)算法似乎在傳遞某種神秘的精神能量——它甚至?xí)_(kāi)笑話。

你看，用Google Translate翻譯“w hy ar e th e tran stla tions so wei rd”在索馬里語(yǔ)中的意思，它的輸出是，“這是一個(gè)讓它變得更好的好辦法”。

神經(jīng)機(jī)器翻譯的主要問(wèn)題

Philipp Koehn和Rebecca Knowles在2017年就這一主題撰寫(xiě)了一篇精彩的關(guān)于神經(jīng)機(jī)器翻譯的論文（文末附論文地址），現(xiàn)在仍然具有現(xiàn)實(shí)意義。在這里有必要總結(jié)一下：

1.神經(jīng)機(jī)器翻譯（NMT）在處理領(lǐng)域之外的數(shù)據(jù)時(shí)的表現(xiàn)很糟：當(dāng)前的機(jī)器翻譯系統(tǒng)會(huì)生成非常流暢的輸出，這些輸出與領(lǐng)域外數(shù)據(jù)的輸入無(wú)關(guān)。因此像Google翻譯這樣的通用機(jī)器翻譯系統(tǒng)在法律或金融等專業(yè)領(lǐng)域的表現(xiàn)尤其糟糕。與基于短語(yǔ)的系統(tǒng)等傳統(tǒng)方法相比，NMT系統(tǒng)的效果更差。有多差呢？請(qǐng)參閱下面的圖表。非對(duì)角線上元素是是用領(lǐng)域外數(shù)據(jù)訓(xùn)練后的結(jié)果，綠色條代表NMT，藍(lán)色條代表基于短語(yǔ)的系統(tǒng)。

將機(jī)器翻譯系統(tǒng)在一個(gè)領(lǐng)域內(nèi)（行）上訓(xùn)練，并在另一個(gè)領(lǐng)域（列）上進(jìn)行測(cè)試。

藍(lán)色：基于短語(yǔ)的系統(tǒng) 綠色：NMT

2.NMT在小數(shù)據(jù)集上表現(xiàn)不佳：一般而言，大多數(shù)機(jī)器學(xué)習(xí)都是這樣，但這個(gè)問(wèn)題在NMT上尤為突出。 NMT的優(yōu)點(diǎn)在于，隨著數(shù)據(jù)量的增加，它的表現(xiàn)要（比基于短語(yǔ)的機(jī)器翻譯）更好，但在數(shù)據(jù)量很低的情況下，NMT的表現(xiàn)確實(shí)更差。事實(shí)上，正如作者所說(shuō)，“在資源條件較差的情況下，NMT會(huì)產(chǎn)生與輸入內(nèi)容無(wú)關(guān)的流暢輸出。”這可能是Motherboard的文章探討的一些關(guān)于NMT表現(xiàn)奇怪的另一個(gè)原因。

3.NMT在罕見(jiàn)詞匯上的表現(xiàn)不佳：盡管比基于短語(yǔ)的翻譯的表現(xiàn)更好，但NMT對(duì)于罕見(jiàn)或未見(jiàn)過(guò)的詞語(yǔ)翻譯的表現(xiàn)不佳。對(duì)于存在大量變形詞的語(yǔ)言及大量命名實(shí)體的領(lǐng)域，這可能成為一個(gè)問(wèn)題，因?yàn)樽冃卧~和命名實(shí)體一般非常罕見(jiàn)。

上圖是我們即將出版的書(shū)的第2章部分內(nèi)容的摘錄。例如，在土耳其語(yǔ)中，時(shí)不時(shí)就會(huì)遇到變形形式的詞。

如果單詞只被觀察到一次，就會(huì)被舍棄。字節(jié)成對(duì)編碼（byte-pair encoding）技術(shù)有助于解決這個(gè)問(wèn)題，但有必要對(duì)此進(jìn)行更詳細(xì)的研究。

4.長(zhǎng)句的翻譯問(wèn)題：對(duì)長(zhǎng)句編碼及生成長(zhǎng)句仍然是一個(gè)沒(méi)有解決的問(wèn)題。機(jī)器翻譯系統(tǒng)隨句子長(zhǎng)度的增加，其表現(xiàn)會(huì)越來(lái)越糟，NMT系統(tǒng)尤其如此。使用注意力有幫助，但問(wèn)題遠(yuǎn)未“解決”。在許多領(lǐng)域，如法律領(lǐng)域，冗長(zhǎng)復(fù)雜的句子是很常見(jiàn)的。

5.注意力（Attention）機(jī)制不等于簡(jiǎn)單對(duì)齊：這是一個(gè)非常微妙但重要的問(wèn)題。在傳統(tǒng)的SMT系統(tǒng)（如基于短語(yǔ)的MT）中，對(duì)齊翻譯為模型的檢測(cè)提供了有用的調(diào)試信息。但是注意機(jī)制不能被視為傳統(tǒng)意義上的對(duì)齊，即使論文經(jīng)常將注意力機(jī)制作為“軟對(duì)齊”引起注意。在NMT系統(tǒng)中，除了源語(yǔ)言中的動(dòng)詞之外，目標(biāo)語(yǔ)言中的動(dòng)詞也可以作為主語(yǔ)和賓語(yǔ)成分。

6.難以控制翻譯質(zhì)量：每個(gè)單詞都有多種翻譯，典型的機(jī)器翻譯系統(tǒng)在源句的翻譯結(jié)構(gòu)上表現(xiàn)很好。為了保持句子結(jié)構(gòu)的大小合理，會(huì)使用集束搜索（beam search）。通過(guò)改變集束寬度，可以找到低概率但正確的平移。而對(duì)于NMT系統(tǒng)，調(diào)整集束的寬度似乎沒(méi)有任何影響，甚至可能會(huì)有不良影響。

當(dāng)數(shù)據(jù)量很大時(shí)，NMT系統(tǒng)仍然很難被擊敗。關(guān)于神經(jīng)網(wǎng)絡(luò)模型的黑盒性的討論也在繼續(xù)，今天的NMT模型（不論是基于LSTM還是Transformer）都會(huì)受此影響。這是一個(gè)活躍的研究領(lǐng)域，如果時(shí)間允許，我期待參加EMNLP關(guān)于該主題的研討會(huì)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6128

瀏覽量
104951
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14862

原文標(biāo)題：谷歌翻譯竟預(yù)言世界末日，專家解密神經(jīng)翻譯6大難題

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

阿里國(guó)際發(fā)布翻譯大模型Marco

近日，阿里國(guó)際正式推出了其翻譯大模型——Marco。這款模型已在阿里國(guó)際AI官網(wǎng)Aidge上線，并向全球用戶開(kāi)放使用。

發(fā)表于 10-17 16:07 ?216次閱讀

使用邏輯和翻譯優(yōu)化車(chē)身控制模塊（BCM）應(yīng)用說(shuō)明

電子發(fā)燒友網(wǎng)站提供《使用邏輯和翻譯優(yōu)化車(chē)身控制模塊（BCM）應(yīng)用說(shuō)明.pdf》資料免費(fèi)下載

發(fā)表于 09-11 11:30 ?0次下載

使用邏輯和<b class='flag-5'>翻譯</b>優(yōu)化車(chē)身控制模塊（BCM）應(yīng)用說(shuō)明

英特爾銳炫顯卡助力游戲體驗(yàn)升級(jí)

日前，網(wǎng)易超自然開(kāi)放世界游戲《七日世界》開(kāi)啟全球公測(cè)，憑借獨(dú)特的新怪談世界觀以及區(qū)別于傳統(tǒng)“末日游戲”的細(xì)節(jié)設(shè)計(jì)，該游戲不僅穩(wěn)居Steam愿望單前10，更是在公測(cè)前就已斬獲超2000萬(wàn)

發(fā)表于 08-16 15:17 ?434次閱讀

超ChatGPT-4o，國(guó)產(chǎn)大模型竟然更懂翻譯，8款大模型深度測(cè)評(píng)｜AI 橫評(píng)

隨著AI工具的不斷增多，各家模型的能力也日益提升，現(xiàn)在無(wú)論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當(dāng)下，越來(lái)越多的論文和前沿信息需要快速翻譯和解讀，依賴傳統(tǒng)的翻譯工具依舊面臨“翻譯

發(fā)表于 07-14 08:04 ?128次閱讀

谷歌發(fā)布全新AI基礎(chǔ)世界模型Genie

谷歌近日宣布推出其最新研發(fā)的AI基礎(chǔ)世界模型——Genie。這款模型擁有驚人的110億參數(shù)，其獨(dú)特之處在于，僅需一張圖片，便能生成一個(gè)充滿活力和交互性的虛擬世界。用戶可以在這個(gè)世界中逐

發(fā)表于 03-04 14:02 ?688次閱讀

谷歌發(fā)布全新AI模型Genie

谷歌近日發(fā)布了其全新的AI模型Genie，這一模型徹底改變了我們與數(shù)字世界的互動(dòng)方式。Genie不僅可以接收文本提示、草圖或想法，還能將這些創(chuàng)意迅速轉(zhuǎn)化為一個(gè)可互動(dòng)和玩耍的虛擬世界。

發(fā)表于 02-28 18:25 ?1611次閱讀

谷歌發(fā)布基礎(chǔ)世界模型Genie，世界模型領(lǐng)域競(jìng)爭(zhēng)升溫

繼OpenAI和Meta之后，谷歌也在世界模型領(lǐng)域公布了其最新進(jìn)展。據(jù)谷歌官網(wǎng)介紹，Genie是一個(gè)基于互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型，能夠從合成圖像、照片、草圖等多種來(lái)源生成多種動(dòng)作可

發(fā)表于 02-28 18:20 ?1372次閱讀

谷歌發(fā)布AI基礎(chǔ)世界模型Genie

谷歌近日宣布了其生成式AI的全新里程碑——全新AI基礎(chǔ)世界模型Genie。這一創(chuàng)新技術(shù)允許用戶通過(guò)單張圖像提示，生成一個(gè)可玩的、交互式的虛擬環(huán)境，從而開(kāi)啟了一個(gè)全新的數(shù)字體驗(yàn)時(shí)代。

發(fā)表于 02-28 17:41 ?753次閱讀

谷歌DeepMind重磅發(fā)布了基礎(chǔ)世界模型：Genie（精靈）

大家都喜歡玩游戲吧？因?yàn)橛螒蜃畲蟮奈κ亲屛覀兲颖墁F(xiàn)實(shí)、幻想一個(gè)遠(yuǎn)離我們眼前現(xiàn)實(shí)的世界，掌控這個(gè)虛擬的現(xiàn)實(shí)世界?，F(xiàn)在，我們可以想象一下，如果我們有能力創(chuàng)造自己的世界，那該多好了。

發(fā)表于 02-28 10:45 ?813次閱讀

谷歌發(fā)布新型AI模型Genie

近日，谷歌推出了一款革命性的AI模型——Genie。這款模型能夠?qū)⒑?jiǎn)單的文本提示、草圖或初步想法迅速轉(zhuǎn)化為一個(gè)可以互動(dòng)和游戲的虛擬世界。這一突破性的技術(shù)無(wú)疑將改變?nèi)藗儎?chuàng)建和體驗(yàn)虛擬世界的方式。

發(fā)表于 02-28 10:05 ?679次閱讀

谷歌交互世界模型重磅發(fā)布

谷歌模型

北京中科同志科技股份有限公司
發(fā)布于 :2024年02月28日 09:13:06

N9H20 GPIO上電竟然是高電平，有沒(méi)有辦法解決？

一直很納悶，GPIO上電竟然是高電平。有沒(méi)有辦法解決，是不是要改動(dòng)啟動(dòng)程序才能解決問(wèn)題？

發(fā)表于 01-17 08:27

TooliP - 智能專利文件翻譯工具，節(jié)省80%翻譯時(shí)間

在面對(duì)專利文件的獨(dú)特要求，如高度嚴(yán)謹(jǐn)?shù)男g(shù)語(yǔ)和精準(zhǔn)度時(shí)，其他普通翻譯工具往往顯得乏力。TooliP賦予用戶簡(jiǎn)化流程并顯著節(jié)約時(shí)間的機(jī)會(huì)，平均能節(jié)省約80%的翻譯時(shí)間。

發(fā)表于 12-20 14:48 ?936次閱讀

萬(wàn)萬(wàn)沒(méi)想到，二極管竟然還可以這樣用？

萬(wàn)萬(wàn)沒(méi)想到，二極管竟然還可以這樣用？

發(fā)表于 12-15 09:28 ?294次閱讀

你不知道的FPC，它的發(fā)展史竟然是這樣的！

你不知道的FPC，它的發(fā)展史竟然是這樣的！

發(fā)表于 11-15 10:48 ?1055次閱讀

搜索歷史

谷歌翻譯竟然預(yù)言世界末日?

評(píng)論

阿里國(guó)際發(fā)布翻譯大模型Marco

使用邏輯和翻譯優(yōu)化車(chē)身控制模塊（BCM）應(yīng)用說(shuō)明

英特爾銳炫顯卡助力游戲體驗(yàn)升級(jí)

超ChatGPT-4o，國(guó)產(chǎn)大模型竟然更懂翻譯，8款大模型深度測(cè)評(píng)｜AI 橫評(píng)

谷歌發(fā)布全新AI基礎(chǔ)世界模型Genie

谷歌發(fā)布全新AI模型Genie

谷歌發(fā)布基礎(chǔ)世界模型Genie，世界模型領(lǐng)域競(jìng)爭(zhēng)升溫

谷歌發(fā)布AI基礎(chǔ)世界模型Genie

谷歌DeepMind重磅發(fā)布了基礎(chǔ)世界模型：Genie（精靈）

谷歌發(fā)布新型AI模型Genie

谷歌交互世界模型重磅發(fā)布

N9H20 GPIO上電竟然是高電平，有沒(méi)有辦法解決？

TooliP - 智能專利文件翻譯工具，節(jié)省80%翻譯時(shí)間

萬(wàn)萬(wàn)沒(méi)想到，二極管竟然還可以這樣用？

你不知道的FPC，它的發(fā)展史竟然是這樣的！