0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google翻譯出現“水逆”,是員工的惡作???

電子工程師 ? 來源:未知 ? 作者:胡薇 ? 2018-07-31 08:22 ? 次閱讀

最近,一些網友使用的 Google 翻譯“水逆”了。

在Reddit上,有網友截圖顯示,在 Google 翻譯中當某些語種的詞匯翻譯成英語時,輸出的卻是毫無由頭的宗教語言。比如鍵入 19 個 dog,將其從毛利語翻譯成英語時,輸出的卻是“距離十二點的世界末日時鐘還差三分鐘,我們正在經歷世界上的人物和戲劇性發(fā)展,這預示著我們正在無線接近末日,耶穌回歸時日將近?!?/p>

但這只是眾多無厘頭翻譯的其中之一。還有網友放出了很多“不詳”的翻譯內容。例如,在索馬里語中,“ag”這個詞被翻譯成了“Gershon 的兒子(sons of Gershon)”,“耶和華的名字(name of the LORD)”,并且會引用圣經里的“cubits”(計量單位)和Deuteronomy(《申命記》)。

有網友留言稱其為“惡魔”或者“幽靈”,猜測這是 Google 員工的惡作劇,也有人建議設置“建議編輯”功能,讓用戶可以進行修改為正確內容。Google 發(fā)言人 Justin Burr 在一封電子郵件中稱:這只是一個將無意義的話語輸入系統(tǒng)然后產生無意義輸出的功能。

不過 Justin Burr 并未透露 Google 翻譯使用的訓練數據是否有宗教文本。但上述詭異輸出內容很可能已被 Google 翻譯修正,AI科技大本營編輯輸入上述相同內容后也并未發(fā)現異常。

但人們對探討 Google 翻譯出現如此結果的背后原因熱情不減,更專業(yè)的聲音在不斷發(fā)出。哈佛大學助理教授 Andrew Rush 認為,這很可能與 2 年前 Google 翻譯技術的改變有關,它目前使用了的是“神經機器翻譯(NMT)”的技術。

BBN Technologies 的科學家 Sean Colbath 從事機器翻譯工作,他同意奇怪的輸出可能是由于 Google 翻譯的算法試圖在混亂中尋找秩序。他還指出,索馬里語、夏威夷語以及毛利語等產生最奇怪結果的語言,它們用于訓練的翻譯文本比英語或漢語等更廣泛使用的語言要少很多。所以他認為,Google 可能會使用像圣經等被翻譯成多種語言的宗教文本來訓練小語種的模型,這也解釋了為什么會最終輸出宗教內容。

前 Google 員工 Delip Rao 在其博客上則指出,當談到平行語料庫時,宗教文本是最低層次的共同標準資源,像“圣經”和“古蘭經”這樣的主要宗教文本有各種語言版本。

比如,如果你為政府部署一個 Urdu-to-English (烏爾都語——英語)的機器翻譯系統(tǒng),那么很容易將一堆已經翻譯成烏爾都語的宗教文本組合在一起。因此,可以合理地假設 Google 的平行語料庫中包含所有的宗教文本,而對于許多資源不足的語言,它們不只是訓練語料庫中微不足道的部分。

那么,為什么我們看到 Google 翻譯會輸出宗教文本,尤其是以那些資源不足的語言對作為輸入時 ,如上文中的毛利語?一種解釋是,因為宗教文本包含許多只會在宗教文本中出現的罕見詞,而這些詞在其他任何地方都不會出現。因此,罕見的詞語可能會觸發(fā)解碼器中的宗教情境,尤其是當這些文本的比例很大時。另一種解釋是該模型對輸入的內容沒有太多的統(tǒng)計支持,而輸出也只是解碼器模型的無意義采樣。

更重要的是,他想要指出現在的神經機器翻譯 (NMT) 真正存在的問題。

他特意總結了2017 年 Philipp Koehn 和 Rebecca Knowles 撰寫的一篇論文,內容如下:

1.NMT 在域外數據上表現很差:像 Google 翻譯這樣的通用 MT 系統(tǒng)在法律或金融等專業(yè)領域的表現尤其糟糕。此外,與基于短語的翻譯系統(tǒng)等傳統(tǒng)方法相比,NMT 系統(tǒng)的效果更差。到底有多糟糕?如下圖所示,其中非對角線元素表示域外結果,綠色是 NMT 的結果,藍色是基于短語的翻譯系統(tǒng)的結果。

MT 系統(tǒng)在一個域 (行) 上訓練并在另一個域 (列) 上進行測試。藍色表示基于短語翻譯系統(tǒng)的表現,而綠色表示 NMT 的表現。

2.NMT 在小數據集上的表現很差:雖然這算是機器學習的通病,但這個問題在 NMT 中體現尤其明顯。相比基于短語的 MT 系統(tǒng),雖然 NMT 隨著數據量的增加能進行更好地概括 ,但在小數據量情況下 NMT 的表現確實更糟糕。

引用作者的話來說,“在資源較少的情況下,NMT 會產生與輸入無關的輸出,盡管這些輸出是流暢的?!边@可能也是 Motherboard 那篇文章中探討 NMT 表現怪異的另一個原因。

3.Subword NMT 在罕見詞匯上的表現很糟糕:雖然它的表現仍然要好過基于短語的翻譯系統(tǒng),但對于罕見或未見過的詞語,NMT 的表現不佳。例如,那些系統(tǒng)只觀察到一次的單詞就會被 drop 掉。像 byte-pair encoding 這樣的技術對解決這個問題有所幫助,但我們有必要對此進行更詳細的研究。

我們可以看到圖中像土耳其語 (Turkish) 這樣的語言,遇到詞的變形形式是很常見的。

4.長句:以長句編碼并產生長句,這仍然是一個開放的、值得研究的話題。在法律等領域,冗長復雜的句子是很常見的。MT 系統(tǒng)的性能將隨句子長度而降級,而 NMT 系統(tǒng)亦是如此。引入注意力機制可能會有所幫助,但問題還遠未解決。

5.注意力機制 != 對齊:這是一個非常微妙但又很重要的問題。在傳統(tǒng)的 SMT 系統(tǒng)中,如基于短語的翻譯系統(tǒng),語句對齊能夠提供有用的調試信息來檢查模型。但即便論文中經常將軟注意力機制視為“軟對齊”,注意力機制并不是傳統(tǒng)意義上的對齊。在 NMT 系統(tǒng)中,除了源域中的動詞外,目標中的動詞也可以作為主語和賓語。

6.難以控制翻譯質量:每個單詞都有多種翻譯,并且典型的 MT 系統(tǒng)對源句的翻譯好于lattice of possible translations。為了保持后者的大小合理,我們使用集束搜索 (beam search)。通過改變波束的寬度,來找到低概率但正確的翻譯。而對于 NMT 系統(tǒng),調整集束尺寸似乎沒有任何不利影響。

當你擁有大量數據時,NMT 系統(tǒng)的翻譯性能依然還是難以被擊敗的,而且它們仍然在大量地被使用。關于通常我們所說的神經網絡模型的黑盒性,也有待進一步說明,如今的 NMT 模型 (基于 LSTM 和 Transformer 模型) 也都受此影響。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1754

    瀏覽量

    57380
  • 翻譯
    +關注

    關注

    0

    文章

    47

    瀏覽量

    10743

原文標題:輸出不詳宗教預言,Google翻譯為何“水逆”了?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ida反編譯出來代碼能直接用嗎

    IDA反編譯出來的代碼通常 不能直接使用 ,這主要基于以下幾個方面的原因: 一、代碼的不完整性 IDA反編譯生成的代碼可能缺少原始源代碼中的某些關鍵信息。在編譯過程中,編譯器會優(yōu)化代碼,剔除或優(yōu)化掉
    的頭像 發(fā)表于 09-02 10:55 ?433次閱讀

    推挽變電路與橋式變電路的區(qū)別

    推挽變電路與橋式變電路是兩種常見的變電路形式,它們在結構、工作原理、應用領域等方面存在一些區(qū)別。以下是對這兩種變電路的比較: 結構區(qū)別 推挽
    的頭像 發(fā)表于 08-15 17:14 ?914次閱讀

    有源變電路和無源變電路的區(qū)別

    定義: 有源變電路:有源變電路是指逆變器在變過程中需要消耗外部電源的電路。它通常使用直流電源(如電池)作為輸入,將直流電轉換為交流電。 無源變電路:無源
    的頭像 發(fā)表于 08-02 17:01 ?1568次閱讀

    使用opa221采樣變輸出交流電壓出現失真怎么解決?

    使用28335做為變電路的主控制芯片,測試ADC輸出交流電壓采樣調理電路出現底部削平的現象,輸入為0到220交流,測量運放兩端發(fā)現小電壓輸入時運放輸出看起來還沒有削(也可能削了不明顯),大電壓
    發(fā)表于 07-31 06:44

    單相變電路的類型有哪些

    開關器件的類型分類 1.1.1 晶閘管變電路 晶閘管變電路是最早出現變電路之一,其主要特點是結構簡單、成本低廉,但存在開關速度慢、效率低、諧波含量高等缺點。 1.1.2 晶體管
    的頭像 發(fā)表于 07-08 09:21 ?453次閱讀

    使用google-translate和wwe合并后無法使用google-tts怎么解決?

    ,在使用喚醒詞喚醒后,我想讓他使用google-tts說一句話,但是出現以下錯誤Code: Select all I (16188) wwe_example: rec_engine_cb
    發(fā)表于 06-28 06:05

    **Error! Class \'rom\' [group ] starting 8080 has exceeded limit,編譯出現這個錯誤是什么意思?

    **Error! Class \'rom\' [group ] starting 8080 has exceeded limit of BFFF by 7!請教各位老師,編譯出現這個錯誤提示是什么意思,謝謝
    發(fā)表于 05-17 06:14

    STM8編譯出現的兩個錯誤求解

    Low density devices */ /* #define STM8S903 *//*!< STM8S Low density devices */ 編譯出現兩個錯誤
    發(fā)表于 04-30 06:18

    谷歌解雇28名員工,因參與云合同抗議

    Google表示,由于員工消極抵抗其與以色列政府簽署的云計算合同,已經解雇了28位員工。該公司在聲明中強調,抵制行為嚴重干擾了正常工作秩序,并且違反了其企業(yè)政策。
    的頭像 發(fā)表于 04-19 12:17 ?346次閱讀

    變電路的工作原理 變電路的作用與分類

    變電路的工作原理 變電路的作用與分類 變電路是一種將直流電轉換為交流電的電路,其工作原理和作用可以根據具體分類有所不同。下面將詳盡、詳實、細致地介紹變電路的工作原理、作用和分類
    的頭像 發(fā)表于 04-08 18:20 ?4640次閱讀

    STM32cubeMX設置USB編譯出現Undefined symbol錯誤的原因?

    STM32cubeMX 設置USB 編譯出現Undefined symbol 錯誤。 勾選STM32CUBEMX中的USB_device 設置FS IP的VPC,默認配置,用keil軟件編譯就出現以下截圖報錯。
    發(fā)表于 04-01 07:44

    光纜峰是什么意思?

    光纜峰是指在光纖通信中由于光纖與外部環(huán)境發(fā)生的物理變化或損壞,導致光信號傳輸中出現的信號衰減或損失的現象。光纜峰可能由多種原因引起,其中一種主要的原因是光纖受到的影響。 光纖通常
    的頭像 發(fā)表于 03-21 10:25 ?601次閱讀

    谷歌廣告團隊裁員數百人,員工轉向中等級別客戶服務

    目前有多位相關員工透露,谷歌正逐步將更多員工從大型客戶銷售團隊(LCS)調配至服務中等規(guī)??蛻舻?Google 客戶解決方案團隊(GCS)。同時,谷歌也嘗試借助人工智能技術讓性能優(yōu)化系統(tǒng)等產品實現更多自動化操作。
    的頭像 發(fā)表于 01-17 10:42 ?670次閱讀

    AI數字員工出現:不是取代,而是讓技術更好地服務于人類

    在人工智能技術迅猛發(fā)展的今天,AI數字員工出現成為了企業(yè)和組織關注的熱點。與傳統(tǒng)觀念中的機器人或自動化設備不同,AI數字員工是集成了最新AI技術,如自然語言處理、機器學習和情感分析等功能的虛擬助手
    的頭像 發(fā)表于 12-29 10:27 ?392次閱讀
    AI數字<b class='flag-5'>員工</b>的<b class='flag-5'>出現</b>:不是取代,而是讓技術更好地服務于人類

    抓住最后機會,探索更多 Google DevFest 精彩內容!

    活動。DevFest 為參與者提供一個與 Google 員工、GDE 谷歌開發(fā)者專家、社區(qū) KOL、行業(yè)開發(fā)者和問題解決者面對面交流的機會。 今年,中國區(qū)的 DevFest 2023 系列活動已如火如荼地進行中
    的頭像 發(fā)表于 11-27 18:40 ?534次閱讀