0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何為Google翻譯上的性別中性詞提供女性化和男性化兩種翻譯結(jié)果的技術(shù)原理

電子工程師 ? 來源:lq ? 2018-12-12 09:44 ? 次閱讀

如何消除 AI 帶來的性別偏見是個令人頭疼的問題,那究竟有沒有方法去解決?

12 月 6 日,Google 宣布他們邁出了減少 Google 翻譯中性別偏見的第一步,并且還詳細介紹了如何為 Google 翻譯上的性別中性詞提供女性化和男性化兩種翻譯結(jié)果的技術(shù)原理。

過去幾年,Google 翻譯通過使用基于端到端的神經(jīng)網(wǎng)絡系統(tǒng)大大提高了翻譯質(zhì)量,但與此同時,模型的翻譯結(jié)果呈現(xiàn)出了社會偏見,尤其是性別偏見。具體而言,由于 Google 翻譯的結(jié)果一直都是從網(wǎng)上數(shù)以億計的已翻譯數(shù)據(jù)中學習得到,這造成的后果是,即使翻譯結(jié)果可能具有女性化或男性化形式的傾向,但它也只為查詢提供一種翻譯。因而,這無可避免地復制了已有的性別偏見。例如,像“強壯”或“醫(yī)生”這樣的詞語,它會生成偏向于男性化的翻譯結(jié)果,而對于“護士”或“美麗”等詞匯,則會生成偏向于女性化的翻譯。

現(xiàn)在,Google 翻譯解決了上述問題。當你把諸如“外科醫(yī)生”這樣的單字從英語翻譯成法語、意大利語、葡萄牙語或西班牙語時,會得到的男性化和女性化的兩種翻譯結(jié)果。另外,當把短語和句子從土耳其語翻譯成英語時,你也會得到這兩類翻譯,比如你用土耳其語輸入“o bir doktor”,就會得到“she is a doctor”和“he is a doctor”這兩種按性別翻譯的結(jié)果。

Google 翻譯中有特定性別的翻譯

Google 團隊是如何做的?

要知道,支持單字查詢的特定性別翻譯涉及到用性別屬性豐富 Google 的底層詞庫。支持較長(短語和句子)查詢的性別翻譯尤其具有挑戰(zhàn)性,這甚至需要對翻譯框架進行部分重構(gòu)。對于這些較長的查詢,他們最初將重點放在從土耳其語到英文的翻譯上。總體而言,他們制訂了三步法來解決土耳其語中性別中立查詢的問題,即同時提供英文的男性化和女性化翻譯結(jié)果。

檢測性別中立查詢

許多土耳其語中提到人的句子都是性別中立的,但并不是全部都這樣。檢測哪些查詢符合特定性別的翻譯是一個難題,由于土耳其語在形態(tài)學上的很復雜,這意味著指代一個人可以是明確的性別中立代詞(例如 O,Ona)或隱式編碼。例如,“Biliyor mu?”沒有明確的性別中立代名詞,可以翻譯為“她知道嗎?”或“他知道嗎?”這種復雜性導致我們不能使用簡單的性別中性代詞列表來檢測性別中立的土耳其語查詢,另外我們還需要一個機器學習系統(tǒng)。Google 團隊估計大約有 10% 的土耳其語的翻譯查詢含糊不清,能同時符合女性化和男性化翻譯的條件。

為了檢測這些查詢,他們使用了最先進的文本分類算法(與他們的云自然語言 API 中使用的算法相同)來構(gòu)建一個系統(tǒng),該系統(tǒng)能夠檢測給定的土耳其語查詢何時是性別中立的。這就導致在翻譯前新增了一個步驟,所以他們必須平衡模型在延遲時的復雜性。Google 團隊對數(shù)千個土耳其人進行系統(tǒng)培訓,要求這些人判斷出一個給定的例子是否是性別中立的。而他們最終的分類系統(tǒng)是卷積神經(jīng)網(wǎng)絡,以此可以準確檢測出需要按性別翻譯的查詢。

生成特定性別翻譯

隨后,Google 團隊增強了基礎神經(jīng)機器翻譯(NMT)系統(tǒng),以便在需要時生成女性化和男性化翻譯。當沒有要求區(qū)分性別時,訓練模型生成的是默認翻譯。這主要包括:

識別并將平行訓練數(shù)據(jù)劃分為具有女性化詞語、男性化詞語和性別不明詞語。

在句子的開頭添加一個新增的輸入標記,以指定要翻譯的所需性別,類似于已構(gòu)建的多語言 NMT 系統(tǒng)的方式:

<2MALE> O bir doktor→他是一名醫(yī)生

<2FEMALE> O bir doktor→她是一名醫(yī)生

訓練增強的 NMT 模型對女性、男性和性別中立數(shù)據(jù)源的影響。他們對這些來源進行了各種混合比試驗,使模型在這三個任務中的表現(xiàn)同樣出色。

如果確定用戶查詢是性別中立的,他們會在翻譯請求中添加性別前綴。對于這些要求,他們的最終 NMT 模型可以在 99% 情況下生成可靠的女性化和男性化性別的翻譯結(jié)果。此外,系統(tǒng)在沒有性別前綴的查詢中還能保持翻譯質(zhì)量。

檢查準確性

最后的一個步驟決定是否顯示特定性別的翻譯結(jié)果。由于產(chǎn)生男性化翻譯的訓練數(shù)據(jù)與產(chǎn)生女性化翻譯的訓練數(shù)據(jù)不同,因此在與性別無關的兩種翻譯間可能存在差異。如果確定特定性別的翻譯質(zhì)量低,則只顯示單一的默認翻譯。為了確定特定性別的句子翻譯質(zhì)量,他們進行以下驗證:

要求的女性翻譯是女性化的;

要求的男性化翻譯是男性化的;

除了與性別相關的變化,如果女性化和男性化翻譯完全相同,即使翻譯結(jié)果間的措辭發(fā)生微小變化也會被系統(tǒng)過濾掉。

男性化和女性化翻譯僅在性別方面有所不同,即“he”和“his”與“she”和“her”。因此,他們展示了特定性別的翻譯。底部:男性化和女性化翻譯在性別方面有所不同,即“he”與“she”。但是,從“really”到“actually”的變化與性別無關。因此,系統(tǒng)將過濾特定性別的翻譯并顯示默認翻譯結(jié)果。

如果將所有內(nèi)容放在一起,輸入句子首先會通過分類器,分類器檢測它們是否可以進行特定性別翻譯。如果分類器說“是”,系統(tǒng)則向增強型 NMT 模型發(fā)送三個請求:女性化翻譯請求、男性化翻譯請求和性別中立翻譯請求。最后一步考慮了所有的三個答案,并決定是否顯示特定性別翻譯或單個默認翻譯。Google 團隊認為,這一步仍然相當保守,為了最大限度提高所顯示的特定性別的翻譯質(zhì)量,因此系統(tǒng)的整體召回率僅為 60% 左右。

對 Google來說,這只是他們解決機器翻譯系統(tǒng)中性別偏見的第一步,未來,他們計劃將特定性別的翻譯擴展到更多語言,并解決自動完成查詢等功能中的性別偏見問題。此外,他們已經(jīng)在考慮如何在翻譯中解決非二元性別的問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1748

    瀏覽量

    57187
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4717

    瀏覽量

    100009
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14837

原文標題:“男醫(yī)生,女護士?”消除偏見,Google有大招

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    用邏輯和翻譯用例優(yōu)化資產(chǎn)跟蹤器

    電子發(fā)燒友網(wǎng)站提供《用邏輯和翻譯用例優(yōu)化資產(chǎn)跟蹤器.pdf》資料免費下載
    發(fā)表于 09-21 11:24 ?0次下載
    用邏輯和<b class='flag-5'>翻譯</b>用例優(yōu)化資產(chǎn)跟蹤器

    使用邏輯和翻譯優(yōu)化車身控制模塊(BCM)應用說明

    電子發(fā)燒友網(wǎng)站提供《使用邏輯和翻譯優(yōu)化車身控制模塊(BCM)應用說明.pdf》資料免費下載
    發(fā)表于 09-11 11:30 ?0次下載
    使用邏輯和<b class='flag-5'>翻譯</b>優(yōu)化車身控制模塊(BCM)應用說明

    接地保護分為哪兩種方式

    接地保護是電氣工程中非常重要的一安全措施,其目的是確保電氣設備和系統(tǒng)在發(fā)生故障時能夠安全地將電流導向地面,從而保護人身安全和設備安全。接地保護主要分為兩種方式:工作接地和保護接地。以下是對這兩種
    的頭像 發(fā)表于 08-05 10:24 ?451次閱讀

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領域,DeepL再次以其創(chuàng)新實力引領潮流,宣布成功推出新一代面向翻譯與編輯應用的大型語言模型。這一里程碑式的進展,不僅鞏固了DeepL作為頂尖語言人工智能公司的地位,更標志著機器翻譯技術(shù)向更高質(zhì)量、更智能
    的頭像 發(fā)表于 07-19 15:56 ?475次閱讀

    DeepL 推出下一代大型語言模型(&quot;LLM&quot;),翻譯質(zhì)量超越競爭對手

    和編輯打造的高度專業(yè)的 LLM 技術(shù)提供支持。此次發(fā)布是 DeepL 企業(yè)語言人工智能平臺的一項重大突破,為翻譯質(zhì)量和性能樹立了新的行業(yè)標準。 新的語言模式是三大發(fā)展的
    的頭像 發(fā)表于 07-18 09:29 ?273次閱讀

    超ChatGPT-4o,國產(chǎn)大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    、速度慢、費用高且難以準確理解上下文”的問題。相比之下,AI大模型憑借其強大的學習能力和適應性,在翻譯質(zhì)量、效率、上下文理解和多語言支持等方面表現(xiàn)出色,提供了更加
    的頭像 發(fā)表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產(chǎn)大模型竟然更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|AI 橫評

    開源項目!設計一款智能手語翻譯眼鏡

    手語翻譯的依賴。 這款眼鏡的設計既實用又低調(diào),方便日常佩戴,能夠無縫融入用戶的日常生活中,讓使用者能夠輕松地與不懂手語的人士溝通。它的亮點在于利用人工智能技術(shù)檢測手勢并進行實時翻譯,不僅打破了交流障礙
    發(fā)表于 05-20 15:59

    NXT4559SIM卡接口級翻譯器產(chǎn)品介紹

    電子發(fā)燒友網(wǎng)站提供《NXT4559SIM卡接口級翻譯器產(chǎn)品介紹.pdf》資料免費下載
    發(fā)表于 01-03 16:30 ?0次下載
    NXT4559SIM卡接口級<b class='flag-5'>翻譯</b>器產(chǎn)品介紹

    兩種仿真軟件的仿真結(jié)果有差異嗎

    兩種仿真軟件的仿真結(jié)果在某些情況下可能存在差異。具體來說,仿真軟件是通過模擬現(xiàn)實世界中的某個系統(tǒng)或過程來產(chǎn)生結(jié)果的工具。不同的仿真軟件采用不同的算法和模型,所以在模擬同一系統(tǒng)或過程時,可能會
    的頭像 發(fā)表于 12-28 15:37 ?886次閱讀

    TooliP - 智能專利文件翻譯工具,節(jié)省80%翻譯時間

    在面對專利文件的獨特要求,如高度嚴謹?shù)男g(shù)語和精準度時,其他普通翻譯工具往往顯得乏力。TooliP賦予用戶簡化流程并顯著節(jié)約時間的機會,平均能節(jié)省約80%的翻譯時間。
    的頭像 發(fā)表于 12-20 14:48 ?801次閱讀

    Micro OLED和Micro LED兩種顯示技術(shù)有哪些不同?

    Micro OLED和Micro LED兩種顯示技術(shù)有哪些不同? Micro OLED和Micro LED是兩種不同的顯示技術(shù),它們在構(gòu)造、工作原理以及應用領域等方面存在一些明顯的區(qū)別
    的頭像 發(fā)表于 12-11 14:26 ?6164次閱讀

    redis兩種持久方式的區(qū)別

    的完整性和一致性。 Redis提供兩種持久方式:RDB(Redis Database)和AOF(Append Only File)。這兩種方式各有優(yōu)劣,下面我們將詳細介紹它們的區(qū)別
    的頭像 發(fā)表于 12-04 11:12 ?429次閱讀

    教你Python自制屏幕翻譯工具

    1. 場景 大家如果平常遇到不認識的英文,相信大部分的人都會復制內(nèi)容后,使用翻譯軟件,或者拷貝到網(wǎng)站上去執(zhí)行翻譯。 當然,對于 IDE、瀏覽器可以裝一些插件來翻譯,有道也有劃
    的頭像 發(fā)表于 11-02 16:02 ?581次閱讀
    教你Python自制屏幕<b class='flag-5'>翻譯</b>工具

    開放二進制翻譯聯(lián)盟,推動RISC-V實現(xiàn)跨架構(gòu)應用運行

    電子發(fā)燒友網(wǎng)報道(文/周凱揚)在今年的RISC-V中國峰會上,RISC-V國際基金會的技術(shù)指導委員會副主席Philipp Tomsich發(fā)表了《通過二進制翻譯統(tǒng)一RISC-V》的演講。在演講中,他也
    的頭像 發(fā)表于 10-17 01:18 ?1765次閱讀

    仿真人類的微軟AI翻譯系統(tǒng)

    從歷史上看,曾經(jīng)主流的機器學習技術(shù)在行業(yè)中應用是統(tǒng)計機器翻譯 (SMT)。SMT 使用先進的統(tǒng)計分析,從一句話中上下文的幾個中來估計最佳可能的翻譯。SMT自20 世紀中期以來的為所有
    的頭像 發(fā)表于 10-11 15:27 ?824次閱讀