0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

跨越專業(yè)翻譯的語言之墻:百度翻譯的技術(shù)攀登

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2022-12-06 09:26 ? 次閱讀

作為一個科技從業(yè)者,閱讀AI頂會的最新論文、瀏覽國內(nèi)外創(chuàng)新的最新動向,是我工作的重要部分。平時接觸的開發(fā)者、科學家、企業(yè)研究人員等,工作生活中也涉及大量專業(yè)閱讀。

于是乎,我就會經(jīng)常聽到這樣的抱怨:

PDF格式的論文,很多翻譯軟件需要手動復制粘貼,效率還不如直接查字典;

不動腦子按段落甚至句子直譯,信達雅一個都沒有,機翻完我還要花時間二次review;

海外開發(fā)社區(qū)的技術(shù)文檔專業(yè)詞匯太多,翻譯得不準,好幾天的代碼都白寫了……

這可能是AI技術(shù)里非常容易讓人迷惑的地方。近幾年隨著AI技術(shù)快速進步,機器翻譯水平也大幅提升,結(jié)果一遇到外文文獻、外刊投稿、辦公文檔、商業(yè)報告、海外網(wǎng)站技術(shù)文檔之類的專業(yè)翻譯需求,很多產(chǎn)品還是不能滿足。

這些問題說明,總體可讀可懂,滿足出國旅游、購物娛樂等日常溝通的場景,只是機器翻譯的基本功能。進一步的市場需求,是深度專業(yè)內(nèi)容的跨語言交流,讓商業(yè)、科研、技術(shù)等專業(yè)信息可以實現(xiàn)無縫對接。

跨越這堵語言之墻,也成為一場NLP領(lǐng)域的全球競賽。一直深耕機器翻譯的百度翻譯團隊,從來沒有停止過攀登的腳步。

我們從機器翻譯的新技術(shù)動向說起,聊聊百度給機器翻譯帶來的新可能。

機器翻譯的技術(shù)攀登:百度引領(lǐng)NMT革新

跨越語言之墻還需要哪些技術(shù)突破?想要回答這個問題,有必要先回答:機器翻譯今天發(fā)展到哪一步了。

過去幾十年間,人們一直在探索如何使得機器翻譯達到人類的翻譯水平,翻譯方法不斷迭代?;谝?guī)則的機器翻譯,依靠人工編纂的雙語詞典和專家總結(jié)的規(guī)則進行翻譯;基于實例的機器翻譯,從雙語對照的實例庫中選擇與原文相似度高的實例,通過模仿和修改進行翻譯;基于統(tǒng)計的機器翻譯,對翻譯過程進行數(shù)學建模,并從大量的訓練數(shù)據(jù)中自動學習翻譯知識。

變革發(fā)生在2014年,通過循環(huán)神經(jīng)網(wǎng)絡(RNN)來對語言向量進行編碼解碼,并且使用長短期記憶網(wǎng)絡(LSTM)來增強長句翻譯能力的神經(jīng)機器翻譯(NMT),為機器翻譯領(lǐng)域帶來新的研發(fā)范式。百度、谷歌、微軟等一批NLP領(lǐng)域的優(yōu)等生推進深度學習在機器翻譯領(lǐng)域的研發(fā)和應用,百度翻譯在2015年發(fā)布了全球首個互聯(lián)網(wǎng)NMT系統(tǒng),領(lǐng)先谷歌1年多?,F(xiàn)在,大家用翻譯軟件進行日常交流、旅游商務等活動,已經(jīng)基本沒有問題了。

而專業(yè)領(lǐng)域的翻譯想要令人驚喜的進展,總的來說需要做到兩件事:

一是技術(shù)突破。推動機器翻譯不斷接近專業(yè)翻譯能力。頭部廠商主要從幾個方面努力:1. 預訓練大模型,例如文心、GPT-3、BERT;2. 多語言統(tǒng)一建模和翻譯;3. 面向垂直領(lǐng)域的高精度翻譯模型。其中,百度作為更早進入NMT時代的科技企業(yè),就在機器翻譯技術(shù)上取得了國際領(lǐng)先的成果。2020 年,咨詢機構(gòu)Gartner在 《Hype Cycle for Natural Language Technologies》報告中,就將百度翻譯列為神經(jīng)網(wǎng)絡機器翻譯標桿機構(gòu)。

二是產(chǎn)品設計。技術(shù)有所突破,還要通過成熟的產(chǎn)品設計和應用體驗,讓用戶感知到專業(yè)機器翻譯的價值。一些機器翻譯產(chǎn)品可能技術(shù)很強,但由技術(shù)人員來主導產(chǎn)品設計,導致用戶體驗很糟糕。在這方面,具備互聯(lián)網(wǎng)產(chǎn)品設計相關(guān)經(jīng)驗的廠商,自然能夠更好地實現(xiàn)技術(shù)落地。比如百度翻譯就打造了非常豐富的產(chǎn)品矩陣,支持PC端、移動端等各類終端設備,面向C端、B端的多種應用;支持文本、文檔、圖片、語音等多模態(tài)翻譯,全方位滿足各種翻譯需求。百度翻譯的產(chǎn)品優(yōu)勢,讓普通用戶可以低門檻、更便捷地用上專業(yè)機器翻譯能力,目前日均響應的翻譯請求已達千億字符

從這個角度來看,百度翻譯是國內(nèi)少有的,能夠同時占據(jù)技術(shù)和產(chǎn)品兩個機器翻譯高地的科技企業(yè)。那么,百度翻譯究竟是如何翻越專業(yè)翻譯的語言之墻?

聳立的語言墻:機器翻譯進入專業(yè)領(lǐng)域的三道門檻

你可能會問,機器翻譯都搞了快七十年,怎么專業(yè)領(lǐng)域的語言之墻依舊沒有被攻克?

專業(yè)信息、學術(shù)資源、商業(yè)文件等翻譯需求,是一塊巨大的商業(yè)蛋糕,同時也是從未被徹底解決的痛點。這是因為專業(yè)領(lǐng)域的翻譯,存在“三高”的要求:內(nèi)容安全要求高、翻譯準確率要求高、翻譯效率與體驗要求高。

內(nèi)容安全要求高:專業(yè)文檔往往涉及到科研創(chuàng)新、商業(yè)往來等信息,翻譯過程中需要上傳到云端或軟件服務商的服務器進行操作,一旦硬件來源或軟件使用權(quán)受限,或者服務不穩(wěn)定,都會給專業(yè)用戶帶來麻煩和風險。

翻譯準確率要求高:信達雅,信(即翻譯準確率)排在第一位,專業(yè)翻譯中存在大量專業(yè)單詞、復雜長句子,容易出現(xiàn)歧義,軟件翻譯失之毫厘,內(nèi)容準確度就謬以千里。

翻譯效率與體驗要求高:翻譯軟件的效率、易用性,直接影響到用戶體驗。很多人可能有這樣的經(jīng)歷,有的軟件不支持整篇文檔翻譯,手動復制粘貼連分段都不準確,翻譯效果難以直視;有的PDF文檔翻譯成word后,原本的排版被打亂,還需要自己手動調(diào)整……這些都給用戶帶來了額外的負擔。

所以,我們就從安全可靠、效果、效率這三個方面,來評測一下百度翻譯的解決思路。

首先,安全可靠。

作為一名知識內(nèi)容生產(chǎn)者,文檔承載的是我安身立命之本,所以,數(shù)據(jù)安全幾乎是我是否使用一款翻譯工具的首要考量因素。同理,論文數(shù)據(jù)之于科研工作者、商業(yè)報告之于企業(yè)從業(yè)者、技術(shù)文檔之于工程人員,安全隱私都是至關(guān)重要的。

深度學習平臺是每個神經(jīng)網(wǎng)絡機器翻譯模型的底層技術(shù)框架,市面上相當一部分翻譯廠商的底層技術(shù)框架仍然使用TensorFlow(美國谷歌)和PyTorch(美國臉書)為代表的海外框架。非國產(chǎn)自研,可能在未來遭遇無硬件可搭載和無框架使用的窘境。

比如在使用海外平臺DeepL的過程中,我就會經(jīng)常遇到加載緩慢、連接不上的問題。海外翻譯軟件往往需要上傳到海外企業(yè)的服務器,比如DeepL上傳的文檔會被發(fā)送到美國的Adobe公司。

0a3e42787a2c4c3e8cbac2233560ce4a~tplv-tt-shrink:640:0.image

與之相比,國內(nèi)翻譯產(chǎn)品就不會遇到這個困擾。以百度翻譯為例,產(chǎn)品基于全面自研的飛槳深度學習框架,同時采用多種措施來保障數(shù)據(jù)安全,獲得ISO27001等多項國內(nèi)外權(quán)威信息安全管理認證。存儲前,會先進行安全的加密操作;數(shù)據(jù)傳輸中,采用安全傳輸層協(xié)議(TLS),保障保密性和數(shù)據(jù)完整性,并提供完備的密鑰管理機制和加密措施;用戶刪除數(shù)據(jù)后,后臺將同步刪除相關(guān)內(nèi)容,不會留存??傮w來說,在可靠性和安全性上更有保障。

第二,翻譯效果。

專業(yè)翻譯最終要靠結(jié)果的“信、達、雅”說話。包括專業(yè)術(shù)語翻譯是否準確,語序是否流暢連貫,一些特定文化背景的表達是否地道……

可以看到,百度翻譯通過多個專業(yè)領(lǐng)域模型,有效增強翻譯準確度。我們隨機選取了《自然》雜志的一篇生物領(lǐng)域論文《A pan-cancer compendium of chromosomal instability染色體不穩(wěn)定性的泛癌癥綱要》,選擇百度翻譯的“生物醫(yī)藥“模型后,結(jié)合上下文語義給出了準確的翻譯??梢钥吹?,生物醫(yī)藥這類充滿大量專業(yè)術(shù)語的領(lǐng)域,百度翻譯的結(jié)果并沒有讓人失望。

c00cdd27ce7f477cac8369465eef4bf5~tplv-tt-shrink:640:0.image

對于學術(shù)文章中復雜的長句子和特定格式,百度翻譯能夠識別論文格式中的各種基本要素,如正文、引用、尾注等,避免錯譯、漏譯。以這篇AAAI 2022的頂會論文《Meta-Learning for Online Update of Recommender Systems》為例,百度翻譯就準確保留了參考文獻引用信息,這對閱讀專業(yè)文獻非常有幫助。

3f5b2eef4aeb48ea8c548616da5681bf~tplv-tt-shrink:640:0.image

第三,翻譯效率。

專業(yè)領(lǐng)域的機器翻譯,用戶的一個關(guān)鍵痛點是:很多地方需要用戶“不厭其煩”地手動操作或反復修改。而擁有十多年翻譯產(chǎn)品經(jīng)驗的百度,自然也在應用能力上游刃有余。百度翻譯將這些“煩點”一一消解,提升翻譯效率和文檔的可讀性、易讀性,從而減少用戶手動調(diào)整、修改的麻煩,將時間精力放在更有創(chuàng)造力的事情上。

首先,百度翻譯支持多種格式文檔,一鍵上傳就能進行全篇翻譯。像PDF這種不能編輯的文檔,可以完整地保留樣式和排版,不需要用戶手動將文字復制粘貼到翻譯軟件中,并且提供整頁預覽模式、逐句對照模式等,不同需求的用戶可以自主選擇來提升效率。

比如下面這份《英國人工智能研發(fā)商業(yè)化和標準》,這類咨詢機構(gòu)的商業(yè)報告,是很多產(chǎn)業(yè)研究者、高校師生、政策制定者等工作學習中的參考讀物,快捷、高效地閱讀體驗,能夠幫大家節(jié)省不少時間。將PDF文件一鍵上傳到百度翻譯,就能快速得到準確地譯文,排版格式也與原文保持高度一致,大大方便了閱讀。

d1d0d8bb6c9e4f9aa9d5577785fa1ec9~tplv-tt-shrink:640:0.image

輸入數(shù)據(jù)的準確性對翻譯結(jié)果起到至關(guān)重要的影響,文本糾錯是機器翻譯的關(guān)鍵能力之一。專業(yè)領(lǐng)域容易遇到一些佶屈聱牙、拼寫復雜的專用術(shù)語、學術(shù)名詞等,百度翻譯的智能糾錯,可以對語句自動檢查、實時提示、自動糾錯,減少人工校驗成本。

此外,百度翻譯通過人機共譯智能增強,語料自動沉淀,機器自動學習,翻譯模型實時增強,逐漸縮小機器翻譯與理想譯文之間的差距,實現(xiàn)越翻越省力,真正提升效率。

英國詩人塞繆爾·約翰遜曾說過,語言是科學的唯一工具。整體來看,百度翻譯已經(jīng)在專業(yè)論文、學術(shù)文獻等領(lǐng)域,展現(xiàn)出了強大的翻譯能力,幫專業(yè)人士翻越了語言這堵高墻,把語言這個工具交到了每一個需要在專業(yè)領(lǐng)域跨語言協(xié)作的人手中。

翻山越嶺之后,語言墻背后的宏大場景

從百度翻譯的技術(shù)體系和產(chǎn)品設計中,可以看到,機器翻譯要進入專業(yè)領(lǐng)域,不光要有技術(shù),還要有較強的產(chǎn)品設計能力,考驗的是企業(yè)的綜合實力。機器翻譯進入專業(yè)領(lǐng)域,也推動翻譯應用來到了新的賽點。

重建巴別塔。專業(yè)領(lǐng)域的語言壁壘,為知識、信息、資源的流動樹立起極高的門檻,比如目前全球有六成以上各類文獻資料和科研論文都是用英文撰寫,其他語種也蘊含著大量的知識寶藏。越來越多的人使用百度翻譯來突破語言的阻礙,讓專業(yè)領(lǐng)域的協(xié)作沒有障礙,將大大促進全球的知識交流與傳播,支撐科技創(chuàng)新、實現(xiàn)知識公平。

重塑機翻格局。專業(yè)領(lǐng)域的機器翻譯,相比生活化場景,有著更高的壁壘與更強勁的需求,無論市場容量、付費意愿、付費潛力,以及用戶忠誠度,都是非常高的。百度翻譯憑借優(yōu)秀的專業(yè)翻譯能力,可以建立起差異化優(yōu)勢,進入商業(yè)化的良性循環(huán),在機器翻譯市場格局中進一步領(lǐng)先。

借助翻譯,人類社會從相互阻隔走向了相互交往。今天,世界科技、經(jīng)濟與文化更為頻繁地展開交流,面對浩如煙海的信息與知識,僅靠數(shù)量有限的專業(yè)翻譯人士,很難滿足大眾對專業(yè)翻譯的需求。幸好,機器翻譯開辟了一條新的跨語言溝通之路。七十年來,機器翻譯技術(shù)不斷迭代,有著旺盛的生命力,那是一代又一代技術(shù)人,在為重建巴別塔的理想而不斷努力。

隨著百度翻譯等產(chǎn)品推動機器翻譯向?qū)I(yè)領(lǐng)域不斷深入,人們可以展開更專業(yè)、更精深的跨語言交流,機器翻譯正成為助力全球交流的一股重要力量。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266228
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2234

    瀏覽量

    89840
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14837
  • NMT
    NMT
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    3613
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    76

    瀏覽量

    6855
收藏 人收藏

    評論

    相關(guān)推薦

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領(lǐng)域,DeepL再次以其創(chuàng)新實力引領(lǐng)潮流,宣布成功推出新一代面向翻譯與編輯應用的大型語言模型。這一里程碑式的進展,不僅鞏固了DeepL作為頂尖語言人工智能公司的地位
    的頭像 發(fā)表于 07-19 15:56 ?475次閱讀

    DeepL 推出下一代大型語言模型("LLM"),翻譯質(zhì)量超越競爭對手

    和編輯打造的高度專業(yè)化的 LLM 技術(shù)提供支持。此次發(fā)布是 DeepL 企業(yè)語言人工智能平臺的一項重大突破,為翻譯質(zhì)量和性能樹立了新的行業(yè)標準。 新的
    的頭像 發(fā)表于 07-18 09:29 ?273次閱讀

    百度申請文小言商標

    近日,百度在線網(wǎng)絡技術(shù)(北京)有限公司在知識產(chǎn)權(quán)領(lǐng)域有了新動作。據(jù)天眼查知識產(chǎn)權(quán)信息顯示,百度已申請多枚“文小言”商標,這些商標將涵蓋廣告銷售、網(wǎng)站服務、健身器材、機械設備等多個領(lǐng)域。
    的頭像 發(fā)表于 06-19 09:20 ?369次閱讀

    2024百度移動生態(tài)萬象大會:百度新搜索11%內(nèi)容已AI生成

    2024百度移動生態(tài)萬象大會:百度新搜索11%內(nèi)容已AI生成 今天2024百度移動生態(tài)萬象大會在江蘇蘇州舉辦,特別是AI搜索與百度文心一言的相關(guān)信息被市場極度關(guān)注,我們看到,在2024
    發(fā)表于 05-30 18:58 ?337次閱讀

    百度與特斯拉探討Robotaxi合作新機遇

    在特斯拉宣布計劃使用百度地圖提供的高精度地圖之后,百度與特斯拉之間的合作再度引起關(guān)注。百度自動駕駛技術(shù)部總經(jīng)理徐寶強近日透露,百度正積極考慮
    的頭像 發(fā)表于 05-24 10:20 ?340次閱讀

    PLC常用專業(yè)英文詞匯翻譯總結(jié)

    PLC編程中我們經(jīng)常會遇到一些專業(yè)英文詞匯,對于入門的學員來說過理解起來是非常困難的。本文總結(jié)了一些PLC常用專業(yè)英文詞匯,并做已翻譯。
    的頭像 發(fā)表于 03-19 11:40 ?2154次閱讀

    百度攜手三星,文心大模型日調(diào)用量破5000萬次

     值得一提的是,此前三星在其旗艦手機GalaxyS24系列新品發(fā)布會上宣布,與百度智能云達成AI生態(tài)戰(zhàn)略合作伙伴關(guān)系。據(jù)悉,GalaxyAI深度整合了來自文心大模型的多項能力,能夠?qū)崿F(xiàn)通話、翻譯等端側(cè)賦能功能,
    的頭像 發(fā)表于 02-29 10:22 ?538次閱讀

    百度搜索推出AI拜年新能力

    隨著人工智能技術(shù)的迅猛發(fā)展,百度搜索始終站在技術(shù)前沿,致力于為用戶提供更加智能化、便捷的服務。百度搜索重磅推出了AI拜年新能力,在春節(jié)期間,讓用戶能夠更加輕松地表達祝福、傳遞情感。
    的頭像 發(fā)表于 02-05 10:54 ?5944次閱讀

    百度智能云與三星Galaxy S24系列達成AI生態(tài)戰(zhàn)略協(xié)作

    據(jù)介紹,Galaxy AI項目深度集成百度文心大模型的多種功能,能實現(xiàn)諸如提升通話質(zhì)量、翻譯能力,以及運用生成式AI技術(shù)打造智能摘要、排版等創(chuàng)新功能。
    的頭像 發(fā)表于 01-26 09:29 ?455次閱讀

    百度搜索exgraph圖執(zhí)行引擎設計與實踐分享

    百度搜索exgraph圖執(zhí)行引擎設計重點分成三個部分:圖描述語言、圖執(zhí)行引擎、對接擴展。
    的頭像 發(fā)表于 01-16 10:27 ?407次閱讀
    <b class='flag-5'>百度</b>搜索exgraph圖執(zhí)行引擎設計與實踐分享

    TooliP - 智能專利文件翻譯工具,節(jié)省80%翻譯時間

    在面對專利文件的獨特要求,如高度嚴謹?shù)男g(shù)語和精準度時,其他普通翻譯工具往往顯得乏力。TooliP賦予用戶簡化流程并顯著節(jié)約時間的機會,平均能節(jié)省約80%的翻譯時間。
    的頭像 發(fā)表于 12-20 14:48 ?801次閱讀

    百度世界大會2023:大模型“重構(gòu)”智能汽車,百度Apollo發(fā)布多個高階智駕解決方案

    10月17日,百度世界大會2023在北京舉辦。會上,百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏表示,繼大語言模型重構(gòu)人類的信息世界之后,大模型還將走向多模態(tài),進一步重構(gòu)人類的物理世界,自動駕駛就是大模型
    的頭像 發(fā)表于 10-21 10:17 ?1544次閱讀
    <b class='flag-5'>百度</b>世界大會2023:大模型“重構(gòu)”智能汽車,<b class='flag-5'>百度</b>Apollo發(fā)布多個高階智駕解決方案

    百度世界2023看點 文心大模型4.0正式發(fā)布 百度文庫變身生產(chǎn)力工具

    百度世界2023看點 文心大模型4.0正式發(fā)布 百度文庫變身生產(chǎn)力工具 百度世界大會2023于10月17日,以“生成未來(PROMPT THE WORLD)”為主題在北京首鋼園舉辦。在在百度
    的頭像 發(fā)表于 10-17 18:49 ?1021次閱讀
    <b class='flag-5'>百度</b>世界2023看點 文心大模型4.0正式發(fā)布 <b class='flag-5'>百度</b>文庫變身生產(chǎn)力工具

    仿真人類的微軟AI翻譯系統(tǒng)

    從歷史上看,曾經(jīng)主流的機器學習技術(shù)在行業(yè)中應用是統(tǒng)計機器翻譯 (SMT)。SMT 使用先進的統(tǒng)計分析,從一句話中上下文的幾個詞中來估計最佳可能的翻譯。SMT自20 世紀中期以來的為所有主要翻譯
    的頭像 發(fā)表于 10-11 15:27 ?824次閱讀

    百度發(fā)布首個量子領(lǐng)域大模型及百度量子助手

    所長段潤堯帶來百度量子軟硬件和解決方案等方面的最新成果,重磅發(fā)布首個量子領(lǐng)域大模型,及百度量子助手和量子寫作助手兩大AI原生應用,加速量子技術(shù)與大模型深度融合。他還發(fā)布了量子領(lǐng)域大模型白皮書,展望量子領(lǐng)域大模型的未來發(fā)展趨勢和
    的頭像 發(fā)表于 09-26 09:53 ?700次閱讀