0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無法被AI識別翻譯的古老語言,將去何方?

如意 ? 來源:OFweek電子工程網(wǎng) ? 作者:學(xué)術(shù)頭條 ? 2020-10-26 11:14 ? 次閱讀

語言是文化的有機組成部分,也是文化的載體,世界文明的多樣性在很大程度上表現(xiàn)為世界語言的多樣性。而在 21 世紀(jì)的今天,語言學(xué)家們顯然已經(jīng)不滿足于傳統(tǒng)的、對已知語言的研究。相反,許多科學(xué)家開始利用計算機技術(shù),去探索已經(jīng)消失的、幾乎成為謎底的滅絕古老語言。

近日,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL)的研究人員就開發(fā)出一種計算機算法,旨在幫助語言學(xué)家破譯歷史上已消失的語言。

無法“谷歌翻譯”的古老語言

如今,世界上現(xiàn)存約有 7100 種語言。然而,古時存在的大多數(shù)語言都已不再使用,幾近滅絕。數(shù)十種已滅絕語言也被認(rèn)為是“未破譯”的語言,也就是說,我們對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)了解不足,也無法理解其文本的意思。

圖 | 世界語言分布地圖 2018

而研究這些“未破譯”的語言,不僅僅是處于學(xué)術(shù)上的好奇心。還是因為,不理解語言,我們就會錯過與講這些語言的人有關(guān)的一整套知識體系。不幸的是,大多數(shù)滅絕語言的相關(guān)記錄極少,因此,科學(xué)家無法使用谷歌翻譯之類的機器翻譯工具或AI算法來對其進行解密。

而傳統(tǒng)的研究方法是,找出目標(biāo)語言的“相關(guān)”語言來作比較研究,例如同一語系或相似度較高的現(xiàn)存語言。然而,有些語言并沒有對應(yīng)的、已被深入研究過的“相關(guān)”語言,并且它們通常缺少諸如空格和標(biāo)點符號之類的傳統(tǒng)分隔符(想像一下,要解密出用這種語言寫出的文字該有多么令人頭禿)。

但是,CSAIL 的研究人員發(fā)明的新系統(tǒng),已被證明能夠自動破譯消失的語言,且無需對其與其他語言的關(guān)系有深入的了解。他們還表明,該系統(tǒng)自身就可以確定語言之間的關(guān)系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關(guān)的學(xué)術(shù)研究。

語言破譯:從文本到矢量的轉(zhuǎn)變

此研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(xué)(historical linguistics)見解的幾項原則。其中一條原則是,一種給定的語言很少會直接添加或刪除整個音節(jié),但是很可能會發(fā)生某些近似發(fā)音的替換。比如,母語中帶有“ p”發(fā)音的單詞可能會在其后代演變中變?yōu)椤?b”,但是由于明顯的發(fā)音差異,變?yōu)椤?k”的可能性則較小。

通過整合這些原則和其他語言學(xué)約束,Barzilay 等人的新算法學(xué)習(xí)將語言發(fā)音嵌入多維向量空間,在該多維空間中,相應(yīng)矢量之間的距離反映了不同發(fā)音的差異。這種設(shè)計使他們能夠捕獲語言變化的相關(guān)特征,并將這些特征表達為計算約束(computational constraints)。因此,它可以評估兩種語言之間的相似度。實際上,當(dāng)對已知語言進行測試時,它甚至可以準(zhǔn)確地識別出該語言屬于哪個語系(language families)。例如英語、德語同屬于日耳曼語系。

不僅如此,算法生成的模型可以將古語言中的單詞進行細分,并將其一一映射到“相關(guān)”語言中的對應(yīng)單詞上去。研究團隊的最終目標(biāo)是使該系統(tǒng)僅僅使用幾千個單詞,就能夠破譯數(shù)十年來語言學(xué)家們都無法理解的古語言。

機器翻譯相關(guān)研究

實際上,這并非 MIT 首個使用計算機技術(shù)破譯已消失語言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,開發(fā)出一個新的計算機算法,該算法在幾個小時內(nèi)就破解了古老的猶太語言烏加里特語(Ugaritic)。除了幫助破譯“神秘的”八種左右古老語言外,這項工作還可以擴大自動翻譯系統(tǒng)可以處理的語言數(shù)量。例如目前,谷歌翻譯支持103種語言,而破譯系統(tǒng)中使用的技術(shù)可以幫助其為數(shù)千種語言構(gòu)建詞典。

去年,Barzilay 等人也發(fā)表過一篇論文,文中使用改進的計算機算法破譯了線形文字 B(Linear B,出現(xiàn)在公元前 1400 年左右)。他們說,“我們的翻譯腳本能夠以 67.3%的準(zhǔn)確率將線性文字 B 的同源詞轉(zhuǎn)換成對應(yīng)的希臘語。據(jù)我們所知,該試驗是自動解讀線性文字 B 的第一次嘗試?!?/p>

在未來的工作中,該團隊希望擴展到將文本與已知語言的相關(guān)單詞相關(guān)聯(lián)的范圍之外,這種方法被稱為“基于同源的破譯方法”。

Barzilay 說:“例如,我們可以識別文本中涉及到的所有人或地點的信息,然后可以根據(jù)已知的歷史證據(jù)對其進行進一步的調(diào)查。這些實體識別(entity recognition)方法如今已廣泛用于各種文本處理應(yīng)用程序中,并且具有很高的準(zhǔn)確性 。”
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104378
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4552

    瀏覽量

    92027
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266248
收藏 人收藏

    評論

    相關(guān)推薦

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領(lǐng)域,DeepL再次以其創(chuàng)新實力引領(lǐng)潮流,宣布成功推出新一代面向翻譯與編輯應(yīng)用的大型語言模型。這一里程碑式的進展,不僅鞏固了DeepL作為頂尖語言人工智能公司的地位
    的頭像 發(fā)表于 07-19 15:56 ?477次閱讀

    menucofig在win11下指令無法識別是什么原因?

    。 問題有兩個,如下: 1.一個是工具啟動時出現(xiàn) \"\\e was unexpected at this time.\" 這段話,不清楚什么意思? 2.menuconfig指令無法識別,不清楚原因?
    發(fā)表于 07-15 06:20

    超ChatGPT-4o,國產(chǎn)大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    、速度慢、費用高且難以準(zhǔn)確理解上下文”的問題。相比之下,AI大模型憑借其強大的學(xué)習(xí)能力和適應(yīng)性,在翻譯質(zhì)量、效率、上下文理解和多語言支持等方面表現(xiàn)出色,提供了更加
    的頭像 發(fā)表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產(chǎn)大模型竟然更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|<b class='flag-5'>AI</b> 橫評

    自然語言處理技術(shù)的原理的應(yīng)用

    自然語言處理(Natural Language Processing, NLP)作為人工智能(AI)領(lǐng)域的一個重要分支,旨在使計算機能夠理解和處理人類自然語言。隨著互聯(lián)網(wǎng)的普及和大數(shù)據(jù)技術(shù)的發(fā)展
    的頭像 發(fā)表于 07-02 12:50 ?242次閱讀

    stm32下載了個usb dfu的例程,usb無法識別的原因?

    網(wǎng)上下載了個 usb dfu的例程但是usb無法識別 。使用的硬件是神舟3號開發(fā)板。硬件已經(jīng)使用神舟3的SD卡例程測試 usb可用。 求助?。。。。。。。。。。。。。。。?/div>
    發(fā)表于 05-17 16:05

    Meta探索開發(fā)AI耳機:識別物體和翻譯外語

    據(jù)外媒The Information透露,F(xiàn)acebook母公司Meta正積極研究研發(fā)配備攝像頭的人工智能耳機,旨在實現(xiàn)物體識別與外語實時翻譯功能。
    的頭像 發(fā)表于 05-14 14:26 ?384次閱讀

    Gentoo理事會嚴(yán)控應(yīng)用AI自然語言工具生成內(nèi)容

    現(xiàn)有的LLM(大型語言模型)擅長生成看似合理卻缺乏實際價值的內(nèi)容。盡管謹(jǐn)慎使用時能夠提供有效幫助,但我們無法完全依賴這些工具。這可能導(dǎo)致Gentoo項目質(zhì)量下降,同時增加開發(fā)者和用戶的審核負擔(dān),以識別因使用
    的頭像 發(fā)表于 04-17 10:13 ?256次閱讀

    開發(fā)者手機 AI - 目標(biāo)識別 demo

    功能簡介 該應(yīng)用是在Openharmony 4.0系統(tǒng)上開發(fā)的一個目標(biāo)識別AI應(yīng)用,旨在從上到下打通Openharmony AI子系統(tǒng),展示Openharmony系統(tǒng)的AI能力,并為
    發(fā)表于 04-11 16:14

    重塑翻譯識別技術(shù):開源語音識別模型Whisper的編譯優(yōu)化與部署

    模型介紹Whisper模型是一個由OpenAI團隊開發(fā)的通用語音識別模型。它的訓(xùn)練基于大量不同的音頻數(shù)據(jù)集,是一個多任務(wù)模型,可以執(zhí)行語音識別、語言翻譯
    的頭像 發(fā)表于 01-06 08:33 ?2819次閱讀
    重塑<b class='flag-5'>翻譯</b>與<b class='flag-5'>識別</b>技術(shù):開源語音<b class='flag-5'>識別</b>模型Whisper的編譯優(yōu)化與部署

    基于機器翻譯增加的跨語言機器閱讀理解算法

    近日,阿里云人工智能平臺 PAI 與華南理工大學(xué)朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議 EMNLP2023 上發(fā)表基于機器翻譯增加的跨語言機器閱讀理解算法 X
    的頭像 發(fā)表于 12-12 10:28 ?487次閱讀
    基于機器<b class='flag-5'>翻譯</b>增加的跨<b class='flag-5'>語言</b>機器閱讀理解算法

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進行介紹。大語言模型指的是具有數(shù)十億參數(shù)(B+)的預(yù)訓(xùn)練語言
    的頭像 發(fā)表于 12-04 15:51 ?649次閱讀

    AI視覺識別有哪些工業(yè)應(yīng)用

    AI視覺識別涵蓋多種應(yīng)用,如人臉識別、目標(biāo)檢測和識別、圖像分割、行為識別、視頻分析等。本篇就簡單介紹一下
    的頭像 發(fā)表于 11-27 18:05 ?1024次閱讀
    <b class='flag-5'>AI</b>視覺<b class='flag-5'>識別</b>有哪些工業(yè)應(yīng)用

    【KV260視覺入門套件試用體驗】Vitis AI Library體驗之OCR識別

    翻譯成計算機文字的過程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進一步編輯加工的技術(shù)。如何除錯或利用
    發(fā)表于 10-16 23:25

    電腦無法識別的usb設(shè)備怎么解決

    Android系統(tǒng)插上USB連接到電腦,提示"無法識別的USB設(shè)備"
    的頭像 發(fā)表于 10-10 16:20 ?4030次閱讀
    電腦<b class='flag-5'>無法</b><b class='flag-5'>識別</b>的usb設(shè)備怎么解決

    【KV260視覺入門套件試用體驗】六、VITis AI車牌檢測&amp;車牌識別

    。下圖顯示了車牌檢測的結(jié)果。 將圖片中的車牌進行了框選,同事標(biāo)準(zhǔn)位置。 4.2、車牌識別 cd ~/Vitis-AI/examples/vai_library/samples/platenum
    發(fā)表于 09-26 16:28