0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MIT推新型機(jī)器算法,可破譯消失已久的古語言

如意 ? 來源:開源中國 ? 作者:白開水不加糖 ? 2020-10-28 14:54 ? 次閱讀

麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人員最近開發(fā)出了一種新的計算機(jī)算法,可以幫助語言學(xué)家自動破譯歷史上消失已久失的古語言。

官方指出,該系統(tǒng)能夠自動破譯已消失的語言,且無需對這一語言與其他語言的關(guān)系有深入的了解。他們還表明,該系統(tǒng)自身就可以確定語言之間的關(guān)系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關(guān)的學(xué)術(shù)研究。

CSAIL 方面稱,最近的研究表明,大多數(shù)曾經(jīng)存在過的語言已經(jīng)不再被使用。其中有數(shù)十種已滅絕語言也已被認(rèn)為是“未破譯”的語言。這就意味著,大眾對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)都了解不足,也無法理解其文本的意思。

而研究這些“未破譯”的語言,除了是出于學(xué)術(shù)上的好奇心。還在于,不理解語言我們就會錯過與講這些語言的人有關(guān)的一整套知識體系。然而不幸的是,大多數(shù)滅絕語言的相關(guān)記錄都非常的少,導(dǎo)致科學(xué)家無法使用谷歌翻譯之類的機(jī)器翻譯工具或 AI 算法來對其進(jìn)行解密。

因此,此次 CSAIL 團(tuán)隊推出這一新算法的最終目的就是,旨在只用幾千個單詞,就可以破譯語言學(xué)家?guī)资陙黼y以理解的失傳語言。

本次研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(xué)(historical linguistics)見解的幾項原則。例如,語言通常僅以某些可預(yù)測的方式發(fā)展。具體表現(xiàn)為:一種給定的語言很少會直接添加或刪除整個音節(jié),但是很可能會發(fā)生某些近似發(fā)音的替換。像母語中帶有“p”發(fā)音的單詞就可能會在其后代演變中變?yōu)椤癰”,但是由于明顯的發(fā)音差異,變?yōu)椤発”的可能性則較小。

通過整合這些原則和其他語言學(xué)約束,Barzilay 和 MIT 博士生 Jiaming Luo 開發(fā)了一種解密算法,該算法可以處理可能的轉(zhuǎn)換的巨大空間以及輸入中引導(dǎo)信號的稀缺性。該算法學(xué)習(xí)將語言聲音嵌入多維空間,在該多維空間中,相應(yīng)矢量之間的距離反映了不同發(fā)音的差異。這種設(shè)計使他們能夠捕獲語言變化的相關(guān)模式,并將其表達(dá)為計算約束(computational constraints)。生成的模型可以將古代語言中的單詞進(jìn)行細(xì)分,并將其映射到相關(guān)語言中的對應(yīng)單詞。

該項目建立在 Barzilay 和 Luo 去年寫的一篇論文的基礎(chǔ)上, 這篇論文解密了已滅絕的 Ugaritic 和 Linear B 語言,后者以前需要數(shù)十年的時間才能被人類解碼。但是,兩個項目之間的主要區(qū)別在于,該團(tuán)隊此前就已經(jīng)知道這些語言分別與希伯來語和希臘語的早期形式有關(guān)。

新算法可以推斷語言之間的關(guān)系,這是語言解密中的最大挑戰(zhàn)之一。該算法可以評估兩種語言之間的相似度,當(dāng)對已知語言進(jìn)行測試時,它甚至可以準(zhǔn)確地識別出該語言屬于哪個語系(language families)。不僅如此,算法生成的模型可以將古語言中的單詞進(jìn)行細(xì)分,并將其一一映射到“相關(guān)”語言中的對應(yīng)單詞上去。

在未來的工作中,該團(tuán)隊希望擴(kuò)展到將文本與已知語言的相關(guān)單詞相關(guān)聯(lián)的范圍之外,這種方法被稱為“基于同源的破譯方法”。其表示,“例如,我們可以識別文本中涉及到的所有人或地點的信息,然后可以根據(jù)已知的歷史證據(jù)對其進(jìn)行進(jìn)一步的調(diào)查。這些實體識別(entity recognition)方法如今已廣泛用于各種文本處理應(yīng)用程序中,并且具有很高的準(zhǔn)確性。但是關(guān)鍵的研究問題在于,在沒有任何古代語言訓(xùn)練數(shù)據(jù)的情況下,這項任務(wù)是否可行? ”
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4552

    瀏覽量

    92027
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23312
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14838
收藏 人收藏

    評論

    相關(guān)推薦

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    章節(jié)介紹了機(jī)器學(xué)習(xí),從方法論上來看,機(jī)器學(xué)習(xí)屬于歸納推理;從開發(fā)設(shè)計方式來看,機(jī)器學(xué)習(xí)屬于自動編程。我們平時使用各種計算機(jī)高級語言編寫程序代碼,這屬于人工編程的范疇;
    發(fā)表于 07-25 14:33

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個重要分支,其目標(biāo)是通過讓計算機(jī)自動從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無需進(jìn)行明確的編程。本文將深入解讀幾種常見的機(jī)器學(xué)習(xí)算法原理,包括線性回歸、邏輯回歸、支持向量機(jī)(SVM)、決策樹和K近鄰(KNN)
    的頭像 發(fā)表于 07-02 11:25 ?397次閱讀

    abb工業(yè)機(jī)器人的編程語言是什么

    ABB工業(yè)機(jī)器人的編程語言主要是RAPID(Robot Application Programming Interface for Development),它是一種高級編程語言,專門為工業(yè)機(jī)
    的頭像 發(fā)表于 06-16 16:49 ?1679次閱讀

    AI算法的本質(zhì)是模擬人類智能,讓機(jī)器實現(xiàn)智能化

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI算法是人工智能領(lǐng)域中使用的算法,用于模擬、延伸和擴(kuò)展人的智能。這些算法可以通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)實現(xiàn),并被廣泛應(yīng)用于語音識別、自然
    的頭像 發(fā)表于 02-07 00:07 ?5114次閱讀

    基于機(jī)器翻譯增加的跨語言機(jī)器閱讀理解算法

    近日,阿里云人工智能平臺 PAI 與華南理工大學(xué)朱金輝教授團(tuán)隊、達(dá)摩院自然語言處理團(tuán)隊合作在自然語言處理頂級會議 EMNLP2023 上發(fā)表基于機(jī)器翻譯增加的跨語言
    的頭像 發(fā)表于 12-12 10:28 ?487次閱讀
    基于<b class='flag-5'>機(jī)器</b>翻譯增加的跨<b class='flag-5'>語言</b><b class='flag-5'>機(jī)器</b>閱讀理解<b class='flag-5'>算法</b>

    拆解大語言模型RLHF中的PPO算法

    由于本文以大語言模型 RLHF 的 PPO 算法為主,所以希望你在閱讀前先弄明白大語言模型 RLHF 的前兩步,即 SFT Model 和 Reward Model 的訓(xùn)練過程。另外因為本文不是純講強(qiáng)化學(xué)習(xí)的文章,所以我在敘述的
    的頭像 發(fā)表于 12-11 18:30 ?1843次閱讀
    拆解大<b class='flag-5'>語言</b>模型RLHF中的PPO<b class='flag-5'>算法</b>

    178個經(jīng)典c語言源代碼+算法大全

    電子發(fā)燒友網(wǎng)站提供《178個經(jīng)典c語言源代碼+算法大全.rar》資料免費下載
    發(fā)表于 11-21 10:19 ?4次下載
    178個經(jīng)典c<b class='flag-5'>語言</b>源代碼+<b class='flag-5'>算法</b>大全

    178個C語言算法源碼下載

    電子發(fā)燒友網(wǎng)站提供《178個C語言算法源碼下載.zip》資料免費下載
    發(fā)表于 11-21 09:35 ?3次下載
    178個C<b class='flag-5'>語言</b><b class='flag-5'>算法</b>源碼下載

    無鉆機(jī)鉆探機(jī)器靠支撐機(jī)構(gòu)設(shè)計與分析

    基于新型無鉆機(jī)鉆探機(jī)器人,設(shè)計一種靠支撐機(jī)構(gòu),對其進(jìn)行結(jié)構(gòu)設(shè)計和工作模型分析。該機(jī)構(gòu)結(jié)構(gòu)上采用兩對軸向交錯排布的液壓缸,既增加了靠支撐的行程,又增強(qiáng)了徑向支撐強(qiáng)度;同時前后支撐機(jī)構(gòu)
    的頭像 發(fā)表于 11-10 14:14 ?606次閱讀

    CMU、MIT、清華聯(lián)合發(fā)布全球首個生成式機(jī)器人智能體RoboGen

    CMU、MIT、清華聯(lián)合發(fā)布了全球首個生成式機(jī)器人智能體RoboGen,可以無限生成數(shù)據(jù),讓機(jī)器人7*24小時永不停歇地訓(xùn)練。為機(jī)器人進(jìn)入通用場景邁出堅實一步。
    的頭像 發(fā)表于 11-09 10:19 ?942次閱讀

    單片機(jī)ADC,十大C語言濾波算法

    單片機(jī)ADC,十大C語言濾波算法
    的頭像 發(fā)表于 10-24 15:53 ?1047次閱讀

    C語言經(jīng)典算法大全

    C語言經(jīng)典算法,詳細(xì)解析算法過程及算法思想,給讀者具有啟發(fā)意義,教程包含C語言大部分常用算法,僅
    發(fā)表于 10-07 08:16

    談?wù)勀切┲饾u消失的編程語言

    技術(shù)不斷演進(jìn),我們使用的編程語言也不例外。隨著人工智能的日益普及以及它對這些語言的使用方式的影響,我們更加關(guān)注哪些語言將在未來與我們同在,哪些將逐漸退出舞臺。 通用的編程語言,如Pyt
    發(fā)表于 09-27 11:03 ?537次閱讀

    c語言算法大全

    1 適合算法競賽或興趣了解 2 本套算法均是已實現(xiàn)算法 3 算法均有本人查閱和自己寫 4 未經(jīng)允許不得做為商業(yè)用途
    發(fā)表于 09-27 06:51

    經(jīng)典C語言接口與實現(xiàn):創(chuàng)建重用軟件的技術(shù)

    C語言接口與實現(xiàn)(創(chuàng)建重用軟件的技術(shù))概念清晰、內(nèi)容新穎、實例詳盡,是一本有關(guān)設(shè)計、實現(xiàn)和有效使用C語言庫函數(shù),掌握創(chuàng)建重用C語言軟件模
    發(fā)表于 09-25 06:42