0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能如何拯救瀕危語言

NVIDIA英偉達 ? 來源:cc ? 2019-01-29 15:25 ? 次閱讀

據(jù)語言學(xué)家估計,在全球化、文化同化等多種因素的影響下,到本世紀(jì)末,世界上約 7000 種的語言至少有一半將會消失。

記錄及振興瀕危語言的工作充滿挑戰(zhàn),其中部分原因在于缺乏相應(yīng)的文本和語音記錄。塞內(nèi)卡語是北美地區(qū)六個易洛魁聯(lián)盟所使用的語言之一,目前,僅有約 100 人將塞內(nèi)卡語作為第一語言,另有數(shù)百位非母語人士正在學(xué)習(xí)塞內(nèi)卡語。

自動語音識別 (ASR) 技術(shù)已被廣泛應(yīng)用于轉(zhuǎn)寫英語和漢語等大語種,這些語言的使用人數(shù)高達數(shù)百萬至數(shù)十億。但對于塞內(nèi)卡語這類使用人數(shù)稀少且可用數(shù)據(jù)極度貧乏的語言來說,自動語言識別技術(shù)發(fā)揮出的作用只是皮毛而已。

現(xiàn)在,紐約羅切斯特理工學(xué)院的一組研究人員以及布法羅大學(xué)的同事正在利用深度學(xué)習(xí)技術(shù)來增強自動語音識別的功能。該項目現(xiàn)階段的工作核心是塞內(nèi)卡語,但研究人員的愿景是將其應(yīng)用于全球各種瀕危語言的保護,使之成為全人類共同文化歷史的重要組成部分。

“接觸不同的語言可以讓我們更多地了解大腦的運作機制”,波士頓學(xué)院計算機科學(xué)助理教授兼羅切斯特理工學(xué)院研究員 Emily Prud'hommeaux 說道,“在記錄一種語言時,保存下來的不僅是這種語言本身,還有人類使用語言的基本方式”。

Prud’hommeaux 及其同事選擇從塞內(nèi)卡語開始入手并非偶然。她表示,團隊中有三名成員是塞內(nèi)卡人,在此類研究中,這種直接的聯(lián)系實屬罕見。

項目帶頭人是 Robbie Jimerson,他是羅切斯特理工學(xué)院 Golisano 計算與信息科學(xué)學(xué)院的博士研究生,也是塞內(nèi)卡印第安人部落中的一員,熱衷于保護塞內(nèi)卡語免于消亡。

“部落中的長老為塞內(nèi)卡語的保護和推廣付出了很大的努力” ,Jimerson 說道,“我也在尋找機會貢獻自己的一份力量”。

利用生成對抗網(wǎng)絡(luò)創(chuàng)建更多語言樣本

目前,該項目已經(jīng)進行到了第三個年頭,在積累語言數(shù)據(jù)時,研究人員遇到了一些挑戰(zhàn)。Jimerson 說,塞內(nèi)卡群體在與外人分享東西時十分謹慎,所以塞內(nèi)卡語的錄音資料非常少。而他則迎難而上。

一開始,他把會說塞內(nèi)卡語的朋友和老人當(dāng)作錄音對象,并請求這些人錄下他們和各自朋友的談話錄音。每當(dāng)有人在公共場合說塞內(nèi)卡語時,他都不會錯過錄音的機會。此外,他還請家人錄下老人講述的古老傳說,同時也搜集了互聯(lián)網(wǎng)上一切可以公開獲取的視頻和錄音資料。

研究團隊精心編寫了一款專門用來處理塞內(nèi)卡語的自動語音識別模型,并通過生成對抗網(wǎng)絡(luò)利用有限的錄音創(chuàng)建出更多的語音樣本。該模型將錄音的波形文件轉(zhuǎn)換為字符流,同時計算出概率并進行校正。

隨后,他們將得出的數(shù)據(jù)輸入深度學(xué)習(xí)模型,后者反過來增強了自動語言識別模型的準(zhǔn)確度。

研究團隊的網(wǎng)絡(luò)采用了兩種計算配置:其一是配備了九臺服務(wù)器的機器學(xué)習(xí)實驗室,實驗室中運行著若干臺 NVIDIA Tesla GPU;另一種是配備了大型服務(wù)器的大學(xué)集群,每臺服務(wù)器上運行著 10 臺NVIDIA Tesla P4 GPU。每個集群都運行著一系列深度學(xué)習(xí)框架,如 TensorFlow 和 Caffe。

“計算工程集群供計算機工程學(xué)院的所有學(xué)生使用,所以大家會‘爭搶’資源”,Ray Ptucha 如是說,他是羅切斯特理工學(xué)院計算機工程學(xué)院的助理教授,也是本項目的另一位成員。

有了這些彌足珍貴的集群,Jimerson 可以在運行著NVIDIA TITAN X的本地機器上測試代碼并檢查模型的穩(wěn)定性,從而避免運行可能會崩潰的模型,以至于為其他學(xué)生帶來不便。

準(zhǔn)確度更上一層樓

到目前為止,經(jīng)過團隊的不懈努力,其自動語音識別模型的文字錯誤率已由 70% 降至 56%。Prud’hommeaux 稱,他們的目標(biāo)是將錯誤率降低至 25%,這一水平相當(dāng)于幾年前使用自動語音識別系統(tǒng)處理英語語音的水平。

團隊可以積累的塞內(nèi)卡語語音和文字樣本越多,識別錯誤率就會越低。(如今,英語自動語音識別模型可以達到低至 5% 的錯誤率。)

該團隊取得的成果有望為全球其他語種的保護工作提供幫助。

據(jù) Prud’hommeaux 稱,團隊已與一家存檔機構(gòu)達成協(xié)議,這是美國國家科學(xué)基金會為該項目提供的資助條件。當(dāng)他們開展記錄瀕危語言的其他工作時,可使用最終形成的語言存檔數(shù)據(jù)庫作為可用資源。

與此同時,Prud’hommeaux 還表示,團隊的工作將為只能利用有限數(shù)據(jù)量的深度學(xué)習(xí)研究提供思路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46067

    瀏覽量

    235142
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120598

原文標(biāo)題:人工智能幫助瀕危語言 “復(fù)活”

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結(jié)經(jīng)驗,擬按照要求準(zhǔn)備相關(guān)體會材料??茨芊裼兄谌腴T和提高ss
    發(fā)表于 09-09 15:36

    【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    活的世界? 編輯推薦 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》聚焦于人工智能與材料科學(xué)、生命科學(xué)、電子科學(xué)、能源科學(xué)、環(huán)境科學(xué)五大領(lǐng)域的交叉融合,通過深入淺出的語言和諸多實際
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領(lǐng)域集產(chǎn)品
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    人工智能自然語言處理

    人工智能教學(xué)資料。
    發(fā)表于 07-17 17:15 ?0次下載

    Python中的人工智能框架與實例

    人工智能(AI)領(lǐng)域,Python因其簡潔的語法、豐富的庫和強大的社區(qū)支持,成為了最受歡迎的編程語言之一。本文將詳細介紹Python中的人工智能框架,并通過具體實例展示如何使用這些框架來實現(xiàn)不同的
    的頭像 發(fā)表于 07-15 14:54 ?704次閱讀

    NLP技術(shù)在人工智能領(lǐng)域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術(shù)作為連接人類語言與機器
    的頭像 發(fā)表于 07-04 16:03 ?249次閱讀

    自然語言處理屬于人工智能的哪個領(lǐng)域

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能(Artificial Intelligence,簡稱AI)領(lǐng)域的一個重要分支。它涉及到計算機與人類語言
    的頭像 發(fā)表于 07-03 14:09 ?701次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識指引 14分50秒 https
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎(chǔ)知識指引
    發(fā)表于 04-01 10:40

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    生成式人工智能和感知式人工智能的區(qū)別

    生成式人工智能和感知式人工智能人工智能領(lǐng)域中兩種重要的研究方向。本文將探討這兩種人工智能的區(qū)別。 生成式人工智能(Generative A
    的頭像 發(fā)表于 02-19 16:43 ?1185次閱讀

    人工智能大模型、應(yīng)用場景、應(yīng)用部署教程超詳細資料

    人工智能是IC行業(yè)近幾年的熱詞,目前此技術(shù)已經(jīng)有很多成熟的模型和落地案例。在此跟大家做個分享,更多詳細資料,請自行搜索:【展銳坦克邦】,坦克邦-智算天地集算法模型、部署說明于一體,為廣大客戶提供了
    發(fā)表于 11-13 14:49

    如何使單片機與無線供電結(jié)合,從而使人工智能脫離電池和線路?

    如何使單片機與無線供電結(jié)合,從而使人工智能脫離電池和線路
    發(fā)表于 10-31 06:34

    什么是模擬人工智能,模擬人工智能的優(yōu)勢

    的增長格局中。   然而,人工智能無處不在并非沒有成長的痛苦。在許多方面,大型語言模型 (LLM)、自然語言處理、語音識別、強化學(xué)習(xí)和其他系統(tǒng)背后的深度神經(jīng)網(wǎng)絡(luò) (DNN) 技術(shù)使用大量存儲、內(nèi)存和處理作為創(chuàng)建有效 AI 技術(shù)
    的頭像 發(fā)表于 09-29 10:22 ?1835次閱讀
    什么是模擬<b class='flag-5'>人工智能</b>,模擬<b class='flag-5'>人工智能</b>的優(yōu)勢