0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用模仿患者聲音的計算機程序將文本重新翻譯成語音

微流控 ? 來源:微流控 ? 2023-09-04 11:33 ? 次閱讀

《Nature》雜志同時發(fā)表了兩篇新論文,幫助那些因腦損傷和疾病而失去語言能力的人恢復語言能力,向前邁出了重要一步。兩個多學科團隊展示了最先進的人工智能輔助腦機接口(BCI)系統(tǒng)的速度和準確性的新記錄,帶來了前所未有的將大腦信號翻譯成句子的能力——速度接近正常語音,詞匯量超過1000個單詞。這些進步為那些不能說話的人提供了以接近對話水平的速度進行交流的能力,甚至展示了如何使用模仿患者聲音的計算機程序將文本重新翻譯成語音。 背景

各種神經(jīng)系統(tǒng)疾病會麻痹對言語和肢體功能至關重要的肌肉,同時影響認知功能,可能導致鎖定綜合癥——個體無法再發(fā)起交流,只能通過眨眼或最小的動作來回應詢問。有多種系統(tǒng)(稱為替代和增強通信技術)可幫助患有閉鎖綜合癥的人進行交流,但這些系統(tǒng)需要付出努力,并且比正常語音慢得多(通常每分鐘僅幾個單詞)。腦機接口有潛力解決這些問題。

1969年,Macaca mulatta發(fā)表了第一個證明,可以訓練受試者增加單個神經(jīng)元的活動,從而做出有意的行為。人體實驗開始于20世紀90年代末,當時將一個電極連接到患有運動神經(jīng)元疾?。∥s側索硬化癥,ALS引起的閉鎖綜合征患者的神經(jīng)元。隨后在2006年進行了一項研究,其中將毫米級電極陣列(稱為微電極)植入脊髓損傷患者的大腦中。這種微電極陣列(MEA)記錄了運動皮層(負責控制隨意運動的大腦區(qū)域)中數(shù)百個神經(jīng)元的活動,從而控制機械臂。MEA此后已被用于實現(xiàn)通信,例如通過解碼手寫嘗試。

腦電圖(EEG)的補充技術(將電極沿著頭皮放置以記錄大腦中的電活動)自1999年以來一直被使用,通過控制自定義拼寫軟件來幫助癱瘓患者進行交流。大約在同一時間,人們發(fā)現(xiàn)放置在大腦表面的小盤形電極(直徑2 ~ 3毫米)可以獲得比使用頭皮電極獲得的質量更高的信號。這種記錄大腦活動的方法稱為皮質電圖(ECoG)。

2000年代初,ECoG電極被用于接受耐藥性癲癇手術的患者,以記錄與言語和身體運動相關的大腦信號。這最終導致了第一個完全嵌入式ECoG設備的開發(fā),該設備使患有閉鎖綜合癥的人能夠在家使用打字程序。迄今為止,已有約50名不同程度癱瘓的人植入了腦機接口以進行交流,其中大多數(shù)人使用MEA。

突破技術

a64f5462-43ac-11ee-a2ef-92fbcf53809c.png 圖1 將思想轉化為言語的先進技術 ?

加州大學舊金山分校華裔科學家張復倫報告了一位癱瘓參與者的研究結果,該患者在參加這項研究17年前經(jīng)歷了腦干中風,導致她的講話難以理解。張復倫的BCI系統(tǒng)采用了嵌入253個ECoG電極的硅片,每個電極都記錄了數(shù)千個神經(jīng)元的平均活動(圖1a)。該設備通過手術植入感覺運動皮層的左側“面部區(qū)域”——大腦中服務于口腔和面部肌肉(包括聲道)的部分。該研究以之前的ECoG記錄報告為基礎,其中包括植入另一個腦干中風患者體內的類似BCI。

大腦到文本的解碼是通過兩個系統(tǒng)的組合實現(xiàn)的:循環(huán)神經(jīng)網(wǎng)絡(RNN,一種人工神經(jīng)網(wǎng)絡),它運行的算法可以破譯與發(fā)音器官(聲道的一部分)運動相關的大腦活動;其次是語言模型,該模型以每分鐘78個單詞的速度從1024個單詞組成句子(盡管單詞錯誤率為25.5%)?;蛘撸瑢⒋竽X信號直接翻譯成合成語音,對于1024個單詞的詞匯,單詞錯誤率為54.4%;較小詞匯量的錯誤率有所下降(119個單詞的詞匯量為8.2%)。BCI還解碼嘗試的面部表情,并使用數(shù)字化身再現(xiàn),從而為文本或語音提供視覺反饋,極大地豐富了參與者的溝通能力??傮w而言,與之前報道的ECoG BCI相比,該設備在詞匯量、通信速度和語音解碼的多功能性方面都有顯著改進。

與此同時,斯坦福大學Francis R. Willett一作兼通訊,報道了通過使用兩個MEA(總共包含128個電極)從一名因ALS而無法清晰說話的參與者的左側感覺運動面部區(qū)域的小斑塊進行記錄(圖1b)。與張復倫教授及其同事的設備一樣,RNN和語言模型被用來將大腦信號翻譯成文本,并針對不同大小的詞匯進行訓練和測試。使用該設備,參與者能夠以平均每分鐘62個單詞的速度進行交流,125000個單詞的詞匯錯誤率為23.8%,50個單詞的詞匯錯誤率為9.1%。

RNN使用參與者嘗試說出顯示器上顯示的260 ~ 480個句子時收集的神經(jīng)活動記錄進行訓練——整個過程平均每天需要140分鐘,持續(xù)8天。分析表明,這種日常訓練可以大大減少,而不會造成很大的表現(xiàn)損失。重要的是,作者觀察到,從被廣泛認為對語音產生至關重要的大腦區(qū)域(稱為布羅卡區(qū))記錄的神經(jīng)活動無法被解碼,這引發(fā)了關于該區(qū)域是否包含對語音解碼有用的信息的疑問。

a695d568-43ac-11ee-a2ef-92fbcf53809c.png 圖2 口面部運動和嘗試言語的神經(jīng)表征 ?

意義與影響

這兩份報告構成了重要的概念證明,即可以使用植入式腦機接口恢復通信,這兩個腦機接口代表了神經(jīng)科學和神經(jīng)工程研究的巨大進步,并在提高因癱瘓神經(jīng)損傷和疾病而失聲的人的生活質量方面顯示出巨大的希望。即使是允許用戶在輔助技術軟件中選擇字母或圖標的基本BCI植入程序,也能為他們的日常生活帶來巨大的好處和滿意度??梢詫崿F(xiàn)通信的先進BCI系統(tǒng)(例如這里討論的系統(tǒng))預計將產生更大的影響。

但有幾個問題需要進一步調查才能得到更廣泛的使用。首先,這兩項研究中使用的語音模型都使用具有殘余(盡管微弱)發(fā)音運動的參與者的模仿語音進行訓練和測試?,F(xiàn)在需要更多的研究來證明對于缺乏殘余運動的參與者(如鎖定綜合征(包括晚期ALS))的療效。另一個問題是,對于這兩種設備,高帶寬記錄是從數(shù)百個電極中獲取的,這些電極必須通過穿透皮膚的“基座”連接到外部放大器,這在美觀上沒有吸引力。需要開發(fā)完全植入式無線腦機接口,以復制或超越這些研究中報告的性能。

此外,高技能的研究人員積極參與了所報告的腦機接口的操作,但對于護理人員來說,如果沒有大量的培訓和維護,這些腦機接口仍然太復雜,無法在家庭環(huán)境中操作。未來將需要類似的、在最少或無需研究人員干預的情況下運行的有效BCI系統(tǒng)。這需要使用以用戶為中心的設計原則,在臨床人群中進行廣泛的開發(fā)和測試。目前還不清楚用戶對其他人語音的感知是否會導致大腦到文本解碼的錯誤,因為越來越多的證據(jù)表明,除了語音產生之外,語音感知還會激活感覺運動皮層。

最后,哪種BCI方法(MEA或ECoG)最能滿足用戶在現(xiàn)實應用中的安全性和長期有效性方面的需求,還有待觀察。MEA從較小的皮質區(qū)域捕獲豐富的功能信息,但信號往往不穩(wěn)定,需要頻繁更新語音解碼模型。此外,MEA的壽命可能會受到電極材料的降解和裝置的組織封裝的限制。ECoG電極需要植入的面積比MEA更大,但ECoG電極位于皮質組織外部,通??梢远嗄晏峁┏錾男盘栙|量,盡管它們會引起淺表組織反應。

審核編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7372

    瀏覽量

    87636
  • 人工智能
    +關注

    關注

    1789

    文章

    46669

    瀏覽量

    237106
  • 程序
    +關注

    關注

    116

    文章

    3762

    瀏覽量

    80757
  • 腦機接口
    +關注

    關注

    8

    文章

    366

    瀏覽量

    21441

原文標題:腦機接口研究獲重大突破,幫助失聲患者實現(xiàn)接近對話水平速度的交流能力

文章出處:【微信號:Micro-Fluidics,微信公眾號:微流控】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    自然語言處理包括哪些內容 自然語言處理技術包括哪些

    (Speech Synthesis):將計算機生成的文本轉換為人類語言。 機器翻譯(Machine Translation):一種語言翻譯成
    的頭像 發(fā)表于 08-03 16:22 ?6614次閱讀

    計算機語言概述

    。Basic語言是典型的解釋型語言。編譯型翻譯程序也叫編譯程序,它在翻譯語言程序時,加工整個源程序,最終
    發(fā)表于 12-06 00:17

    Fortran的程序,要翻譯成matlab

    不知有哪位大神,能幫一下忙,有一段Fortran的程序,要翻譯成matlab,翻譯了一些但數(shù)據(jù)不對
    發(fā)表于 02-18 20:58

    cold crank, warm crank 具體翻譯成中文是什么

    cold crank, warm crank 翻譯成中文具體是什么場景, 越詳細越好!想入門汽車電子的小白現(xiàn)行謝過!
    發(fā)表于 05-23 14:26

    請問snap翻譯成中文是什么?

    snap翻譯成中文是什么 我查沒有對應的翻譯
    發(fā)表于 05-07 07:35

    請問spartan3an支持mcs程序翻譯成位?

    我的合作伙伴項目交給我。它由pcb布局,sch,F(xiàn)PGA Mcs組成。主設備是spartan3an。在影響中,Ididnot發(fā)現(xiàn)它支持mcs文件。mcs可以翻譯成位嗎?以上來自于谷歌翻譯以下為原文
    發(fā)表于 07-18 09:43

    怎么符號翻譯成節(jié)拍?

    你好,我想了解一下符號翻譯成節(jié)拍的方法,反之亦然。在MLA中,在文件..h中寫入://Time單元,它是根據(jù)IEEE 802.15.4規(guī)范定義的。/一個刻度等于一個符號時間,或16Us。Tick
    發(fā)表于 09-11 11:38

    什么是程序?什么是計算機

    什么是程序?程序(Program)流程、議程、行程、…為了完成某項任務,解決某個問題需要執(zhí)行的一系列步驟計算機程序為了完成某項任務,解決某個問題由
    發(fā)表于 11-23 09:02

    SignAloud手套美語手語翻譯成英語

    )翻譯成英語,然后將之說出來。它叫做SignAloud手套。 這兩名學生也因此獲得了10000美元的勒梅森-麻省理工學生獎金(Lemelson-MIT Student Prize)。這款手套內置有傳感器,能夠通過測量坐標和手指的彎曲,來捕捉美語手語信息。隨后,傳感器數(shù)據(jù)通過藍牙傳輸?shù)揭慌缘囊慌_
    的頭像 發(fā)表于 04-24 02:44 ?4133次閱讀

    計算機系統(tǒng)的層次結構到底是怎么樣的

    通常由用戶用高級語言編寫程序,然后講它和數(shù)據(jù)一起送入計算機內,再由計算機將其翻譯成機器能識別的機器語言程序,機器自動運行該機器語言
    的頭像 發(fā)表于 12-21 11:21 ?4355次閱讀

    為什么國內silicon翻譯成硅而不是矽

    提到半導體,大家都知道各種處理器、閃存、內存等芯片都是基于半導體技術的,而我們現(xiàn)在常用的半導體實質上是硅基半導體,硅是這個行業(yè)最重要的材料。說到硅,很多人也見過另一個詞矽,為什么國內現(xiàn)在翻譯成硅而不是矽了呢?
    的頭像 發(fā)表于 12-21 11:25 ?5688次閱讀

    計算機系統(tǒng)的層次結構詳細說明

    通常由用戶用高級語言編寫程序,然后講它和數(shù)據(jù)一起送入計算機內,再由計算機將其翻譯成機器能識別的機器語言程序,機器自動運行該機器語言
    的頭像 發(fā)表于 02-22 16:44 ?6864次閱讀

    借助手部動作控制機械臂的手語翻譯成文本語音手套

    電子發(fā)燒友網(wǎng)站提供《借助手部動作控制機械臂的手語翻譯成文本語音手套.zip》資料免費下載
    發(fā)表于 10-21 11:57 ?0次下載
    借助手部動作控制機械臂的手語<b class='flag-5'>翻譯成文本</b>和<b class='flag-5'>語音</b>手套

    Python-環(huán)境與第一個程序

    計算機不能直接理解除機器語言外的語言,所以必須把程序員編寫的語言最終翻譯成機器語言,而翻譯成機器語言的工具
    的頭像 發(fā)表于 02-16 14:46 ?533次閱讀
    Python-環(huán)境與第一個<b class='flag-5'>程序</b>

    人工智能計算范式和理論總結趨勢

    傳統(tǒng)的語音文本翻譯是通過語音識別和文本機器翻譯的串聯(lián)實現(xiàn)。這個方法的缺點是推理過程中的錯誤會累加。ConST 可以直接
    發(fā)表于 06-07 11:35 ?682次閱讀
    人工智能<b class='flag-5'>計算</b>范式和理論總結趨勢