0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種神經解碼器,采用循環(huán)神經網絡的方式將記錄的皮質神經信號

電子工程師 ? 來源:lq ? 2019-04-29 10:30 ? 次閱讀

2019 年 4 月 24 日,來自加州大學舊金山分校(UCSF)神經外科學系 Gopala K. Anumanchipalli,Josh Chartier,Edward F. Chang 團隊在 Nature 雜志上發(fā)表了題為 “Speech synthesis from neural decoding of spoken sentences” 的論文,引起了不少人士的關注。

據悉,研究人員設計一種神經解碼器,采用循環(huán)神經網絡(Recurrent Neural Network,RNN)的方式將記錄的皮質神經信號,然后編碼咬合關節(jié)運動的表征,以合成可聽語音。

也就是說,嚴重癱瘓的病患可以使用基于該技術的產品通過大腦皮層活動更有效地向任何人發(fā)送文字信息。可以想象,像此前受肌萎縮側索硬化ALS病癥多年折磨的著名物理學家史蒂芬 · 霍金(Stephen Hawking)一定也非常樂意看到深度學習技術能夠應用于臨床醫(yī)學上的突破。

隨后,谷歌大腦 Jeff Dean 通過 Twitter 轉發(fā)了這條消息,并贊嘆該項研究成果,“非常酷!可以直接從神經活動中快速產生語音?!?/p>

實際上,他們在 2018 年 11 月 29 日以名為 “Intelligible speech synthesis from neural decoding of spoken sentences” 的論文就已經得到了公開。只不過,那時還是預印本,還未經過同級評審。

我們先來回顧下最新論文的主要內容。

摘要:將大腦神經活動轉換成語音的技術,對于因神經損傷而無法正常溝通的人類來說將具有變革意義。從技術上來講,從神經活動中解碼語音是非常具有挑戰(zhàn)性的,因為說話需要對聲道的咬合結構進行非常精確和快速的多維控制。通過設計一種神經解碼器,明確地利用人類皮層活動中編碼的運動和聲音表征來合成可聽語音。

循環(huán)神經網絡(RNN)將記錄的皮質神經信號直接解碼為咬合關節(jié)運動的表征,然后將這些表征再轉換為語音。在封閉的詞匯測試中,聽眾可以很容易地識別和轉錄皮層活動從而合成語音。即便數據有限,中間關節(jié)運動(Intermediate articulatory dynamics )也能提高性能。

經過解碼的語音表征非常保守,使得解碼器的一個組件可跨不同受試者進行轉換。此外,當受試者靜默地模仿句子時,解碼器可以合成語音。

以上這些發(fā)現提高了使用語音神經假體技術以恢復人類口語交流的臨床可行性。

▌研究過程

許多患者是依靠通信設備來轉錄頭部、眼睛或者直接的大腦皮層活動中的信息,然后再控制光標逐個選擇字幕來拼寫單詞。例如,患者此前使用的語音合成系統(tǒng)基本就是這樣的原理。雖然該系統(tǒng)顯著提高了患者的生活質量,但多數用戶很難在一分鐘內傳遞超過 10 個單詞,這一速度遠低于自然語言中 150 詞 / 分鐘的平均速度。一個主要障礙就是如何克服當前基于拼寫的方法限制,以實現更高效的溝通效率。

基于拼寫的方法最好的替代方式就直接進行語音合成。因為拼寫是離散字母的連續(xù)串聯,而語音是由重疊的、多發(fā)聲器的聲道運動的流體產生的。為此,基于聲道運動及其產生的聲音模仿方法可能是實現自然語言的唯一高效溝通手段,并且還是可以保證用戶學習的最直觀手段。例如,患有麻痹癥(ALS 或腦干中風)的患者,高保真語音控制信號可僅通過使用大腦 - 計算機接口直接記錄完整皮質網絡進行訪問。

為了證明神經語言假體的可行性,研究人員試圖將大腦信號轉換成可理解的正常說話人語速的合成語音。研究人員采用了一種叫做高密度腦皮層電圖(ECoG)的技術,讓 5 名患有癲癇病的患者大聲說出幾百個句子,直接記錄下受試者大腦皮層的神經活動,并跟蹤控制語音和發(fā)生部位運動的大腦區(qū)域活動。

如圖所示,研究人員采用的解碼器方法可分為兩個階段:第一階段,雙向長期短期記憶(bLSTM)循環(huán)神經網絡解碼來自聯系神經活動的關節(jié)運動特征;第二階段,單獨的 bLSTM 解碼來自第一階段解碼出的關節(jié)特征的聲音特征,然后從解碼的聲音特征合成音頻信號。

訓練解碼器有三種數據來源:ECoG 記錄、聲音以及關節(jié)運動。

ECoG,從每個電級的原始信號中提取高伽馬振幅包絡(70-200Hz)和低頻分量(1-30Hz)。如果它們位于關鍵皮質區(qū)域,則選擇電極:腹側感覺運動皮層(ventral sensorimotor cortex,vSMC)、顳上回(superiortemporal gyrus,STG)或下額回(inferior frontal gyrus,IFG)。

聲音,由于不是典型的頻譜圖,研究人員使用了 25 個梅爾頻率倒頻譜系數(MFCC),5 個子帶聲音強度用于聲門激勵建模、音調和發(fā)聲(總共 32 個特征)。這些聲學參數是用于感知電管的聲音特征,同時最大化音頻重建的質量。

關節(jié)運動表征,即存在于神經活動和聲音之間的解碼器的一個關鍵組成部分。由于無法同步記錄神經活動,研究人員采用了一種基于說話人的聲音 - 發(fā)聲(Acoustic-to-Articulatory)轉換統(tǒng)計方法,來測出受試者產生的語音信號對應的聲道運動軌跡。研究人員還添加了額外的生理特征(如關節(jié)運動),并在語音自動解碼器中對值進行了優(yōu)化,進而推斷在語音產生期間聲道生理的完整中間關節(jié)運動表征。

根據這些特征,可以精確地重建語音頻譜圖。

▌張復倫本人

值得一提的是,該項研究成果之一的 Edward Chang(中文名:張復倫)還是名華裔神經外科醫(yī)生,擅長治療成人癲癇、腦腫瘤等疾病,研究主要集中于語言、運動和情感的大腦機制。

最早在 2017 年,張復倫等人在 Science 雜志發(fā)表論文,闡述大腦皮層顳上回神經元在語言中的重要性。

在 2011 年 5 月的美國新聞與世界報導對他的采訪中,張復倫就表示:“醫(yī)學界長期忽視神經修復學,直到最近科技發(fā)展迅速才獲得重視。相信在未來的 5 到 10 年間,電腦科技對神經性疾病患者,如柏金森氏癥和阿茲海默癥、癲癇等,將會有更多治療方式?!?/p>

據了解,張復倫來自典型的中國***移民家庭。他曾表示:“生命中有很多選擇的機會,成為神經外科醫(yī)師是一連串的機遇,但父母的支持,讓他可以全神貫注鉆研神經科學,達到今天的成就。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1129

    瀏覽量

    40638
  • 神經網絡
    +關注

    關注

    42

    文章

    4734

    瀏覽量

    100420
  • 深度學習
    +關注

    關注

    73

    文章

    5466

    瀏覽量

    120891

原文標題:打開阿茲海默之門:華裔張復倫利用RNN成功解碼腦電波,合成語音 | Nature

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【PYNQ-Z2試用體驗】神經網絡基礎知識

    學習和認知科學領域,是一種模仿生物神經網絡(動物的中樞神經系統(tǒng),特別是大腦)的結構和功能的數學模型或計算模型,用于對函數進行估計或近似。神經網絡由大量的人工
    發(fā)表于 03-03 22:10

    【案例分享】ART神經網絡與SOM神經網絡

    一種常用的無監(jiān)督學習策略,在使用改策略時,網絡的輸出神經元相互競爭,每時刻只有個競爭獲勝的神經
    發(fā)表于 07-21 04:30

    人工神經網絡實現方法有哪些?

    人工神經網絡(Artificial Neural Network,ANN)是一種類似生物神經網絡的信息處理結構,它的提出是為了解決些非線性,非平穩(wěn),復雜的實際問題。那有哪些辦法能實現
    發(fā)表于 08-01 08:06

    如何設計BP神經網絡圖像壓縮算法?

    稱為BP神經網絡。采用BP神經網絡模型能完成圖像數據的壓縮處理。在圖像壓縮中,神經網絡的處理優(yōu)勢在于:巨量并行性;信息處理和存儲單元結合在
    發(fā)表于 08-08 06:11

    如何構建神經網絡?

    原文鏈接:http://tecdat.cn/?p=5725 神經網絡一種基于現有數據創(chuàng)建預測的計算系統(tǒng)。如何構建神經網絡?神經網絡包括:輸入層:根據現有數據獲取輸入的層隱藏層:使用反
    發(fā)表于 07-12 08:02

    卷積神經網絡模型發(fā)展及應用

    神經網絡研究的第次浪潮。1969 年美國數學家及人工智能先驅 Minsky在其著作中證 明感知本質上是一種線性模型[21],只能處理線性分 類問題,最簡單的異或問題都無法正確分類,
    發(fā)表于 08-02 10:39

    一種新的基于改進的ADALINE神經網絡的DTMF解碼器方案

    一種新的基于改進的ADALINE神經網絡的DTMF解碼器方案 、引言 DTMF(雙音多頻)信號是電話網中常用的信令,無論是家用電話、移動
    發(fā)表于 11-06 10:04 ?2101次閱讀
    <b class='flag-5'>一種</b>新的基于改進的ADALINE<b class='flag-5'>神經網絡</b>的DTMF<b class='flag-5'>解碼器</b>方案

    循環(huán)神經網絡和遞歸神經網絡的區(qū)別

    處理序列數據方面具有顯著的優(yōu)勢,但它們在結構和工作原理上存在些關鍵的區(qū)別。 循環(huán)神經網絡(RNN) 1.1 RNN的結構 循環(huán)神經網絡
    的頭像 發(fā)表于 07-04 14:19 ?706次閱讀

    循環(huán)神經網絡和卷積神經網絡的區(qū)別

    結構。它們在處理不同類型的數據和解決不同問題時具有各自的優(yōu)勢和特點。本文將從多個方面比較循環(huán)神經網絡和卷積神經網絡的區(qū)別。 基本概念 循環(huán)神經網絡
    的頭像 發(fā)表于 07-04 14:24 ?1019次閱讀

    循環(huán)神經網絡的基本原理是什么

    循環(huán)神經網絡(Recurrent Neural Network,簡稱RNN)是一種具有短期記憶功能的神經網絡,它能夠處理序列數據,如時間序列、文本序列等。與傳統(tǒng)的前饋
    的頭像 發(fā)表于 07-04 14:26 ?537次閱讀

    循環(huán)神經網絡的基本概念

    循環(huán)神經網絡(Recurrent Neural Network,簡稱RNN)是一種具有循環(huán)結構的神經網絡,其核心思想是
    的頭像 發(fā)表于 07-04 14:31 ?537次閱讀

    循環(huán)神經網絡算法原理及特點

    )相比,RNN在處理序列數據時具有明顯的優(yōu)勢。本文介紹循環(huán)神經網絡的原理、特點及應用。 1. 循環(huán)神經網絡的原理 1.1 基本概念
    的頭像 發(fā)表于 07-04 14:49 ?462次閱讀

    遞歸神經網絡循環(huán)神經網絡

    。 遞歸神經網絡的概念 遞歸神經網絡一種具有短期記憶功能的神經網絡,它能夠處理序列數據,如時間序列、文本、語音等。與傳統(tǒng)的前饋神經網絡不同
    的頭像 發(fā)表于 07-04 14:54 ?596次閱讀

    遞歸神經網絡循環(huán)神經網絡樣嗎

    神經網絡一種基于樹結構的神經網絡模型,它通過遞歸地輸入數據分解為更小的子問題來處理序列數據。RvNN的核心思想是復雜的序列問題
    的頭像 發(fā)表于 07-05 09:28 ?629次閱讀

    rnn是遞歸神經網絡還是循環(huán)神經網絡

    RNN(Recurrent Neural Network)是循環(huán)神經網絡,而非遞歸神經網絡。循環(huán)神經網絡
    的頭像 發(fā)表于 07-05 09:52 ?464次閱讀