首頁: 電子電路圖,電子技術(shù)資料網(wǎng)站首頁

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測試工具等技術(shù)文章！

電子元器件: 專業(yè)的電子元器件平臺 -- 及時發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺 -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器學(xué)習(xí)技術(shù)提高讀唇準(zhǔn)確性的發(fā)展前景光廣大

大?。?/span>0.6 MB 人氣： 2017-10-11 需要積分：1

推薦 + 挑錯 + 收藏(0) + 用戶評論（0）

前往下載地址

分享到:

標(biāo)簽：機(jī)器學(xué)習(xí)(129859)

　對于人類讀唇者來說，在剝離音頻線索的情況下，語境是破譯文字的關(guān)鍵。但是英國東英吉利大學(xué)（UEA）開發(fā)的一種技術(shù)模型可以比人類讀唇者以更高的準(zhǔn)確性來解釋嘴里說出的詞語，這要?dú)w功于使用了機(jī)器學(xué)習(xí)技術(shù)將聲音從視覺方面進(jìn)行分類。而且算法并不需要知道對話的語境就能夠識別出你使用的詞語。
　　然而此模型仍然處于研究階段，對于自動將視覺線索轉(zhuǎn)換成準(zhǔn)確話語技術(shù)方面還有許多潛在應(yīng)用——無論是在幫助有聽覺障礙的人方面，還是在使用額外語音數(shù)據(jù)來增加無聲視頻片段方面——甚至是在比賽高潮找到足球運(yùn)動員說的最多的詞……
　　這種技術(shù)也可以在移動或視頻通話語音質(zhì)量不佳的情況下，作為后備使用?；蚴亲詣踊帜弧；蛘呤窃趲в袛z像頭的手機(jī)上啟動”語音”助手，你不需要真正發(fā)聲，只需用唇語命令（這會有多么酷？）。肯定地說，機(jī)器驅(qū)動的讀唇應(yīng)用數(shù)量浩如煙海。因此，只要研究人員可以發(fā)掘它的優(yōu)勢，那么它未來的潛力將不可限量。
　　開發(fā)這套讀唇機(jī)器學(xué)習(xí)模型的UEA團(tuán)隊(duì)正在使用純視覺輸入——那么就可以在沒有任何音頻輸入的情況下，通過嘴唇發(fā)聲時的形狀來訓(xùn)練模型。
　　Helen Bear博士表示，“我們正在尋找視覺線索，判斷它們是如何變化的？我們知道它們因人的不同而不同。人們是如何使用它們的？又有什么區(qū)別？以及我們是否能夠在我們的模型中使用這種特殊訓(xùn)練方法中的知識？我們可以這么做”。她在UEA計(jì)算機(jī)科學(xué)學(xué)院教授Richard Harvey的指導(dǎo)下，在她的博士論文中對視覺語音識別技術(shù)模型進(jìn)行了論述。
　　她補(bǔ)充說，“讀唇機(jī)器背后的理念是，機(jī)器本身沒有情感，它不介意理解是否正確或錯誤——它只是努力學(xué)習(xí)。所以在論文中……我已經(jīng)展示了如何使用這些視覺困惑做出更好的音素分類器。所以這是種新的訓(xùn)練方法”。
　　Bear博士注意到，目前許多讀唇方面的研究使用音頻和視覺線索來提高機(jī)器讀唇的準(zhǔn)確性。因此UEA模型脫穎而出，它只關(guān)注視覺講話，想盡一切辦法提高機(jī)器驅(qū)動的嘴唇閱讀。
　　“我們假裝根本沒有音頻信號”，她說，“我們的想法是，這個系統(tǒng)可以只能讀唇，或者它可以用在視聽系統(tǒng)中，希望在某天視聽系統(tǒng)能使用到，當(dāng)重新獲得音頻信號之前，只處理視覺信號，比如，如果你在Skype上與人視頻，突然音頻信號丟失了，而你仍然可以看到對方?！?br /> 　　對于一般讀唇技術(shù)的核心挑戰(zhàn)是——至少對于人類肉眼來說——比起人類發(fā)出的聲音來說，視覺線索要少。容易混淆的具有相似嘴型的發(fā)音有‘/p/’，‘/b/’，和‘/m/’，它們都會對人類讀唇者造成困難。然而UEA的視覺語音模型可以更好的區(qū)分這些視覺上相似的唇形。
　　Bear博士表示，“‘/p/’，‘/b/’，和‘/m/’之間的唇形是有些區(qū)別的，但是人類很難發(fā)現(xiàn)，不過如果使用機(jī)器的話，我們可以發(fā)現(xiàn)的確有不同之處，我們的識別器在這方面效果更佳。”
　　在討論訓(xùn)練技巧時，她說，“如果我試圖建立一個只識別/p/聲音的分類器，我會做的是，首先在所有看上去相同的聲音上訓(xùn)練。然后我們通過針對/p/聲音做更多的迭代訓(xùn)練來改善訓(xùn)練”。
　　她補(bǔ)充道，“我們實(shí)際上是在學(xué)習(xí)、理解這些視覺單元的意義，以及它們?nèi)绾胃鶕?jù)不同的人而改變，我們已經(jīng)使用這種知識來改變傳統(tǒng)的讀唇系統(tǒng)，并使之更好。這是很顯著的進(jìn)步”。
　　Bear博士表示，“更好”仍然是相對而言——讀唇的準(zhǔn)確率一直很低。模型識別一個詞語的準(zhǔn)確率為10%到20%（即正確識別一個詞），盡管她強(qiáng)調(diào)比猜還是要高許多。她補(bǔ)充道，在一句話中，它顯然更容易從全部文字里區(qū)分感官。
　　她對TechCrunch說，“說實(shí)話，我們不能100%肯定（這為什么起作用），我們只知道使用特殊的分類器，如果我們用正確的方式、正確的數(shù)據(jù)來訓(xùn)練它們，它們不會有任何偏差”。
　　“這里復(fù)雜的是理解為什么視覺語音復(fù)雜，這一問題比回答為什么我們可以使用機(jī)器學(xué)習(xí)得到更好結(jié)果要困難的多。我們知道機(jī)器學(xué)習(xí)一直在演變，我們會得到不同類型的分類器……但詢問它們在學(xué)習(xí)什么，視覺語音如何，它差異多大，以及我們?nèi)绾慰刂七@些變量，這些都是難以回答的問題。”
　　當(dāng)被問及距這項(xiàng)研究在應(yīng)用程序中商業(yè)化還有多遠(yuǎn)時，她打趣道：“如果我在谷歌工作可能會很快！”，把這項(xiàng)研究商業(yè)化可能需要幾年時間。
　　他說，“我們?nèi)匀贿€有東西需要學(xué)習(xí)和理解”，這項(xiàng)研究就像是連鎖的語言模型，機(jī)器需要具備這些來熟練準(zhǔn)確地從推特中抓取數(shù)據(jù)，這就會是讀唇的轉(zhuǎn)折點(diǎn)。
　　另外值得一提的是，UEA模型只處理英語。因此，在應(yīng)用程序中使用讀唇技術(shù)所面臨的挑戰(zhàn)還是不容低估的。
　　UEA可以與其他語言預(yù)測技術(shù)結(jié)合使用嗎？——比如基于下個詞語預(yù)測技術(shù)的機(jī)器學(xué)習(xí)——以此進(jìn)一步增強(qiáng)讀唇能力?！斑@正是我愿意做的”，她說，“往我們的模型中加入一些健壯的東西是非常棒的，但這也需要更多的時間。它不會馬上推出”。
　　Bear博士將在本周五于上海舉行的國際聲學(xué)、語音和信號處理會議上展示她的研究成果，她的論文——Decoding visemes： Improving machine lip-reading ——也將公布。這項(xiàng)研究來自于一個為期三年的項(xiàng)目，由工程和物理科學(xué)研究理事會資助。
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

下載地址

不能下載？請通知我們

機(jī)器學(xué)習(xí)技術(shù)提高讀唇準(zhǔn)確性的發(fā)展前景光廣大下載

普通下載普通下載

用戶評論

發(fā)表評論即可獲得積分！ 詳見積分規(guī)則

發(fā)表評論

用戶評論

評價:好評中評差評

發(fā)表評論，獲取積分！請遵守相關(guān)規(guī)定！

注冊會員

游客:

機(jī)器學(xué)習(xí)技術(shù)提高讀唇準(zhǔn)確性的發(fā)展前景光廣大

下載地址

機(jī)器學(xué)習(xí)技術(shù)提高讀唇準(zhǔn)確性的發(fā)展前景光廣大下載

相關(guān)電子資料下載

用戶評論

發(fā)表評論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門詞