您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器學(xué)習(xí)技術(shù)提高讀唇準(zhǔn)確性的發(fā)展前景光廣大

大?。?/span>0.6 MB 人氣: 2017-10-11 需要積分:1
 對于人類讀唇者來說,在剝離音頻線索的情況下,語境是破譯文字的關(guān)鍵。但是英國東英吉利大學(xué)(UEA)開發(fā)的一種技術(shù)模型可以比人類讀唇者以更高的準(zhǔn)確性來解釋嘴里說出的詞語,這要?dú)w功于使用了機(jī)器學(xué)習(xí)技術(shù)將聲音從視覺方面進(jìn)行分類。而且算法并不需要知道對話的語境就能夠識別出你使用的詞語。
  然而此模型仍然處于研究階段,對于自動將視覺線索轉(zhuǎn)換成準(zhǔn)確話語技術(shù)方面還有許多潛在應(yīng)用——無論是在幫助有聽覺障礙的人方面,還是在使用額外語音數(shù)據(jù)來增加無聲視頻片段方面——甚至是在比賽高潮找到足球運(yùn)動員說的最多的詞……
  這種技術(shù)也可以在移動或視頻通話語音質(zhì)量不佳的情況下,作為后備使用?;蚴亲詣踊帜弧;蛘呤窃趲в袛z像頭的手機(jī)上啟動”語音”助手,你不需要真正發(fā)聲,只需用唇語命令(這會有多么酷?)。肯定地說,機(jī)器驅(qū)動的讀唇應(yīng)用數(shù)量浩如煙海。因此,只要研究人員可以發(fā)掘它的優(yōu)勢,那么它未來的潛力將不可限量。
  開發(fā)這套讀唇機(jī)器學(xué)習(xí)模型的UEA團(tuán)隊(duì)正在使用純視覺輸入——那么就可以在沒有任何音頻輸入的情況下,通過嘴唇發(fā)聲時的形狀來訓(xùn)練模型。
  Helen Bear博士表示,“我們正在尋找視覺線索,判斷它們是如何變化的?我們知道它們因人的不同而不同。人們是如何使用它們的?又有什么區(qū)別?以及我們是否能夠在我們的模型中使用這種特殊訓(xùn)練方法中的知識?我們可以這么做”。她在UEA計(jì)算機(jī)科學(xué)學(xué)院教授Richard Harvey的指導(dǎo)下,在她的博士論文中對視覺語音識別技術(shù)模型進(jìn)行了論述。
  她補(bǔ)充說,“讀唇機(jī)器背后的理念是,機(jī)器本身沒有情感,它不介意理解是否正確或錯誤——它只是努力學(xué)習(xí)。所以在論文中……我已經(jīng)展示了如何使用這些視覺困惑做出更好的音素分類器。所以這是種新的訓(xùn)練方法”。
  Bear博士注意到,目前許多讀唇方面的研究使用音頻和視覺線索來提高機(jī)器讀唇的準(zhǔn)確性。因此UEA模型脫穎而出,它只關(guān)注視覺講話,想盡一切辦法提高機(jī)器驅(qū)動的嘴唇閱讀。
  “我們假裝根本沒有音頻信號”,她說,“我們的想法是,這個系統(tǒng)可以只能讀唇,或者它可以用在視聽系統(tǒng)中,希望在某天視聽系統(tǒng)能使用到,當(dāng)重新獲得音頻信號之前,只處理視覺信號,比如,如果你在Skype上與人視頻,突然音頻信號丟失了,而你仍然可以看到對方?!?br />   對于一般讀唇技術(shù)的核心挑戰(zhàn)是——至少對于人類肉眼來說——比起人類發(fā)出的聲音來說,視覺線索要少。容易混淆的具有相似嘴型的發(fā)音有‘/p/’,‘/b/’,和‘/m/’,它們都會對人類讀唇者造成困難。然而UEA的視覺語音模型可以更好的區(qū)分這些視覺上相似的唇形。
  Bear博士表示,“‘/p/’,‘/b/’,和‘/m/’之間的唇形是有些區(qū)別的,但是人類很難發(fā)現(xiàn),不過如果使用機(jī)器的話,我們可以發(fā)現(xiàn)的確有不同之處,我們的識別器在這方面效果更佳。”
  在討論訓(xùn)練技巧時,她說,“如果我試圖建立一個只識別/p/聲音的分類器,我會做的是,首先在所有看上去相同的聲音上訓(xùn)練。然后我們通過針對/p/聲音做更多的迭代訓(xùn)練來改善訓(xùn)練”。
  她補(bǔ)充道,“我們實(shí)際上是在學(xué)習(xí)、理解這些視覺單元的意義,以及它們?nèi)绾胃鶕?jù)不同的人而改變,我們已經(jīng)使用這種知識來改變傳統(tǒng)的讀唇系統(tǒng),并使之更好。這是很顯著的進(jìn)步”。
  Bear博士表示,“更好”仍然是相對而言——讀唇的準(zhǔn)確率一直很低。模型識別一個詞語的準(zhǔn)確率為10%到20%(即正確識別一個詞),盡管她強(qiáng)調(diào)比猜還是要高許多。她補(bǔ)充道,在一句話中,它顯然更容易從全部文字里區(qū)分感官。
  她對TechCrunch說,“說實(shí)話,我們不能100%肯定(這為什么起作用),我們只知道使用特殊的分類器,如果我們用正確的方式、正確的數(shù)據(jù)來訓(xùn)練它們,它們不會有任何偏差”。
  “這里復(fù)雜的是理解為什么視覺語音復(fù)雜,這一問題比回答為什么我們可以使用機(jī)器學(xué)習(xí)得到更好結(jié)果要困難的多。我們知道機(jī)器學(xué)習(xí)一直在演變,我們會得到不同類型的分類器……但詢問它們在學(xué)習(xí)什么,視覺語音如何,它差異多大,以及我們?nèi)绾慰刂七@些變量,這些都是難以回答的問題。”
  當(dāng)被問及距這項(xiàng)研究在應(yīng)用程序中商業(yè)化還有多遠(yuǎn)時,她打趣道:“如果我在谷歌工作可能會很快!”,把這項(xiàng)研究商業(yè)化可能需要幾年時間。
  他說,“我們?nèi)匀贿€有東西需要學(xué)習(xí)和理解”,這項(xiàng)研究就像是連鎖的語言模型,機(jī)器需要具備這些來熟練準(zhǔn)確地從推特中抓取數(shù)據(jù),這就會是讀唇的轉(zhuǎn)折點(diǎn)。
  另外值得一提的是,UEA模型只處理英語。因此,在應(yīng)用程序中使用讀唇技術(shù)所面臨的挑戰(zhàn)還是不容低估的。
  UEA可以與其他語言預(yù)測技術(shù)結(jié)合使用嗎?——比如基于下個詞語預(yù)測技術(shù)的機(jī)器學(xué)習(xí)——以此進(jìn)一步增強(qiáng)讀唇能力?!斑@正是我愿意做的”,她說,“往我們的模型中加入一些健壯的東西是非常棒的,但這也需要更多的時間。它不會馬上推出”。
  Bear博士將在本周五于上海舉行的國際聲學(xué)、語音和信號處理會議上展示她的研究成果,她的論文——Decoding visemes: Improving machine lip-reading ——也將公布。這項(xiàng)研究來自于一個為期三年的項(xiàng)目,由工程和物理科學(xué)研究理事會資助。
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?