近期,來自于約翰霍普金斯大學(xué)(John Hopkins University)和亞馬遜(Amazon)的研究人員們發(fā)布了一篇論文,介紹他們是如何通過訓(xùn)練一個深度學(xué)習(xí)系統(tǒng)來幫助亞馬遜Alexa語音助手識別并忽略那些并非是對她說的話,從而將其語義識別模型的識別準(zhǔn)確度提高了15%。
研究人員在他們的論文中指出,“諸如Amazon Echo和Google Home的這類家用聲控設(shè)備都面臨著一個問題,那就是當(dāng)周圍存在干擾聲源的時候,設(shè)備如何能夠照常地識別指令。”
為了讓Alexa更好地識別指令,研究人員訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),來匹配和識別“喚醒詞”(通常是“Alexa”)以及緊隨其后的指令,并忽略那些來自于其他人或媒體設(shè)備的干擾。
研究人員介紹說:“這項任務(wù)的挑戰(zhàn)在于需要從含有特定詞匯的話語片段中學(xué)習(xí)使用者的語言習(xí)慣。借助于兩種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),我們最終實現(xiàn)了這一目標(biāo)。兩個神經(jīng)網(wǎng)絡(luò)架構(gòu)都是具有注意機制的序列到序列編碼器 - 解碼器網(wǎng)絡(luò)的變體。”
借助于NVIDIA V100 GPU和OpenSeq2Seq工具,用于序列到序列模型的分布式和混合精度訓(xùn)練,使用TensorFlow建立,團隊用1,200小時來自于Amazon Echo的實時英文數(shù)據(jù)訓(xùn)練他們的算法。
通過改進所開發(fā)的基線網(wǎng)絡(luò),該團隊還添加了一個額外的輸入端,能夠通過優(yōu)先處理類似于錨字的語音來增強注意機制。研究人員總結(jié)說: “在訓(xùn)練期間,注意機制會自動學(xué)習(xí)喚醒詞的哪些聲學(xué)特征,以便在隨后的演講中尋找?!?/p>
該團隊還開發(fā)了一個mask-based模型,該模型能夠更加明確地將輸入語音與錨字的聲學(xué)輪廓相匹配。
最后的測試結(jié)果顯示:第一種方法的性能更好,達到了15%的改進;第二種模型也達到了13%的改進。
根據(jù)研究人員介紹,該算法在訓(xùn)練和推理過程中都采用了NVIDIA GPU。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2618瀏覽量
83131
原文標(biāo)題:借助AI研究,將亞馬遜Alexa語義識別準(zhǔn)確度提高15%
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論