機器語音系統(tǒng)一直有點令人失望:即使是最好的文本語音轉(zhuǎn)換系統(tǒng)也擺脫不了機械的特性,缺乏人類說話時的基本語調(diào)變化。斯蒂芬·霍金使用的語音系統(tǒng)就是一個很好的例子。
但近年來,機器學習取得了巨大進步,也改善了機器語音系統(tǒng)的一些缺點。
最近,F(xiàn)acebook 人工智能研究中心的 Sean Vasquez 和 Mike Lewis 發(fā)現(xiàn)了一種可以克服從文本到語音系統(tǒng)轉(zhuǎn)換限制,完全由機器生成而且音頻片段極其逼真的方法。這一系統(tǒng)被稱為 MelNet,它不僅可以復(fù)制人類的語調(diào),而且可以用與真人相同的聲音。于是,研究小組開始訓(xùn)練該系統(tǒng),讓它模仿出比爾·蓋茨等人的說話。這項工作讓人類和電腦之間更真實的互動成為可能,不僅如此,它的逼真程度,很可能引發(fā)虛假音頻內(nèi)容騙術(shù)的新問題。
圖丨比爾·蓋茨(來源:麻省理工科技評論)
現(xiàn)實中的文本—語音轉(zhuǎn)換系統(tǒng)進展緩慢并非是因為缺乏嘗試。許多團隊一直在嘗試訓(xùn)練深度學習算法,利用大型音頻數(shù)據(jù)庫重現(xiàn)真實的語音模式。
Vasquez 和 Lewis 說,這種方法的問題在于使用的數(shù)據(jù)類型。到目前為止,大多數(shù)工作都集中在音頻波形記錄上。這些音頻波形顯示了聲音的振幅如何隨時間而變化,它每秒記錄的音頻包含數(shù)萬個時間步長。
這些波形能在許多不同的尺度上顯示出特定模式。例如,在幾秒鐘的講話中,波形反映了與單詞序列相關(guān)的特征模式。但是在微秒級的片段中,波形顯示了與聲音的音高和音色相關(guān)的特征。在其他尺度上,波形反映了說話人的語調(diào)、音素結(jié)構(gòu)等。
另一種方法是將波形在一個時間步長和下一個時間步長之間的關(guān)聯(lián)性考慮進來。所以,在給定的時間范圍內(nèi),一個單詞開頭的聲音與后面的聲音是有關(guān)聯(lián)的。
深度學習系統(tǒng)理應(yīng)善于學習這些類型的關(guān)聯(lián)性,并對它們進行復(fù)制。但問題出在不同時間尺度的關(guān)聯(lián)性上,深度學習系統(tǒng)只能在有限的時間尺度上研究這些關(guān)聯(lián)性。這是因為深度學習使用了一種叫做反向傳播的學習過程,這種學習過程不斷地重新連接網(wǎng)絡(luò),根據(jù)所看到的示例改進其性能。
重復(fù)率限制了系統(tǒng)學習關(guān)聯(lián)性的時間尺度。因此,深度學習網(wǎng)絡(luò)可以學習長時間或短時間內(nèi)音頻波形的關(guān)聯(lián)性,但不能同時兼顧兩者。這就是為什么它們在復(fù)制語音方面表現(xiàn)如此糟糕的原因。
Vasquez 和 Lewis 則有不同的方法。他們使用聲譜圖而不是音頻波形來訓(xùn)練他們的深度學習網(wǎng)絡(luò)。聲譜圖記錄了整個音頻頻譜及其隨時間的變化。所以當波形捕捉到隨時間變化的一個參數(shù),例如振幅時,光譜圖則捕捉到了不同頻率范圍內(nèi)的振幅變化。
這意味著音頻信息被更密集地打包到了這種類型的數(shù)據(jù)中。研究者認為:聲譜圖的時間軸比波形的時間軸緊湊幾個數(shù)量級,這意味著在波形中跨越數(shù)萬個時間步長的依賴關(guān)系只跨越聲譜圖中的數(shù)百個時間步長。
這使得深度學習系統(tǒng)更容易獲得關(guān)聯(lián)性。他們說:“這使得我們的聲譜模型能夠在數(shù)秒內(nèi)產(chǎn)生一致的無條件語音和音樂樣本?!?/p>
圖丨聲譜圖 VS 波形圖(來源:Facebook)
最后的結(jié)果令人印象深刻。通過使用 TED 演講中的普通語音訓(xùn)練系統(tǒng),MelNet 能夠在幾秒鐘內(nèi)復(fù)制 TED 演講者的聲音,或多或少地說出一些內(nèi)容。Facebook 的研究人員利用比爾·蓋茨的 TED 演講來訓(xùn)練 MelNet,然后用比爾·蓋茨的聲音說出一系列隨機的短語,以此展示了 MelNet 的靈活性。
當然,該方法也有一些限制。普通言語包含了更長時間尺度上的相關(guān)性。例如,在幾十秒或幾分鐘的演講進程中,人們會使用語調(diào)的變化來表示主題或情緒的變化。Facebook 的機器系統(tǒng)似乎還無法做到這一點。
因此,盡管 MelNet 可以創(chuàng)造出非常逼真的短語,但團隊還不能讓機器完成較長的句子、段落或整個故事。這個目標似乎不是很快就能實現(xiàn)。
然而,這項工作可能會對人機交互產(chǎn)生重大影響。人機交互中許多對話只包含簡短的短語。電話接線員和服務(wù)臺尤其可以使用一系列相對簡短的短語。因此,這項技術(shù)可以用一種比當前系統(tǒng)更接近人類的方式來優(yōu)化這些交互。
不過,目前 Vasquez 和 Lewis 對潛在的應(yīng)用前景守口如瓶。
當然,自然發(fā)聲的機器也存在潛在的問題,尤其是那些能夠逼真模仿人類的機器。很容易想象,這種技術(shù)可能被用于惡作劇的場景。正因為如此,這是人工智能的又一進步,它提出的倫理問題比它所能回答的問題要更多。它所能回答的問題要更多。
-
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54610 -
機器學習
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
原文標題:Facebook 的 AI,已經(jīng)可以用比爾·蓋茨的聲音說話
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論