今天,給大家介紹一個算法。
AI 算法 5 秒鐘,就能克隆你的聲音,你信嗎?
聽聽這段音頻,猜猜看是 AI 合成音,還是真人錄音?
答案是:AI 合成。
這個人的原始聲音在這里:
你給這個 AI 克隆聲音的算法打幾分?
錄制一段音頻,就可以根據(jù)輸入的文字,5s 即可自動生成對應(yīng)的合成音。
突然有個大膽的想法,你說女朋友要是哪天突然不承認(rèn)自己說過了某句話,我就給她造一份!
兄弟們,我做的對嗎?
MockingBird這個算法是基于比較著名的 Real Time Voice Cloning 實現(xiàn)的。
MockingBird 是最近開源的中文版。
論文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
簡單介紹下:
算法分為三個模塊:encoder模塊、systhesis模塊、vocoder模塊。
encoder模塊將說話人的聲音轉(zhuǎn)換成人聲的數(shù)字編碼(speaker embedding)
synthesis 模塊將文本轉(zhuǎn)換成梅爾頻譜(mel-spectrogram)
vocoder模塊將梅爾頻譜(mel-spectrogram)轉(zhuǎn)換成(波形)waveform
具體的算法原理,大家可以先看論文:
https://arxiv.org/pdf/1806.04558.pdf
今天主要聊聊,這個算法怎么玩。
項目地址:https://github.com/babysor/MockingBird
有深度學(xué)習(xí)基礎(chǔ)的話,這個應(yīng)該不難。
就是部署環(huán)境,分四步:
Anaconda 配置 Pytorch 開發(fā)環(huán)境
根據(jù)項目 requirements.txt 安裝第三方庫依賴
下載權(quán)重文件
下載訓(xùn)練集,這個幾十G,有點大
具體的配置方法,直接看這里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
環(huán)境搭建搞定后,就可以運行代碼了。
有兩種模式可以啟動,Web 模式和工具箱模式。
在項目根目錄運行:
python web.py
即可開啟 Web ,打開地址 http://localhost:8080 就能操作了。
這個界面比較簡陋,建議使用工具箱模式。
python demo_toolbox.py -d 《datasets_root》
datasets_root就是下載好的數(shù)據(jù)集的地址。
責(zé)任編輯:haq
-
語音
+關(guān)注
關(guān)注
3文章
381瀏覽量
37975 -
AI
+關(guān)注
關(guān)注
87文章
29824瀏覽量
268112
原文標(biāo)題:危險!我克隆了女朋友的聲音
文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論