0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng)

DPVg_AI_era ? 來(lái)源:lq ? 2019-05-19 10:12 ? 次閱讀

今天,谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng),這是第一個(gè)可以直接將一個(gè)人的聲音從一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言,同時(shí)保持說(shuō)話人的聲音和節(jié)奏的翻譯模型。

讓說(shuō)不同語(yǔ)言的人更容易地、直接地相互交流,這是語(yǔ)音到語(yǔ)音的翻譯系統(tǒng)(Speech-to-speech translation)的目的,這樣的系統(tǒng)在過(guò)去幾十年里取得了不錯(cuò)的進(jìn)展。

今天,谷歌發(fā)布Translatotron語(yǔ)音翻譯系統(tǒng),這是第一個(gè)可以直接將一個(gè)人的聲音從一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言,同時(shí)保持說(shuō)話人的聲音和節(jié)奏的翻譯模型。

傳統(tǒng)上,語(yǔ)音翻譯系統(tǒng)通常有3個(gè)獨(dú)立的部分:自動(dòng)語(yǔ)音識(shí)別將源語(yǔ)音轉(zhuǎn)錄為文本,機(jī)器翻譯將轉(zhuǎn)錄的文本翻譯成目標(biāo)語(yǔ)言,最后,文本到語(yǔ)音合成(TTS)系統(tǒng)將翻譯文本轉(zhuǎn)換成目標(biāo)語(yǔ)言的語(yǔ)音。

許多商業(yè)語(yǔ)音到語(yǔ)音翻譯的產(chǎn)品都采用這樣的系統(tǒng),包括Google Translate。但是,這類系統(tǒng)依賴于中間文本,準(zhǔn)確率不高,而且效率較低。

谷歌的新工具Translatotron舍棄了將語(yǔ)音翻譯為文本再返回語(yǔ)音的步驟,而是采用端到端的技術(shù),直接將說(shuō)話者的聲音翻譯成另一種語(yǔ)言。這使它能夠快速地翻譯,但更重要的是,能夠更容易反映說(shuō)話人的語(yǔ)調(diào)和節(jié)奏。

在論文《基于序列到序列模型的直接語(yǔ)音到語(yǔ)音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人員提出一種基于單個(gè)注意力序列到序列模型的直接語(yǔ)音到語(yǔ)音翻譯的新實(shí)驗(yàn)系統(tǒng),該系統(tǒng)不依賴于中間文本表示。

這個(gè)系統(tǒng)被稱為Translatotron,避免了將任務(wù)劃分為獨(dú)立的階段,比級(jí)聯(lián)系統(tǒng)更有優(yōu)勢(shì),包括推理速度快、自然地避免了識(shí)別和翻譯之間的復(fù)合錯(cuò)誤,能夠在翻譯后保留原說(shuō)話者的聲音,以及能夠更好地處理不需要翻譯的單詞(如名稱和專有名詞)。

Translatotron:不依賴中間文本,直接翻譯語(yǔ)音

語(yǔ)音翻譯端到端模型的出現(xiàn)始于2016年,當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語(yǔ)音到文本翻譯的可行性。2017年,我們證明了這種端到端模型可以超越級(jí)聯(lián)模型(cascade models)。

最近有許多工作進(jìn)一步改進(jìn)了端到端語(yǔ)音到文本翻譯模型的方法,包括同樣來(lái)自谷歌的利用弱監(jiān)督數(shù)據(jù)的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進(jìn)一步,證明了單個(gè)序列到序列模型可以直接將一種語(yǔ)言的語(yǔ)音翻譯成另一種語(yǔ)言的語(yǔ)音,而不需要像級(jí)聯(lián)系統(tǒng)那樣依賴于任何一種語(yǔ)言的中間文本表示。

Translatotron基于一個(gè)sequence-to-sequence網(wǎng)絡(luò),它將源聲譜圖(spectrograms)作為輸入,生成目標(biāo)語(yǔ)言翻譯內(nèi)容的聲譜圖。

輸入和生成的聲譜圖

此外,Translatotron還使用了另外兩個(gè)單獨(dú)訓(xùn)練的組件:一個(gè)神經(jīng)聲音編碼器(neuralvocoder),可以將輸出聲譜圖轉(zhuǎn)換為時(shí)域波形;另外,還可以選擇使用一個(gè)speaker encoder,用于在合成翻譯語(yǔ)音時(shí)保持源speaker的語(yǔ)音特征。

在訓(xùn)練過(guò)程中,序列到序列模型使用一個(gè)多任務(wù)目標(biāo)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄文本,同時(shí)生成目標(biāo)聲譜圖。然而,推理過(guò)程中不需要使用轉(zhuǎn)錄文本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

谷歌通過(guò)測(cè)量BLEU分?jǐn)?shù)來(lái)驗(yàn)證Translatotron的翻譯質(zhì)量。該分?jǐn)?shù)是通過(guò)語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)錄的文本計(jì)算的。雖然結(jié)果落后于傳統(tǒng)的級(jí)聯(lián)系統(tǒng),但已經(jīng)證明了端到端直接語(yǔ)音到語(yǔ)音轉(zhuǎn)換的可行性。

對(duì)比Translatotron到基線級(jí)聯(lián)方法的直接語(yǔ)音到語(yǔ)音翻譯輸出,在這種情況下,兩個(gè)系統(tǒng)都提供合適的翻譯并使用相同的規(guī)范語(yǔ)音很自然的說(shuō)話。

保持聲音特征

通過(guò)結(jié)合揚(yáng)聲器編碼器網(wǎng)絡(luò),Translatotron還能夠在翻譯的語(yǔ)音中,保留原始說(shuō)話者的聲音特征,這使得翻譯的語(yǔ)音聽(tīng)起來(lái)更自然,不那么刺耳。

此功能利用了之前針對(duì)TTS的演講者驗(yàn)證和演講者調(diào)整的Google研究。揚(yáng)聲器編碼器在演講者驗(yàn)證任務(wù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)從簡(jiǎn)短的示例話語(yǔ)對(duì)揚(yáng)聲器特性進(jìn)行編碼。在該編碼上調(diào)節(jié)頻譜圖解碼器,即使內(nèi)容是在不同的語(yǔ)言中,也可以合成具有類似揚(yáng)聲器特性的語(yǔ)音。

谷歌提供了諸多使用示例,如下面的例子,Translatotron將西班牙語(yǔ)對(duì)話轉(zhuǎn)換為英語(yǔ),下面的音頻分別是西班牙語(yǔ)輸入、真人參考翻譯,以及Translatotron的翻譯。

(由于微信智能插入一個(gè)音頻,請(qǐng)點(diǎn)擊原文鏈接聽(tīng)更多語(yǔ)音。)

Translatotron的翻譯:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個(gè)例子中,Translatotron提供比基線級(jí)聯(lián)模型更準(zhǔn)確的平移,同時(shí)能夠保留原始說(shuō)話者的聲音特征。保留原始說(shuō)話者聲音的Translatotron輸出訓(xùn)練的數(shù)據(jù),少于使用規(guī)范聲音的數(shù)據(jù),因此它們產(chǎn)生的翻譯略有不同。

結(jié)論

谷歌聲稱,Translatotron是第一個(gè)可以直接將一種語(yǔ)言的語(yǔ)音,翻譯成另一種語(yǔ)言的語(yǔ)音的端到端模型。它還能夠在翻譯的語(yǔ)音中保留源說(shuō)話者的聲音。谷歌希望這項(xiàng)工作可以作為未來(lái)端到端語(yǔ)音轉(zhuǎn)語(yǔ)音翻譯系統(tǒng)研究的起點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3574

    瀏覽量

    133985
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104952
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    381

    瀏覽量

    37974

原文標(biāo)題:同聲傳譯被攻陷!谷歌發(fā)布Translatotron直接語(yǔ)音翻譯系統(tǒng)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    谷歌計(jì)劃12月發(fā)布Gemini 2.0模型

    近日,有消息稱谷歌計(jì)劃在12月發(fā)布其下一代人工智能模型——Gemini 2.0。這一消息引發(fā)了業(yè)界的廣泛關(guān)注,因?yàn)?b class='flag-5'>谷歌在人工智能領(lǐng)域一直保持著領(lǐng)先地位,而Gemini系列模型更是其重要的產(chǎn)品之一。
    的頭像 發(fā)表于 10-29 11:02 ?170次閱讀

    阿里國(guó)際發(fā)布翻譯大模型Marco

    近日,阿里國(guó)際正式推出了其翻譯大模型——Marco。這款模型已在阿里國(guó)際AI官網(wǎng)Aidge上線,并向全球用戶開(kāi)放使用。
    的頭像 發(fā)表于 10-17 16:07 ?216次閱讀

    谷歌推出Gemini Live,開(kāi)啟AI語(yǔ)音聊天新紀(jì)元

    在萬(wàn)眾矚目的Pixel 9系列手機(jī)發(fā)布會(huì)上,谷歌震撼宣布了一項(xiàng)創(chuàng)新服務(wù)——Gemini Live,該服務(wù)自今日起,率先向使用英語(yǔ)的Gemini Advanced訂閱用戶敞開(kāi)大門。這一舉措標(biāo)志著谷歌在人工智能
    的頭像 發(fā)表于 08-15 17:29 ?656次閱讀

    車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

    車載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 06-19 15:52 ?308次閱讀
    車載<b class='flag-5'>語(yǔ)音</b>識(shí)別<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>語(yǔ)音</b>數(shù)據(jù)采集標(biāo)注案例

    車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

    車載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 06-19 15:49 ?434次閱讀

    開(kāi)源項(xiàng)目!設(shè)計(jì)一款智能手語(yǔ)翻譯眼鏡

    這個(gè)項(xiàng)目是一款創(chuàng)新的智能手語(yǔ)翻譯眼鏡,它能夠?qū)崟r(shí)地將手語(yǔ)轉(zhuǎn)換為聽(tīng)得見(jiàn)的語(yǔ)音。這款眼鏡采用了VIAM平臺(tái)和樹(shù)莓派Zero 2 W,能夠幫助聾人或聽(tīng)力受損的人士更自由、獨(dú)立地與他人交流,減少對(duì)第三方
    發(fā)表于 05-20 15:59

    谷歌發(fā)布多模態(tài)AI新品,加劇AI巨頭競(jìng)爭(zhēng)

    在全球AI競(jìng)技場(chǎng)上,谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日,谷歌在I/O開(kāi)發(fā)者大會(huì)上掀起了一股新的技術(shù)浪潮,發(fā)布了多款全新升級(jí)的多模態(tài)AI產(chǎn)品。
    的頭像 發(fā)表于 05-16 09:28 ?409次閱讀

    谷歌發(fā)布用于輔助編程的代碼大模型CodeGemma

    谷歌發(fā)布了用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發(fā)布的輕量級(jí)開(kāi)源大模型 Gemma,針對(duì) Gemma 的兩個(gè)不同參數(shù)規(guī)模的版本 Gemm
    的頭像 發(fā)表于 04-17 16:07 ?613次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>發(fā)布</b>用于輔助編程的代碼大模型CodeGemma

    谷歌發(fā)布開(kāi)源AI大模型Gemma

    近日,谷歌發(fā)布了全新AI大模型Gemma,這款模型為各種規(guī)模的組織提供了前所未有的機(jī)會(huì),以負(fù)責(zé)任的方式在商業(yè)應(yīng)用中進(jìn)行分發(fā)。
    的頭像 發(fā)表于 02-28 17:38 ?792次閱讀

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    恩智浦發(fā)布新一代智能語(yǔ)音技術(shù)組合的語(yǔ)音識(shí)別引擎

    恩智浦發(fā)布新一代智能語(yǔ)音技術(shù)組合的語(yǔ)音識(shí)別引擎。本文將探討開(kāi)發(fā)人員在嵌入式語(yǔ)音控制設(shè)計(jì)中面臨的挑戰(zhàn)、恩智浦新的Speech to Intent引擎,以及您如何在應(yīng)用中使用它。
    的頭像 發(fā)表于 01-26 09:15 ?705次閱讀
    恩智浦<b class='flag-5'>發(fā)布</b>新一代智能<b class='flag-5'>語(yǔ)音</b>技術(shù)組合的<b class='flag-5'>語(yǔ)音</b>識(shí)別引擎

    重塑翻譯與識(shí)別技術(shù):開(kāi)源語(yǔ)音識(shí)別模型Whisper的編譯優(yōu)化與部署

    模型介紹Whisper模型是一個(gè)由OpenAI團(tuán)隊(duì)開(kāi)發(fā)的通用語(yǔ)音識(shí)別模型。它的訓(xùn)練基于大量不同的音頻數(shù)據(jù)集,是一個(gè)多任務(wù)模型,可以執(zhí)行語(yǔ)音識(shí)別、語(yǔ)言翻譯、語(yǔ)言識(shí)別。下面是模型的整體架構(gòu):使用方法如下
    的頭像 發(fā)表于 01-06 08:33 ?3334次閱讀
    重塑<b class='flag-5'>翻譯</b>與識(shí)別技術(shù):開(kāi)源<b class='flag-5'>語(yǔ)音</b>識(shí)別模型Whisper的編譯優(yōu)化與部署

    谷歌發(fā)布多模態(tài)Gemini大模型及新一代TPU系統(tǒng)Cloud TPU v5p

    谷歌發(fā)布新一代TPU 系統(tǒng)——Cloud TPU v5p,以幫助訓(xùn)練尖端的 AI 模型。目
    的頭像 發(fā)表于 12-12 10:50 ?1281次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>發(fā)布</b>多模態(tài)Gemini大模型及新一代TPU<b class='flag-5'>系統(tǒng)</b>Cloud TPU v5p

    新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)碾壓GPT-4?

    谷歌背水一戰(zhàn),發(fā)布Gemini,狙擊GPT-4
    的頭像 發(fā)表于 12-08 09:09 ?1086次閱讀
    新火種AI|<b class='flag-5'>谷歌</b>深夜<b class='flag-5'>發(fā)布</b>復(fù)仇神器Gemini,原生多模態(tài)碾壓GPT-4?

    基于數(shù)字化語(yǔ)音存儲(chǔ)回放及GSM語(yǔ)音傳輸系統(tǒng)設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《基于數(shù)字化語(yǔ)音存儲(chǔ)回放及GSM語(yǔ)音傳輸系統(tǒng)設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 11-17 16:48 ?0次下載
    基于數(shù)字化<b class='flag-5'>語(yǔ)音</b>存儲(chǔ)回放及GSM<b class='flag-5'>語(yǔ)音</b>傳輸<b class='flag-5'>系統(tǒng)</b>設(shè)計(jì)