0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人類進化的歷程當中語音起到了多大的作用

人工智能和機器人研究院 ? 來源:未知 ? 作者:李倩 ? 2018-04-15 10:24 ? 次閱讀

黃學東:大家好!今天我主要想和大家分享一下微軟的故事,相信一定會很激動人心。但在正式分享之前,我想介紹一下人類進化的歷程當中語音起到了多大的作用。

達爾文的進化論已經說明,最新的科學驗證也再次證明,我們人和大猩猩DNA的相似度接近99%,就那1%的區(qū)別造就了我們是這個地球的主宰。為什么呢?因為我們更聰明嗎?還是漫長的進化過程當中有什么其他因素?計算機視覺非常重要,但動物的視力其實比人還厲害,晚上的夜貓子看得比人更厲害,但我們仍然是這個地球的主宰。最重要的原因之一是我們的語音和語言,所以大家可以在今天準時地來到這個地方和我們一起討論人工智能激動人心的進展。語音和語言對人類的進化是起到決定性作用的,當然對人工智能的進化也有同等的重要性。

微軟在過去的幾年當中多次創(chuàng)造了接近人類水平的人工智能進展。以今天的ImageNet作為圖像識別的標準,微軟兩年前就第一次在圖像識別斯坦福大學的ImageNet達到了超越人的水平。去年微軟又宣布公開測試級對話系統Switchboard的最新成果最新成果。這是語音領域大家都很熟悉的一個很重要的任務,就是識別兩個人在電話上的交談,微軟第一次在業(yè)界達到了超過普通人的專業(yè)水平。今年在斯坦福大學的SQuAD閱讀理解挑戰(zhàn)賽,微軟再次達到了媲美人類的水平。上個月微軟再次創(chuàng)造了在中文和英文翻譯上達到了超過專業(yè)人員翻譯質量的水平,這是前所未有的。所以這確實是一個激動人心的時刻,人類進化的長河當中語音起了決定性的作用,今天在人工智能的進化當中語音和語言會起到同樣的作用。

去年《經濟學人》有一篇封面文章,總結了過去的四十年語音和語言的重要進展,早在五十年代IBM就開始了機器翻譯的工作,那個時候我還沒有出生。過去的幾年當中有三個很重大的歷史事件:蘋果第一次推出Siri,也就是手機上的個人助理。Google推出了基于神經翻譯的產品,大大推動了機器翻譯的進步。微軟第一次在業(yè)界歷史性地創(chuàng)造了超越人的自然對話系統——語音識別系統。

這張圖顯示了過去的二十年當中語音識別的同行們通過不懈的努力,創(chuàng)造出了很多輝煌的成果,但有一條紅線,就是Switchboard錯誤率一直在10%以上,直到最近幾年因為深度學習的進展,微軟和IBM的公開評測當中一直起到了領頭羊的作用。

去年微軟是第一次達到了5.1%的水平,超過了普通轉錄人員的標準,也是非常激動人心的進展。采用的方法是組合了多種不同的深度神經網絡,包括ResNet、LACE和BLSTM,通過并行的處理組合成了一個工程上完美的語音識別系統,其實在云上是不費吹灰之力的,只是計算機的資源會比較多。

微軟在語音合成領域也有很多進展。我們支持將近包括50種語言的語音合成系統,而且它的質量也達到了4.3 MOS, 這是非常振奮人心的。

這是微軟和哈曼音箱聯合推出的聯想語音識別系統,喚醒智能音箱的時候不是非常自然,微軟最近和小米聯合推出了全雙工的語音對話系統,就是喚醒以后可以連續(xù)講,不需要每次都說喚醒詞“小娜”再說語音指令。這是微軟核心的語音技術在中國落地的一個非常好的案例,它的基本思想非常簡單,就是我跟你講話,比如我見到鄧院士每次都說“鄧院士,今天你好嗎?”“鄧院士,你今天吃飯了沒有?”所以大家會覺得很煩,全雙工的系統只要喚醒一次,接下來就可以很自然地跟它交互。

大家可以看出,全雙工的語音交互在中國已經落地,和小米的合作產品今天可以很便宜地買到一臺,讓它幫你掃地、開燈、看股票,這些都沒問題,如果實在閑得慌的話可以和小冰聊天斗嘴,這是已經落地的產品。

和大家介紹一下最近微軟在機器翻譯上的重大突破。就像《經濟學人》說過的,1954年開始IBM Wason就開始了機器翻譯的研發(fā)工作,那個時候是傳統的機器翻譯,根據自然語言的處理方法。后來IBM再次引導了新潮流,將語音識別的核心技術統計方法使用在機器翻譯上,Peter Brown這些人把語音翻譯的質量推向了新高度。過去的幾年因為神經網絡學習的進步,我們再次把機器翻譯推向了新的高度,但還沒有達到人的水平。

非常振奮人心的是,今年微軟公司首次在公開測試當中中英新聞翻譯當中第一次達到了類人的水平,這是非常了不起的歷史性里程碑,這樣對幫助中國的聲音走向世界是毫無疑問的,因為翻譯的水平和專業(yè)人員是同等可比的。

微軟不僅是在研發(fā)上進行推廣,實際上很多產品已經落地。比如PPT,你們只要下載一個Presentation Translator的插件,所有的講話可以同聲翻譯、同聲傳錄,而且是免費的。下載以后可以支持60種語言、100個人在課堂上同步交流。演講之前可以讓大家掃描二維碼,通過微軟翻譯的手機應用可以加入對話。大家知道,字幕當中只能顯示一種語言,如果是60種語言怎么辦?沒關系,也可以顯示在你的手機上面。

分享一下我個人的經歷,我在八十年代離開清華,當時在清華學的都是美式英語,然后到蘇格蘭愛丁堡大學留學,當時我就懵了,因為蘇格蘭教授的口音非常嚴重,當時我就想要是有一個字幕機多好?那是三十年前的痛點,今天可以很驕傲地告訴大家,這個痛點早就可以由微軟Office免費為大家提供同聲翻譯服務。大家可以讓教授在臺上講蘇格蘭英語,臺下可以在你的手機上看到從希臘文到廣東話的近60種語言的實時字幕翻譯。這是非常振奮人心的時刻,如果今天還有哪位同學要去蘇格蘭留學,我想大家不會再為蘇格蘭英語而苦惱了。

所謂的中英翻譯達到人的水平是怎么回事?這是一個標準的新聞翻譯任務,也是在業(yè)界廣泛使用的。在這之前,中國的搜狗在這個測試集上做到了最優(yōu)秀,可以看出如果要人來評估,第三行的搜狗基本上是62分,就像老師打分一樣,把這個東西翻譯過來以后如果是十全十美的學生可以拿100分,如果出了很多錯誤的話這個老師非常嚴厲,可能會給零分。在微軟技術突破之前,業(yè)界在這個測試任務上最先進的機器翻譯系統是中國搜狗,達到了62.3分,現有的產品我也不說是誰的產品了,以免大家覺得我們對同行有不誠之意,只有54分左右。如果今天用微軟的Microsoft Translator也只有56分,勉強及格。微軟最新的機器翻譯突破分數達到69分,拿到中英翻譯執(zhí)照的專業(yè)翻譯人員得出的結果是68.5分,所以如果大家是翻譯人員水平是67.3分。這是最新的機器中英翻譯第一次取得歷史性突破,對中國走向世界是非常有積極意義的。

下面簡單介紹一下這個突破是怎么回事,它的主要核心技術用的是Transformer的機器翻譯模型。

微軟亞洲研究院自主研發(fā)的Dual Translation Learning,就是大家在中英翻譯的時候,翻譯成英文后再用一下反向翻譯,就是英翻中,保證這兩種翻譯的一致性比較好,可以得到一個最高、最優(yōu)的聯合優(yōu)化目標函數。通過這樣一個正向和反向的翻譯,我們可以大大提高現有機器翻譯的質量,這是和人進行翻譯的過程類似的機器學習的新算法,機器翻譯上取得了長足的進步。

大家在做翻譯作業(yè)的時候翻完了一遍是不是想再翻一遍把它優(yōu)化?所以我們還有一個Deliberation,就是可以在第一次翻譯的基礎上同步優(yōu)化,這樣也更進一步提高了機器翻譯的質量。

我們還有從左到右、從右到左的聯合優(yōu)化函數,再一次提高了機器翻譯的質量,就是因為這些聯合系統的組合造就了我們歷史性地第一次達到了中翻英超人的水平。要做其它語言同樣是沒有問題的,我們希望其他語言和中英翻譯的落地很快就會產業(yè)化,再再過一些時候你們再用Microsoft Translator的時候會享受到與真人相似的機器翻譯質量。

這是微軟公司在斯坦福大學對話文本理解上的進步,過去的幾年當中斯坦福大學建立了圖像認識的標準,現在自然語言處理方面也有一個華人教授和他的團隊建立了閱讀理解系統,微軟亞洲研究院和微軟的同事們又一次達到了超人的水平。

特定的認識對話方面的水平確實是相當高的,用的方法也像機器學習、機器翻譯的系統一樣有一個Embedding,通過不斷的深度優(yōu)化達到最優(yōu)的結果,就像現在的機器翻譯一樣。

剛才我講的過程是從認知到感知的循環(huán)系統,大家在對話的時候閉著眼睛也能聽懂,但聽懂的效果不是很好,睜開眼睛的話一定會幫助你理解語義,所以在人的交互過程當中一定是Congnitive Intelligence和Perceptive Intelligience的共同進展,現在自主學習、知識積累和長遠規(guī)劃方面沒有多大進展,所以大家不要聽人工智能的忽悠,現在我們基本上還早得很。機器翻譯現在是基于這兩種智能過渡的一個小成果。我們非常高興,也非常激動人心,因為從感知到認知的過程當中人工智能深度學習終于有了一個長足的進步。

微軟AI的平臺把所有的認知服務都打包到了Azure這個云上,從最底層的核心架構到最高層的算法都有,大家可以去微軟的平臺選用、享受、分享微軟的最新人工智能研發(fā)進展和工程化的結果。

這是第三方對微軟、Google和亞馬遜在語音和語言API方面的評估,可以看出微軟中間綠顏色的比較多,這當然是符合大家預期的。另外想介紹一下幾個簡單的例子:極易中文學校是在西雅圖的一個創(chuàng)新。海外的很多華人學習中文非常困難,他們用微軟的語音認知服務,小孩學中文的興趣大大進步了,不僅是興趣進步,而且做家庭作業(yè)和掌握中文的速度也有一個長足的進步。所以用人工智能服務于教育,幫助小孩擴展中文文化,這在西雅圖極易中文學校已經得到了非常高度的認可。我們知道中國的華為公司包括Mate10都預裝了微軟認知服務的機器翻譯系統。我們最近跟小米生態(tài)系統中要推出的魔芋翻譯機,更是人工智能翻譯的一大杰出代表。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    29872

    瀏覽量

    268171
  • 人工智能
    +關注

    關注

    1791

    文章

    46701

    瀏覽量

    237219

原文標題:AI 翻譯能夠取代人類?微軟黃學東:我們仍在感知智能和認知智能的過渡期

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    智能玩具用離線語音識別芯片有什么優(yōu)勢

    隨著科技的發(fā)展,很多智能電子產品和兒童玩具實現了與人類的交互,語音芯片在這些人機交互中起到了不可替代的作用語音識別芯片在智能玩具中的應用就
    的頭像 發(fā)表于 09-20 10:00 ?225次閱讀
    智能玩具用離線<b class='flag-5'>語音</b>識別芯片有什么優(yōu)勢

    人類信息存儲進化

    人類有智慧之后,就窮盡辦法來存儲和傳遞信息。
    的頭像 發(fā)表于 08-30 10:14 ?405次閱讀

    在運算放大器的輸出端接一個電阻到地是起到什么作用?

    請問一般在運算放大器的輸出端接一個電阻到地是起到什么作用
    發(fā)表于 08-19 07:31

    XTR111中的D6是二極管嗎?能起到什么作用?

    XTR111中的D6是二極管嗎?他能起到什么作用?
    發(fā)表于 08-19 06:09

    智慧用電對學校起到至關重要的作用

    ? ? ?智慧用電對學校起到了多方面的重要作用: 1. 保障用電安全 : · 實時監(jiān)測電氣線路的運行狀況,如電流、電壓、漏電等,及時發(fā)現潛在的電氣故障和安全隱患,例如線路老化、短路等問題,預防電氣
    的頭像 發(fā)表于 08-14 17:07 ?165次閱讀
    智慧用電對學校<b class='flag-5'>起到</b>至關重要的<b class='flag-5'>作用</b>?

    LM3311腳在該電路中具體起到什么作用?CF電容怎樣放電的?

    LM3311腳在該電路中具體起到什么作用CF電容怎樣放電的
    發(fā)表于 08-13 07:51

    KT142C語音芯片工作電壓多少?電流是多少?串口波特率多少?多大的喇叭?

    KT142C-sop16語音芯片ic工作電壓多少?電流是多少?串口波特率是多少?支持多大的喇叭?
    的頭像 發(fā)表于 05-23 09:45 ?412次閱讀
    KT142C<b class='flag-5'>語音</b>芯片工作電壓多少?電流是多少?串口波特率多少?<b class='flag-5'>多大</b>的喇叭?

    語音識別的技術歷程及工作原理

    語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發(fā)表于 03-22 16:58 ?2699次閱讀
    <b class='flag-5'>語音</b>識別的技術<b class='flag-5'>歷程</b>及工作原理

    全新工業(yè)制造時代當中,EM-I12U加固平板終端起到了哪些決定性作用?

    傳統的工業(yè)生產、流水線操作都進入了智能化模式當中,可見效率、質量、價格、數據化已經擺到了每個行業(yè)的面前。
    的頭像 發(fā)表于 02-18 09:58 ?229次閱讀

    語音數據集在智能駕駛中的關鍵作用與應用

    一、引言 隨著智能駕駛技術的快速發(fā)展,語音識別技術在其中扮演著越來越重要的角色。而語音數據集作為語音識別技術的基石,其質量和規(guī)模對整個系統的性能起著至關重要的作用。本文將深入探討
    的頭像 發(fā)表于 01-31 16:22 ?415次閱讀

    語音通信線路板有哪些類型的功能和作用

    語音通信線路板有哪些類型的功能和作用語音通信線路板是一種用于通信設備的重要組成部分,它具有多種功能和作用。下面將詳細介紹語音通信線路板的
    的頭像 發(fā)表于 01-17 16:26 ?786次閱讀

    電阻電容并聯后在電路中起到什么作用?

    電阻和電容并聯,運放輸出腳和地之間并聯電阻電容,這個電阻容并聯起到了一個什么作用,原理是什么?不太像是低通或高通濾波器,那樣的話電阻和電容是串聯的
    發(fā)表于 01-14 15:10

    語音數據集:推動智能語音技術發(fā)展的關鍵驅動力

    隨著人工智能技術的不斷進步,智能語音技術已經成為我們日常生活中不可或缺的一部分。語音數據集作為智能語音技術的核心,對于推動其發(fā)展起到了至關重要的作用
    的頭像 發(fā)表于 12-28 13:46 ?502次閱讀

    語音數據集:智能語音技術的基石與挑戰(zhàn)

    隨著人工智能技術的飛速發(fā)展,語音技術已成為人機交互領域的重要突破口。語音數據集作為支撐語音技術研發(fā)的核心資源,對于提高語音識別、合成及自然語言處理等技術的性能具有至關重要的
    的頭像 發(fā)表于 12-28 11:28 ?672次閱讀

    主軸之奧秘:探索主軸的定義、作用與應用?|深圳恒興隆機電a

    中也發(fā)揮了重要作用。通過觀察不同物種的主軸結構,科學家可以推測出生物體的進化歷程。這一部分將介紹一些生物進化領域的研究成果,展示主軸在演化中的影響。五、主軸的未來發(fā)展趨勢在技術不斷進步
    發(fā)表于 12-11 10:27