2018年5月9-10日,15屆論道在西安隆重舉行。50多場(chǎng)演講,干貨滿滿;30多個(gè)展臺(tái),亮點(diǎn)多多;多場(chǎng)高峰對(duì)話,火花四濺。深圳市海思半導(dǎo)體有限公司高級(jí)產(chǎn)品經(jīng)理姚世勇進(jìn)行了主題為《智慧家庭中的AI》的演講。
兩三年前,智慧家庭還停留在概念階段,現(xiàn)在情況完全不同,已經(jīng)變成了進(jìn)行時(shí),從全球范圍來(lái)看,歐洲的法電、德電、意電,美國(guó)的comcast、Verison,到東南亞的韓國(guó)、日本,都相繼推出智慧家庭的戰(zhàn)略。國(guó)內(nèi)情況大家比較熟悉,運(yùn)營(yíng)商均成立了智慧家庭聯(lián)盟,全球范圍內(nèi),60%的領(lǐng)先運(yùn)營(yíng)商正在開(kāi)展智慧家庭業(yè)務(wù)。
AI將會(huì)成為智慧家庭最核心的要素
對(duì)于智慧家庭,不同的人有不同的理解,家庭是一個(gè)非常特殊的場(chǎng)景,家庭里面應(yīng)該做到高速網(wǎng)絡(luò)無(wú)處不在,智能服務(wù)無(wú)處不在。家庭里可享受以下三種服務(wù):
一是安全的家,希望通過(guò)安防業(yè)務(wù),構(gòu)建安全的應(yīng)用場(chǎng)景;二是舒適的家,這也是大家夢(mèng)寐以求的,也是核心的應(yīng)用場(chǎng)景;三是健康的家,圖中都是目前正在開(kāi)展的業(yè)務(wù),當(dāng)然不限于這些業(yè)務(wù)。針對(duì)這些業(yè)務(wù),最重要的就是實(shí)現(xiàn)智慧服務(wù),不管是大趨勢(shì)、還是大戰(zhàn)略,都頻繁被提到,我們看到的情況也是如此,AI將會(huì)成為智慧家庭最核心的要素。
大家一起回顧一下AI發(fā)展的情況,在50年代初,AI概念被提出來(lái),馬上就有相應(yīng)成果,開(kāi)始是國(guó)際跳棋,但算法太簡(jiǎn)單,從此以后AI沉寂了近40年。直到1996年,IBM的“深藍(lán)”與人類對(duì)弈,機(jī)器第一次戰(zhàn)勝了國(guó)際象棋大師,引起轟動(dòng),但仍擺脫不了機(jī)器暴力計(jì)算的問(wèn)題。2017年,谷歌的“阿爾法狗”戰(zhàn)勝國(guó)際象棋大師,AI重回聚光燈下??傆X(jué)得AI跟棋有不解之緣。工業(yè)自動(dòng)化很早就實(shí)現(xiàn)了,但是大家覺(jué)得用機(jī)器做工作,只是比人快一點(diǎn)、更準(zhǔn)確些。為什么棋類引起這么大轟動(dòng)?因?yàn)槠孱愂侨祟愐詾楹赖闹腔刍顒?dòng)。
特別是“阿爾法狗”戰(zhàn)勝人類,其模式已經(jīng)走向深度智能化,選擇性運(yùn)算產(chǎn)生的效果已經(jīng)非常的震撼,前景已經(jīng)超出大家想象,有人充滿希望,有人充滿恐慌。今天,我們看到智能領(lǐng)域發(fā)生了很大變化,取得了很大成功。
一頭狼具有識(shí)別獵物的能力,甚至有簡(jiǎn)單的協(xié)同,但我們現(xiàn)在智能顯然差距很大,有很多人開(kāi)玩笑,說(shuō)現(xiàn)在人工智能比不過(guò)一條狗,可能就是這個(gè)原因,人工智能絕大部分聚焦于專家系統(tǒng),在某一個(gè)特定領(lǐng)域產(chǎn)生非常大的作用,還不能用于廣泛的人工智能。
這個(gè)視頻是憨豆去年拍的片,用的是一輛車勞斯萊斯,可以做遠(yuǎn)場(chǎng)語(yǔ)音控制,憨豆跟別人聊天的時(shí)候,提到車名,車就自動(dòng)啟動(dòng)了,還沒(méi)有注意到車,車也自動(dòng)跟隨在身后,隨人走走停停,無(wú)意中轉(zhuǎn)身,發(fā)現(xiàn)車很蹊蹺的挪了個(gè)地方。這說(shuō)明一個(gè)問(wèn)題,最高端的語(yǔ)音識(shí)別系統(tǒng)也無(wú)法區(qū)別語(yǔ)境,只能機(jī)械接受語(yǔ)音命令,可能會(huì)造成笑話。
AI技術(shù)兩大科技革命,驅(qū)動(dòng)用戶體驗(yàn)升級(jí)
以后產(chǎn)品會(huì)沿著兩大方向演進(jìn),一個(gè)是交互革命,一個(gè)是AI革命。早期的操控,人機(jī)界面局限于遙控器、手柄,現(xiàn)在智能語(yǔ)音技術(shù)出現(xiàn)了,后續(xù)很可能出現(xiàn)智能視頻技術(shù),再到后面可能會(huì)出現(xiàn)VR、AR技術(shù)實(shí)現(xiàn)人機(jī)交互,這種控制會(huì)完全突破大家一直詬病的操作笨、不方便問(wèn)題。另外一個(gè)是人工智能,從最早的用戶側(cè)感知,不斷的進(jìn)行演進(jìn),深度學(xué)習(xí)到對(duì)客戶行為的認(rèn)知,到最后實(shí)現(xiàn)能媲美人類的人工智能。
AI語(yǔ)音技術(shù),是目前成熟度最高的領(lǐng)域之一,人工智能按應(yīng)用可歸結(jié)為兩大類,一類是語(yǔ)音識(shí)別,一類是圖片分類。語(yǔ)音識(shí)別的成熟度最高,這個(gè)生態(tài)里面大部分的網(wǎng)絡(luò)巨頭在資源整合上有很大潛力。專業(yè)語(yǔ)音公司像科大訊飛等,包括BAT廠家也做語(yǔ)音識(shí)別,內(nèi)容廠商的視頻內(nèi)容聚集,各種音箱硬件廠商都會(huì)參與進(jìn)來(lái),最后由運(yùn)營(yíng)商或設(shè)備廠家做業(yè)務(wù)運(yùn)營(yíng)。從技術(shù)方面看,這么多技術(shù)模塊才構(gòu)建了一個(gè)語(yǔ)音識(shí)別功能,從最上層的語(yǔ)音分析到中間的拾音、語(yǔ)音增強(qiáng)等,最下面是用戶,通過(guò)技術(shù)模塊疊加互動(dòng),最終實(shí)現(xiàn)智能音箱,或者帶STB特性的智能盒子。
作為芯片廠家,我們的著力點(diǎn)在端側(cè),我們希望把云端的語(yǔ)音技術(shù)不斷端側(cè)化,語(yǔ)音能力在端側(cè)建立,最終實(shí)現(xiàn)一個(gè)效果:在家庭環(huán)境里面自然交互。大家有沒(méi)有想過(guò)買了一個(gè)智能音箱,用起來(lái)不像宣傳中那么順手、便利,語(yǔ)音識(shí)別率沒(méi)有那么高,可能就是這個(gè)原因。換言之,它是在特定環(huán)境里才可以高識(shí)別,真正客廳里面人比較多的時(shí)候,有噪音的時(shí)候,是否操作起來(lái)輕松自如,這是一個(gè)疑問(wèn)。
隨著當(dāng)前語(yǔ)音技術(shù)發(fā)展,家庭里面要達(dá)到真正的自然語(yǔ)音交互,應(yīng)該做到分布式語(yǔ)音層面,不能說(shuō)買一個(gè)盒子放在客廳,要做一次語(yǔ)音交互,一定得跑到客廳去,家里還有那么多房間,甚至很多人習(xí)慣待在房間怎么辦?比如出門前查一個(gè)天氣,想問(wèn)一下交通是否擁堵,怎么辦? 分布式語(yǔ)音解決方案解決這個(gè)問(wèn)題,借助于G.hn+WIFI分布式網(wǎng)絡(luò)解決方案,能夠讓整個(gè)家庭做到網(wǎng)絡(luò)完全覆蓋。順著高速網(wǎng)絡(luò),語(yǔ)音也可以延伸到家庭的每一個(gè)角落,拾取主人聲音,給主人一個(gè)反饋。
AI視頻技術(shù),借助于AI,可以用攝像頭捕捉家庭情況,或者同步進(jìn)行3D建模,最后把人像從環(huán)境中提取出來(lái),疊加到視頻或者增值內(nèi)容上面去,比如在家里打太極、學(xué)國(guó)標(biāo)舞,可以把整個(gè)形象動(dòng)作同步到原教學(xué)視頻里面做比對(duì),可以更精準(zhǔn)、高效的學(xué)習(xí)。借助于圖象技術(shù)可以衍生出很多應(yīng)用,我們?cè)鯓影蚜髁孔兂纱蠹蚁猜剺?lè)見(jiàn)的增值業(yè)務(wù),這是一個(gè)非常大的難題。比如游戲,我們可以通過(guò)攝像頭捕捉人物輪廓,作為游戲操控的媒介,來(lái)控制游戲里面的角色。第二種是現(xiàn)在玩的比較火的抖音,有舞蹈指導(dǎo)動(dòng)作,很多感興趣的年輕人可以實(shí)現(xiàn)他錄抖音的愛(ài)好。第三種是智能試衣鏡,通過(guò)現(xiàn)在的3D攝像頭,可以獲取人的三維信息,現(xiàn)在已有技術(shù)誤差達(dá)到厘米級(jí),非常接近真實(shí)人體,獲取的模型跟衣服矢量圖像結(jié)合,這樣在網(wǎng)上將會(huì)有一個(gè)全新購(gòu)衣體驗(yàn),這個(gè)衣服可以不買,可以試穿,拍一個(gè)照片做一個(gè)留念也可以。大家會(huì)發(fā)現(xiàn)在這幾種應(yīng)用場(chǎng)景里面,這都是大屏獨(dú)有的應(yīng)用,是手機(jī)、電腦做不到的。
視頻AI技術(shù),也是目前在好萊塢大的影視制作公司廣泛采用的技術(shù),在面對(duì)低分辨率的圖象時(shí),通過(guò)智能技術(shù)提升整個(gè)畫質(zhì)。現(xiàn)在家庭影視娛樂(lè)設(shè)備,包括機(jī)頂盒、電視,視頻依然是消費(fèi)主線,是最基本的元素,脫離這個(gè)元素可能會(huì)造成用戶大量的流失,我們想在這個(gè)方面做技術(shù)的加強(qiáng)?,F(xiàn)在海量的標(biāo)清節(jié)目、高清節(jié)目,可不可以通過(guò)AI技術(shù)直接提升到4K,同時(shí)圖像質(zhì)量有明顯的提升?這是有可能的。通過(guò)AI技術(shù)分析視頻對(duì)象,結(jié)合我們的數(shù)據(jù)庫(kù)和模型,做到真正的“無(wú)中生有”,不斷的提升原始圖象的分辨率。
大家可以看一下示例,提升前和提升后的對(duì)比,雖然提升后還不是最真實(shí)原形,但是相對(duì)真實(shí)走近了一大步。還有一種AI視頻技術(shù)做到人臉、物體的識(shí)別,人臉識(shí)別基本成熟,甚至有一些地方考慮用人臉支付,能做到這種程度,也是相當(dāng)精確的技術(shù)。
我們跟大家一起探討主動(dòng)安全,今天新媒體的人講到他們的責(zé)任、使命,我們作為芯片廠家,可探索利用終端側(cè)的技術(shù)去保證安全,我們通過(guò)人臉識(shí)別技術(shù),能夠識(shí)別一些關(guān)鍵的信息,比如敏感的人臉或者文字,一旦識(shí)別,可以在終端直接打上馬賽克,我們用這個(gè)技術(shù),可以將一些人為造成的非法行為攔截住,這是通過(guò)技術(shù)手段解決的,以前只能在前端,現(xiàn)在有后端技術(shù)處理這個(gè)事。
增值業(yè)務(wù)的投放點(diǎn)、投放方式,是整個(gè)行業(yè)摸索的,作為運(yùn)營(yíng)商,運(yùn)營(yíng)著這么大的用戶群,可以投放廣告,如果有AI技術(shù)加持,可以跟廣告商談投什么廣告,我們把產(chǎn)品的模型記錄下來(lái),在所有播放的視頻畫面中進(jìn)行識(shí)別,一旦出現(xiàn)設(shè)定的產(chǎn)品,就會(huì)自動(dòng)識(shí)別,運(yùn)營(yíng)商可通過(guò)用戶可接受的方式,把廣告內(nèi)容打出來(lái),產(chǎn)生一個(gè)增值點(diǎn)。
還有千人千面,大家也比較清楚了,人臉識(shí)別技術(shù)能比較準(zhǔn)確識(shí)別家庭成員,根據(jù)家庭成員推薦內(nèi)容EPG。不一定做到按人管理,可以按分類,比如大人、小孩、老人這樣更自然。這里幾個(gè)場(chǎng)景采用的技術(shù)基本上比較相似,通過(guò)信號(hào)采集預(yù)處理,根據(jù)數(shù)據(jù)庫(kù)里面模型進(jìn)行匹配,最終識(shí)別。
AI技術(shù)的兩大挑戰(zhàn):端側(cè)智能和實(shí)用程度
人工智能并不是像我們想象的那么簡(jiǎn)單,這可能也是大家提的比較多,但是用的比較少的原因,我們?nèi)斯ぶ悄墚?dāng)前面臨兩大挑戰(zhàn):云端化和實(shí)用性問(wèn)題。單一的云端化造成了很多問(wèn)題,一是太多的人工智能技術(shù)依賴于云端,大量的運(yùn)算堆積在云端造成很大算力負(fù)擔(dān),給運(yùn)營(yíng)商投資帶來(lái)很大影響。二是語(yǔ)音、視頻通過(guò)網(wǎng)絡(luò),實(shí)時(shí)傳到網(wǎng)上云端,總感覺(jué)自己生活內(nèi)容被直播,體驗(yàn)非常差,不管你說(shuō)怎么保證內(nèi)容安全,但是心里感受還是差。三是把自家視頻傳上云端,最后在云端處理完,結(jié)果返回來(lái),周期長(zhǎng)延時(shí)大,不是很自然。
現(xiàn)在端側(cè)提供智能能力是重點(diǎn),行業(yè)也正在努力,今天是谷歌I/O大會(huì)的第一天。他們正式推出AI框架,在Android系統(tǒng)里面已經(jīng)集成了,facebook也推出了端側(cè)架構(gòu),包括蘋果也會(huì)提出端側(cè)人工智能方案。后續(xù)端側(cè)智能方案會(huì)是一個(gè)大方向。
另外一個(gè)實(shí)用性問(wèn)題,人工智能現(xiàn)在發(fā)展到什么階段,大家印象比較深的還是智能音箱,這個(gè)產(chǎn)品大家用了以后,口碑不算很好,國(guó)外賣的比較多,也可能跟生活習(xí)慣有關(guān),國(guó)內(nèi)這個(gè)產(chǎn)品并沒(méi)預(yù)期中那么普及,接受度并不是那么高,為什么?我們語(yǔ)音識(shí)別不是很方便,不能說(shuō)在家庭環(huán)境里面,需要事先讓大家不要說(shuō)話,再開(kāi)始語(yǔ)音交互,這樣很詭異。還有識(shí)別率怎么樣,實(shí)驗(yàn)室可以98%,甚至有人說(shuō)語(yǔ)音識(shí)別率是百分之百,一旦放在自然環(huán)境里面識(shí)別率可能是40%、50%,這是不可接受的。另外是要考慮成本與功耗,人工智能跟生物質(zhì)能相比,能耗比差很多,這個(gè)功耗是否大家可以接受,人工智能集成進(jìn)芯片,發(fā)現(xiàn)芯片成本會(huì)顯著上升,這個(gè)成本是否可以接受。
總結(jié)一下,我們認(rèn)為,現(xiàn)在的人工智能大致處于好玩階段,后面還有兩個(gè)階段,一個(gè)是好用階段,一個(gè)是好管家,終極目標(biāo)是好管家,希望在家庭環(huán)境里面,人工智能像大管家一樣,時(shí)刻關(guān)注家庭成員的各種狀態(tài)和需求,積極主動(dòng)提供周到細(xì)致的服務(wù)。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46663瀏覽量
237098 -
智慧家庭
+關(guān)注
關(guān)注
5文章
300瀏覽量
40427
原文標(biāo)題:【大屏AI】海思姚世勇:智慧家庭中的AI
文章出處:【微信號(hào):iptvott,微信公眾號(hào):流媒體網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論