近年來,人工智能技術(shù)水平不斷提高,應(yīng)用服務(wù)全方位加速落地,對促進經(jīng)濟發(fā)展、提高管理效率、改善生活質(zhì)量具有關(guān)鍵作用。國務(wù)院在2017年印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中明確提出,加快智能終端核心技術(shù)和產(chǎn)品研發(fā),發(fā)展新一代智能手機、車載終端、可穿戴設(shè)備等產(chǎn)品形態(tài)和應(yīng)用服務(wù),在2020年3月人工智能又被列為新基建重點發(fā)展領(lǐng)域之一。當(dāng)前,人工智能從計算機視覺、自然語言處理、語音處理等維度全方面推進智能手機、智慧家居、智能車載、智能可穿戴、智能機器人等領(lǐng)域移動終端的發(fā)展,據(jù)IDC預(yù)測,2020年中國將有接近1億部5G智能終端出貨,人工智能賦能移動終端進入高速發(fā)展期。
人工智能關(guān)鍵技術(shù)發(fā)展態(tài)勢良好
人工智能技術(shù)迎來第三次浪潮,深度學(xué)習(xí)技術(shù)在計算機視覺、自然語言處理、語音識別等研究領(lǐng)域相繼取得突破性進展,在圖像分類識別準確率、語音合成自然度等方面已超過人類平均水平,推動人工智能從實驗室走向商業(yè)化,賦能移動終端實現(xiàn)智能化、多樣化、個性化。
計算機視覺技術(shù)已相對成熟,深度學(xué)習(xí)模型壓縮推動移動智能終端發(fā)展。計算機視覺技術(shù)根據(jù)業(yè)務(wù)場景可分為圖像分類、目標檢測、行為檢測、語義分割、三維處理、圖像生成、視頻分類等細分領(lǐng)域,在2012年Hinton團隊提出深度神經(jīng)網(wǎng)絡(luò)模型AlexNet后,VGG、GoogLeNet、ResNet等模型不斷提高圖像識別準確率,ImageNet分類top- 5準確率已超過人眼識別水平。近年來,我國在計算機視覺技術(shù)創(chuàng)新方面占據(jù)全球主導(dǎo)地位,在2019COCO常見物體識別圖像識別挑戰(zhàn)賽中,曠視拿下物體檢測、人體關(guān)鍵點和全景分割三項第一,獲得COCO三連冠,在2019圖像識別競賽WebVision中,阿里AI以82.54%的識別準確率獲得冠軍,將萬物識別領(lǐng)域的歷史紀錄提升了3個百分點。同時,面對模型存儲和預(yù)測速度的博弈問題,斯坦福、谷歌、曠視等企業(yè)相繼提出SqueezeNet、 MobileNet、 Shuf-fleNet、Xception等輕量化模型,設(shè)計高效的網(wǎng)絡(luò)計算方式,在網(wǎng)絡(luò)參數(shù)減少的同時減少性能損失,加速人工智能模型在移動終端的部署應(yīng)用。
自然語言處理技術(shù)在行業(yè)中應(yīng)用廣泛,覆蓋文本翻譯、情感分析、意圖分析、智能問答、智能對話、敏感詞檢索等場景。隨著人工智能進入第三次發(fā)展浪潮,RNN、GRU、LSTM等模型相繼出現(xiàn),在機器翻譯、問答系統(tǒng)、閱讀理解等領(lǐng)域取得一定進展,谷歌于2018年10月提出BERT預(yù)訓(xùn)練語言模型,創(chuàng)新提出了有效的無監(jiān)督預(yù)訓(xùn)練任務(wù),從而使得模型能夠從無標注語料中獲得通用的語言建模能力,在其基礎(chǔ)上拓展的XLNET、RoBERTa、ALBERT、BioBERT等模型分別有不同維度的提升。我國的百度、騰訊、阿里等企業(yè)成為推動自然語言處理技術(shù)發(fā)展的主力,提出了包括基于對抗學(xué)習(xí)的降噪技術(shù)、多領(lǐng)域?qū)υ捫袨榕c文本同步生成、關(guān)系型圖注意力網(wǎng)絡(luò)、利用結(jié)構(gòu)化信息進行知識蒸餾等創(chuàng)新技術(shù)和理念,但科技、醫(yī)療等領(lǐng)域仍需組織專家建立專業(yè)知識圖譜來提高識別準確率。
語音處理技術(shù)進入實質(zhì)生產(chǎn)的高峰期,語音合成等技術(shù)效果超過人類平均水平,但在方言語種識別、聲紋識別、降噪識別等技術(shù)領(lǐng)域仍有較大突破空間。智能語音處理技術(shù)包括聲紋識別、方言語種識別、語音分離、關(guān)鍵詞識別、語音轉(zhuǎn)寫、語音合成等業(yè)務(wù)類型,當(dāng)前基于Attention的端到端語音識別成為語音技術(shù)研究主流,通過上下文來理解詞句,解決了傳統(tǒng)語音識別方案中各部分任務(wù)獨立而無法聯(lián)合優(yōu)化的問題。谷歌推出Tacotron和WaveNet語音合成技術(shù),實現(xiàn)端到端語音合成,進一步提升語音的自然程度,同時利用對抗網(wǎng)絡(luò)GAN減小噪音環(huán)境語音數(shù)據(jù)和真實訓(xùn)練數(shù)據(jù)的分布差異、提高聲學(xué)模型的噪聲健壯性成為熱點。我國企業(yè)語音處理技術(shù)水平位于全球前列,在語音分離識別領(lǐng)域,科大訊飛在國際多通道語音分離和識別大賽CHiME-6上提出的IBF-SS Model將錯誤率降低到30.5%;在方言語種識別領(lǐng)域,出門問問在ASRU2019中英混雜語音識別挑戰(zhàn)賽中獲得雙賽道第一名;在語音合成領(lǐng)域,科大訊飛在Blizzard Challenge2019國際語音合成大賽中自然度得分達到4.5,相似度得分達到4.1,超過人類平均水平。
AI與移動終端融合應(yīng)用場景不斷豐富
智能手機中AI應(yīng)用包括基礎(chǔ)應(yīng)用和上層應(yīng)用,其中識別認證、AI攝影、語音助手等基礎(chǔ)應(yīng)用技術(shù)較為成熟,但上層應(yīng)用尚未與人工智能完全融合,功能相對有限。當(dāng)前“AI﹢手機”應(yīng)用生態(tài)較為成熟,但還不是“AI手機”,在基礎(chǔ)應(yīng)用領(lǐng)域,以指紋識別和3D人臉識別為主的認證技術(shù)成為發(fā)展趨勢,Transparency Market Research分析公司預(yù)計2020年全球生物識別市場規(guī)模達到233億美元,AI賦能人像識別提供HDR高動態(tài)、美顏特效等功能,并可以實現(xiàn)智能拼接、高倍優(yōu)化;IDC報告顯示,手機中人像美顏應(yīng)用滲透率達90%,極大推動了智能手機的升級賦能,同時語音助手成為當(dāng)前主流智能手機的標配;Strategy Analytics預(yù)測到2023年,全球90%的智能手機會安裝語音助手。在上層應(yīng)用領(lǐng)域,依托App布局的手機應(yīng)用與AI處于初級融合階段,人臉識別、智能推薦、語音識別等技術(shù)廣泛應(yīng)用于音頻制播、新聞娛樂、通信社交、購物出行等場景,同時各企業(yè)推出聯(lián)邦學(xué)習(xí)以保護用戶數(shù)據(jù)隱私,解決數(shù)據(jù)權(quán)限混亂的問題,但在醫(yī)療健康、安全管理、教育學(xué)習(xí)、VR/AR等應(yīng)用領(lǐng)域仍有較長探索期,例如當(dāng)前醫(yī)療App以病例問詢、掛號買藥為主,手機超聲波分析、尿液血液分析等技術(shù)仍在研發(fā)期。
智能機器人覆蓋全場景應(yīng)用,2019年全球機器人市場規(guī)模達到294億美元,但整體仍處于初級發(fā)展階段。在工業(yè)機器人方面,亞馬遜收購Canvas機器人公司,運用攝像頭識別并躲避障礙物,創(chuàng)新奇智和??低?/u>分別推出缺陷檢測機器人,基于計算機視覺技術(shù)識別生產(chǎn)良品率。在服務(wù)機器人方面,優(yōu)必選悟空機器人搭配攝像頭等設(shè)備,可實現(xiàn)人臉識別、語音識別和生成功能。以日本等國家為主研發(fā)人形家庭機器人,可提供洗衣、做飯等服務(wù)。同時,疫情加速了醫(yī)療服務(wù)和公共服務(wù)機器人落地應(yīng)用,基于人工智能算法,鈦米機器人可識別房間溫度、濕度、PM2.5以及人員情況,測算消毒面積、時間,制定整體消毒方案;京東打造的智能物流配送機器人,通過圖像識別和路徑規(guī)劃實現(xiàn)自主無人運輸,預(yù)計2020年投入運營上百臺機器人。
預(yù)計2023年全球智能家居市場規(guī)模達到1570億美元,搭建AIoT云平臺提供整體解決方案成為布局重點。智能音箱成為控制智能家居設(shè)備的入口,IDC報告顯示2019年中國智能音箱市場出貨量接近4600萬臺,同比增長109.7%,智能音箱通過語音處理技術(shù)提供搜索查詢、天氣交通問詢等服務(wù),并利用關(guān)鍵詞識別等語音識別技術(shù)實現(xiàn)對房屋智能設(shè)備的控制,聲紋識別、多語言識別、連續(xù)識別成為向智能化2.0進階的必要技術(shù)。當(dāng)前智能門鎖、家庭監(jiān)控、智能電視等家居設(shè)備的AI功能尚待完善,建立個性化模型進行服務(wù)成為突破方向。同時面臨家庭設(shè)備類型多樣的問題,華潤置業(yè)、萬達與萬科分別與小米、TCL、阿里云IoT合作,整體打造智能家居平臺,提供集安防、能源、娛樂于一體的全屋智能系統(tǒng)。
科技巨頭、語音處理企業(yè)、計算機視覺企業(yè)依據(jù)自身人工智能技術(shù)優(yōu)勢,針對安全駕駛、智能導(dǎo)航、汽車娛樂等場景推出智能解決方案。在安全駕駛領(lǐng)域,百度開發(fā)小度車載OS,可基于人臉識別實現(xiàn)安全登錄、疲勞檢測,商湯利用人臉識別和手勢識別技術(shù)進行身份認證并檢測駕駛員疲勞狀態(tài)、注意力和危險行為。在智能導(dǎo)航領(lǐng)域,騰訊隨行采用語音處理技術(shù)實現(xiàn)導(dǎo)航交互,并識別周圍場景及天氣情況以提供智能推薦服務(wù),科大訊飛研發(fā)的飛魚系統(tǒng)搭配上下文理解、多輪對話、聲紋識別等技術(shù)實現(xiàn)智能導(dǎo)航。在汽車娛樂領(lǐng)域,阿里通過阿里云ET語音處理技術(shù)實現(xiàn)關(guān)鍵詞識別和音頻播放,商湯智能車艙內(nèi)載手勢識別技術(shù)可以讓用戶進行音量調(diào)節(jié)、歌曲切換,寶馬與天貓精靈合作提供音樂播放、語音對話和信息查詢服務(wù)。
責(zé)任編輯:lq
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237087 -
語音處理
+關(guān)注
關(guān)注
3文章
43瀏覽量
19263
發(fā)布評論請先 登錄
相關(guān)推薦
評論