具體用來證明視覺方面能力的例子是Cityscape的榜單成績(jī)。后者是一個(gè)用來評(píng)估視覺算法的數(shù)據(jù)集,可以檢驗(yàn)算法在城區(qū)場(chǎng)景語義理解方面的表現(xiàn)。今年10月,科大訊飛在自動(dòng)駕駛場(chǎng)景分割任務(wù)中獲得了第一名,主要是使用了名為“層次分割”的技術(shù)。
很長(zhǎng)一段時(shí)間里,科大訊飛在車載前裝領(lǐng)域都是通過車機(jī)系統(tǒng)供應(yīng)商間接向車企提供服務(wù),業(yè)務(wù)只聚焦在智能語音技術(shù)。
不過在2016年科大訊飛年會(huì)上,我們看到了一款汽車互聯(lián)系統(tǒng)“飛魚助理”。科大訊飛正式宣布——未來會(huì)包辦一整套車機(jī)系統(tǒng)的軟硬件和數(shù)據(jù)服務(wù),角色向TSP轉(zhuǎn)型。
時(shí)隔一年,飛魚升級(jí)到了2.0版本,并且形成了更加清晰完整的產(chǎn)品架構(gòu)。而且我們發(fā)現(xiàn),除了核心的智能語音交互,科大訊飛開始做視覺了。
年會(huì)現(xiàn)場(chǎng)用來展示飛魚2.0的廣汽傳祺GS8
飛魚2.0更新了什么?
在飛魚1.0版本上,整個(gè)交互體驗(yàn)更加自然。人和車對(duì)話的時(shí)候,車就可以記住上下文,理解每一個(gè)指代的意思。你可以不用多次喚醒就能調(diào)用導(dǎo)航、音樂、撥打電話等功能,也可以在車說話時(shí)打斷它。
在今年的年會(huì)現(xiàn)場(chǎng),飛魚2.0版本做了升級(jí)??拼笥嶏w汽車事業(yè)部副總經(jīng)理謝信珍告訴記者,去年展示飛魚1.0時(shí)更多還是一種未來規(guī)劃,但今年的2.0版本已經(jīng)是可以落地的產(chǎn)品。
大家可以從上面的視頻看到幾個(gè)之前沒有的亮點(diǎn):
1.知道該聽誰的話。新版系統(tǒng)知道要采集哪個(gè)方向的聲音,鎖定駕駛員是說出喚醒詞的位置后,副駕座位的聲音就不會(huì)出現(xiàn)“搶麥”情況。要實(shí)現(xiàn)這個(gè)功能,主要是對(duì)麥克風(fēng)陣列和軟件算法做升級(jí)。
2.連接后臺(tái)賬號(hào)系統(tǒng)。飛魚2.0可以在喚醒后“主動(dòng)服務(wù)”。它會(huì)提醒你今天是老婆大人的生日,推薦老婆大人喜歡的餐廳,推薦喜歡的電影然后購(gòu)票。系統(tǒng)和個(gè)人的綁定更深。
3.接入了車輛總線系統(tǒng)。在1.0中,系統(tǒng)只能用語音控制音樂、導(dǎo)航、電話等信息娛樂功能。在2.0版,我們可以用語音控制開關(guān)天窗、調(diào)節(jié)空調(diào)溫度這些和行車安全影響不大的功能。
除了第一點(diǎn)是智能語音技術(shù)上的更新,后兩項(xiàng)都是包辦軟硬數(shù)服一體化后,語音有機(jī)會(huì)和車、和人發(fā)生的更多關(guān)聯(lián)。
當(dāng)然,后兩項(xiàng)也代表了一種選擇。更加個(gè)性化的服務(wù)意味著對(duì)個(gè)人數(shù)據(jù)使用權(quán)的開發(fā),這是用戶面臨的選擇。更加懂得汽車意味著車輛數(shù)據(jù)的開放,這是主機(jī)廠面臨的選擇。
把眼睛叫醒
在智能語音交互之外,圖像識(shí)別也在汽車場(chǎng)景下找到了發(fā)揮功能的機(jī)會(huì)。
坦白說,在參會(huì)前看到預(yù)告時(shí),記者以為視覺技術(shù)更多會(huì)用在駕駛員身份鑒別。因?yàn)榭拼笥嶏w研發(fā)主管趙艷軍曾經(jīng)說過,AIUI在定義之初,“就沒有把語音作為唯一的交互方式,而是把它設(shè)想為結(jié)合了人臉、人體追蹤、手勢(shì)、紅外等多種方式為一體的人機(jī)交互解決方案”。
所以當(dāng)科大訊飛說要借助攝像頭的眼睛看向車外時(shí),記者還是有些意外的。
泊車輔助
視覺首個(gè)應(yīng)用場(chǎng)景會(huì)是泊車。在有清晰車位線的情況下,可以借助泊車攝像頭觀察外部情況,找到合適車位時(shí),用交互的方式提醒用戶打方向盤,輔助車輛進(jìn)入車庫。沒有車位線時(shí),也可以司機(jī)在屏幕上劃線選擇停車位置,系統(tǒng)把車停到庫中。當(dāng)然也可以看到,在一開始的版本中,還沒有涉及車輛控制層面的內(nèi)容。
目前視覺的部分仍然由科大訊飛的研究院來推進(jìn),選擇的泊車應(yīng)用也是一個(gè)相對(duì)簡(jiǎn)單的場(chǎng)景。在回答“和專門做視覺的企業(yè)比,科大訊飛有什么優(yōu)勢(shì)”這個(gè)問題時(shí),汽車業(yè)務(wù)部副總經(jīng)理謝信珍提到了科大訊飛在技術(shù)源頭上的積累。他認(rèn)為語音對(duì)信號(hào)連貫性的要求更高,做語音跨到圖像會(huì)更容易。
Cityscape數(shù)據(jù)集成績(jī)
具體用來證明視覺方面能力的例子是Cityscape的榜單成績(jī)。后者是一個(gè)用來評(píng)估視覺算法的數(shù)據(jù)集,可以檢驗(yàn)算法在城區(qū)場(chǎng)景語義理解方面的表現(xiàn)。今年10月,科大訊飛在自動(dòng)駕駛場(chǎng)景分割任務(wù)中獲得了第一名,主要是使用了名為“層次分割”的技術(shù)。
數(shù)據(jù)集測(cè)試成績(jī)可以在某種程度上反映科大訊飛的算法能力。不過實(shí)際應(yīng)用中,科大訊飛的算法要面對(duì)嵌入式平臺(tái)和實(shí)時(shí)性兩個(gè)方面的考慮。謝信珍表示,科大訊飛的優(yōu)勢(shì)在于工程優(yōu)化能力,360環(huán)視算法主要是拼接和魚眼矯正計(jì)算量比較高,目前已經(jīng)揉到CUP、GPU上分別負(fù)載來跑,跑得也比較順暢了。
科大訊飛做視覺,這意味著從對(duì)車內(nèi)人的理解,延伸到了對(duì)車外環(huán)境的理解。
科大訊飛未來產(chǎn)品布局
科大訊飛汽車事業(yè)部總經(jīng)理劉俊峰在飛魚2.0發(fā)布時(shí)提到,未來會(huì)把理解人、理解環(huán)境兩部分完整做到一起,用一個(gè)腦部(飛魚AIUI)連接聽覺和嘴(飛魚對(duì)話式引擎)、眼睛(飛魚智盒),達(dá)到多維輸入,最后由后臺(tái)進(jìn)行數(shù)據(jù)的分析處理(飛魚數(shù)據(jù)工場(chǎng))。
技術(shù)和應(yīng)用的雙輪驅(qū)動(dòng)
科大訊飛董事長(zhǎng)劉慶峰和輪值總裁吳曉如在發(fā)布會(huì)當(dāng)天都提到了一句話——人工智能是技術(shù)和應(yīng)用雙輪驅(qū)動(dòng)的。通過落地在應(yīng)用場(chǎng)景不斷收集數(shù)據(jù)訓(xùn)練算法,才能磨練出更好的技術(shù)。
飛魚2.0系統(tǒng)包括飛魚對(duì)話引擎、飛魚AIUI,飛魚智盒,飛魚數(shù)據(jù)工場(chǎng)等,都是面向車端應(yīng)用的產(chǎn)品。
為了在車端落地產(chǎn)品,科大訊飛逐漸補(bǔ)充了車機(jī)系統(tǒng)方面的欠缺。據(jù)謝信珍介紹,科大訊飛汽車事業(yè)部今年已經(jīng)達(dá)到了400人的規(guī)模,主要包括對(duì)話引擎、大數(shù)據(jù)分析和軟硬一體化內(nèi)容,其中軟硬一體化的員工最多,將近有總?cè)藬?shù)的一半。
除了用大量人才儲(chǔ)備更好理解車載軟硬件,核心的智能語音方面,科大訊飛也在解決一些關(guān)鍵問題。謝信珍介紹,目前科大訊飛在車載環(huán)境普通話的語音識(shí)別準(zhǔn)確率為98%,未來除了繼續(xù)完善方言識(shí)別,也在攻克一些車載環(huán)境中語音識(shí)別效果不好的場(chǎng)景。
對(duì)于當(dāng)前的產(chǎn)品化情況,劉俊峰公開了一組數(shù)字——訊飛的產(chǎn)品已經(jīng)覆蓋了200個(gè)型號(hào)的車型,每年的出貨量突破兩百萬套,累積前裝裝車量1千萬。
今年,科大訊飛陸續(xù)與包括北汽、廣汽、長(zhǎng)安、奇瑞在內(nèi)的多家主機(jī)廠簽署了合作框架,涉及智能語音技術(shù)、車載智能化和智能車聯(lián)網(wǎng)平臺(tái)等多個(gè)領(lǐng)域。謝信珍也透露,基于飛魚2.0系統(tǒng),科大訊飛和主機(jī)廠的合作已經(jīng)進(jìn)行了3-4個(gè)月,其中視覺方面會(huì)把360環(huán)視先做起來。
受限于前端產(chǎn)品的出貨周期和更新頻率,科大訊飛還推出了后裝產(chǎn)品小飛魚。謝信珍表示,小飛魚最大的優(yōu)勢(shì)是迭代速度會(huì)更快,每?jī)尚瞧跁?huì)有個(gè)新的功能。但是科大訊飛還是會(huì)把更多資源和精力押注在前裝,因?yàn)榍把b才有機(jī)會(huì)把系統(tǒng)和車機(jī)更深地結(jié)合,生產(chǎn)出更多功能。
小結(jié)
從車載智能語音小角度切入,科大訊飛沿著理解人和理解車兩個(gè)坐標(biāo)軸,給出了一個(gè)面向未來智能汽車的閉環(huán)方案。當(dāng)前來看,科大訊飛的優(yōu)勢(shì)仍然在語音,在車載視覺上的積累還比較初期,最后視覺與語音能不能很好融合,還要等待合作孵出一個(gè)落地的產(chǎn)品。
評(píng)論
查看更多