亚洲精品宾馆在线精品酒店,av在线网站无码不卡的 ,亚洲视频区电影区图片区

佐思汽研發(fā)布《2023年中國(guó)汽車多模態(tài)交互發(fā)展研究報(bào)告》，主要梳理了主流座艙交互方式、2023年上市的重點(diǎn)車型交互方式應(yīng)用、供應(yīng)商座艙交互方案，以及多模交互融合趨勢(shì)。

通過(guò)梳理最近一年新上市車型的交互方式和功能來(lái)看，主動(dòng)式、擬人化、自然化交互成為主要方向。從交互方式來(lái)看：?jiǎn)我荒B(tài)交互，如觸覺(jué)、語(yǔ)音等主流交互的控制范圍從車內(nèi)拓展至車外，指紋、肌電等新型交互方式的上車案例開(kāi)始增多；多模態(tài)融合交互下，語(yǔ)音+頭姿/人臉/唇語(yǔ)、面部+情緒/嗅覺(jué)等多種融合交互不斷上車，旨在打造更加主動(dòng)、自然的人車交互。

單一模態(tài)的縱深發(fā)展

觸覺(jué)交互方面：座艙大屏化、多屏化趨勢(shì)加劇，同時(shí)智能表面材料在艙內(nèi)的擴(kuò)展應(yīng)用，讓觸覺(jué)感知范圍向車門、車窗、座椅等部件擴(kuò)展，并逐步引入觸覺(jué)反饋技術(shù)；

語(yǔ)音交互方面：語(yǔ)音交互在AI大模型的賦能下，功能愈加智能化、情感化。唇動(dòng)識(shí)別、聲紋識(shí)別等技術(shù)的上車，使語(yǔ)音交互精準(zhǔn)度得到進(jìn)一步提升，控制范圍也從車內(nèi)拓展至車外；

視覺(jué)交互方面：基于視覺(jué)技術(shù)的面部/手勢(shì)識(shí)別范圍開(kāi)始逐漸向肢體識(shí)別擴(kuò)展，包括頭部姿勢(shì)、手臂動(dòng)作，以及身體行為等；

嗅覺(jué)交互方面：原主要用于凈化空氣、祛除異味的嗅覺(jué)交互功能，現(xiàn)今可實(shí)現(xiàn)座艙殺菌消毒、并支持香氛系統(tǒng)與座艙場(chǎng)景/季節(jié)時(shí)令聯(lián)動(dòng)。

案例1

語(yǔ)音控車實(shí)現(xiàn)車內(nèi)向車外延伸

代表車型：長(zhǎng)安啟源A07、極越01

代表功能：車外語(yǔ)音開(kāi)啟車門、車窗、輔助泊車等

長(zhǎng)安啟源A07采用科大訊飛最新XTTS 4.0 技術(shù)，車載語(yǔ)音助手聲音更加自然擬人化，具備高興、抱歉、疑惑等多情感表達(dá)。支持向車外喊話（內(nèi)容可自定義）；此外，還可在車外通過(guò)語(yǔ)音實(shí)現(xiàn)對(duì)后備箱、車窗、音樂(lè)、空調(diào)、出庫(kù)/泊車等功能的控制。

極越01搭載“SIMO”語(yǔ)音助手，支持全域全離線語(yǔ)音，無(wú)網(wǎng)弱網(wǎng)也可全程在線語(yǔ)音交互；可實(shí)現(xiàn)500毫秒識(shí)別，700毫秒內(nèi)響應(yīng)。在車外，駕乘人員可通過(guò)聲紋識(shí)別技術(shù)實(shí)現(xiàn)語(yǔ)音操作空調(diào)、音響、燈光、車窗、車門、后尾門、充電蓋的開(kāi)啟/關(guān)閉等功能，以及支持車外語(yǔ)音泊車。

案例2

聲紋識(shí)別擴(kuò)大應(yīng)用

代表車型：理想L7、合創(chuàng)A06/V09

代表功能：識(shí)別駕乘人員身份，提供針對(duì)性服務(wù)

理想L系列車型均支持聲紋識(shí)別功能。在乘客聲紋注冊(cè)后，“理想同學(xué)”可分辨乘客是誰(shuí)，叫出不同乘客指定的昵稱，并結(jié)合聲紋記憶對(duì)不同乘客位置執(zhí)行車控。

合創(chuàng)A06/V09的聲紋識(shí)別VOICE ID，能清楚識(shí)別有效用戶身份以及指令，并將成為HYCAN ID的入口，為用戶接入豐富智慧生態(tài)，使用100+款?yuàn)蕵?lè)應(yīng)用。另外基于聲紋識(shí)別技術(shù)，系統(tǒng)將主動(dòng)屏蔽其他干擾聲音，提高主駕識(shí)別精準(zhǔn)度。

圖片來(lái)源：合創(chuàng)汽車

案例3

肌電交互實(shí)現(xiàn)車載商業(yè)化落地

代表車型：嵐圖追光

代表功能：車內(nèi)外隔空微手勢(shì)控車

2023年4月，嵐圖追光與柔靈科技推出肌電交互融合方案。該方案主要通過(guò)肌電手環(huán)實(shí)現(xiàn)。手環(huán)內(nèi)部安裝多通道肌電傳感器和高精度的放大器，可以實(shí)時(shí)采集豐富的肌肉電信號(hào)并生成算法，傳導(dǎo)計(jì)算終端，從而生成個(gè)性化的AI手勢(shì)模型，之后再和嵐圖的車載平臺(tái)整合。使用者將手環(huán)與車內(nèi)藍(lán)牙連接，即可實(shí)現(xiàn)以微手勢(shì)控制車輛，包括開(kāi)關(guān)后備箱、升降車窗等60+種手勢(shì)動(dòng)作。此外，手環(huán)還可以和車內(nèi)游戲系統(tǒng)無(wú)縫連接。借助肌電手環(huán)的手勢(shì)識(shí)別，用戶可以更自然、直觀地操控游戲角色，如地鐵跑酷等。

圖片來(lái)源：柔靈科技

多模態(tài)融合，打造主動(dòng)交互

目前車企已實(shí)現(xiàn)的多模態(tài)融合包括但不限于語(yǔ)音+唇動(dòng)識(shí)別、語(yǔ)音+面部識(shí)別、語(yǔ)音+手勢(shì)識(shí)別、語(yǔ)音+頭姿、面部+情緒識(shí)別、面部+眼球追蹤、香氛+面部+語(yǔ)音識(shí)別等。其中語(yǔ)音多模態(tài)交互方式為當(dāng)下主流，應(yīng)用車型包括上文提到的長(zhǎng)安啟源A07、極越01、理想L7、合創(chuàng)A06/V09等車型。

多模態(tài)融合代表功能（僅列舉部分）

來(lái)源：佐思汽研《2023年中國(guó)汽車多模態(tài)交互發(fā)展研究報(bào)告》

案例1

語(yǔ)音+頭姿交互：魏牌藍(lán)山DHT PHEV將語(yǔ)音和頭姿進(jìn)行結(jié)合，交互方式簡(jiǎn)單直觀

當(dāng)駕駛員進(jìn)行語(yǔ)音對(duì)話時(shí)，藍(lán)山座艙利用車載攝像頭捕捉駕駛員的頭部動(dòng)作，通過(guò)點(diǎn)頭/搖頭進(jìn)行確定/否定答復(fù)。例如語(yǔ)音控制導(dǎo)航時(shí)，可通過(guò)點(diǎn)頭/搖頭選擇路線規(guī)劃方案。

案例2

面部+情緒識(shí)別：睿藍(lán)7、極狐考拉等車型在面部識(shí)別功能上融入情緒識(shí)別技術(shù)，提供主動(dòng)交互，增強(qiáng)交互體驗(yàn)

睿藍(lán)7的多模智識(shí)Face-ID系統(tǒng)支持唇動(dòng)識(shí)別、情緒識(shí)別，能記憶關(guān)聯(lián)賬戶對(duì)應(yīng)語(yǔ)音、座椅、后視鏡、氛圍燈、后備箱設(shè)置等車輛功能個(gè)性化信息，還可根據(jù)車主的“臉色”來(lái)選擇合適的音樂(lè)。

極狐考拉位于B柱的攝像頭正對(duì)后排，可實(shí)時(shí)監(jiān)控孩子狀態(tài)。例如孩子在微笑時(shí)將自動(dòng)抓拍傳送至中控屏；哭鬧時(shí)將自動(dòng)播放安撫音樂(lè)/智能座椅表面呼吸律動(dòng)，平復(fù)孩子情緒。另外，攝像頭還可與車內(nèi)毫米波雷達(dá)聯(lián)動(dòng)，判斷孩子是否睡著，睡著則自動(dòng)打開(kāi)睡眠模式，開(kāi)啟座椅通風(fēng)，空調(diào)溫度適當(dāng)調(diào)整，音響、氛圍燈進(jìn)行聯(lián)動(dòng)，產(chǎn)生律動(dòng)效果。

案例3

面部+嗅覺(jué)：蔚來(lái)EC7、睿藍(lán)7等車型實(shí)將駕駛員監(jiān)控系統(tǒng)與香氛系統(tǒng)聯(lián)動(dòng)，提升駕車安全性

蔚來(lái)EC7監(jiān)測(cè)到駕駛員的疲勞狀態(tài)時(shí)，將自動(dòng)釋放提神醒腦的香氛，以確保駕駛安全；

睿藍(lán)7位于A柱的攝像頭監(jiān)控到駕駛員犯困時(shí)，將自動(dòng)釋放提神香氛，并進(jìn)行語(yǔ)音提醒。

大模型及多模態(tài)融合，將推進(jìn)AI Agent上車

AI大模型正從單模態(tài)走向多模態(tài)、多任務(wù)融合的趨勢(shì)。相較于單模態(tài)只能處理一種類型的數(shù)據(jù)，例如文本、圖像、語(yǔ)音等，多模態(tài)則可以處理和理解多種類型的數(shù)據(jù)，包括視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等，從而能夠更好地理解和生成復(fù)雜的信息。隨著多模態(tài)大模型的持續(xù)發(fā)展，其能力也將得到顯著提升。這種提升賦予AI Agent（人工智能體）更強(qiáng)大的感知和環(huán)境理解能力，以實(shí)現(xiàn)更智能、自主的決策和行動(dòng)。同時(shí)也為汽車領(lǐng)域的應(yīng)用開(kāi)拓了新的可能性，為未來(lái)的智能化發(fā)展提供了更廣闊的前景。

圖片來(lái)源：紅杉資本

科大訊飛基于星火大模型開(kāi)發(fā)的星火座艙OS，支持語(yǔ)音、手勢(shì)、人眼追蹤、DMS/OMS等多種交互模態(tài)，星火汽車助理通過(guò)深度上下文理解實(shí)現(xiàn)多意圖識(shí)別，提供更加自然的人機(jī)交互。訊飛星火大模型首搭車型星途星紀(jì)元ES，將帶來(lái)五大全新的體驗(yàn)：車輛功能導(dǎo)師、冷暖共情伙伴、知識(shí)百科全書、旅行規(guī)劃專家、身體健康顧問(wèn)。

來(lái)源：科大訊飛

將于2023年12月上市的AITO問(wèn)界M9內(nèi)置HarmonyOS 4車機(jī)系統(tǒng)。鴻蒙4中智慧助手小藝已經(jīng)接入了盤古大模型。華為盤古大模型，包括自然語(yǔ)言大模型、視覺(jué)大模型、多模態(tài)大模型等。鴻蒙4+小藝+盤古大模型，設(shè)備協(xié)同、AI場(chǎng)景等生態(tài)能力將再度增強(qiáng)，借助多模態(tài)交互技術(shù)，提供多樣化的交互方式，包括語(yǔ)音識(shí)別、手勢(shì)控制、觸摸屏操作等。

圖片來(lái)源：華為

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音交互

語(yǔ)音交互

+關(guān)注

關(guān)注
3

文章
282

瀏覽量
27963
聲紋識(shí)別

聲紋識(shí)別

+關(guān)注

關(guān)注
3

文章
137

瀏覽量
21490
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2274

瀏覽量
2356

原文標(biāo)題：汽車多模態(tài)交互研究：大模型及多模態(tài)融合，推進(jìn)AI Agent上車

文章出處：【微信號(hào)：zuosiqiche，微信公眾號(hào)：佐思汽車研究】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI大模型的最新研究進(jìn)展

。例如，在醫(yī)療領(lǐng)域，生成式AI可以幫助醫(yī)生生成診斷報(bào)告、治療方案等；在教育領(lǐng)域，AI大模型可以生成個(gè)性化的學(xué)習(xí)資源和建議。多模態(tài)

發(fā)表于 10-23 15:19 ?245次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō)

發(fā)表于 10-18 09:39 ?251次閱讀

蘋果發(fā)布300億參數(shù)多模態(tài)AI大模型MM1.5

蘋果近日推出了全新的多模態(tài)AI大模型MM1.5，該模型擁有高達(dá)300億的參數(shù)規(guī)模，是在前代MM1架構(gòu)的基礎(chǔ)上進(jìn)一步發(fā)展而來(lái)的。

發(fā)表于 10-14 15:50 ?221次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來(lái)的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多

發(fā)表于 08-27 15:20 ?343次閱讀

智譜AI發(fā)布全新多模態(tài)開(kāi)源模型GLM-4-9B

近日，智譜AI在人工智能領(lǐng)域取得重大突破，成功推出全新開(kāi)源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對(duì)于大型語(yǔ)言

發(fā)表于 06-07 09:17 ?645次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進(jìn) AI 在終端的場(chǎng)景應(yīng)用 ? 4月18日，202

發(fā)表于 04-18 17:01 ?550次閱讀

李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

AI機(jī)器人迎來(lái)多模態(tài)模型

配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的多模態(tài)信息，還要快速完成理解、決策、行動(dòng)等一系列動(dòng)作，因此對(duì)于算力的需求是巨量的。

發(fā)表于 04-12 10:39 ?249次閱讀

谷歌推出多模態(tài)VLOGGER AI

谷歌最新推出的VLOGGER AI技術(shù)引起了廣泛關(guān)注，這項(xiàng)創(chuàng)新的多模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來(lái)并“說(shuō)話”。用戶只需提供一張人物肖像照片和一段音頻內(nèi)容，VLOGGER

發(fā)表于 03-22 10:45 ?754次閱讀

螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

近日，螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo

發(fā)表于 03-04 11:22 ?751次閱讀

MWC2024：高通推出全新AI Hub及前沿多模態(tài)大模型

2024年世界移動(dòng)通信大會(huì)（MWC）上，高通再次展現(xiàn)其技術(shù)領(lǐng)導(dǎo)力，通過(guò)發(fā)布全新的高通AI Hub和展示前沿的多模態(tài)大模型技術(shù)，推動(dòng)了5G和AI

發(fā)表于 02-26 16:59 ?1177次閱讀

機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。

發(fā)表于 01-19 11:43 ?352次閱讀

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時(shí)間Google推出Gemini多模態(tài)大模型，展示了不凡的對(duì)話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

發(fā)表于 12-28 11:19 ?1163次閱讀

語(yǔ)音識(shí)別技術(shù)最新進(jìn)展：視聽(tīng)融合的多模態(tài)交互成為主要演進(jìn)方向

多種模態(tài)（聲學(xué)、語(yǔ)言模型、視覺(jué)特征等）進(jìn)行聯(lián)合建模，基于深度學(xué)習(xí)的多模態(tài)語(yǔ)音識(shí)別取得了新進(jìn)展。 ? 多模

發(fā)表于 12-28 09:06 ?3531次閱讀

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場(chǎng)景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個(gè)備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行

發(fā)表于 12-15 14:28 ?8770次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語(yǔ)音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大

發(fā)表于 12-13 13:55 ?1589次閱讀