“AR/VR/XR×元宇宙”時(shí)代的到來
虛擬現(xiàn)實(shí)技術(shù)VR通過逼真的、具有三維視、觸、嗅、聽等多感官體驗(yàn)的虛擬世界,營(yíng)造出如身臨其境的虛擬世界。
增強(qiáng)現(xiàn)實(shí)技術(shù)AR將文字、圖像、三維模型、音視頻等數(shù)字信息,通過顯示終端融入到現(xiàn)實(shí)世界,對(duì)現(xiàn)實(shí)世界信息不斷加以完善和增強(qiáng)。
混合現(xiàn)實(shí)技術(shù)XR融合了VR和AR技術(shù)與場(chǎng)景,通過更為多元的場(chǎng)景建構(gòu),搭建起現(xiàn)實(shí)世界、虛擬世界以及用戶之間實(shí)時(shí)、動(dòng)態(tài)、可持續(xù)的交互與反饋,為用戶創(chuàng)建出更為多元化的情景內(nèi)容和空間體驗(yàn)。
從AR、VR到MR,構(gòu)建虛擬世界與現(xiàn)實(shí)世界融合的各項(xiàng)技術(shù)以“XR”被統(tǒng)稱為擴(kuò)展現(xiàn)實(shí)技術(shù),并以沉浸式的交互模式、大膽的創(chuàng)新正在逐步改變著世界存在的形式?!笆奈濉币?guī)劃已明確將虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)列為數(shù)字經(jīng)濟(jì)重點(diǎn)產(chǎn)業(yè)之一。
而元宇宙概念的提出徹底撕開了現(xiàn)實(shí)與虛擬世界間的面紗?!霸钪妗奔闪藬U(kuò)展現(xiàn)實(shí)、腦機(jī)接口、區(qū)塊鏈、云計(jì)算、數(shù)字孿生、人工智能等多種技術(shù),不再以技術(shù)為出發(fā)點(diǎn),而是打破虛擬與現(xiàn)實(shí)的空間界限,以多元空間建構(gòu)為基礎(chǔ),創(chuàng)新場(chǎng)景應(yīng)用與交互,探索人類社會(huì)新的空間關(guān)系,并逐漸改變著人們對(duì)空間的認(rèn)知。
當(dāng)下,基于“AR/VR/XR”融合的多元場(chǎng)景,正越來越多的應(yīng)用在人類工業(yè)生產(chǎn)、教育、醫(yī)療、娛樂、運(yùn)營(yíng)服務(wù)等領(lǐng)域。比如基于復(fù)雜工業(yè)設(shè)備的虛擬操控訓(xùn)練、課堂教學(xué)的沉浸式體驗(yàn)、醫(yī)療手術(shù)中的遠(yuǎn)程輔助、更具沉浸感的體驗(yàn)游戲、對(duì)歷史場(chǎng)景的還原、服裝購買過程中的衣物試穿等場(chǎng)景。未來,或許這些場(chǎng)景也將成為大元宇宙空間的重要內(nèi)容。而社交元宇宙、企業(yè)元宇宙等概念的提出,也只是元宇宙創(chuàng)新的一種形式,更多的可能正在探索的路上。“AR/VR/XR×元宇宙”時(shí)代已經(jīng)到來。
感知識(shí)別或?qū)⒊蔀樵钪婵臻g時(shí)代人機(jī)交互主要入口與載體
在打破虛擬與現(xiàn)實(shí)世界界限的元宇宙空間里,手勢(shì)、語音交互、腦機(jī)接口是最為直接的交互方式,或?qū)⒊蔀橄乱淮?a href="http://ttokpm.com/v/" target="_blank">智能網(wǎng)絡(luò)時(shí)代新的人機(jī)交互入口和載體。
在擴(kuò)展現(xiàn)實(shí)技術(shù)營(yíng)造的多元空間場(chǎng)景中,屏顯設(shè)備建立起人與虛擬世界的視覺聯(lián)系;座椅、腳踏設(shè)備等建立起與人的身體與虛擬世界的運(yùn)動(dòng)感知;味道、水汽等物理環(huán)境創(chuàng)設(shè)輔助人在虛擬空間的嗅覺感知和環(huán)境觸覺感知;手勢(shì)識(shí)別、語音識(shí)別、腦機(jī)接口等交互模式建立起人與虛擬世界的持續(xù)交互操控。
手勢(shì)識(shí)別技術(shù)因其技術(shù)的成熟性,交互功能多樣性,成為當(dāng)下擴(kuò)展現(xiàn)實(shí)感知交互發(fā)展的重要內(nèi)容與設(shè)備。手勢(shì)識(shí)別為身處元宇宙空間的人們提供了即時(shí)、高效、立體、多元和可持續(xù)的感觀交互體驗(yàn)。手勢(shì)識(shí)別技術(shù)在擴(kuò)展現(xiàn)實(shí)場(chǎng)景操控與交互過程中發(fā)揮越來越重要的作用。
手勢(shì)識(shí)別在沉浸式體驗(yàn)中不可或缺
人手本身屬于人的操控器官,當(dāng)人置身于虛擬世界中時(shí),手眼協(xié)調(diào)是最自然的操控方式,且無需額外增加操控硬件?;谑謩?shì)識(shí)別技術(shù)以及輔助增強(qiáng)手感知和反饋的可穿戴設(shè)備,手勢(shì)識(shí)別可以幫助使用者建立起人手與虛擬世界場(chǎng)景間更為自然、真實(shí)的操控體驗(yàn),比如在虛擬世界中拿起一杯水、變形一個(gè)物體、打開一扇門等等。
通過手勢(shì)識(shí)別,可以更為直接的建立起手的動(dòng)作感知與人腦間的自然連接,更為直接的聯(lián)動(dòng)人的視覺、觸覺、聽覺等感知體驗(yàn),使人在虛擬情境中的感官體驗(yàn)變得更加立體、多元和真實(shí),形成現(xiàn)實(shí)世界與虛擬世界間關(guān)聯(lián)性更強(qiáng)的、更具沉浸感和交互性的體驗(yàn)效果,進(jìn)而,可以創(chuàng)作出更加豐富、細(xì)膩、具有想象力的內(nèi)容情境。
手勢(shì)識(shí)別擴(kuò)展現(xiàn)實(shí)情景交互場(chǎng)景
目前,手勢(shì)識(shí)別技術(shù)存在裸手手勢(shì)識(shí)別、觸覺手柄、觸覺手套、肌電手環(huán)等多種實(shí)現(xiàn)路徑。其中,裸手手勢(shì)識(shí)別通過基于攝像頭的多點(diǎn)視覺識(shí)別技術(shù)分析和識(shí)別手的位置和姿態(tài),搭載頭顯設(shè)備的裸手手勢(shì)識(shí)別應(yīng)用已經(jīng)落地,并向更高精度發(fā)展;觸覺手柄在操控手柄原有的定位與操控功能之外,通過震動(dòng)、抓握等簡(jiǎn)單的交互方式增加觸覺反饋;觸覺手套通過搭載密集的執(zhí)行器反饋點(diǎn),在手勢(shì)識(shí)別的準(zhǔn)確性、流暢性、靈活度以及細(xì)微觸覺感知等方面獨(dú)具優(yōu)勢(shì)。
同時(shí),在追蹤定位方面,搭配攝像頭+慣性測(cè)量單元的inside-out方案因能夠?qū)崿F(xiàn)三類平移、三類旋轉(zhuǎn)的六自由度操作以及微動(dòng)作、主體移動(dòng)等功能,在消費(fèi)級(jí)VR一體機(jī)上被廣泛應(yīng)用。
具有高感知的手勢(shì)識(shí)別技術(shù)正逐漸走向成熟,推動(dòng)手勢(shì)識(shí)別應(yīng)用的不斷落地,為擴(kuò)展現(xiàn)實(shí)情景內(nèi)容交互的發(fā)展提供更多可能。
手勢(shì)識(shí)別芯片技術(shù)逐漸走向成熟
在VR、AR、MR等擴(kuò)展現(xiàn)實(shí)情景下,感知交互突破了二維屏幕的限制。裸手手勢(shì)識(shí)別技術(shù)需要傳感器、芯片和算法的協(xié)同工作。在傳感器方面,需要識(shí)別精度更高、響應(yīng)速度更快、覆蓋范圍更廣,以及價(jià)格耕地和體積更小的傳感器;在算法上,需要不斷改進(jìn)算法模型,提供更高精度的數(shù)據(jù)集;在芯片算力上,需要能夠支撐更為復(fù)雜運(yùn)算的芯片技術(shù)能力。
多角度成像手勢(shì)識(shí)別芯片成為主流
手勢(shì)識(shí)別最關(guān)鍵的技術(shù)是對(duì)手勢(shì)動(dòng)作的跟蹤以及通過算法分析出手部的位置和姿態(tài)。根據(jù)硬件實(shí)現(xiàn)方式不同,手勢(shì)識(shí)別芯片方案主要有三種:
一種是基于結(jié)構(gòu)光原理,通過激光折射以及相應(yīng)算法計(jì)算出物體的位置和深度信息,進(jìn)而復(fù)原整個(gè)三維空間,代表產(chǎn)品是微軟 KINECT一代,在深度計(jì)算和識(shí)別距離實(shí)現(xiàn)難度較大;一種是基于光飛時(shí)間原理,加載一個(gè)發(fā)光原件,通過CMOS傳感器捕捉計(jì)算光子飛行時(shí)間推算物體的深度信息,代表產(chǎn)品是intel帶手勢(shì)識(shí)別功能的三維攝像頭;一種是基于多角度成像原理,運(yùn)用兩個(gè)或多個(gè)攝像頭同時(shí)采集圖像,對(duì)比不同攝像頭同一時(shí)刻獲得的圖像差別計(jì)算深度信息,形成三維圖像,業(yè)內(nèi)Leap Motion、MakeSens等公司使用的都是一個(gè)或多個(gè)普通攝像頭組成的手勢(shì)識(shí)別技術(shù)方案。
與深度攝像頭方案相比,一個(gè)或多個(gè)普通攝像頭實(shí)現(xiàn)的手勢(shì)識(shí)別,在綜合了實(shí)現(xiàn)成本、技術(shù)難度以及識(shí)別精度等要求下,未來或可成為頭顯設(shè)備主流的手勢(shì)識(shí)別控制模式。
高感知手勢(shì)識(shí)別的必要條件
基于多角度成像算法的手勢(shì)識(shí)別系統(tǒng),通過背景摳除、運(yùn)動(dòng)檢測(cè)和閾值、輪廓提取等實(shí)現(xiàn)手部識(shí)別以及區(qū)分左右手;通過對(duì)單手的21個(gè)或26個(gè)關(guān)鍵點(diǎn)的動(dòng)態(tài)、實(shí)時(shí)識(shí)別與追蹤,確定手在圖像中的位置以及識(shí)別手勢(shì)所代表的信息;運(yùn)用不同攝像頭同一時(shí)刻獲得的圖像差別計(jì)算圖像深度信息;進(jìn)而,通過手勢(shì)信息所代表的操作命令實(shí)現(xiàn)對(duì)界面內(nèi)容的瞄準(zhǔn)、選擇和操控等操作。
為實(shí)現(xiàn)高感知手勢(shì)識(shí)別,需要高質(zhì)量的手勢(shì)模型可以預(yù)測(cè)出更多的3D關(guān)節(jié)點(diǎn);需要足夠高精度的數(shù)據(jù)訓(xùn)練高質(zhì)量的手勢(shì)模型;需要基于深度學(xué)習(xí)的推理運(yùn)算,則可以處理手的復(fù)雜動(dòng)作,同時(shí)抵抗不同環(huán)境要素的干擾。因而,在高感知的實(shí)現(xiàn)過程中,需要更高效率的算力解決復(fù)雜問題,對(duì)芯片功耗、時(shí)延和成本也有著更高的要求。
與SLAM攝像頭的兼容特性
在inside-out追蹤成為主流的情況下,近兩年,同步定位與建圖SLAM技術(shù)在擴(kuò)展現(xiàn)實(shí)場(chǎng)景上的應(yīng)用不斷增多。PC端VR頭顯、移動(dòng)端VR一體機(jī),AR眼鏡等設(shè)備幾乎全部加入了SLAM定位功能。SLAM攝像頭大多采用魚眼或是廣角灰度攝像頭,與RGB攝像頭相比,SLAM攝像頭在手勢(shì)識(shí)別精度上表現(xiàn)更高,且具有良好的兼容性性。
因而,增加SLAM功能的VR、AR設(shè)備在采用手勢(shì)識(shí)別時(shí),可以直接采用SLAM灰度攝像頭進(jìn)行手勢(shì)識(shí)別,不再需要增加額外硬件配件,不但其識(shí)別精度可以保證,兼容效果良好,也不會(huì)增加攝像頭的硬件成本,同時(shí)也無需考慮設(shè)備功耗負(fù)擔(dān)。以MakeSens的產(chǎn)品為例,在同時(shí)運(yùn)行SLAM定位追蹤和手勢(shì)識(shí)別的情況下,即使完全使用CPU的模式下,所占用的CPU資源也能夠控制在30%以內(nèi),大部分的CPU運(yùn)算都能夠留給軟件運(yùn)行實(shí)現(xiàn)。MakeSens基于“感算共融”智能芯片架構(gòu),以模擬信息轉(zhuǎn)換技術(shù)解決能量效率瓶頸,其超低功耗智能AI芯片與傳統(tǒng)芯片相比,能耗可以降低三個(gè)數(shù)量級(jí)。
關(guān)于MakeSens
MakeSens手勢(shì)識(shí)別芯片上的創(chuàng)新與精進(jìn)
5月12日,在由中國(guó)半導(dǎo)體行業(yè)協(xié)會(huì)IC設(shè)計(jì)分會(huì)(ICCAD)、芯原股份、松山湖管委會(huì)主辦的“AR/VR/XR×元宇宙”的“2023松山湖中國(guó)IC創(chuàng)新高峰論壇”上,國(guó)產(chǎn)智能感知芯片廠商MakeSens(MakeSens)智能科技(北京)有限公司總經(jīng)理和大家交流了傳數(shù)字芯片處理高功耗形成的原因并闡明了MakeSens在模擬計(jì)算架構(gòu)下是如何實(shí)現(xiàn)芯片低能耗的;同時(shí),也發(fā)布了公司自主研發(fā)的,集成了多核NPU低功耗感算一體的智能芯片。
鄒天琦指出: 在摩爾定律運(yùn)算邏輯下,傳統(tǒng)的數(shù)字計(jì)算架構(gòu)下,90%的功耗都損耗在了數(shù)據(jù)在存儲(chǔ)和計(jì)算單元間的搬移過程中,并沒有用在數(shù)據(jù)處理過程中,且因數(shù)據(jù)搬移帶來了更高的延時(shí),同時(shí),依賴于制程提升的邏輯芯片性能也帶來工藝成本和散熱的問題。
而在傳統(tǒng)的感知計(jì)算鏈路下,傳感器采集的數(shù)據(jù)需要經(jīng)過ADS模數(shù)轉(zhuǎn)換器對(duì)模擬信號(hào)進(jìn)行數(shù)字信號(hào)轉(zhuǎn)換,再通過DSP數(shù)字信號(hào)處理器進(jìn)行處理,CPU/GPU/FPGA計(jì)算芯片進(jìn)行計(jì)算。計(jì)算鏈路較長(zhǎng)帶來計(jì)算效率低、功耗大等問題。
相比之下,模擬計(jì)算架構(gòu)通過近傳感計(jì)算芯片直接對(duì)傳感器采集的數(shù)據(jù)進(jìn)行計(jì)算,將部分DSP芯片需要承擔(dān)的任務(wù)進(jìn)行前置處理,精簡(jiǎn)處理器信息后,再將處理后的數(shù)據(jù)通過ADC模數(shù)轉(zhuǎn)換器傳遞給CPU/GPU/FPGA等計(jì)算芯片。主芯片計(jì)算的是剔除不必要信息的精簡(jiǎn)數(shù)據(jù),減少了數(shù)據(jù)遷移量和數(shù)據(jù)處理量,進(jìn)而提升了計(jì)算效率,也降低了整個(gè)計(jì)算鏈路的功耗。同時(shí)鄒天琦還代表MakeSens發(fā)布了公司首款面向面向手勢(shì)交互應(yīng)用的低功耗感算一體智能芯片MKS2206。
該芯片集成多核自研NPU,該芯片支持包括圖像、語音等多種感知模態(tài)。在AR/VR場(chǎng)景應(yīng)用中,該芯片功能支持雙手檢測(cè)、跟蹤與左右手識(shí)別;支持雙手21關(guān)鍵點(diǎn)和3D坐標(biāo)檢測(cè);支持多種典型手勢(shì)、自定義手勢(shì)??梢院芎玫臐M足AR/VR場(chǎng)景應(yīng)用需求;可以實(shí)現(xiàn)畫面抖動(dòng)、低視頻分辨率、低照度及多目標(biāo)類別等情況下穩(wěn)定的手勢(shì)檢測(cè)和跟蹤功能。
在運(yùn)算性能上,該芯片定位誤差小于10mm;實(shí)時(shí)處理幀率大于60fps;可實(shí)現(xiàn)小于50ms延遲的連續(xù)無卡頓交互;檢出成功率大于98%。在傳感器性能上,支持MIPI-CSI接口;典型配置為640x480單色,雙路分辨率最高支持1280x800;典型功耗< 200mW。同時(shí),MakeSens還提供了完整的軟件棧,易于與AP集成。
據(jù)了解,該芯片基于40nm工藝,將會(huì)在今年二季度小規(guī)模量產(chǎn),2023年三季度客戶導(dǎo)入,2024年二季度規(guī)模出貨。此外,MakeSens還計(jì)劃在2024年推出基于22nm工藝的新一代MK3xxx系列芯片,主要面向SLAM 6DoF定位、手勢(shì)交互、眼動(dòng)追蹤動(dòng)等場(chǎng)景應(yīng)用。
MakeSens公司背景介紹
MakeSens公司源起于清華大學(xué)電子系集成智能感知(iVip)實(shí)驗(yàn)室,2015首創(chuàng)提出“感算共融”的智能芯片架構(gòu),利用模擬計(jì)算的高能效特性優(yōu)勢(shì),極大降低了持續(xù)智能視覺感知計(jì)算下的能耗問題。MakeSens擁有一支經(jīng)驗(yàn)豐富的模擬計(jì)算研發(fā)團(tuán)隊(duì),核心人員擁有平均10年以上的行業(yè)從業(yè)經(jīng)驗(yàn),18次流片經(jīng)驗(yàn),并且與數(shù)家頂尖的公司在持續(xù)研發(fā)合作。
MakeSens推出的低功耗智能視覺感知平臺(tái)的核心部件,采用自主創(chuàng)新架構(gòu)設(shè)計(jì),該芯片能夠在復(fù)雜的識(shí)別任務(wù)中以低功耗、高精度、高性能和高穩(wěn)定性脫穎而出,因此有望在AR/VR/MR以及智能座艙等復(fù)雜人機(jī)感知和交互場(chǎng)景中廣泛部署。通過集成輕量級(jí)識(shí)別交互算法,顯著降低系統(tǒng)功耗,提升整體性能,并達(dá)到同行業(yè)領(lǐng)先水平。
MakeSens的目標(biāo)是在2024-2025年面向大客戶的完整解決方案,并實(shí)現(xiàn)億元以上營(yíng)收。希望在2026-2028年完成平臺(tái)服務(wù)、生態(tài)搭建,建立以自研芯片為核心的全時(shí)域智能感知服務(wù)平臺(tái),并實(shí)現(xiàn)IPO。
編輯:黃飛
?
評(píng)論
查看更多