最近,筆者與Ambarella的AIoT高級(jí)總監(jiān)Jerome Gigot進(jìn)行了交流,該公司專門(mén)為邊緣應(yīng)用程序創(chuàng)建AI視覺(jué)處理器。自2004年成立以來(lái),該公司一直專注于為視頻處理的各個(gè)方面提供解決方案(重點(diǎn)強(qiáng)調(diào)低功耗)。Ambarella最初從廣播和攝像機(jī)開(kāi)始,大約在2010年,當(dāng)A5S芯片被用于GoPro時(shí),他們開(kāi)始關(guān)注安防市場(chǎng)。2012年,該公司發(fā)布了S2,是第一個(gè)針對(duì)安全/監(jiān)控?cái)z像頭的4K芯片。
2015年,Ambarella收購(gòu)了一家名為VisLab的計(jì)算機(jī)視覺(jué)公司,從那時(shí)起,他們開(kāi)始專注于人工智能和計(jì)算機(jī)視覺(jué)。CVflow 1.0更多的是一個(gè)研發(fā)活動(dòng),并沒(méi)有真正進(jìn)入市場(chǎng)。CVflow 2.0支持一套視覺(jué)處理芯片——CV2, CV5, CV22, CV25, CV28,是Ambarella的客戶目前在他們的安全攝像頭系統(tǒng)中使用的芯片。
現(xiàn)在,事情真正開(kāi)始變得有趣起來(lái),因?yàn)锳mbarella在2021年收購(gòu)了一家名為Oculii的人工智能雷達(dá)軟件公司。同時(shí),他們著手開(kāi)發(fā)第三代視覺(jué)處理體系結(jié)構(gòu):CVflow 3.0。
目前實(shí)現(xiàn)CVflow 3.0架構(gòu)的有兩款芯片,都采用了三星5nm工藝。在今年年初的CES上宣布的第一款芯片CV3-AD是一款非常高端的設(shè)備,具有極高的人工智能性能,目標(biāo)是汽車市場(chǎng)的L2+到L4級(jí)自動(dòng)化。
第二款芯片,新的CV72S SoC,將在ISC West上公布。CV72S在尺寸和成本上展示了Ambarella最先進(jìn)的技術(shù),適合一般物聯(lián)網(wǎng)市場(chǎng),特別是安全/監(jiān)控市場(chǎng)。
但這與之前提到的收購(gòu)Oculii又有什么關(guān)系呢?Oculii是做人工智能雷達(dá)軟件的,他們不制造傳感器,只做軟件。更具體地說(shuō),他們使用人工智能來(lái)聰明地控制雷達(dá)頭(傳感器)。如果使用英飛凌、恩智浦或德州儀器等公司現(xiàn)有的雷達(dá)頭,那么Oculii可以提高其分辨率、范圍和精度,同時(shí)使用更少的天線、實(shí)現(xiàn)更低的功耗。
所有這些使得CV72S能夠滿足當(dāng)今最新和最大的安全/監(jiān)視系統(tǒng)的需求,即更多的人工智能,更好的圖像質(zhì)量(包括彩色夜視),魚(yú)眼和多成像器(CV72S可以在硬件中對(duì)魚(yú)眼圖像進(jìn)行反扭曲),以及光學(xué)和雷達(dá)世界之間的傳感器融合。
?
在AI組件下,我們談?wù)摰牟粌H僅是更多的AI,而是更好的AI。當(dāng)今安全/監(jiān)控系統(tǒng)的開(kāi)發(fā)人員總想要運(yùn)行最新、最好的神經(jīng)網(wǎng)絡(luò),而這些網(wǎng)絡(luò)總是傾向于更大、要求更高的性能。開(kāi)發(fā)人員還希望能夠檢測(cè)和識(shí)別更遠(yuǎn)的東西,這意味著他們需要更高的神經(jīng)網(wǎng)絡(luò)分辨率,也需要更高的性能。
在自然語(yǔ)言處理(NLP)方面,應(yīng)用程序如ChatGPT已經(jīng)變得非常有名。最近,人工智能專家們意識(shí)到,同樣的網(wǎng)絡(luò)也可以應(yīng)用于視頻。這導(dǎo)致了一種被稱為視覺(jué)轉(zhuǎn)換器的新型網(wǎng)絡(luò),其性能優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。不幸的是,視覺(jué)轉(zhuǎn)換器需要專用硬件;幸運(yùn)的是,這個(gè)新的硬件就是CV72S。
話雖如此,視覺(jué)轉(zhuǎn)換器的性能取決于它們所使用的數(shù)據(jù),這將我們很好地引導(dǎo)到上圖右側(cè)的傳感器融合示例。正如你所看到的,要弄清楚我們?cè)谧鍪裁从悬c(diǎn)困難,我們現(xiàn)在看到的是一座商業(yè)建筑和一個(gè)停車場(chǎng)。這張照片的下半部分是相機(jī)僅使用RGB視覺(jué)傳感器在夜間看到的景象。我們只能看到一輛白色的車。
這張圖片的頂部顯示了相機(jī)中雷達(dá)生成的點(diǎn)云。如果看一下這個(gè)雷達(dá)數(shù)據(jù),我們可以看到頂部有三個(gè)紫色的斑點(diǎn)和一個(gè)淺藍(lán)色的斑點(diǎn)。這四個(gè)斑點(diǎn)是人。如果觀看直播視頻,我們可以看到他們?cè)谝苿?dòng)(手臂擺動(dòng),腿行走),其中的顏色編碼反映了移動(dòng)的方向(紫色的人向左移動(dòng),而藍(lán)色的人向右移動(dòng))。
在視覺(jué)圖像和雷達(dá)圖像之間執(zhí)行傳感器融合,可以提供更高級(jí)別的有用信息,這些信息對(duì)于建筑物保護(hù)和周界安全等非常重要,特別是當(dāng)霧、雪和煙霧等環(huán)境條件降低了圖像的視覺(jué)位置的情況下。
實(shí)現(xiàn)傳感器融合的具體框圖如下所示:
筆者不打算詳細(xì)介紹這個(gè)圖,只想指出這個(gè)系統(tǒng)可以接受1到10個(gè)傳感器(相機(jī))輸入,可以使用最新的LPDDR5外部存儲(chǔ)器,終極秘密濃縮在CVflow塊中(其中涉及令人難以置信的晶體管數(shù)量)。
筆者在家里安裝了安全攝像頭。攝像頭在白天提供的圖像是很棒的,但在晚上卻差強(qiáng)人意,而矛盾的是晚上正是我們希望攝像頭表現(xiàn)最好的時(shí)候。
下面左側(cè)的圖片是通過(guò)一個(gè)傳統(tǒng)的ISP引擎,這在市場(chǎng)上已經(jīng)是最好的。當(dāng)光照水平過(guò)低時(shí),傳感器就會(huì)變得非常嘈雜。傳統(tǒng)技術(shù)無(wú)法恢復(fù)這種圖像,所以當(dāng)黃昏降臨時(shí),相機(jī)通常會(huì)切換到夜間模式,這導(dǎo)致圖像的灰度很難看。
AISP可以解決上述問(wèn)題,顧名思義,AISP是傳統(tǒng)圖像信號(hào)處理(ISP)和高性能神經(jīng)網(wǎng)絡(luò)AI處理的結(jié)合,可以降低噪聲和提高夜間圖像質(zhì)量,同時(shí)還可以大幅降低比特率,如右圖所示。
最后,我們需要考慮開(kāi)發(fā)人員如何將CV72S納入他們的安全/監(jiān)控?cái)z像頭設(shè)計(jì)。我們一般是用32位浮點(diǎn)數(shù)訓(xùn)練AI網(wǎng)絡(luò),但這樣的網(wǎng)絡(luò)并沒(méi)有針對(duì)邊緣設(shè)備進(jìn)行優(yōu)化,所以Ambarella提供了一個(gè)本質(zhì)上的編譯器,采用32位浮點(diǎn)表示,并將其量化為CV72S能夠理解的8位定點(diǎn)等效語(yǔ)言。如果開(kāi)發(fā)人員想進(jìn)一步優(yōu)化模型,可以使用Ambarella工具來(lái)裁剪網(wǎng)絡(luò)。有時(shí)可以裁剪50%,在保持99%精度的同時(shí)實(shí)現(xiàn)2X線性性能加速,這確實(shí)很酷。
審核編輯:劉清
評(píng)論
查看更多