本文由前向啟創(chuàng)&CTO張暉介紹了前向啟創(chuàng)在TI TDA芯片上,使用深度學習方法,解決智能駕駛感知問題的一些經(jīng)驗。
深度學習以其強大的特征表示能力,已經(jīng)在許多應用領域中體現(xiàn)出了不俗的性能。而針對智能駕駛應用,深度學習應該如何落地呢?
前向啟創(chuàng)&CTO張暉認為,主要存在有兩大技術挑戰(zhàn):一是主芯片的選型,二則是針對特定芯片的深度學習算法的設計與實現(xiàn)。
前向啟創(chuàng)&CTO張暉,2004年畢業(yè)于華中科技大學,獲雙學士學位;2004-2005年就職于美國安凱微電子,任算法工程師;005-2013年就職于美國ZORAN(CSR/Qualcomm)公司,任算法研發(fā)經(jīng)理;近15年算法芯片化與產(chǎn)品化經(jīng)驗;在ACCV、ICPR等國際會議上發(fā)表學術論文多篇;擁有多項中美發(fā)明專利。
TI智能駕駛ASIC
針對智能駕駛產(chǎn)品主處理器芯片進行選型,應該將汽車智能駕駛產(chǎn)品的主要訴求——高可靠性與低成本,作為主要參考依據(jù)。
從業(yè)界角度來看,智能駕駛主芯片可分兩大流派,一派為ASIC,將特定的算法計算引擎芯片化,代表企業(yè)有如TI、Mobileye、nVidia、Ambarella等;另一派則為FPGA,代表企業(yè)有如Xilinx,Altera等。
而ASIC以其定制性,在成本、功耗、算力、彈性、車規(guī)、功能安全等級以及量產(chǎn)周期上達到了更好的平衡。
TI(Texas Instuments)自2010年起開始提供針對智能駕駛的ASIC芯片TDA(TIDriverAssist)系列,至今已經(jīng)迭代到了第四代。
經(jīng)過多年的演進,TI已經(jīng)將多項針對智能駕駛的算法逐步芯片化、引擎化,其功能安全等級,也達到了ASIL-C級。
TI的ASIC芯片TDA(TIDriverAssist)系列
TI的智能駕駛芯片以其優(yōu)異的性價比,已被全球超過15家Tier1、25家OEM主機廠所采用,成功在近100款車型中量產(chǎn),已累積出貨近4千萬片。目前前向啟創(chuàng)也采用TI ASIC芯片。
深度網(wǎng)絡設計
網(wǎng)絡模型設計是深度學習應用的關鍵,如何設計一個能滿足產(chǎn)品化要求的智能駕駛感知網(wǎng)絡呢?
張暉認為,主要存在著兩大關鍵點,第一需要貼近任務和系統(tǒng)需求,即必須針對智能駕駛系統(tǒng)應用對感知層的需求來進行網(wǎng)絡設計,切不可為了使用深度學習而選擇深度神經(jīng)網(wǎng)絡;
第二需要考慮到芯片嵌入式平臺算力受限系統(tǒng),必須因芯設計,切不可盲目的進行網(wǎng)絡堆砌,導致運算量過大,而造成無法部署到芯片上的問題。
從智能駕駛的任務來看,Level2–Level3系統(tǒng)對感知提出了更高的要求,例如AEB-Cross需要檢測車輛側面狀態(tài),TJA(TrafficJamAssistance)更需要識別出可通行區(qū)域,即FreeSpace,等等。
針對車輛側面檢測,前向啟創(chuàng)重新設計了一套FINet網(wǎng)絡,將傳統(tǒng)的2D-BoundingBox擴展到了3D-BoundingBox,可以對車輛的多個表面進行檢測。
前向啟創(chuàng)針對車輛側面檢測設計的FINet網(wǎng)絡
而針對FreeSpace任務,前向啟創(chuàng)重新設計了的FINet可將此任務分解為,對Flat平坦可通行區(qū)域;Step路沿臺階;以及Obstacle障礙物三大類目標進行分割。
前向啟創(chuàng)針對FreeSpace任務,F(xiàn)INet分解為三大類目標
深度網(wǎng)絡優(yōu)化
常見的深度學習網(wǎng)絡都對主芯片的算力提出了比較高的要求。
常見網(wǎng)絡在對720P@30fps圖像進行推理時,對算力的要求
由上圖可看出,大部分網(wǎng)絡對算力的要求超過了1Tops,而類似TITDA2x這類低功耗芯片目前達不到1Tops算力要求。所以在網(wǎng)絡基礎模型設計好后,為了大幅降低模型的GMACS以適應算力受限的芯片平臺,就需要針對芯片進行網(wǎng)絡的細調(diào)整(FineTuning)及優(yōu)化。
針對TIASIC的芯片架構,前向啟創(chuàng)主要采用了兩大方法進行網(wǎng)絡優(yōu)化,第一卷積稀疏化,第二8-BIT量化技術。
第一,卷積稀疏化方法是通過調(diào)整損失函數(shù),對權重小于動態(tài)閾值的卷積核中的系數(shù)進行歸零處理,再將此稀疏度的張量重新進行調(diào)優(yōu)訓練,對已歸零處理后的系數(shù)不再進行反向傳播更新,最后以達到在保證稀疏度的情況下,訓練精度沒有明顯的下降。
兩種不同稀疏度的目標函數(shù)下,通過調(diào)優(yōu)訓練出來的濾波器的核
第二,動態(tài)8-BIT量化技術,動態(tài)指的是在8-BIT的最大位寬的前提下,盡量高地提高張量的量化精度,即有符號與否,定標值是多少,都隨張量的范圍而進行動態(tài)調(diào)整。
在完成以上兩步優(yōu)化后,前向啟創(chuàng)的FINet網(wǎng)絡在精度下降不到1%的情況下,整體提速了近10倍。
芯片級部署與實現(xiàn)
針對智能駕駛應用,TI的TDA系列芯片采用了多核異構的芯片架構來達到算力與功耗平衡,而其中的子處理器是可配置的,如DSP和EVE等子處理器單元數(shù)可以選擇,以求針對系統(tǒng)要求,達到更合適的性價比。
整體芯片架構如圖所示
多核異構架構的最大優(yōu)點就是能夠?qū)⒉煌愋偷挠嬎慊蚩刂迫蝿债惡嘶?,TITDA系列芯片的設計初衷中,視覺感知的中低層計算任務主要被集中到了DSP和EVE這兩類子處理器上:
TITDA系列芯片的設計
EVE作為TI針對智能駕駛應用而專門設計的向量硬件加速器,在同等功耗下,相比于現(xiàn)有其它智能駕駛芯片,每個EVE核能夠達到8倍的計算性能的提升。
每個EVE核能夠達到8倍的計算性能的提升
針對深度神經(jīng)網(wǎng)絡中最耗時的卷積運算部分,在部署階段,前向啟創(chuàng)主要使用了其中的EVE核來進行計算,利用EVE中的SIMD特性,可以將FINet中的卷積運算部分提速8倍左右。
完成在TI芯片上的部署后,前向啟創(chuàng)FINet網(wǎng)絡整體上能夠達到實時感知的系統(tǒng)性能要求。
在TITDA這類成熟的ASIC上,通過網(wǎng)絡設計、網(wǎng)絡優(yōu)化以及芯片部署這三大步,就能基本實現(xiàn)深度神經(jīng)網(wǎng)絡的初步框架。
在后續(xù)的產(chǎn)品化過程中,還需根據(jù)實際的系統(tǒng)需求,對這三步進行閉環(huán)式的迭代,以求達到系統(tǒng)性能與算力的最佳平衡。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4749瀏覽量
100434 -
智能駕駛
+關注
關注
3文章
2429瀏覽量
48607 -
深度學習
+關注
關注
73文章
5471瀏覽量
120904
原文標題:智能駕駛感知產(chǎn)品化:基于TI ASIC深度神經(jīng)網(wǎng)絡的設計與實現(xiàn) | GGAI經(jīng)驗談
文章出處:【微信號:ilove-ev,微信公眾號:高工智能汽車】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論