-01-
總體介紹
多媒體技術(shù)的發(fā)展歷程中,從最初的有線無(wú)線通訊容量,到2G、3G、4G,再到現(xiàn)在的5G,變化是顯而易見(jiàn)的。在這個(gè)過(guò)程中,人們會(huì)發(fā)現(xiàn)3G時(shí)代經(jīng)歷時(shí)間短,而4G則持續(xù)時(shí)間長(zhǎng)。這是因?yàn)?G能夠更充分地容納對(duì)于生活體驗(yàn)或生活方式的需求。其中最重要的一點(diǎn)是可以更便捷地接入音視頻數(shù)據(jù)和信息,包括現(xiàn)在的短視頻。正是因?yàn)橛辛烁蟾鼘挼臄?shù)據(jù)通路,能夠?qū)⑽覀兿氤尸F(xiàn)的內(nèi)容傳輸?shù)接脩魝?cè)。
在3G和4G出現(xiàn)之前,包括在G出現(xiàn)之前,Codec技術(shù)一直存在,壓縮能力也并不是到4G之后才有突飛猛進(jìn)的。恰恰是因?yàn)楝F(xiàn)在隨著做管道的能力變寬后,可容納更多的數(shù)據(jù),這是從“不能”到“能”的過(guò)程。 現(xiàn)在有了AI技術(shù),更希望它能夠發(fā)揮出更好的作用,加速?gòu)摹安荒堋钡健澳堋钡淖兓^(guò)程。以前需要1萬(wàn)人干一年的工作,現(xiàn)在有了10萬(wàn)人,只需要半年就可以完成。
這種技術(shù)的沖擊加速了中國(guó)市場(chǎng)的發(fā)展。在5G時(shí)代,有些人可能會(huì)感到疑惑“為什么沒(méi)有感受到5G帶來(lái)的翻天覆地的變化?”。其實(shí),需要的是找到或者說(shuō)轉(zhuǎn)變用戶的需求,從以前的“不能”或者受限到現(xiàn)在的“能”。以前大家認(rèn)為WiFi是很重要的東西,但現(xiàn)在已經(jīng)不再關(guān)心飯店是否有WiFi,因?yàn)?a href="http://ttokpm.com/v/tag/107/" target="_blank">手機(jī)已經(jīng)可以通過(guò)室內(nèi)小基站實(shí)現(xiàn)對(duì)應(yīng)的訴求。
下一步,需要確保用戶看到的內(nèi)容是否符合他們的需求,比如在延遲和畫質(zhì)量方面如何滿足用戶的訴求?除了娛樂(lè)生活中的短視頻,在工作中是否也和視頻息息相關(guān)?早些年,出現(xiàn)了多媒體技術(shù),但卻沒(méi)有相對(duì)應(yīng)的產(chǎn)品,因?yàn)槎嗝襟w技術(shù)已經(jīng)融入到了云或端的用戶體驗(yàn)當(dāng)中,不需要專門的技術(shù)。如果想要將“能”變得“更好”,需要逐步實(shí)現(xiàn)音視頻技術(shù)的智能化。
智能化的方向不僅僅是生活和娛樂(lè),還包括交通、政務(wù)服務(wù)、出行、健康等領(lǐng)域。這些數(shù)據(jù)往往需要通過(guò)視頻作為媒介進(jìn)行傳輸,而不是單純的文字,例如企業(yè)的數(shù)字服務(wù)等。“我們是看到的每一本書其實(shí)都是對(duì)人思想的一個(gè)裁剪”,所以視頻記錄的意義在于記錄人與信息所有者面對(duì)面交流的過(guò)程,因此視頻業(yè)務(wù)不僅僅是娛樂(lè)活動(dòng),還包括很多其他領(lǐng)域,之后也有很多機(jī)會(huì)去拓展這些領(lǐng)域。
這里有兩個(gè)案例。第一個(gè)案例是關(guān)于終端計(jì)算能力,比如手機(jī)和手表等邊緣設(shè)備,它們本身具有很強(qiáng)的計(jì)算能力,這對(duì)于完成業(yè)務(wù)非常有幫助。第二個(gè)案例是關(guān)于ADAS的,它的算力需求呈倍數(shù)增長(zhǎng),這意味著需要擁有更大的計(jì)算平臺(tái)來(lái)支持業(yè)務(wù),這是之前很少考慮到的。因?yàn)樵谥?,更多地關(guān)注于在CPU、GPU或DSP上進(jìn)行計(jì)算。但是需要更深入地了解其計(jì)算邏輯,以便將編碼、解碼和增強(qiáng)等技術(shù)合理地交付到這些IP上。實(shí)際上,這些IP的能力非常強(qiáng)大,如果僅關(guān)注CPU的計(jì)算能力,會(huì)發(fā)現(xiàn)自己受到限制。
在最近的討論中發(fā)現(xiàn),人們更多地在關(guān)注應(yīng)用,那么,應(yīng)用如何去下沉到實(shí)際的計(jì)算平臺(tái)?就需要充分考慮的計(jì)算平臺(tái)有什么,首先運(yùn)行的平臺(tái)是CPU,但從計(jì)算能力的角度來(lái)看,CPU并不是最強(qiáng)的。對(duì)于視頻、圖像或音頻處理,DSP和GPU更有潛力,需要挖掘這些潛力。此外,NPU在峰值計(jì)算能力在各方面都比CPU強(qiáng)得多。
上圖主要內(nèi)容是關(guān)于ChatGPT的發(fā)展。隨著算法不斷推進(jìn),計(jì)算能力和計(jì)算平臺(tái)也在提升。不必?fù)?dān)心計(jì)算平臺(tái)的浪費(fèi),或是不能自主對(duì)自身部署平臺(tái)進(jìn)行升級(jí)。因?yàn)殡S著算法的演進(jìn)帶來(lái)更高性能的同時(shí),會(huì)關(guān)注其參數(shù),參數(shù)可能和神經(jīng)網(wǎng)絡(luò)的突觸是相關(guān)聯(lián)的。實(shí)際上,這也是提升計(jì)算能力和計(jì)算平臺(tái)的注解。
人們不應(yīng)該先框定應(yīng)用平臺(tái),而是應(yīng)該從計(jì)算趨勢(shì)或算法性能出發(fā),考慮如何推動(dòng)計(jì)算平臺(tái)的變化。這樣的思路會(huì)帶來(lái)很多選擇,也會(huì)有合理的理由要求計(jì)算平臺(tái)不斷演進(jìn),因?yàn)樗惴ɑ蛐阅艿奶嵘请S著計(jì)算能力的變化而帶來(lái)的。
關(guān)于計(jì)算平臺(tái)的演進(jìn),前面提到了數(shù)字化的方式。這些數(shù)字化方式對(duì)個(gè)體帶來(lái)了哪些影響呢?這些方式包括與家人、商業(yè)伙伴、同事以及虛擬人進(jìn)行交流和溝通。這樣的連接方式為此帶來(lái)了更多的溝通選擇,不再局限于聲音,而是可以通過(guò)視頻等方式進(jìn)行互動(dòng)。
近些年已經(jīng)看到了技術(shù)的發(fā)展,從4K的普及到慢慢進(jìn)入視野的8K,這對(duì)音視頻編解碼帶來(lái)了很大的挑戰(zhàn)。雖然2K已經(jīng)相對(duì)容易實(shí)現(xiàn),但4K仍然具有一定挑戰(zhàn)性,那么對(duì)于8K又該如何解決呢?這是一個(gè)當(dāng)前面臨的問(wèn)題,雖然可能并不緊迫,但已經(jīng)清晰可見(jiàn)。
面對(duì)這個(gè)問(wèn)題,該如何解決?在虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)設(shè)備中,對(duì)延遲要求很低,數(shù)據(jù)從SOC加載到DDR內(nèi),然后再傳輸?shù)紺PU,然后反復(fù)在多層緩存中傳遞,能否保持低延遲?還是必須采用直接點(diǎn)對(duì)點(diǎn)的邏輯,避免經(jīng)過(guò)任何中間環(huán)節(jié)? 因此,在處理設(shè)計(jì)方案時(shí),需要考慮到這些新的連接方式和連接數(shù)目帶來(lái)的影響。
例如,低延遲顯示、更大的數(shù)據(jù)量和吞吐量需求,這些方案將對(duì)處理平臺(tái)帶來(lái)變化。過(guò)去,人們幾乎不考慮語(yǔ)音的問(wèn)題,但現(xiàn)在語(yǔ)音已成為一個(gè)不可忽視的關(guān)鍵詞。那么,如何合理分配云端和端側(cè)的工作任務(wù)?如何在保證延遲的同時(shí)降低有效負(fù)載?這些都是需要優(yōu)化和考慮的因素。
-02-
AI和Codec的趨勢(shì)
在面對(duì)這些新的變化趨勢(shì)和挑戰(zhàn)的情況下,人工智能(AI)和編解碼器(Codec)也在發(fā)生變化,這種變化包括兩個(gè)方面: 第一方面,隨著大模型的引入,不斷為其提供越來(lái)越多的數(shù)據(jù)。然而,這樣的數(shù)據(jù)本身存在兩個(gè)問(wèn)題。第一點(diǎn),是數(shù)據(jù)的有效性。
在高級(jí)任務(wù)中,數(shù)據(jù)中可能存在臟點(diǎn),影響模型本身的準(zhǔn)確性,即使使用超出量級(jí)的模型,也很難達(dá)到百分之百準(zhǔn)確率,因此需要確保數(shù)據(jù)質(zhì)量,提高模型準(zhǔn)確性。第二點(diǎn),是在一些淺層任務(wù)中,可能存在天然的數(shù)據(jù)集構(gòu)建問(wèn)題。例如,在進(jìn)行SR時(shí),很難獲取點(diǎn)對(duì)點(diǎn)完全真實(shí)的Ground Truth。
因此,數(shù)據(jù)集可能存在缺陷或不足,但正在不斷努力彌補(bǔ)這些缺陷或不足,這樣的彌補(bǔ)其實(shí)是意味著“我們?nèi)绾稳グ盐覀冎翱吹降?,單純地通過(guò)模型數(shù)量的增加去解決問(wèn)題”,變成需要綜合考慮模型、數(shù)據(jù)集、計(jì)算方式和訓(xùn)練方式等因素,而不是僅僅通過(guò)增加模型數(shù)量來(lái)解決問(wèn)題。特別是在使用大模型時(shí),需要考慮如何采用分布式訓(xùn)練來(lái)提高訓(xùn)練效率,這是現(xiàn)在需要解決的問(wèn)題。
第二方面,如何有效提升數(shù)據(jù)計(jì)算的有效性,同樣存在三點(diǎn)問(wèn)題。第一是對(duì)于NPU和AI來(lái)說(shuō),這是一個(gè)致命的問(wèn)題。對(duì)于AI的幻滅,其中一個(gè)重要原因是雖然提升了計(jì)算容量,但是實(shí)際交付給用戶時(shí),用戶發(fā)現(xiàn)容量很大,比如有10TOPS,但實(shí)際上每秒只能用到5TOPS,甚至只有2TOPS,這個(gè)問(wèn)題在第一代NPU中非常普遍,那么如何充分調(diào)整計(jì)算維度呢?
第二是數(shù)據(jù)類型。在進(jìn)行AI算法時(shí),很多計(jì)算類型是通過(guò)漸次的數(shù)據(jù)傳輸或數(shù)據(jù)近似來(lái)完成的,這本來(lái)就是一個(gè)近似過(guò)程,那么是否可以考慮引入一些與AI加速相關(guān)的計(jì)算維度,而不是僅僅做LP32或LP64這樣的計(jì)算維度。這樣的計(jì)算維度可以提高整個(gè)計(jì)算性能,特別是在進(jìn)行數(shù)據(jù)復(fù)用時(shí)。例如,可以將一個(gè)64bit乘法器簡(jiǎn)單地折成兩個(gè)32bit乘法器,這樣的技術(shù)增加可以帶來(lái)可觀的算力膨脹。
第三點(diǎn)問(wèn)題,是關(guān)于數(shù)據(jù)中心的能力激進(jìn)。圖片展示的是2023年ISSCC公布的“未來(lái)十年計(jì)算效率的改革”,可以看到數(shù)據(jù)量在不斷上升。這樣的上升意味著什么呢?如果回顧前面的內(nèi)容會(huì)發(fā)現(xiàn),首先,隨著單位算力成本的下降,計(jì)算中心或者所謂的算力焦慮會(huì)比預(yù)期的來(lái)得更早。再次,隨著計(jì)算中心的算力增加和計(jì)算效率提高,可以獲得更顯著的效益。
過(guò)去,訓(xùn)練大網(wǎng)絡(luò)模型可能最昂貴的不是采購(gòu)GPU卡的問(wèn)題,而是長(zhǎng)時(shí)間的耗電費(fèi)用。如果能使計(jì)算變得更高效,即使節(jié)省1%或10%的能源消耗,對(duì)于進(jìn)行大模型訓(xùn)練或數(shù)據(jù)中心來(lái)說(shuō)都將帶來(lái)質(zhì)的收益。此外,這種效益對(duì)于模型部署后的運(yùn)維非常重要,因?yàn)樗鼛?lái)的是長(zhǎng)期的收益。 開(kāi)發(fā)一個(gè)模型可能是階段性的,訓(xùn)練模型時(shí)更注重精度,而在模型運(yùn)營(yíng)階段時(shí),更注重運(yùn)營(yíng)成本。因此在運(yùn)營(yíng)模型時(shí),可以調(diào)整計(jì)算需求,以降低運(yùn)營(yíng)成本。
這一部分,就是需要考慮拓展業(yè)務(wù)的多個(gè)維度。首先,隨著通道擴(kuò)展和參數(shù)增加,可以為用戶提供更多的數(shù)據(jù)維度,這些用戶不僅可以是人,還可以是機(jī)器或傳感器等級(jí)聯(lián)設(shè)備,把任務(wù)點(diǎn)打開(kāi)。盡管最終的目標(biāo)是為人服務(wù),比如在港口或礦山等地方,面積極大,如果一直依賴人力,那么在布設(shè)視頻流等方面將面臨巨大的挑戰(zhàn)。因此,如何實(shí)現(xiàn)智能控制和交互成為關(guān)鍵,視頻信息中可能有效信息只有1%左右,對(duì)于最終進(jìn)行判斷來(lái)說(shuō)并不都是有用的。這也是為什么VCM可以超過(guò)VVC50%以上收益的核心原因之一。
其次,在進(jìn)行控制算法時(shí),數(shù)據(jù)控制并不需要人的主觀體驗(yàn)。這種主觀體驗(yàn)的需求往往是人的先入為主,但在設(shè)計(jì)系統(tǒng)方案時(shí)可以合理優(yōu)化。 第三,需要考慮特征傳遞的方案。對(duì)于人來(lái)說(shuō),可能對(duì)特征有精度的需求。但是對(duì)于機(jī)器來(lái)說(shuō),在數(shù)據(jù)變化或損失時(shí),例如在后端恢復(fù)或機(jī)器判斷方面,可以接受一定程度的數(shù)據(jù)變化。因此,在進(jìn)行VCM和人類視覺(jué)方面會(huì)有顯著的差異。隨著智能水平的提高,更多的視頻數(shù)據(jù)或類似的數(shù)據(jù)表達(dá)應(yīng)該是為機(jī)器判斷而設(shè)計(jì)的,而人更關(guān)注結(jié)果。
對(duì)于用戶體驗(yàn)的提升,無(wú)論是與機(jī)器相關(guān)的技術(shù)還是人類的感知,都在發(fā)生變化。以下是對(duì)于人類感知方面一些直觀的例子: 首先是8K大屏。在去年的世界杯中,進(jìn)行了一項(xiàng)調(diào)查,發(fā)現(xiàn)那些已經(jīng)體驗(yàn)過(guò)8K的人很難再回到4K的觀賽體驗(yàn),因?yàn)?K帶來(lái)的沉浸感和與之匹配的聲音設(shè)計(jì)給用戶帶來(lái)了不可逆轉(zhuǎn)的體驗(yàn)。因此,應(yīng)該嘗試拓寬用戶的需求,而不是被迫做出調(diào)整,要主動(dòng)去關(guān)注這些變化。 第二個(gè)例子是元宇宙。這是一個(gè)大家都在討論的概念。在元宇宙中,需要考慮的是交互體驗(yàn)是什么,以及如何將這種交互體驗(yàn)傳遞給與之交互的人。
我認(rèn)為這是未來(lái)對(duì)于Codec和AI生成技術(shù)的一個(gè)重要挑戰(zhàn)和關(guān)注點(diǎn)。 第三個(gè)例子是"enjoy work"。作為技術(shù)開(kāi)發(fā)人員,特別是音視頻開(kāi)發(fā)人員,應(yīng)該提供一些產(chǎn)品,使工作變得更輕松。這不僅包括遠(yuǎn)程工作方式,還包括與客戶和同事溝通等方面。特別是在過(guò)去幾年的遠(yuǎn)程工作經(jīng)歷中,是否感覺(jué)到工作方式的流暢性?記得去年在疫情比較嚴(yán)重時(shí),正好趕上業(yè)務(wù)高峰期,發(fā)現(xiàn)在連續(xù)與同事遠(yuǎn)程溝通的時(shí)候,效率實(shí)際上是下降的。這需要自己去調(diào)整和優(yōu)化。現(xiàn)在很多跨國(guó)公司已經(jīng)開(kāi)始簽署永久的“home office”協(xié)議,這種工作方式對(duì)于如何設(shè)計(jì)數(shù)據(jù)通路、用戶界面甚至是專用的硬件設(shè)備都有一定的關(guān)聯(lián)。
-03-
NPU與VPU的形態(tài)
需要考慮用戶的需求和變化,并希望這些變化能夠進(jìn)一步下沉到所提供的更高效的硬件方案中。
第一代NPU具有出色的“并行空間”和“堆疊計(jì)算”的能力。然而,隨著時(shí)間的推移,就需要思考如何將這些計(jì)算能力有效地應(yīng)用于所需的業(yè)務(wù)部署。因此,我們將進(jìn)一步對(duì)計(jì)算進(jìn)行抽象,包括一維、二維和三維計(jì)算的優(yōu)化。這為下一代NPU的架構(gòu)設(shè)計(jì)提供了契機(jī),以更好地滿足業(yè)務(wù)需求,并對(duì)現(xiàn)有的AI算法計(jì)算層進(jìn)行適當(dāng)?shù)闹С趾统橄蟆V铝τ谂c業(yè)務(wù)緊密結(jié)合,并積極探索如何支持和優(yōu)化現(xiàn)有的AI算法計(jì)算層。 在這個(gè)方面,需要思考一個(gè)問(wèn)題,即之前提到的計(jì)算抽象是否合理。對(duì)于每種計(jì)算類型,在不同的情況下,其優(yōu)化效率可能不同。
因此,需要如何充分利用當(dāng)前的資源,來(lái)實(shí)現(xiàn)最佳的優(yōu)化效果呢?舉個(gè)例子,假設(shè)有兩類任務(wù),它們可以映射為三維計(jì)算,可以將“低維”映射為“高維”,但這種映射可能導(dǎo)致計(jì)算資源的浪費(fèi)。然而,為了將所有計(jì)算任務(wù)都推送到專用硬件上,必然需要在一定程度上犧牲一些計(jì)算資源和代價(jià)。
在從單核任務(wù)向多核任務(wù)的轉(zhuǎn)變中,面臨一個(gè)問(wèn)題:如何將高計(jì)算需求的任務(wù)推送到兩個(gè)適合的計(jì)算類型上?然而,這樣的計(jì)算類型可能存在一些不匹配,從而導(dǎo)致計(jì)算資源的浪費(fèi)。在這種情況下,可以考慮將計(jì)算核拆分或?qū)嵗鄠€(gè)case,針對(duì)不同的case部署不同的任務(wù),以充分利用整體的計(jì)算能力。 此外,還存在一些與同步相關(guān)的問(wèn)題。在整個(gè)AI加速過(guò)程中,除了利用率之外,還會(huì)遇到一個(gè)瓶頸,即不是計(jì)算邏輯本身,例如卷積操作,現(xiàn)在已經(jīng)有一些較好的加速方法或近似手段。
相反,瓶頸主要出現(xiàn)在"前處理"和"后處理"階段,因?yàn)楸仨殞⑦@些計(jì)算邏輯遷移到GPU、DSP甚至是CPU上,這可能成為一個(gè)短板。 因此,需要考慮如何對(duì)當(dāng)前的計(jì)算任務(wù)進(jìn)行分割,將“前處理”和“后處理”分別抽象出來(lái),先給到部分“前處理”邏輯,將“后處理”任務(wù)分為幾類,因?yàn)槟壳坝?jì)算邏輯主要偏向于一些Mac陣列,而“前處理”和“后處理”更多涉及數(shù)據(jù)重排和邏輯運(yùn)算。從這個(gè)角度來(lái)看,可以對(duì)其進(jìn)行功能性的劃分,從之前的“計(jì)算邏輯抽象”轉(zhuǎn)變?yōu)楝F(xiàn)在的“功能邏輯抽象”。
另外一個(gè)重要的方面是關(guān)于當(dāng)前VPU架構(gòu)的一些特點(diǎn)??梢詫⑵鋭澐譃轭A(yù)測(cè)單元、濾波單元,以及語(yǔ)義解碼和pixel解碼等。在VSE中,進(jìn)行語(yǔ)法元素的反向解析,而在后續(xù)階段,對(duì)pixel進(jìn)行處理,形成了VPE和VSE的結(jié)構(gòu)。同時(shí),還將一些后處理集成在其中。
例如,當(dāng)設(shè)計(jì)VPU時(shí),如果只能按照原始分辨率進(jìn)行輸出,這與實(shí)際用戶需求很可能不符。一個(gè)最直接的例子就是家里的電視,近年來(lái),國(guó)內(nèi)普遍采用的分辨率可能平均已達(dá)到了4K,然而海外用戶的情況卻千差萬(wàn)別,許多用戶甚至仍然使用低分辨率的顯示設(shè)備。在這種情況下,如果VPU可以在這一階段支持不同顯示終端或顯示類型的需求,那么數(shù)據(jù)將會(huì)獲得很大的優(yōu)勢(shì)。如果沒(méi)有這樣一個(gè)單元,那么在數(shù)據(jù)輸出后,需要將其存儲(chǔ)到DDR中,然后在經(jīng)過(guò)額外的處理單元,無(wú)論是DSP、GPU還是NPU。
在經(jīng)過(guò)這一段之后,數(shù)據(jù)可能需要再次寫入DDR,然后發(fā)送到輸出接口上,整個(gè)延遲會(huì)比目前使用的方案要大得多。 另外一個(gè)需要考慮的因素是功耗的矩陣問(wèn)題。對(duì)于用戶來(lái)說(shuō),頻繁的讀寫操作會(huì)導(dǎo)致功耗的不斷增加,因?yàn)樽x寫本身對(duì)功耗是不友好的。特別是在邊緣側(cè)的部署中,很多時(shí)候問(wèn)題并不在于計(jì)算能力不足或算法映射能力不足,而是在于雖然可以將其部署并運(yùn)行,但它只能運(yùn)行5分鐘。這是因?yàn)樵?分鐘后,設(shè)備已經(jīng)過(guò)熱,我們不可能給一個(gè)成本為10美元的設(shè)備再加上5美元的散熱器,這不符合產(chǎn)品設(shè)計(jì)的原則。
因此,對(duì)于邊緣側(cè)來(lái)說(shuō),在設(shè)計(jì)初期如何考慮到產(chǎn)品各個(gè)方面的應(yīng)用需求非常重要。例如,在最初的設(shè)計(jì)階段,可以采用流式處理的方式來(lái)降低數(shù)據(jù)交互的需求。同時(shí),還可以使用VME進(jìn)行內(nèi)存控制和重寫,以優(yōu)化內(nèi)存的讀寫操作。
從邏輯上來(lái)看,需要將硬件架構(gòu)與現(xiàn)有的軟件編解碼架構(gòu)相結(jié)合,可以看到它們之間有很多對(duì)應(yīng)的關(guān)系。從這個(gè)維度來(lái)看,這種方案在支持4K方面,大約在2017年左右已經(jīng)存在了成熟的解決方案。圖片展示的是2019年,一位同事撰寫的高效視頻處理報(bào)告。可以觀察到,在VPU上出現(xiàn)了很多新的case,這些新case在計(jì)算方面有兩個(gè)主要方面。
在第一個(gè)主要方面,追求更精細(xì)化的管理。例如,將之前對(duì)于Y通道用的東西,現(xiàn)在作用在UV通道,以前認(rèn)為UV通道的影響不太重要,可以將其降低一個(gè)級(jí)別。這樣做可以減小整個(gè)計(jì)算邏輯的規(guī)模,使芯片對(duì)于邊緣側(cè)或用戶來(lái)說(shuō)更加友好。然而,后來(lái)發(fā)現(xiàn),如果想提高質(zhì)量,這一部分是必不可少的。
因此,第一個(gè)方面是更全面、更充分地利用整個(gè)計(jì)算邏輯。 第二個(gè)重要的方面,是對(duì)參數(shù)進(jìn)行更精細(xì)的估計(jì)。我們也在嘗試使用AI的方法來(lái)優(yōu)化這些參數(shù)的估計(jì)過(guò)程。如果有足夠的數(shù)據(jù)量和適當(dāng)?shù)臄?shù)據(jù)類型,AI方法在這方面的效果是相當(dāng)不錯(cuò)的。
這樣的精細(xì)參數(shù)估計(jì)可以提高視頻編碼的質(zhì)量和效率。 但存在一個(gè)問(wèn)題,在剛才提到的兩個(gè)趨勢(shì)中,第一個(gè)是對(duì)于運(yùn)動(dòng)參數(shù)的精細(xì)估計(jì),第二個(gè)是對(duì)以前認(rèn)為較邊緣的內(nèi)容質(zhì)量的提升。此外,如何支持并行計(jì)算也是一個(gè)重要的問(wèn)題。在并行計(jì)算中,可以考慮在初代架構(gòu)中使用的關(guān)鍵邏輯,如VSE、VPE和VME,用于語(yǔ)法元素分析和像素級(jí)恢復(fù)。
然而,隨著輸入數(shù)據(jù)的急劇增大,尤其是在戶外大屏幕和未來(lái)家用終端的核心體驗(yàn)中,這些數(shù)據(jù)成為極其重要的數(shù)據(jù)來(lái)源,與解碼4K甚至2K相比,這些數(shù)據(jù)來(lái)源的數(shù)據(jù)通路要大得多,可能是2倍甚至8倍以上。因此,在軟件和硬件層面上,僅僅進(jìn)行橫向的加強(qiáng)或規(guī)模的擴(kuò)大已經(jīng)不夠了。
下一個(gè)維度就是需要支持并行解碼,但并行解碼對(duì)編碼過(guò)程也提出了一些要求。當(dāng)進(jìn)行第三行或第四行的解碼時(shí),如果該行的語(yǔ)法元素與之前的行有很強(qiáng)的關(guān)聯(lián)性,那么解碼過(guò)程可能會(huì)受到限制,即使前面的解碼已經(jīng)進(jìn)行到較前面的位置,但如果前一級(jí)的解碼受阻,那么問(wèn)題就會(huì)產(chǎn)生。
在之前的討論中,NPU從最初只能滿足基本功能,到之后通過(guò)NPU更好地支持相應(yīng)的任務(wù)。未來(lái)希望NPU能夠具備適應(yīng)各種任務(wù)的充分能力。包括VPU,它與之前的解碼流程相對(duì)應(yīng),但現(xiàn)在開(kāi)始讓解碼反過(guò)來(lái)約束編碼過(guò)程,這是目前所看到的變革。那么對(duì)于這些變化,如何進(jìn)行融合或分解呢?
在之前做過(guò)的一次分享中,我將整個(gè)NPU部分放在了里面,將其視為整個(gè)流程的一部分。然而,后來(lái)仔細(xì)思考并與其他人討論后,發(fā)現(xiàn)這種邏輯可能會(huì)給人一種誤解,即認(rèn)為NPU只是處理pipe的一個(gè)環(huán)節(jié)。實(shí)際上,一個(gè)更合理的邏輯是,NPU應(yīng)該支持整個(gè)處理的全流程。這包括之前提到的使用NPU來(lái)增強(qiáng)對(duì)Codec參數(shù)估計(jì)的能力。此外,我認(rèn)為在下一代的VCM中,如果要實(shí)現(xiàn)一些硬件邏輯,從當(dāng)前的結(jié)構(gòu)來(lái)看,有可能將其置于NPU框架的下方,并進(jìn)行相應(yīng)的方案設(shè)計(jì)。
-04-
NPU與VPU的融合探討
為了提供用戶更好的視覺(jué)和聽(tīng)覺(jué)體驗(yàn),NPU應(yīng)該與如ISP和DPC這樣的邏輯進(jìn)行關(guān)聯(lián)。這種關(guān)聯(lián)可以帶來(lái)哪些收益呢?以手機(jī)為例進(jìn)行說(shuō)明,在傳統(tǒng)的pipeline處理中,當(dāng)直接使用手機(jī)攝像頭獲取數(shù)據(jù)時(shí),它通常能處理的亮度大約在1Lux以上。然而,當(dāng)結(jié)合了NPU的能力后,會(huì)發(fā)現(xiàn)可以相對(duì)容易地實(shí)現(xiàn)0.1Lux以上的處理?,F(xiàn)在,很多夜景拍攝都是通過(guò)這種邏輯實(shí)現(xiàn)的,這也解釋了為什么高端旗艦手機(jī)在拍照方面表現(xiàn)更好,而入門級(jí)手機(jī)的拍照效果較差。這其中存在一些邏輯,即有意地拉開(kāi)了差距。但在另一方面,這也是因?yàn)樵谫Y源方面存在差異,受限于可用資源,很難提供一致性的解決方案。
此外,之前認(rèn)為的IaaS/AaaS,現(xiàn)在,在辦公維度上,可以拿PC作為一個(gè)基本的服務(wù)單元。從這個(gè)邏輯來(lái)看,未來(lái)的辦公可以變得更加便捷。因?yàn)閷€(gè)人PC打造成可移動(dòng)的資源對(duì)于云辦公、家庭溝通、教育和遠(yuǎn)程醫(yī)療等領(lǐng)域具有重要意義。這樣做的好處在于,能夠通過(guò)在不同環(huán)境中接入特定的溝通環(huán)境來(lái)滿足各種需求,增加了在不同環(huán)境下接入特定溝通環(huán)境的便利性。此外,由于更多的數(shù)據(jù)存儲(chǔ)在云端且數(shù)據(jù)源位于云端,當(dāng)在邊緣設(shè)備上進(jìn)行接入時(shí),它提供了更大的靈活性。 這個(gè)變化可能會(huì)對(duì)編碼方式產(chǎn)生影響。
以前認(rèn)為在辦公場(chǎng)景下進(jìn)行編碼時(shí),使用420或者422已經(jīng)足夠。然而實(shí)際上,當(dāng)處理這類流時(shí),會(huì)發(fā)現(xiàn)與傳統(tǒng)思維不同,如果按照傳統(tǒng)思維進(jìn)行編碼,視頻數(shù)據(jù)的質(zhì)量會(huì)變得非常差。這種情況很好模擬,只要拿現(xiàn)在的生成場(chǎng)景做一些數(shù)據(jù)生成,然后再反過(guò)來(lái)按照現(xiàn)在的編碼方式,去做編碼,再解出來(lái)會(huì)發(fā)現(xiàn)效果會(huì)變得很差。
對(duì)于Codec來(lái)說(shuō),這是一個(gè)需要思考的問(wèn)題。如果僅使用4x4進(jìn)行編碼,會(huì)發(fā)現(xiàn)碼流的增加非常快。但是,如果將其與NPU結(jié)合起來(lái),使用NPU來(lái)進(jìn)行恢復(fù)和增強(qiáng),實(shí)際上復(fù)雜度是非??煽氐摹A硗庠谌ソ鉀Q前面提到的問(wèn)題時(shí),特別是在帶寬有限的情況下,由于當(dāng)前的網(wǎng)絡(luò)接入環(huán)境千差萬(wàn)別,需要注意。之前為什么在3G時(shí)代一定要向國(guó)外學(xué)習(xí)?因?yàn)閲?guó)外的部署進(jìn)度更快,他們能夠看到更多的場(chǎng)景。但是在4G和5G時(shí)代,反倒是其他國(guó)家開(kāi)始向我們學(xué)習(xí),為什么?中國(guó)接入5G的場(chǎng)景數(shù)量在全球遙遙領(lǐng)先。
在如此復(fù)雜的情況下,我們面臨著許多問(wèn)題。舉個(gè)例子,我們應(yīng)該傳輸高分辨率低質(zhì)量的數(shù)據(jù),還是低分辨率高質(zhì)量的數(shù)據(jù)?此外,還可以利用邊緣計(jì)算和NPU進(jìn)行超分辨率處理,或者結(jié)合低分辨率低質(zhì)量的數(shù)據(jù)和all in one增強(qiáng)邏輯。這是一個(gè)非常值得思考的方向。 在第二個(gè)方面,我們也進(jìn)行了一些嘗試,主要是基于在端側(cè)進(jìn)行NPU增強(qiáng)的實(shí)踐,而它所帶來(lái)的收益也是顯而易見(jiàn)的。對(duì)于用戶體驗(yàn)和帶寬控制而言,與其將所有精力都集中在編解碼上會(huì)更好。以前可能認(rèn)為系統(tǒng)就像一個(gè)木桶,性能取決于最薄弱的一環(huán),即短板。但實(shí)際上,可以反過(guò)來(lái)思考,這個(gè)木桶效應(yīng)意味著什么?它意味著不僅有短板,還一定有長(zhǎng)板,即整個(gè)系統(tǒng)中一定存在幾個(gè)相對(duì)優(yōu)勢(shì)的部分。為什么不利用這些長(zhǎng)板來(lái)解決漏水問(wèn)題呢?
這些是一些現(xiàn)有的VPU的替代方案,其中包括使用之前提到的VCM以及基于AI的方案。這些AI方案可以應(yīng)用于NPU,并引發(fā)一些新的思考。可以嘗試調(diào)研當(dāng)前存在的幾種AI編解碼方案,它們可以分為不同類型。 第一種類型是端到端的方案,不再使用傳統(tǒng)的量化、殘差估計(jì)和MV估計(jì)等技術(shù)。相反,整個(gè)處理過(guò)程由端到端完成。 第二種類型是替代特定部分的方案,例如前面提到的MV估計(jì)。從邏輯上來(lái)說(shuō),如果可以替代掉,但整個(gè)輸出的碼流,仍按照H.264或H.265等編碼標(biāo)準(zhǔn)進(jìn)行編碼,甚至可以使用AV1去編碼方案。之后在云端解碼時(shí),直接使用正常的解碼器進(jìn)行硬解或軟解。這是兩種不同的解決思路,選擇哪種思路實(shí)際上與具體的場(chǎng)景有關(guān)。如果場(chǎng)景相對(duì)封閉,例如只需端到端的方案,那么可以完全摒棄整個(gè)編碼器,并全部使用自己的解碼器方案。然而,如果要考慮更多的用戶場(chǎng)景,特別是在國(guó)內(nèi)外網(wǎng)絡(luò)環(huán)境不一致的情況下,后一種思路可能更為合適。
-05-
總結(jié)
對(duì)于音視頻領(lǐng)域,需要關(guān)注的是如何將自身的方案與計(jì)算能力結(jié)合起來(lái),而不僅僅專注于云端,應(yīng)該適當(dāng)?shù)仃P(guān)注端側(cè),因?yàn)樵诙藗?cè)需要解決一些限制計(jì)算能力、功耗和計(jì)算平臺(tái)的問(wèn)題,以便有效交付解決方案,這是一個(gè)非常重要的考慮因素。 另外,還需要考慮如何處理更多連接的問(wèn)題。大會(huì)的其他演講也討論了解決萬(wàn)人接入的問(wèn)題,這是一個(gè)非常有意義的探討。此外,更好的性能反過(guò)來(lái)會(huì)給用戶提供更多機(jī)會(huì)和需求。 一個(gè)有趣的觀點(diǎn)是,我一直認(rèn)為所謂的云辦公實(shí)際上更多地是來(lái)源于對(duì)娛樂(lè)需求的遷移。因?yàn)閭€(gè)人可如果以很好地接入同一個(gè)視頻流,所以為什么還需要一定在現(xiàn)場(chǎng)進(jìn)行辦公呢?這是一個(gè)思考的角度。
最后,和大家分享一些我認(rèn)為的未來(lái)趨勢(shì)。這些趨勢(shì)涵蓋了如何將計(jì)算能力與現(xiàn)有標(biāo)準(zhǔn)融合,因?yàn)楝F(xiàn)有標(biāo)準(zhǔn)主要定義了不同的profile。需要思考如何將這些profile與計(jì)算能力相匹配。另外,包括之前提到了幾種策略。 首先,直接使用AI網(wǎng)絡(luò)生成更多的數(shù)據(jù)。這種計(jì)算加速方式實(shí)質(zhì)上是對(duì)之前提到的流式編解碼架構(gòu)或混合編碼策略的一種完全顛覆。 第二種策略,涉及與AI Codec相關(guān)的一些策略。 第三種策略,是如何考慮相關(guān)成本,包括性能代價(jià)和有效利用率的問(wèn)題。 第四個(gè)趨勢(shì),是目前所見(jiàn)的一些硬件架構(gòu)的演進(jìn)。在支持8K的情況下,單路方案已經(jīng)不太合理,因?yàn)樵谶M(jìn)一步降低成本和功耗時(shí),會(huì)遇到許多新的挑戰(zhàn)。 最后一點(diǎn),是關(guān)于軟件方面的問(wèn)題,特別是在NPU的工具鏈中。需要思考如何映射不同的算子到現(xiàn)有的NPU計(jì)算單元上,同時(shí)又會(huì)反過(guò)來(lái)形成一個(gè)循環(huán)問(wèn)題,即如何將相應(yīng)的功能整合到系統(tǒng)中,這是一個(gè)很好的嘗試思路。
審核編輯:劉清
-
Codec
+關(guān)注
關(guān)注
1文章
67瀏覽量
40362 -
ADAS技術(shù)
+關(guān)注
關(guān)注
0文章
21瀏覽量
3243 -
NPU
+關(guān)注
關(guān)注
2文章
256瀏覽量
18513 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1250瀏覽量
24202 -
VPU芯片
+關(guān)注
關(guān)注
0文章
7瀏覽量
1407
原文標(biāo)題:基于AI和NPU的Codec變革——VPU與NPU的協(xié)同創(chuàng)新
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論