久久亚洲精品无码观看不卡,高潮流白浆在线观看,久久久久人妻一区

智能化編碼面臨的算力瓶頸

圖中是一個(gè)視頻轉(zhuǎn)碼推流的一般性流程圖。主播將視頻上傳到上行CDN，然后再由視頻處理中心進(jìn)行各種前處理，包括內(nèi)容理解，審核，編輯，增強(qiáng)和超分，然后進(jìn)行編碼，再推送到下行CDN，供觀眾觀看。

紅色框部分都是和AI相關(guān)的部分。智能化編碼中，AI所需算力已經(jīng)超過(guò)編碼本身。1080p的數(shù)據(jù)超成4K，編碼只需要20幾個(gè)物理核，但是如果要超分，就需要一張GPU卡。一張GPU卡5000塊一個(gè)月，對(duì)比下來(lái)成本優(yōu)勢(shì)一目了然。

根據(jù)相關(guān)視頻企業(yè)公開(kāi)的財(cái)報(bào)，視頻轉(zhuǎn)碼和帶寬的成本占到公司全年收入的10%左右。隨著AIGC的發(fā)展，未來(lái)肯定不局限于10%，因此成本問(wèn)題是我們的痛點(diǎn)之一。

CPU全鏈路智能化編碼的優(yōu)勢(shì)就在于成本節(jié)約，運(yùn)維簡(jiǎn)單。下面舉一個(gè)更具體的例子：

我們都知道轉(zhuǎn)碼方式有很多種，但CPU有兩個(gè)不可替代的優(yōu)勢(shì)：1.高靈活性；2.高復(fù)用性。CPU的升級(jí)幾乎沒(méi)有成本，只需升級(jí)一下軟件部分即可，以云為基礎(chǔ)，申請(qǐng)一個(gè)虛擬主機(jī)，無(wú)論是docker還是container都可以隨用隨放，十分自由靈活，成本很低。

由于超分部分對(duì)算力的要求非常高，需要通過(guò)GPU來(lái)輔助，但同時(shí)也會(huì)引發(fā)一些問(wèn)題：客戶將高要求的AI負(fù)載遷移到GPU上，將編碼和前處理完全分離。這就像在一間屋子里解碼——發(fā)送到另一間屋子進(jìn)行前處理——再轉(zhuǎn)回來(lái)編碼。這不僅讓流程變得冗長(zhǎng)，也對(duì)運(yùn)維造成了極大負(fù)擔(dān)，數(shù)據(jù)的反復(fù)調(diào)度也造成了一定時(shí)延的增加。

CPU全鏈路智能化編碼正是解決了這一痛點(diǎn)。

英特爾第四代至強(qiáng)可擴(kuò)展處理器及AMX賦能智能化編碼

接下來(lái)會(huì)介紹英特爾第四代至強(qiáng)可擴(kuò)展處理器及其內(nèi)置的AI加速器AMX，以及如何利用AMX和英特爾成熟的軟件棧和工具鏈幫助視頻編解碼工作者，打造全鏈路智能化編碼。

據(jù)最新的統(tǒng)計(jì)數(shù)據(jù)，英特爾至強(qiáng)服務(wù)器在中國(guó)市場(chǎng)的數(shù)據(jù)中心的占有率保持在80%以上，可以說(shuō)至強(qiáng)服務(wù)器是數(shù)據(jù)中心的基石。第四代至強(qiáng)一個(gè)重要的革新就是內(nèi)置了數(shù)個(gè)硬件加速器，用于不同應(yīng)用場(chǎng)景的性能加速，例如之前需要外置的PCIE插卡就已經(jīng)內(nèi)置在CPU內(nèi)部。

從左往右第一個(gè)AMX適用于AI；QAT負(fù)責(zé)壓縮、解壓和加解密；DLB負(fù)責(zé)Load Balance，CDN負(fù)責(zé)負(fù)載均衡，自動(dòng)dispatch到閑散的資源上；DSA負(fù)責(zé)內(nèi)存拷貝，不需要CPU參與，異步拷貝不僅速度快，而且不占用CPU內(nèi)存；IAA負(fù)責(zé)存內(nèi)分析，更多和數(shù)據(jù)庫(kù)相關(guān)，IAA可以在不解壓數(shù)據(jù)的情況下分析數(shù)據(jù)。

AMX的全稱是Advanced Matrix eXensions，高級(jí)矩陣擴(kuò)展指令集。它在AVX512的基礎(chǔ)之上做了進(jìn)一步的擴(kuò)展。AMX有兩個(gè)核心思想，一個(gè)是Tiles，一個(gè)是Timo。Tiles是物理上兩地寄存器的疊加，16個(gè)AVX512疊加在一塊。Timo是針對(duì)兩地Tiles的矩陣運(yùn)算。最新的至強(qiáng)每一顆物力核上都有一個(gè)內(nèi)置的AMX，充當(dāng)AI 的加速卡。

和大多數(shù)加速卡一樣，AMX加速的是量化精度。目前第四代至強(qiáng)支持的是BF16和INT8，未來(lái)也會(huì)很快支持FP8和FP16。BF16的表達(dá)范圍和FP32一模一樣，只是精度比FP32小一點(diǎn)。目前絕大多數(shù)的場(chǎng)景，BF16已經(jīng)足夠。對(duì)于訓(xùn)練來(lái)說(shuō)FP16足矣，而推理則只需要INT8。

AMX是如何加速矩陣乘的呢？我們?cè)谧龃蟮木仃嚂r(shí)可以把矩陣拆成16*64，然后一次性計(jì)算。如果算力不夠，可以用oneDNN和MLKDNN處理，而AMX加速矩陣乘計(jì)算，算力是前一代產(chǎn)品的8倍。

這張圖是至強(qiáng)服務(wù)器峰值計(jì)算能力的演進(jìn)過(guò)程。從2019年開(kāi)始的第二代至強(qiáng)可擴(kuò)展處理器支持VNNI，最新發(fā)布的第四代至強(qiáng)可擴(kuò)展處理器支持AMX，可以看到每個(gè)指令周期的計(jì)算能力得到8倍的提升。

硬件性能只是一方面，軟件生態(tài)某種意義上說(shuō)對(duì)開(kāi)發(fā)者來(lái)說(shuō)更為關(guān)鍵。這是一張英特爾 AMX的軟件生態(tài)圖，從下往上，從最底層的操作系統(tǒng)到虛擬化KVM、HyperV，再到核心AI計(jì)算庫(kù)都是英特爾開(kāi)發(fā)的。在框架層面，主流的TF和PyTorch也都包含在內(nèi)，除此之外英特爾還提供了豐富的推理工具。這些成熟的軟件生態(tài)使得我們的開(kāi)發(fā)者可以專注于算法創(chuàng)新，而不用考慮如何部署等細(xì)節(jié)，開(kāi)箱即用。

BF16和INT8的高算力對(duì)將AI從GPU遷到CPU之上確實(shí)有很大的幫助，但如何保證精度呢？英特爾有一個(gè)工具叫做INC，內(nèi)置了很多專門(mén)用于精度的校正算法。作為開(kāi)發(fā)者，只需要做三件事：輸入模型、輸入數(shù)據(jù)集和輸入精度要求即可。INC會(huì)根據(jù)客戶的輸入進(jìn)行tuning，直到有一個(gè)用戶滿意的算法。如果最終達(dá)不到設(shè)定的精度要求，還可以對(duì)某些層進(jìn)行回滾，從而保證設(shè)定的精度可以達(dá)到要求。

回到視頻編解碼領(lǐng)域，我們知道視頻前處理是在FFmpeg解碼之后，對(duì)YUV或者RGB數(shù)據(jù)進(jìn)行處理，處理結(jié)束后再送到編碼器x264或者x265編碼。由于整個(gè)pipeline中，數(shù)據(jù)的處理速度并不一致，因此為了讓整個(gè)過(guò)程的數(shù)據(jù)順滑地流動(dòng)起來(lái)，就需要做一部分的改造，比如解碼后的raw data放入一個(gè)buffer隊(duì)列中，AI推理異步從這個(gè)隊(duì)列中取數(shù)據(jù)做推理，并把推理后的結(jié)果送到編碼器中，這需要一定量針對(duì)FFmpeg的開(kāi)發(fā)工作。

幸運(yùn)的是，英特爾已經(jīng)幫用戶做好了。FFmpeg中有一個(gè)英特爾的OpenVINO后端，用戶直接使用就行。FFmpeg的DNN AI推理后端，目前只支持2個(gè)后端，一個(gè)是Tensorflow，另外一個(gè)就是英特爾的OpenVINO。

總結(jié)：FFmpeg已經(jīng)集成了OpenVINO作為AI 的后端推理引擎且英特爾有專門(mén)的團(tuán)隊(duì)去維護(hù)，大家可以放心使用。

這是一個(gè)和合作伙伴的實(shí)際案例。在視頻增強(qiáng)和目標(biāo)檢測(cè)這兩個(gè)場(chǎng)景下，使用了英特爾第四代至強(qiáng)可擴(kuò)展處理器AMX優(yōu)化的AI推理性能相對(duì)上一代平臺(tái)分別提升了1.86倍和1.95倍。與此同時(shí)，精度損失被控制在可接受的范圍，這也使得英特爾的客戶在CPU上實(shí)現(xiàn)了全鏈路智能化編碼，大幅降低了部署成本和運(yùn)維成本。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19117

瀏覽量
228861
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3575

瀏覽量
134011
DSA

DSA

+關(guān)注

關(guān)注
0

文章
48

瀏覽量
15111
硬件加速器

硬件加速器

+關(guān)注

關(guān)注
0

文章
41

瀏覽量
12750
GPU芯片

GPU芯片

+關(guān)注

關(guān)注
1

文章
303

瀏覽量
5770

原文標(biāo)題：面對(duì)算力瓶頸，如何利用CPU解決全鏈路智能編碼？

文章出處：【微信號(hào)：livevideostack，微信公眾號(hào)：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

100T極致算力+全鏈路開(kāi)發(fā)支持，地瓜機(jī)器人為具身智能造“基座”

專為新一代通用機(jī)器人而生的旭日5智能計(jì)算芯片、極致易用全能開(kāi)發(fā)首選RDK X5機(jī)器人開(kāi)發(fā)者套件、具身智能全場(chǎng)景算力核心RDK S100，以及賦能全

發(fā)表于 09-21 14:15 ?338次閱讀

MT6501 磁編碼 IC：推動(dòng)智能倉(cāng)儲(chǔ)系統(tǒng)與自動(dòng)穿梭車的應(yīng)用

一、引言在當(dāng)今數(shù)字化和智能化的時(shí)代，倉(cāng)儲(chǔ)物流行業(yè)正經(jīng)歷著深刻的變革。智能倉(cāng)儲(chǔ)系統(tǒng)憑借其高效、精準(zhǔn)和自動(dòng)化的特點(diǎn)，成為了提升企業(yè)競(jìng)爭(zhēng)力的關(guān)鍵

發(fā)表于 08-15 16:32 ?253次閱讀

智能化浪潮中的聯(lián)想轉(zhuǎn)型與算力獲取的革新

成果的縮影。六年前，聯(lián)想開(kāi)始布局智能化轉(zhuǎn)型，構(gòu)建起3S全棧優(yōu)勢(shì)，不僅在智能設(shè)備、智能基礎(chǔ)設(shè)施和方案服務(wù)上取得突破，更在推進(jìn)行業(yè)智能化轉(zhuǎn)型中

發(fā)表于 08-08 11:15 ?247次閱讀

前沿情報(bào)局 | 合眾恒躍HZHY-AI500G集成Hailo-8?智能算力模塊，超高算力助力邊緣設(shè)備實(shí)現(xiàn)高性能人工智能！

近年來(lái)，隨著人工智能和大數(shù)據(jù)的迅速崛起，對(duì)高性能計(jì)算的需求大幅增長(zhǎng)。傳統(tǒng)的CPU在處理復(fù)雜計(jì)算任務(wù)時(shí)已顯現(xiàn)出瓶頸，GPU和專用的AI加速器等算力

發(fā)表于 07-27 08:45 ?400次閱讀

如何利用生成式人工智能進(jìn)行精確編碼

隨著技術(shù)的飛速發(fā)展，生成式人工智能（Generative AI）在軟件開(kāi)發(fā)領(lǐng)域的應(yīng)用日益廣泛。生成式AI以其強(qiáng)大的學(xué)習(xí)和創(chuàng)造能力，為精確編碼提供了前所未有的可能性。本文將深入探討如何利用生成式人工

發(fā)表于 07-05 17:51 ?523次閱讀

斬獲大獎(jiǎng)！移遠(yuǎn)通信以高算力智能模組產(chǎn)品，推動(dòng)工業(yè)生產(chǎn)智能化發(fā)展

6月27日，在2024MWC上海期間，由通信世界全媒體主辦的2024信息通信業(yè)“新智推薦”優(yōu)秀企業(yè)/方案獲獎(jiǎng)名單重磅發(fā)布。作為全球領(lǐng)先的物聯(lián)網(wǎng)整體解決方案供應(yīng)商，移遠(yuǎn)通信憑借其豐富的高算力智能

發(fā)表于 06-29 08:29 ?276次閱讀

京東云發(fā)布智能編碼應(yīng)用JoyCoder，助力開(kāi)發(fā)者提升效率

京東云近日推出了一款基于大模型的革命性智能編碼應(yīng)用——JoyCoder。這款應(yīng)用不僅支持智能代碼評(píng)審、批量生成單元測(cè)試等獨(dú)家功能，更具備代碼預(yù)測(cè)續(xù)寫(xiě)、注釋生成代碼、智能代碼生成接口文檔

發(fā)表于 06-11 09:31 ?432次閱讀

AI算力核心板：Core-1688JD4

采用SOPHON算能八核AI處理器BM1688，INT8算力高達(dá)16TOPS，支持16路解碼+10路編碼

發(fā)表于 05-15 08:02 ?1190次閱讀

汽車邁入智能化，需要算力芯片做什么？

計(jì)算場(chǎng)景的算力底座，既面臨著整車廠商對(duì)高性價(jià)比芯片的大量需求，也在電子電氣架構(gòu)向集中式演進(jìn)的過(guò)程中迎來(lái)技術(shù)創(chuàng)新和軟硬件深度結(jié)合的挑戰(zhàn)。市場(chǎng)回歸理性，需要高性價(jià)比芯片汽車芯片企業(yè)作為T(mén)ier2，不僅在汽車產(chǎn)業(yè)

發(fā)表于 04-30 14:57 ?368次閱讀

長(zhǎng)城汽車攜手軟件測(cè)評(píng)中心打造整車全鏈路智能化的深度測(cè)試模式

近日，長(zhǎng)城汽車和中汽研軟件測(cè)評(píng)（天津）有限公司（以下簡(jiǎn)稱“軟件測(cè)評(píng)中心”）宣布，將聯(lián)手打造整車全鏈路智能化的深度測(cè)試模式。

發(fā)表于 03-25 10:55 ?754次閱讀

智能算力規(guī)模超通用算力，大模型對(duì)智能算力提出高要求

的縮寫(xiě)，即每秒所能夠進(jìn)行的浮點(diǎn)運(yùn)算數(shù)目（每秒浮點(diǎn)運(yùn)算量）。 ? 算力可以分為通用算力、智能算

發(fā)表于 02-06 00:08 ?5973次閱讀

算力網(wǎng)絡(luò)面臨三大挑戰(zhàn)

2024年，以AIGC為代表的人工智能技術(shù)將進(jìn)一步激發(fā)算力需求，算力網(wǎng)絡(luò)、智算中心、超

發(fā)表于 01-12 10:39 ?995次閱讀

FM350-2可以帶8路增量式編碼器采集速度嗎?

請(qǐng)問(wèn)FM350-2可以帶8路增量式編碼器采集速度嗎? FM350-2是8 通道智能計(jì)數(shù)器模塊,我想用來(lái)采集8路增量式編碼器,采用速度測(cè)量模式

發(fā)表于 12-20 08:19

全志算力驅(qū)動(dòng)， AI生態(tài)合作共贏

— “我們通過(guò)多元化產(chǎn)品布局，以智能大視頻為基礎(chǔ)構(gòu)建智能應(yīng)用平臺(tái)，通過(guò)AI全面賦能，與多家行業(yè)標(biāo)桿客戶建立戰(zhàn)略合作關(guān)系，并配合客戶在算

發(fā)表于 12-08 18:40 ?897次閱讀

探索AIGC未來(lái)：CPU源碼優(yōu)化、多GPU編程與中國(guó)算力瓶頸與發(fā)展

，大大提高人工智能模型的計(jì)算能力，更好地滿足實(shí)際應(yīng)用的需求。本文將分析AIGC的最新進(jìn)展，深入探討以上話題，以及中國(guó)算力產(chǎn)業(yè)的瓶頸和趨勢(shì)。

發(fā)表于 12-08 11:49 ?1464次閱讀