0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)開發(fā)新AI算法,視頻通話的流量最高壓縮90%以上

工程師鄧生 ? 來源:量子位 ? 作者:凹非寺 ? 2020-12-02 14:29 ? 次閱讀

為了讓網(wǎng)速慢的用戶用上高清通話,英偉達(dá)可謂絞盡腦汁。他們開發(fā)的新AI算法,可以將視頻通話的流量最高壓縮90%以上。

和其他視頻相比,通話的場景比較單一,基本上只有人的頭部在運(yùn)動。因此只要能把頭像數(shù)據(jù)大規(guī)模壓縮,就能大大節(jié)約流量。

英偉達(dá)的新算法face vid2vid正是從這一點(diǎn)出發(fā)。只要一張圖片,就能實(shí)現(xiàn)重建各種頭部姿勢圖片。

H.264視頻所需的帶寬是這種新算法的2~12倍,從前面的演示也能看出,如果讓二者使用相同比特率,那么H.264視頻幾乎不可用。

轉(zhuǎn)動面部不扭曲

英偉達(dá)提供了一個試用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滾角)三個方向上任意旋轉(zhuǎn)。

輸入一張人臉,最多可以在每個方向上最多旋轉(zhuǎn)30度。以下是三個方向上旋轉(zhuǎn)到最大角度生成的圖片。

與相比之前的方法,英偉達(dá)的這種技術(shù)即使在面部轉(zhuǎn)動幅度較大時,人臉也不會扭曲變形。

然而,圖片終究是不動的,要把生成的人臉放在運(yùn)動的視頻中還要多一個步驟。

合成面部視頻

我們把上傳的清晰照片作為源圖像,從中獲取外貌特征。然后把視頻中一幀幀畫面作為重構(gòu)視頻的依據(jù),從中提取出面部表情和頭部姿勢等信息。

而表情和姿勢這兩個數(shù)據(jù)可以通過關(guān)鍵點(diǎn)進(jìn)行編碼,這樣就分離了人物身份信息和運(yùn)動信息。在傳輸視頻時只要有運(yùn)動信息即可,從而節(jié)約了流量。

從源圖像s中,我們得到了兩組數(shù)據(jù):關(guān)鍵點(diǎn)坐標(biāo)x和雅可比矩陣J。這兩組參數(shù)與面部的具體特征無關(guān),只包含人的幾何特征。

其中,雅可比矩陣表示如何通過仿射變換將關(guān)鍵點(diǎn)周圍的局部補(bǔ)丁轉(zhuǎn)換為另一幅圖像中的補(bǔ)丁。如果是恒等雅可比矩陣,則補(bǔ)丁將直接復(fù)制并粘貼到新位置。

下圖展示了計(jì)算前5個關(guān)鍵點(diǎn)的流程。給定源圖像以及模型預(yù)測的規(guī)范關(guān)鍵點(diǎn)。

從運(yùn)動視頻估計(jì)的旋轉(zhuǎn)和平移應(yīng)用于關(guān)鍵點(diǎn),帶動頭部姿勢的變化。然后可以感知表情的變形將關(guān)鍵點(diǎn)調(diào)整為目標(biāo)表情。

接下來開始合成視頻。使用源和運(yùn)動的關(guān)鍵點(diǎn)與其雅可比矩陣來估計(jì)流wk,從生成流組合成掩碼m,將這兩組進(jìn)行線性組合即可產(chǎn)生合成流場w。

接著輸入人臉面部特征f,即可生成輸出圖像y。

這種方法不僅能用于視頻通話,也有其他“新玩法”。

比如覺得人物頭像有點(diǎn)歪,可以手動輸入糾正后的數(shù)據(jù),從而將面部轉(zhuǎn)正。

又或者是,把一個人的面部特征點(diǎn)和雅可比矩陣用于另一個人,實(shí)現(xiàn)面部視頻動作的遷移。

團(tuán)隊(duì)簡介

這篇文章的第一作者是來自英偉達(dá)的高級研究員Ting-Chun Wang。

文章的通訊作者是英偉達(dá)的著名研究員劉洺堉。

如果你長期關(guān)注CV領(lǐng)域,一定對這兩位作者非常熟悉。他們在圖像風(fēng)格遷移、GAN等方面做出了大量的工作。

△ GauGAN

兩人之前已經(jīng)有過多次合作。比如。無監(jiān)督圖像遷移網(wǎng)絡(luò)(NIPS 2017),還有從涂鴉生成照片的GauGAN(CVPR 2019),都是出自這二位之手。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4592

    瀏覽量

    92540
  • 開發(fā)
    +關(guān)注

    關(guān)注

    0

    文章

    364

    瀏覽量

    40788
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29885

    瀏覽量

    268173
  • 視頻通話
    +關(guān)注

    關(guān)注

    0

    文章

    49

    瀏覽量

    11731
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3725

    瀏覽量

    90720
收藏 人收藏

    評論

    相關(guān)推薦

    英偉達(dá)超越蘋果成為市值最高 英偉達(dá)取代英特爾加入道指

    蘋果公司的市值,重新成為全球市值最高的公司。 在AI領(lǐng)域,英偉達(dá)正瘋狂奔跑,我們看到有外媒報(bào)道英偉達(dá)
    的頭像 發(fā)表于 11-05 15:22 ?304次閱讀

    英偉達(dá)與阿聯(lián)酋G42合作開發(fā)天氣預(yù)測AI模型

    英偉達(dá)近期宣布與阿聯(lián)酋的領(lǐng)先AI應(yīng)用開發(fā)企業(yè)G42達(dá)成戰(zhàn)略合作,共同探索天氣預(yù)測技術(shù)的新前沿。雙方將整合各自的技術(shù)優(yōu)勢,依托英偉
    的頭像 發(fā)表于 09-24 15:41 ?230次閱讀

    英偉達(dá)投資日本AI公司Sakana AI

    英偉達(dá)現(xiàn)身日本人工智能研發(fā)初創(chuàng)公司Sakana AI的A輪融資名單中;據(jù)悉;Sakana AI的A輪融資而完成超過1億美元,此次融資由New Enterprise Associates
    的頭像 發(fā)表于 09-05 15:46 ?581次閱讀

    英偉達(dá)Blackwell架構(gòu)揭秘:下一個AI計(jì)算里程碑?# 英偉達(dá)# 英偉達(dá)Blackwell

    英偉達(dá)行業(yè)資訊
    jf_02331860
    發(fā)布于 :2024年08月26日 10:58:09

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

    英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡化AI模型部署過程,為全球的2800萬英偉
    的頭像 發(fā)表于 06-04 09:15 ?628次閱讀

    英偉達(dá)首席執(zhí)行官黃仁勛:AI模型推動英偉達(dá)AI芯片需求

    近來,以ChatGPT為代表的AI聊天機(jī)器人已經(jīng)導(dǎo)致英偉達(dá)AI芯片供應(yīng)緊張。然而,隨著能夠創(chuàng)造視頻并進(jìn)行近似人類交流的新型
    的頭像 發(fā)表于 05-24 10:04 ?448次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    AI 超級計(jì)算和量子計(jì)算服務(wù)方面的最新進(jìn)展。 **10.NVIDIA NIM **軟件棧和 OVX 計(jì)算系統(tǒng) 推出新的軟件和計(jì)算系統(tǒng),加速企業(yè)級 AI 應(yīng)用的開發(fā)和部署。 英偉
    發(fā)表于 05-13 17:16

    英偉達(dá)宣布收購Run:ai

    英偉達(dá)近期宣布收購Run:ai公司,以進(jìn)一步推動后者的產(chǎn)品路線圖并整合其資源至Nvidia DGX Cloud。雖然具體的收購金額和完成時間尚未對外公布,但這一舉措無疑顯示了英偉
    的頭像 發(fā)表于 05-06 10:34 ?425次閱讀

    基于門控線性網(wǎng)絡(luò)(GLN)的高壓縮比無損醫(yī)學(xué)圖像壓縮算法

    實(shí)現(xiàn)基于門控線性網(wǎng)絡(luò)(GLN)的高壓縮比無損醫(yī)學(xué)圖像壓縮算法,以提高醫(yī)學(xué)圖像存儲和分發(fā)系統(tǒng)的效率。與“傳統(tǒng)”的基于上下文的數(shù)據(jù)壓縮算法相比,
    的頭像 發(fā)表于 04-08 10:29 ?598次閱讀
    基于門控線性網(wǎng)絡(luò)(GLN)的<b class='flag-5'>高壓縮</b>比無損醫(yī)學(xué)圖像<b class='flag-5'>壓縮</b><b class='flag-5'>算法</b>

    英偉達(dá)擬將收購AI基礎(chǔ)設(shè)施虛擬化初創(chuàng)企業(yè)Run:ai

    據(jù)外媒最新報(bào)道,英偉達(dá)公司正考慮收購一家名為Run:aiAI基礎(chǔ)設(shè)施虛擬化初創(chuàng)企業(yè),雙方的交易金額最高可能達(dá)到驚人的10億美元。
    的頭像 發(fā)表于 03-22 10:47 ?638次閱讀

    市值最高的半導(dǎo)體公司 英偉達(dá)市值短暫突破兩萬億美元

    ,英偉達(dá)的市值短暫突破2.02萬億美元。是目前市值最高的半導(dǎo)體公司。而且非常多的投資都相信AI熱潮遠(yuǎn)未結(jié)束;英偉
    的頭像 發(fā)表于 02-24 18:13 ?1103次閱讀

    英偉達(dá)市值躍居全球第四 文生視頻大模型Sora帶動

    英偉達(dá)市值躍居全球第四 文生視頻大模型Sora帶動 文生視頻大模型Sora引發(fā)市場關(guān)注;OpenAI的首款文生視頻大模型Sora橫空出世帶動
    的頭像 發(fā)表于 02-19 16:48 ?954次閱讀

    【機(jī)器視覺】歡創(chuàng)播報(bào) | 英偉達(dá)拿下全球90%的AI芯片市場

    預(yù)計(jì)最高可能已經(jīng)達(dá)到了90%,創(chuàng)下新高紀(jì)錄。在目前的人工智能智能加速芯片市場,英偉達(dá)的A100/H100系列AI GPU可謂是市場的首選。
    的頭像 發(fā)表于 02-01 11:29 ?672次閱讀

    英偉達(dá)AI計(jì)算的領(lǐng)導(dǎo)者與市場前景展望

    英偉達(dá)在全球AI芯片市場中的份額一直處于領(lǐng)先地位。有數(shù)據(jù)顯示,英偉達(dá)在中國AI芯片市場的規(guī)模預(yù)計(jì)
    的頭像 發(fā)表于 01-10 10:04 ?822次閱讀