国产手机在线人成视频,亚洲综合香蕉视频

近年來，各類短視頻、視頻應(yīng)用如雨后春筍般涌現(xiàn)， “AI+ 視頻"的模式也是近期的熱點(diǎn)方向。
奇觀是愛奇藝原創(chuàng)推出的 AI 創(chuàng)新應(yīng)用產(chǎn)品，它融合了多模態(tài)人物識(shí)別、卡通角色識(shí)別、臺(tái)詞實(shí)體抽取、BGM 識(shí)別等 AI 技術(shù)，支持用戶在觀影過程中識(shí)別視頻中的明星人物、卡通角色、背景音樂和臺(tái)詞梗等視頻內(nèi)信息。

為了進(jìn)一步了解愛奇藝在“AI+ 視頻”方向上的探索，在 QCon 上海站前夕，InfoQ 有幸采訪了愛奇藝技術(shù)總監(jiān)朱俊敏，聽他分享愛奇藝奇觀如何融合了多模態(tài)人物識(shí)別、卡通角色識(shí)別、BGM 識(shí)別、臺(tái)詞實(shí)體抽取等多種 AI 技術(shù)來挖掘視頻的周邊內(nèi)容。

愛奇藝在“AI+ 視頻”上的探索

作為視頻平臺(tái)，愛奇藝一直致力于人工智能與視頻、娛樂產(chǎn)業(yè)的結(jié)合，并陸續(xù)推出了針對內(nèi)容創(chuàng)作、用戶推薦等方面的智能產(chǎn)品。奇觀是愛奇藝原創(chuàng)推出的 AI 創(chuàng)新應(yīng)用產(chǎn)品，截至今年 7 月，奇觀功能累計(jì)使用量已超 20 億次。

據(jù)愛奇藝技術(shù)總監(jiān)朱俊敏介紹，作為一款融合了多模態(tài)人物識(shí)別、卡通角色識(shí)別、臺(tái)詞實(shí)體抽取、BGM 識(shí)別等 AI 技術(shù)的產(chǎn)品，奇觀的萌芽需求來源于用戶。當(dāng)時(shí)愛奇藝在分析用戶的彈幕時(shí)發(fā)現(xiàn)，有一定比例的用戶都在詢問“當(dāng)前的演員是誰？”， “背景音樂是啥？” 等跟視頻強(qiáng)相關(guān)的問題。原來用戶獲取該類問題的答案路徑是通過愛奇藝搜索或者百度搜索，但是效果并不是很好，造成這一結(jié)果的原因主要有兩方面：一方面是因?yàn)橛脩粜枰蚱圃瓉沓两降挠^影體驗(yàn)；另一方面在于搜索無法做到海量內(nèi)容實(shí)時(shí)索引，內(nèi)容熱播的時(shí)候一般是無法搜索到用戶想要的結(jié)果的。

為了解決上述問題，愛奇藝于 2019 年首先在 TV 端進(jìn)行了一些嘗試。用戶在觀影時(shí)（當(dāng)時(shí)的名字叫 AI 雷達(dá)），可以通過遙控上鍵識(shí)別視頻中的明星，奇觀產(chǎn)品推出后得到用戶的一致好評，功能滲透率超出團(tuán)隊(duì)的預(yù)期。

后來，研發(fā)團(tuán)隊(duì)又將該功能擴(kuò)展到移動(dòng)端，通過雙指雙擊的簡單手勢觸達(dá)更多的用戶群體，滿足用戶了解內(nèi)容背后知識(shí)的需求。識(shí)別能力也逐漸從原來的明星識(shí)別，擴(kuò)展到背景音樂識(shí)別，臺(tái)詞實(shí)體知識(shí)，卡通角色識(shí)別等。

對紛繁復(fù)雜的明星、背景音樂、卡通角色等元素的精準(zhǔn)識(shí)別并不是件容易事。就拿多模態(tài)人物識(shí)別來說，愛奇藝針對視頻中人物身份識(shí)別的難點(diǎn)進(jìn)行了全方位的優(yōu)化改進(jìn)，利用人臉質(zhì)量模型顯著減低了誤檢、差臉的干擾，綜合利用人臉、人頭、人體、聲紋等多維度特征信息，通過局部加全局聚類的方式，對視頻中的人物進(jìn)行識(shí)別，大幅度提高了識(shí)別精度和召回。同時(shí)，團(tuán)隊(duì)還提供人臉的多維度屬性標(biāo)簽，如年齡、男女、顏值等，并將屬性標(biāo)簽和人臉識(shí)別模型進(jìn)行整合，在保證精度的情況下，顯著降低資源開銷、提高資源利用效率。目前線上模型包含 10+ 個(gè)屬性，相較于工業(yè)界的其他模型更加全面。愛奇藝人臉識(shí)別與屬性模型十五合一，一個(gè)模型可以同時(shí)識(shí)別身份屬性，且各項(xiàng)屬性的識(shí)別精度也比較高。目前線上奇觀服務(wù)的明星識(shí)別準(zhǔn)確率達(dá) 99.5%。

多模態(tài)人物識(shí)別技術(shù)的技術(shù)實(shí)現(xiàn)框圖如下：

朱俊敏坦言，為了達(dá)到 99.5% 的明星識(shí)別準(zhǔn)確率，算法團(tuán)隊(duì)付出了諸多努力。首先，他們分別訓(xùn)練了人臉、人頭、人體和聲紋特征的提取模型。再在人臉的幀級特征上增加了一個(gè) NetVLAD 模塊，將幀級特征轉(zhuǎn)換成視頻維度的特征，這樣可以充分利用幀級人臉信息，提高特征的表達(dá)能力。在特征融合層，為了充分利用多模態(tài)特征，并且降低了噪聲的干擾，團(tuán)隊(duì)還創(chuàng)新性地提出了 Multi-model Attention 模塊來自適應(yīng)地對各個(gè)模態(tài)分配不同的權(quán)重，并基于這些權(quán)重來進(jìn)行多模態(tài)特征的融合，顯著提高了算法的魯棒性，大幅度提高了視頻人物識(shí)別的精度。

下面的表格是研發(fā)團(tuán)隊(duì)從人臉特征開始逐漸增加多模態(tài)特征信息、NetVLAD 和 MMA 模塊的精度收益情況，從表中可以得出，隨著多模態(tài)信息的增加，愛奇藝的人臉識(shí)別精度穩(wěn)定提升，這充分驗(yàn)證了愛奇藝多模態(tài)人物識(shí)別方法的有效性。

這樣一項(xiàng)識(shí)別準(zhǔn)確度高、廣受好評的產(chǎn)品，其實(shí)它的研發(fā)周期并沒有十分漫長。朱俊敏表示，多年來，愛奇藝在 NLP、聲音和視覺的 AI 能力方面有深厚的積累，得益于愛奇藝長期對算法團(tuán)隊(duì)的投入，當(dāng)決定做奇觀產(chǎn)品時(shí)，大部分的算法和基礎(chǔ)設(shè)施已經(jīng)比較成熟。團(tuán)隊(duì)只需從用戶需求出發(fā)，根據(jù)實(shí)際場景對算法和方案進(jìn)行策略調(diào)整，快速實(shí)現(xiàn)產(chǎn)品化。朱俊敏稱：

如果將奇觀比喻為一棟房子，多模態(tài)人物識(shí)別、卡通角色識(shí)別、BGM 識(shí)別等 AI 技術(shù)就是地基。正是因?yàn)閷?AI 長期的投入，有堅(jiān)實(shí)的地基以支撐愛奇藝蓋出更漂亮的房子。

識(shí)別方案如何從云遷移到端

從奇觀萌生開始，研發(fā)團(tuán)隊(duì)就決定采用純云端的識(shí)別方案，之所以會(huì)做出這樣的決定，朱俊敏介紹，主要是考慮到算法的復(fù)雜度，在客戶端既要播放視頻（需要處理解碼和上屏），又要處理 AI 算法，芯片性能可能跟不上，而且手機(jī)的散熱和電池問題也會(huì)比較突出，所以奇觀一開始定方案的時(shí)候是采用純云端的識(shí)別方案。

后來，隨著算法的優(yōu)化和解耦，以人物識(shí)別為例，實(shí)現(xiàn)檢測和識(shí)別的解耦，而且人臉檢測的算法做到足夠輕量級，實(shí)現(xiàn) CPU 可流暢推理。團(tuán)隊(duì)開始尋求實(shí)現(xiàn)云 + 端的模式，把算法解耦，檢測部署在端上，識(shí)別部署在云端。這樣做的好處是：一方面，在端上做檢測，可以過濾很多無人物的情況，減少網(wǎng)絡(luò)傳輸和云端識(shí)別的計(jì)算資源浪費(fèi)；另一方面，端上做檢測，在用戶交互體驗(yàn)可以更優(yōu)，實(shí)現(xiàn)人物區(qū)域可跟蹤。

端上的識(shí)別方案不是云端方案的簡單復(fù)刻，朱俊敏提到，在實(shí)現(xiàn)“云 + 端”的過程中，其難點(diǎn)主要在于兩方面：一方面是芯片的適配，原來云端 GPU 的算法，考慮到客戶端上 GPU 的參差不齊，需要把算法改造成 CPU 推理模式。另一方面，算法模型遷移到客戶端，需要考慮到客戶端本身的限制，不能顯著增加整體 app 安裝包的大小。所以為了適配客戶端，算法本身需要做 CPU 遷移，并通過蒸餾壓縮模型大小，同時(shí)還需要客戶端的工程師配合集成相應(yīng)的算法 runtime，同時(shí)建立模型動(dòng)態(tài)加載的機(jī)制，盡可能地減少客戶端的包的大小。

“云 + 端”模式將更快普及和應(yīng)用

隨著 5G 的逐步發(fā)展，朱俊敏認(rèn)為，“云 + 端”這種模式會(huì)得到更快的普及和應(yīng)用。5G 將作為一種全新的網(wǎng)絡(luò)架構(gòu)，提供 10Gbps 以上的峰值速率、更佳的移動(dòng)性能、毫秒級時(shí)延和超高密度連接。而且客戶端的性能越來越強(qiáng)，前面提到的云 + 端難點(diǎn)將不再是問題。這樣可以給算法部署和應(yīng)用更多的靈活性，業(yè)務(wù)可以根據(jù)自己場景和用戶體驗(yàn)來決定是否將更多的算法部署到客戶端。

而且 5G 網(wǎng)絡(luò)的特性，決定其更加去中心化，需要在網(wǎng)絡(luò)邊緣部署小規(guī)模或者便攜式數(shù)據(jù)中心，進(jìn)行終端請求的本地化處理，也就是人們所說的邊緣計(jì)算，將來的服務(wù)可能會(huì)進(jìn)一步從“云 + 端”過度到“云 + 邊 + 端”的模式上。

除了在“云 + 端”模式上繼續(xù)發(fā)力外，奇觀下一步的重點(diǎn)會(huì)繼續(xù)擴(kuò)展識(shí)別的品類。比如：動(dòng)植物的百科實(shí)體類識(shí)別；電子產(chǎn)品和汽車等標(biāo)準(zhǔn)品的識(shí)別；以及各類穿著垂類商品的識(shí)別。另一方面會(huì)繼續(xù)優(yōu)化現(xiàn)有的識(shí)別體驗(yàn)，提高整體有結(jié)果率，目標(biāo)是實(shí)現(xiàn)應(yīng)有盡有的識(shí)別。

因?yàn)樯硖幵趦?nèi)容行業(yè)，朱俊敏還表示，他會(huì)繼續(xù)關(guān)注 AI 在聲音和視覺上的算法創(chuàng)新，探索交互方面的新場景，未來，希望看到 AI 在內(nèi)容創(chuàng)意和創(chuàng)作方面也能發(fā)揮上賦能提效的作用。

嘉賓介紹：

朱俊敏，愛奇藝技術(shù)總監(jiān)。上海交通大學(xué)碩士，擁有 3 篇美國專利， 8 篇中國專利。2015 年加入愛奇藝，負(fù)責(zé) AI 產(chǎn)品落地和創(chuàng)新應(yīng)用開發(fā)，先后孵化了 HomeAI（智能語音交互平臺(tái)），奇觀（智能識(shí)別平臺(tái)），逗芽（表情生產(chǎn)和分發(fā)平臺(tái)）等創(chuàng)新應(yīng)用。

本文轉(zhuǎn)自公眾號：AI前線，作者李冬梅，點(diǎn)擊閱讀原文

審核編輯：符乾江

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴