0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

上海AI lab提出VideoChat:可以與視頻對話啦

深度學習自然語言處理 ? 來源:夕小瑤科技說 ? 2023-05-15 09:31 ? 次閱讀

視頻相比語言、圖像,是更復雜更高級的一類表征世界的模態(tài),而視頻理解也同樣是相比自然語言處理與計算機視覺的常見工作更復雜的一類工作。在當下大模型的洪流中,自然而然的想法就是大規(guī)模語言模型(LLMs)可以基于語言訓練的強大理解推理能力,完成視頻理解的工作嗎?現(xiàn)在答案到來了,上海 AI Lab 提出了以 Chat 為中心的端到端的視頻理解系統(tǒng) VideoChat,集成了視頻基礎(chǔ)模型與 LLMs,并且在如空間、時間推理,事件定位、因果推斷等多個方面都表現(xiàn)十分出色。

01aaedc8-f2b6-11ed-90ce-dac502259ad0.png

區(qū)別于現(xiàn)有多模態(tài)大模型針對視頻輸入的處理方法,即首先文本化視頻內(nèi)容再接入大模型利用大模型自然語言理解的優(yōu)勢,這篇論文從模型角度以可學習的方式集成了視頻和語言的基礎(chǔ)模型,通過構(gòu)建視頻基礎(chǔ)模型與 LLMs 的接口,通過對接口進行訓練與學習從而完成視頻與語言的對齊。這樣一種方式可以有效的避免視覺信息、時空復雜性信息丟失的問題,第一次創(chuàng)立了一個高效、可學習的視頻理解系統(tǒng),可以實現(xiàn)與 VideoChat 對視頻內(nèi)容的有效交流。

論文題目:

VideoChat : Chat-Centric Video Understanding

論文鏈接:

https://arxiv.org/pdf/2305.06355.pdf

代碼地址:

https://github.com/OpenGVLab/Ask-Anything

如果要問大模型有什么樣的能力,那我們可能洋洋灑灑從理解推理到計算判斷都可以列舉許多,但是如果要問在不同場景下如何理解大模型的不同作用,那有可能就是一個頗為玄妙的“藝術(shù)”問題。在 VideoChat 中,論文作者將大模型理解為一個視頻任務(wù)的解碼器,即將視頻有關(guān)的描述或更進一步的嵌入理解為人類可理解的文本。這一過程可以被形式化的理解為:

這里 與 表示一個圖片或視頻的模型,通過將 I(圖像) 與 V(視頻)輸入到模型中,得到視頻或圖像的嵌入表示 E,而一個解碼的過程,就是:

其中 與 分別表示在第 t 輪中 LLM 的回答和在 t 輪前用戶提出的所有問題及答案, 即一個 LLM 模型。傳統(tǒng)上針對多模態(tài)大模型的解決方法,一般是一種將視頻信息文本化的方法,通過將視頻序列化為文本,構(gòu)成 Video Description,再輸入到大模型之中,這種文本流可以很好的適應(yīng)理解類的工作,但是卻對如時間、空間感知這類任務(wù)表現(xiàn)不佳,因為幾乎是必然的,將視頻信息文本化后很容易使得這類基礎(chǔ)信息出現(xiàn)丟失。而因此論文試圖完成一個端到端的一體化的方法,直接提取視頻的嵌入信息,如下圖對比所示:

01df4532-f2b6-11ed-90ce-dac502259ad0.png

通過整合這樣兩種視頻架構(gòu),即整合 VideoChat-Text 與 VideoChat-Embed 得到的 Video Context 輸入到大模型之中,以獲得更全面的視頻信息理解能力,如在上圖的任務(wù)中,用戶提問“他是在唱、跳和 Rap 嗎”,VideoChat 回復“不是,他是在打籃球(和跳舞)”

對于 VideoChat-Text 部分,論文作者詳細的解構(gòu)了一個視頻包含的內(nèi)容,比如動作、語音、對象及帶有位置注釋的對象等等,基于這些分析,VideoChat-Text 模塊綜合利用各種視頻與圖像模型獲得這些內(nèi)容的表征,再使用 T5 整合模型輸出,得到文本化的視頻之中,使用如下圖所示的模板完成對 LLMs 的輸入:

0202b954-f2b6-11ed-90ce-dac502259ad0.png

而對于 VideoChat-Embed 則采用如下架構(gòu)將視頻和大模型與可學習的 Video-Language Token Interface(VLTF)相結(jié)合,基于 BLIP-2 和 StableVicuna 來構(gòu)建 VideoChat-Embed,具體而言,首先通過 GMHRA 輸入視頻,同時引入圖像數(shù)據(jù)進行聯(lián)合訓練并接入一個經(jīng)過預訓練的 Q-Former,完成視頻的 Embedding。

0227a098-f2b6-11ed-90ce-dac502259ad0.png

整個訓練過程可以分為兩個階段,分別是對齊與微調(diào)。在對齊階段,作者引入了 25M 個視覺-文本對針對接口進行微調(diào),整體的輸入提示如下:

023fe07c-f2b6-11ed-90ce-dac502259ad0.png

而在微調(diào)階段,論文自行構(gòu)建并開源了包含 7k 個詳細的視頻描述與圖像描述以及 4k 個視頻對話,3k 個圖像描述,2k 個圖像對話,2k 個圖像推理的指令數(shù)據(jù)集對 VideoChat 完成微調(diào)。

025616f8-f2b6-11ed-90ce-dac502259ad0.png

對比 LLaVa、miniGPT-4 以及 mPLUG-owl,論文對 VideoChat 的多方面能力進行了定性研究。其中,在空間感知與分析中,VideoChat 可以識別日式服裝來推斷出相應(yīng)的音樂,并且確定視頻中的人數(shù)。這即是證明了 VideoChat 識別捕獲視覺元素并給予視覺元素進行分析的能力。

02bb2cf0-f2b6-11ed-90ce-dac502259ad0.png

在時間感知與分析中,VideoChat 可以識別出視頻中做瑜伽的動作,甚至給出了它摔倒可能性的判斷并進行提醒了安全問題。

02d2de36-f2b6-11ed-90ce-dac502259ad0.png

在非正式推斷中,VideoChat 也可以解釋“為什么這個視頻是好笑的”這一問題,并且解釋的也符合我們對視頻好笑的一些抽象判斷,如不協(xié)調(diào),突然性等等。

030494f8-f2b6-11ed-90ce-dac502259ad0.png

而對比最近的基于圖像的多模態(tài)對話系統(tǒng),VideoChat 可以正確的識別場景,而其他系統(tǒng)則錯誤的將對話環(huán)境視為室內(nèi),這充分的體現(xiàn)了 Video-Chat 在空間感知方面非常強大的比較優(yōu)勢。

032e5a04-f2b6-11ed-90ce-dac502259ad0.png

這樣一個開源的視頻理解框架可以為視頻理解這樣一個目前還沒有什么非常成熟的解決方案的問題鋪好道路,顯然,將視頻信息與文本信息對齊,大規(guī)模語音模型的優(yōu)秀能力是可以允許他們理解視頻信息。而如果將大模型看作一個有推理、理解能力的黑盒,視頻理解的問題就變成了如何對視頻進行解碼以及與文本對齊的問題,這可以說是大模型為這一領(lǐng)域帶來的“提問方式”的改變。

但是針對我們期望的成熟的視頻理解器,這篇工作仍然具有局限性,比如 VideoChat 還是難以處理 1 分鐘以上的長視頻,當然這主要是來自于大模型上下文長度的限制,但是在有限的上下文長度中如何更好的壓縮視頻信息也成為一個復雜的問題,當視頻時長變長后,系統(tǒng)的響應(yīng)時間也會對用戶體驗帶來負面影響。另外總的來說,這篇論文使用的數(shù)據(jù)集仍然不算大,因此使得 VideoChat 的推理能力仍然停留在簡單推理的層級上,還無法完成復雜一點的推理工作,總之,盡管 VideoChat 還不是一個盡善盡美的解決方案,但是已然可以為當下視頻理解系統(tǒng)增添重要一筆,讓我們期待基于它的更加成熟的工作吧!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Video
    +關(guān)注

    關(guān)注

    0

    文章

    195

    瀏覽量

    45146
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    285

    瀏覽量

    13320

原文標題:上海AI lab提出VideoChat:可以與視頻對話啦

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI對話魔法 Prompt Engineering 探索指南

    Engineering 就是設(shè)計和優(yōu)化與AI對話的“提示詞”或“指令”,讓AI能準確理解并提供有用的回應(yīng)。 Prompt Engineering 主要包括以下幾個方面: 1.明確目標:希望A
    的頭像 發(fā)表于 11-07 10:11 ?458次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>對話</b>魔法 Prompt Engineering 探索指南

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結(jié)經(jīng)驗,擬
    發(fā)表于 09-09 15:36

    2024慕尼黑上海電子展,我們開展——深圳市啟明云端科技有限公司

    024慕尼黑上海電子展SN我們開展!SN無線物聯(lián)網(wǎng)方案啟明云端深圳市啟明云端科技有限公司,聚焦物聯(lián)網(wǎng)產(chǎn)業(yè),一站式解決聯(lián)網(wǎng)+彩屏+AI的需求。啟明云端是國內(nèi)優(yōu)秀的物聯(lián)網(wǎng)通訊產(chǎn)品和整體解決方案供應(yīng)商
    的頭像 發(fā)表于 07-09 08:04 ?406次閱讀
    2024慕尼黑<b class='flag-5'>上海</b>電子展,我們開展<b class='flag-5'>啦</b>——深圳市啟明云端科技有限公司

    ai智能視頻監(jiān)控系統(tǒng) OpenCV

    ai智能視頻監(jiān)控系統(tǒng)選用數(shù)字圖像處理、計算機視覺和機器視覺技術(shù)性,利用軟件強勁的數(shù)據(jù)處理方法工作能力。ai智能視頻監(jiān)控系統(tǒng)是一種集防盜報警系統(tǒng)作用和
    的頭像 發(fā)表于 07-08 08:46 ?313次閱讀
    <b class='flag-5'>ai</b>智能<b class='flag-5'>視頻</b>監(jiān)控系統(tǒng) OpenCV

    商湯如影AI視頻生成平臺數(shù)字人AI亮相央視舞臺

    周五晚,《2024中國·AI盛典》在央視 CCTV-1 黃金檔隆重播出。 基于商湯如影AI視頻生成平臺打造的央視記者王冰冰的AI數(shù)字人,第一次亮相央視舞臺。 晚會中,王冰冰的數(shù)字分身—
    的頭像 發(fā)表于 06-30 17:29 ?2309次閱讀

    科大訊飛上海旗艦店開業(yè)

    6月1日;科大訊飛上海旗艦店開業(yè);旗艦店位于上海市中心徐家匯商圈TPY中心. 旗艦店不僅是面積大,還有更多的智能硬件和更新的AI技術(shù)。想“零距離”走進
    的頭像 發(fā)表于 06-04 09:46 ?512次閱讀
    科大訊飛<b class='flag-5'>上海</b>旗艦店開業(yè)

    【AIBOX快速入門】2步玩轉(zhuǎn)AI對話

    隨著目前AI的高速發(fā)展,大批量AI硬件應(yīng)運而生,但使用門檻普遍較高。為了解決這類問題,F(xiàn)irefly開源團隊推出了基于Web的AI對話應(yīng)用:FireflyChat,讓
    的頭像 發(fā)表于 05-30 08:02 ?493次閱讀
    【AIBOX快速入門】2步玩轉(zhuǎn)<b class='flag-5'>AI</b><b class='flag-5'>對話</b>

    AI時代下PMIC需求暴增,設(shè)計提出新要求

    ? 電子發(fā)燒友網(wǎng)報道(文/黃山明)隨著AI技術(shù)的快速發(fā)展,AI芯片的功耗和性能也在不斷提升,這對電源系統(tǒng)提出了更高的要求。為了滿足AI芯片對電源系統(tǒng)的特殊需求,電源設(shè)計需要不斷創(chuàng)新。這
    的頭像 發(fā)表于 03-26 00:22 ?4818次閱讀
    <b class='flag-5'>AI</b>時代下PMIC需求暴增,設(shè)計<b class='flag-5'>提出</b>新要求

    百度地圖AI向?qū)в脩羝苾|,日均提供超千萬次對話

    百度地圖AI向?qū)в脩羝苾|,日均提供超千萬次對話
    的頭像 發(fā)表于 03-21 09:44 ?365次閱讀
    百度地圖<b class='flag-5'>AI</b>向?qū)в脩羝苾|,日均提供超千萬次<b class='flag-5'>對話</b>

    育碧發(fā)布全新生成式AI原型:NPC以自發(fā)行為展開對話

    近日,育碧巴黎工作室推出了一款名為 NEON NPC 的全新 AI 原型項目。借助 NVIDIA 的 Audio2Face 及 InWorld 的 LLM 大語言模型技術(shù),NPC可以根據(jù)角色設(shè)定自發(fā)生成對話
    的頭像 發(fā)表于 03-20 10:17 ?392次閱讀

    用于對話AI的高性能MEMS麥克風,助力改進用戶體驗

    對話式人工智能(AI)是一個快速發(fā)展的機器學習(ML)領(lǐng)域,旨在使人機交互更加自然直觀。
    的頭像 發(fā)表于 03-12 09:44 ?772次閱讀
    用于<b class='flag-5'>對話</b>式<b class='flag-5'>AI</b>的高性能MEMS麥克風,助力改進用戶體驗

    Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具

    近日,業(yè)界領(lǐng)先的AI技術(shù)公司Stability AI與中國AI創(chuàng)業(yè)公司Morph AI達成重要合作。雙方宣布共同推出一款革新性的all-in-one(一體式)
    的頭像 發(fā)表于 03-05 10:44 ?812次閱讀

    探索OpenAI Sora視頻AI生成技術(shù)及其應(yīng)用如何使用指南

    的應(yīng)用范圍從娛樂和教育到營銷和內(nèi)容創(chuàng)作等各個領(lǐng)域都有巨大潛力。 Sora視頻AI的介紹 Sora視頻AI是一種先進的人工智能工具,它利用深度學習算法根據(jù)用戶提供的文本描述生成
    的頭像 發(fā)表于 02-20 12:01 ?1379次閱讀

    AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點

    2023年,也是AI視頻元年。過去一年究竟有哪些爆款應(yīng)用誕生,未來視頻生成領(lǐng)域面臨的難題還有哪些?
    的頭像 發(fā)表于 02-20 10:40 ?1100次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>視頻</b>年大爆發(fā)!2023年<b class='flag-5'>AI</b><b class='flag-5'>視頻</b>生成領(lǐng)域的現(xiàn)狀全盤點

    AI大模型可以設(shè)計電路嗎?

    AI大模型
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年01月02日 15:09:29