0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于統(tǒng)計(jì)頻率的 baseline 方法

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-22 10:35 ? 次閱讀

1引言

場景圖是一種結(jié)構(gòu)表示,它將圖片中的對(duì)象表示為節(jié)點(diǎn),并將它們的關(guān)系表示為邊。最近,場景圖已成功應(yīng)用于不同的視覺任務(wù),例如圖像檢索[3]、目標(biāo)檢測、語義分割、圖像合成[4]和高級(jí)視覺-語言任務(wù)(如圖像字幕[1]或視覺問答[2]等)。它是一種具有豐富信息量的整體場景理解方法,可以連接視覺和自然語言領(lǐng)域之間巨大差距的橋梁。

雖然從單個(gè)圖像生成場景圖(靜態(tài)場景圖生成)取得了很大進(jìn)展,但從視頻生成場景圖(動(dòng)態(tài)場景圖生成)的任務(wù)是新的且更具挑戰(zhàn)性。最流行的靜態(tài)場景圖生成方法是建立在對(duì)象檢測器之上的,然后推斷它們的關(guān)系類型以及它們的對(duì)象類。然而,物體在視頻序列的每一幀中不一定是一致的,任意兩個(gè)物體之間的關(guān)系可能會(huì)因?yàn)樗鼈兊倪\(yùn)動(dòng)而變化,具有動(dòng)態(tài)的特點(diǎn)。在這種情況下,時(shí)間依賴性發(fā)揮了作用,因此,靜態(tài)場景圖生成方法不能直接應(yīng)用于動(dòng)態(tài)場景圖生成,這在[5]中進(jìn)行了充分討論。

65cbd49c-f7da-11ed-90ce-dac502259ad0.png

圖1. 場景圖分類

2 靜態(tài)場景圖

2.1 任務(wù)定義

靜態(tài)場景圖生成任務(wù)(Staticscene graph generation)目標(biāo)是讓計(jì)算機(jī)自動(dòng)生成一種語義化的圖結(jié)構(gòu)(稱為 scenegraph,場景圖),作為圖像的表示。圖像中的目標(biāo)對(duì)應(yīng) graph node,目標(biāo)間的關(guān)系對(duì)應(yīng) graph edge(目標(biāo)的各種屬性,如顏色,有時(shí)會(huì)在圖中表示)。 這種結(jié)構(gòu)化表示方法相對(duì)于向量表示更加直觀,可以看作是小型知識(shí)圖譜,因此可以廣泛應(yīng)用于知識(shí)管理、推理、檢索、推薦等。此外,該表示方法是模態(tài)無關(guān)的,自然語言、視頻、語音等數(shù)據(jù)同樣可以表示成類似結(jié)構(gòu),因此對(duì)于融合多模態(tài)信息很有潛力。

65ec1644-f7da-11ed-90ce-dac502259ad0.png

圖2.靜態(tài)場景圖生成任務(wù)圖例

2.2 數(shù)據(jù)集

Visual Genome(VG)[6]于2016年提出,是這個(gè)領(lǐng)域最常用的數(shù)據(jù)集,包含對(duì)超過 10W 張圖片的目標(biāo)、屬性、關(guān)系、自然語言描述、視覺問答等的標(biāo)注。與此任務(wù)相關(guān)的數(shù)據(jù)總結(jié)如下:

物體:表示為場景圖中節(jié)點(diǎn),使用bounding box標(biāo)注物體的坐標(biāo)信息,包含對(duì)應(yīng)的類別信息。VG包含約17000種目標(biāo)。

關(guān)系:表示為場景圖中邊,包含動(dòng)作關(guān)系,空間關(guān)系,從屬關(guān)系和動(dòng)詞等。VG中包含約13000種關(guān)系。

屬性:可以是顏色,狀態(tài)等。Visual Genome 包含約 155000 種屬性。

2.3 方法分類

方法分類如下:

P(O,B,R | I) = P(O,B | I) * P(R| I,O,B),即先目標(biāo)檢測,再進(jìn)行關(guān)系預(yù)測(有一個(gè)專門研究該子任務(wù)的領(lǐng)域,稱為研究視覺關(guān)系識(shí)別,visual relationship detection)。最簡單的方法是下文中基于統(tǒng)計(jì)頻率的 baseline 方法,另外做視覺關(guān)系檢測任務(wù)的大多數(shù)工作都可以應(yīng)用到這里。

P(O,B,R | I) = P(B | I) * P(R,O| I,O,B),即先定位目標(biāo),然后將一張圖片中所有的目標(biāo)和關(guān)系看作一個(gè)未標(biāo)記的圖結(jié)構(gòu),再分別對(duì)節(jié)點(diǎn)和邊進(jìn)行類別預(yù)測。這種做法考慮到了一張圖片中的各元素互為上下文,為彼此分類提供輔助信息。事實(shí)上,自此類方法提出之后[7],才正式有了 scenegraph generation 這個(gè)新任務(wù)名稱(之前基本都稱為visual relationship detection)。

2.4 評(píng)價(jià)指標(biāo)

最常用的評(píng)價(jià)指標(biāo)是 recall@topk, 即主謂賓關(guān)系三元組 在選取前 k 個(gè)最可信預(yù)測結(jié)果的召回率。三元組的confidence score一般采用 score(subject) * score(object) * score(predicate) 。如果在排序時(shí),一對(duì)目標(biāo)只選取最可信的那組關(guān)系來排序,則稱之為 constrained scene graph generation;如果一對(duì)目標(biāo)所有的關(guān)系三元組都參與排序,即一組目標(biāo)可能預(yù)測多個(gè)關(guān)系,則稱之為 unconstrained scene graph generation。這兩種方式分別對(duì)應(yīng)兩種 recall 指標(biāo)。

3 動(dòng)態(tài)場景圖

3.1 任務(wù)定義

動(dòng)態(tài)場景圖與靜態(tài)場景圖不同,動(dòng)態(tài)場景圖以視頻作為輸入,輸出分為兩種情況:輸出每一幀對(duì)應(yīng)的場景圖(幀級(jí)別場景圖);輸出每一段視頻對(duì)應(yīng)的場景圖(片段級(jí)別場景圖)。這種結(jié)構(gòu)化的表示可以表征實(shí)體之間隨時(shí)間變化的動(dòng)作及狀態(tài)。

663a7640-f7da-11ed-90ce-dac502259ad0.png

圖3.靜態(tài)/動(dòng)態(tài)場景圖區(qū)別示例

3.2 幀級(jí)別

3.2.1數(shù)據(jù)集

Action Genome該數(shù)據(jù)集是Visual Genome表示的帶時(shí)間版本,然而,Visual Genome的目的是詳盡的捕捉圖中每一個(gè)區(qū)域的物體和關(guān)系,而Action Genome的目標(biāo)是將動(dòng)作分解,專注于對(duì)那些動(dòng)作發(fā)生的視頻片段進(jìn)行標(biāo)注,并且只標(biāo)注動(dòng)作涉及的對(duì)象。Action Genome基于Charades進(jìn)行標(biāo)注,該數(shù)據(jù)集包含157類別動(dòng)作,144個(gè)是人類-物體活動(dòng)。在Charades中,有很多動(dòng)作可以同時(shí)發(fā)生。共有234253個(gè)frame,476229個(gè)bounding box,35個(gè)對(duì)象類別,1715568個(gè)關(guān)系,25個(gè)關(guān)系類別。

3.2.2 方法

Spatial-temporalTransformer(STTran)[8]:一種由兩個(gè)核心模塊組成的神經(jīng)網(wǎng)絡(luò):一個(gè)空間編碼器,它采用輸入幀來提取空間上下文并推斷幀內(nèi)的視覺關(guān)系,以及一個(gè)時(shí)間解碼器它將空間編碼器的輸出作為輸入,以捕獲幀之間的時(shí)間依賴性并推斷動(dòng)態(tài)關(guān)系。此外,STTran 可以靈活地將不同長度的視頻作為輸入而無需剪輯,這對(duì)于長視頻尤為重要。

665745d6-f7da-11ed-90ce-dac502259ad0.png

圖4.STTrans模型結(jié)構(gòu)

3.2.3 主實(shí)驗(yàn)結(jié)果

668744de-f7da-11ed-90ce-dac502259ad0.png

圖5.STTrans模型實(shí)驗(yàn)結(jié)果

3.2.4 樣例測試

66a8af0c-f7da-11ed-90ce-dac502259ad0.png

圖6. 樣例

3.3 片段級(jí)別

3.3.1 數(shù)據(jù)集

VidVRD提出了一個(gè)新穎的VidVRD任務(wù),旨在探索視頻中物體之間的各種關(guān)系,它提供了一個(gè)比ImgVRD更可行的VRD任務(wù),通過目標(biāo)軌跡建議、關(guān)系預(yù)測和貪婪關(guān)系關(guān)聯(lián)來檢測視頻中的視覺關(guān)系,包含1000個(gè)帶有手動(dòng)標(biāo)記的視覺關(guān)系的視頻,被分解為30幀的片段,其中由15幀重疊,再進(jìn)行謂詞標(biāo)記。30類+(人、球、沙發(fā)、滑板、飛盤)=35類(獨(dú)立,沒有對(duì)象之間的包含關(guān)系),14個(gè)及物動(dòng)詞、3個(gè)比較詞、11個(gè)空間謂詞,11個(gè)不及物動(dòng)詞,能夠衍生160類謂詞。

3.3.2 方法

VidSGG提出了一個(gè)新的框架,在此框架下,將視頻場景圖重新表述為時(shí)間二分圖,其中實(shí)體和謂詞是兩類具有時(shí)隙的節(jié)點(diǎn),邊表示這些節(jié)點(diǎn)之間的不同語義角色。

66c7eaa2-f7da-11ed-90ce-dac502259ad0.png

圖7.VidVRD任務(wù)示例

66fdec92-f7da-11ed-90ce-dac502259ad0.png

圖8.BIG-C模型結(jié)構(gòu)

3.3.3 主實(shí)驗(yàn)結(jié)果

6716a82c-f7da-11ed-90ce-dac502259ad0.png

圖9.BIG-C模型實(shí)驗(yàn)結(jié)果

3.3.4 樣例測試

672a226c-f7da-11ed-90ce-dac502259ad0.png

圖10.對(duì)話情緒識(shí)別示例

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    857

    瀏覽量

    47625
  • Baseline
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    6839
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621

原文標(biāo)題:哈工大SCIR | 場景圖生成簡述

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    看門狗喚醒導(dǎo)致baseline降低的原因?

    如圖所示,休眠前baseline是2716,看門狗喚醒后baseline的值變成了2299,導(dǎo)致信號(hào)觸發(fā)。請幫忙分析有哪些可能導(dǎo)致baseline降低,謝謝。
    發(fā)表于 02-04 06:59

    6678功耗計(jì)算工具中baseline功耗問題

    如題,我在評(píng)估板相關(guān)文檔中看到了一個(gè)計(jì)算芯片功耗的工具。在使用時(shí)發(fā)現(xiàn)一個(gè)比較令我疑惑的地方:無論如何調(diào)整各個(gè)部件的參數(shù),最終計(jì)算芯片總功耗的時(shí)候總會(huì)加上一個(gè)相對(duì)較大的(大約8W)baseline功耗。我想請問,這一部分功耗來自哪里,有沒有可能進(jìn)行削減?
    發(fā)表于 06-21 03:24

    8168編碼的問題,如何編出baseline profile 3.1的H264碼流

    目前對(duì)于720p的數(shù)據(jù) 編譯出來baseline 4.1格式 ?能否編出baseline 3.1格式的720p的H264碼流
    發(fā)表于 06-21 04:25

    統(tǒng)計(jì)學(xué)習(xí)方法數(shù)據(jù)挖掘

    統(tǒng)計(jì)學(xué)習(xí)方法C1概論
    發(fā)表于 10-29 09:12

    統(tǒng)計(jì)的學(xué)習(xí)方法

    統(tǒng)計(jì)學(xué)習(xí)方法感知機(jī)
    發(fā)表于 07-15 10:33

    愛立信話務(wù)統(tǒng)計(jì)概述

    愛立信話務(wù)統(tǒng)計(jì)概述:統(tǒng)計(jì)的目的和用途 關(guān)心的指標(biāo) 網(wǎng)優(yōu)需要獲取的統(tǒng)計(jì)數(shù)據(jù) OBJTYPE 和COUNTER的意義 常用OBJTYPE和COUNTER 數(shù)據(jù)的獲取方法AT、FILE、OS
    發(fā)表于 05-21 22:58 ?26次下載

    頻率測量方法的改進(jìn)

    頻率測量方法的改進(jìn)
    發(fā)表于 10-14 16:41 ?20次下載
    <b class='flag-5'>頻率</b>測量<b class='flag-5'>方法</b>的改進(jìn)

    數(shù)字頻率表設(shè)計(jì)方法

    數(shù)字頻率表設(shè)計(jì)方法 設(shè)計(jì)要求1.設(shè)計(jì)一個(gè)能測量方波信號(hào)頻率頻率計(jì),測量結(jié)果用十進(jìn)制數(shù)顯示。2.測量的頻率范圍是1
    發(fā)表于 04-29 16:15 ?2499次閱讀
    數(shù)字<b class='flag-5'>頻率</b>表設(shè)計(jì)<b class='flag-5'>方法</b>

    支持Baseline和Extended Sequential

    支持Baseline和Extended Sequential的JPEG編碼IP核 CAST公司宣布提供獨(dú)有的同時(shí)支持Baseline(8位)和Extended Sequential(12位)
    發(fā)表于 05-18 09:22 ?717次閱讀

    無線電騷擾的統(tǒng)計(jì)測量方法研究

    本內(nèi)容提供了無線電騷擾的統(tǒng)計(jì)測量方法研究,通過實(shí)驗(yàn)數(shù)據(jù)說明了干擾的統(tǒng)計(jì)測量特性與數(shù)字通信系統(tǒng)性能之間的關(guān)系
    發(fā)表于 04-13 17:37 ?68次下載
    無線電騷擾的<b class='flag-5'>統(tǒng)計(jì)</b>測量<b class='flag-5'>方法</b>研究

    基于相關(guān)度統(tǒng)計(jì)的同步擾碼盲識(shí)別方法

    基于相關(guān)度統(tǒng)計(jì)的同步擾碼盲識(shí)別方法_呂全通
    發(fā)表于 01-07 16:24 ?0次下載

    基于統(tǒng)計(jì)和理解的自動(dòng)摘要方法

    針對(duì)微博內(nèi)容駁雜、信息稀疏的問題,深入研究傳統(tǒng)自動(dòng)摘要技術(shù),結(jié)合微博數(shù)據(jù)特點(diǎn),在微博事件提取的基礎(chǔ)上提出一種基于統(tǒng)計(jì)和理解的混合摘要方法。首先根據(jù)詞頻、句子位置等文本特征得到基于統(tǒng)計(jì)的初始摘要;然后
    發(fā)表于 11-29 14:51 ?0次下載
    基于<b class='flag-5'>統(tǒng)計(jì)</b>和理解的自動(dòng)摘要<b class='flag-5'>方法</b>

    基于步數(shù)步幅統(tǒng)計(jì)的測距方法

    結(jié)構(gòu)構(gòu)建是室內(nèi)地圖構(gòu)建的基礎(chǔ),而室內(nèi)測距是結(jié)構(gòu)構(gòu)建中的核心問題。為克服現(xiàn)有測距方法中成本高或精度低的不足,在融合了多種智能手機(jī)傳感器數(shù)據(jù)的基礎(chǔ)上,重新設(shè)計(jì)了基于步數(shù)步幅統(tǒng)計(jì)的測距方法。在步數(shù)統(tǒng)
    發(fā)表于 11-30 17:33 ?1次下載
    基于步數(shù)步幅<b class='flag-5'>統(tǒng)計(jì)</b>的測距<b class='flag-5'>方法</b>

    python統(tǒng)計(jì)詞頻的三種方法

    python統(tǒng)計(jì)詞頻的三種方法方法。
    發(fā)表于 05-25 14:33 ?2次下載

    人工智能baseline是什么意思?

    人工智能baseline是什么意思? 人工智能(AI)是當(dāng)今技術(shù)領(lǐng)域中最受關(guān)注的領(lǐng)域之一。AI的應(yīng)用范圍非常廣泛,從自動(dòng)駕駛汽車到語音識(shí)別等方面。對(duì)于AI的研究,沒有一個(gè)明確的終極目標(biāo),而是一步一步
    的頭像 發(fā)表于 08-22 15:59 ?4158次閱讀