,它們分別是主體,謂語和對象類別。 預(yù)計(jì)這個(gè)模型可以定位主體和客體。" />
0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何對圖像中的實(shí)體精準(zhǔn)“配對”?

傳感器技術(shù) ? 來源:未知 ? 作者:李倩 ? 2018-04-12 11:21 ? 次閱讀

近日,李飛飛的斯坦福大學(xué)視覺實(shí)驗(yàn)室發(fā)布了一篇即將在 CVPR 2018上要介紹的論文 Referring Relationships(指稱關(guān)系),這篇論文主要研究的問題是給出一張圖像中實(shí)體的關(guān)系網(wǎng)絡(luò),從而讓 AI 迅速定位出某一主體所對應(yīng)的客體,或者某一客體所對應(yīng)的主體。

圖像不僅僅是對象集合,每個(gè)圖像都代表一個(gè)互相關(guān)聯(lián)的關(guān)系網(wǎng)絡(luò)。實(shí)體之間的關(guān)系具有語義意義,并能幫助觀察者區(qū)分實(shí)體的實(shí)例。例如,在一張足球比賽的圖像中,可能有多人在場,但每個(gè)人都參與著不同的關(guān)系:一個(gè)是踢球,另一個(gè)是守門。

在本文中,我們制定了利用這些“指稱關(guān)系”來消除同一類別實(shí)體之間的歧義的任務(wù)。我們引入了一種迭代模型,它將指稱關(guān)系中的兩個(gè)實(shí)體進(jìn)行定位,并相互制約。我們通過建模謂語來建立關(guān)系中實(shí)體之間的循環(huán)條件,這些謂語將實(shí)體連接起來,將注意力從一個(gè)實(shí)體轉(zhuǎn)移到另一個(gè)實(shí)體。

我們證明了我們的模型不僅好于在三種數(shù)據(jù)集上實(shí)現(xiàn)的現(xiàn)有方法--- CLEVR,VRD 和 Visual Genome ---而且它還可以產(chǎn)生視覺上有意義的謂語變換,可以作為可解釋神經(jīng)網(wǎng)絡(luò)的一個(gè)實(shí)例。最后,我們展示了將謂語建模為注意力轉(zhuǎn)換,我們甚至可以在沒有其類別的情況下進(jìn)行定位實(shí)體,從而使模型找到完全看不見的類別。

▌指稱關(guān)系任務(wù)

指稱表達(dá)可以幫助我們在日常交流中識別和定位實(shí)體。比如,我們能夠指出“踢球人”來區(qū)分“守門員”(圖 1)。在這些例子中,我們都可以根據(jù)他們與其它實(shí)體的關(guān)系來區(qū)分這兩人。 當(dāng)一個(gè)人射門時(shí),另一個(gè)人守門。 最終的目標(biāo)是建立計(jì)算模型,以識別其他人所指的實(shí)體。

圖1:指稱關(guān)系通過使用實(shí)體間的相對關(guān)系來消除同一類別實(shí)例之間的歧義。給出這種關(guān)系之后,這項(xiàng)任務(wù)需要我們的模型通過理解謂語來正確識別圖像中的踢球人。

▌指稱關(guān)系模型

我們的目標(biāo)是通過對指稱關(guān)系的實(shí)體進(jìn)行定位,從而使用輸入的指稱關(guān)系來消除圖像中的實(shí)體歧義。 形式上而言,輸入是具有指稱關(guān)系的圖像 I,R = ,它們分別是主體,謂語和對象類別。 預(yù)計(jì)這個(gè)模型可以定位主體和客體。

▌模型設(shè)計(jì)

圖 2:指稱關(guān)系的推理首先要提取圖像特征,這是用于生成主體和客體的基礎(chǔ)。接下來,這些估值可以用來執(zhí)行轉(zhuǎn)換注意力,注意力使用了從主體到我們所期望客體位置的謂語。在對客體的新估值進(jìn)行細(xì)化的同時(shí),我們通過關(guān)注轉(zhuǎn)換區(qū)域來修改圖像特征。同時(shí),我們研究了從初始客體到主體的反向移位。通過兩個(gè)預(yù)測移位模塊迭代地在主體和對象之間傳遞消息,可以最終定位這兩個(gè)實(shí)體。

▌實(shí)驗(yàn)

我們在跨三個(gè)數(shù)據(jù)集的指稱關(guān)系中評估模型性能來進(jìn)行實(shí)驗(yàn)操作,其中每個(gè)數(shù)據(jù)集提供了一組獨(dú)特的特征來補(bǔ)充我們的實(shí)驗(yàn)。 接下來,我們評估在輸入指稱關(guān)系中缺少其中一個(gè)實(shí)體的情況下如何改進(jìn)模型。 最后,通過展示模型如何模塊化并用于場景圖注意力掃視來結(jié)束實(shí)驗(yàn)。

以下是我們在 CLEVR、VRD 和 Visual Genome 上的評估結(jié)果。 我們分別標(biāo)出了對主題和對象定位的 Mean IoU 和 KL 分歧:

在三種測試條件下缺少實(shí)體的指稱關(guān)系結(jié)果:

圖 3:(a)相對于圖像中的主體,當(dāng)使用關(guān)系來查找客體時(shí),左邊的謂語會把注意力轉(zhuǎn)移到右邊。相反,當(dāng)使用物體找到主體時(shí),左側(cè)的逆謂語會將注意力轉(zhuǎn)移到左側(cè)。在輔助材料中,我們可視化了 70 個(gè) VRD、6 個(gè) CLEVR 和 70 個(gè) Visual Genome 的謂語和逆謂語轉(zhuǎn)化(b)我們還看到,在查看用于了解它們的數(shù)據(jù)集時(shí),這些轉(zhuǎn)換是直觀的。

圖 4:這是 CLEVR 和 Visual Genome 數(shù)據(jù)集的注意力轉(zhuǎn)移如何跨越多次迭代的示例。在第一次迭代時(shí),模型僅接收試圖找到以及嘗試定位這些類別中所有實(shí)例的實(shí)體信息。在后面的迭代中,我們看到謂語轉(zhuǎn)換注意力,這可以讓我們的模型消除相同類別的不同實(shí)例之間的歧義。

圖 5:我們可以將我們的模型分解成其注意力和轉(zhuǎn)換模塊,并將它們堆疊起來作為場景圖的節(jié)點(diǎn)。 在這里,我們演示了如何使用模型從一個(gè)節(jié)點(diǎn)(手機(jī))開始,并使用指稱關(guān)系來通過場景圖連接節(jié)點(diǎn),并在短語<拿電話的人旁邊有人身穿夾克>中定位實(shí)體。 第二個(gè)例子是關(guān)于<在戴帽子的人的右邊有個(gè)人一張桌子前>中的實(shí)體。

▌結(jié)論

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4718

    瀏覽量

    100043
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1076

    瀏覽量

    40285

原文標(biāo)題:李飛飛團(tuán)隊(duì)最新論文:如何對圖像中的實(shí)體精準(zhǔn)“配對”?

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    藍(lán)牙配對之——密鑰生成方法

    在《藍(lán)牙配對之——配對特性交換》,我們談到了低功耗(Low Energy,簡稱LE)的藍(lán)牙配對特性交換。配對特性交換讓連接的發(fā)起設(shè)備和響應(yīng)
    發(fā)表于 06-29 14:13 ?1.2w次閱讀

    JPA實(shí)體的注解介紹

    今天給大家介紹一下 JPA 實(shí)體的注解,希望能對大家有幫助。 基本注解 @Entity 標(biāo)注于實(shí)體類聲明語句之前,指出該 Java 類為實(shí)體類,將映射到指定的數(shù)據(jù)庫表。 name(
    的頭像 發(fā)表于 09-25 14:42 ?548次閱讀

    實(shí)體按鍵操作STemWin控件

    轉(zhuǎn)在實(shí)際的項(xiàng)目中使用實(shí)體按鍵操作GUI的產(chǎn)品還挺多。借此專門做一個(gè)相關(guān)的例子,這個(gè)例子主要是給大家提供一種思路,實(shí)際的使用還會遇到各種各樣的情況,爭取以后在論壇再發(fā)相關(guān)的例子時(shí)也配上實(shí)體按鍵操作
    發(fā)表于 10-19 09:42

    VHDL程序實(shí)體

    設(shè)計(jì)實(shí)體是VHDL語言設(shè)計(jì)的基本單元,設(shè)計(jì)實(shí)體是VHDL語言設(shè)計(jì)的基本單元,簡單的可以是一個(gè)與門,復(fù)雜的可以是一個(gè)微處理器或一個(gè)數(shù)字系統(tǒng),其結(jié)構(gòu)基本是一致的,都是由實(shí)體說明和結(jié)構(gòu)體兩部分組成。
    發(fā)表于 01-22 11:10

    API修改配對請求功能?

    有哪位大俠知道怎么用代碼關(guān)閉配對請求,前提是我在Top配置了請求配對,這個(gè)功能必需要,但是功能中有時(shí)候是不需要請求配對的;所以需要代碼來開關(guān)請求
    發(fā)表于 07-22 17:38

    HanLP分詞命名實(shí)體提取詳解

    推薦 1.文本推薦(句子級別,從一系列句子挑出與輸入句子/詞語最相似的那一句) 2.語義距離(基于《同義詞詞林?jǐn)U展版》) 命名實(shí)體提取 HanLP分詞提供詞性標(biāo)注的功能,所以調(diào)用分詞接口后獲得帶有詞性標(biāo)注
    發(fā)表于 01-11 14:32

    如何手動(dòng)進(jìn)入配對模式?

    你好,在我的Pro—BLE應(yīng)用程序,它是一個(gè)外圍服務(wù)器,沒有輸入,沒有輸出設(shè)備,現(xiàn)在它可以在廣告時(shí)被掃描,并且可以無限地接受任何配對請求,但是我需要這個(gè)設(shè)備只有當(dāng)用戶激活配對機(jī)制時(shí)才可以配對
    發(fā)表于 09-25 13:58

    如何保證音箱晶體管配對的準(zhǔn)確度

    如何保證音箱晶體管配對的準(zhǔn)確度 每次看到號稱大電流的后級擴(kuò)大機(jī),并聯(lián)十幾、二十對功率晶體,都會暗暗吃驚:這些功率晶體
    發(fā)表于 03-31 13:49 ?1176次閱讀

    藍(lán)牙配對之——配對特性交換

    藍(lán)牙(Bluetooth?)核心規(guī)格中有三大主要架構(gòu)層:控制器、主機(jī)和應(yīng)用。主機(jī)層中有一個(gè)為配對和密鑰分配定義方法和協(xié)議的安全管理器模塊、相應(yīng)的安全工具箱、以及定義配對指令框架形式、框架架構(gòu)和超時(shí)限制的安全管理器協(xié)議。安全管理器采用密鑰分配的方式執(zhí)行無線電通訊
    發(fā)表于 06-29 14:02 ?5984次閱讀

    BLE協(xié)議棧配對過程

    主要描述配對過程、配對方法、安全屬性、IO能力、配對算法、OOB和BLE安全等
    發(fā)表于 08-24 16:30 ?4次下載

    全域圖像搜索給你更精準(zhǔn)的搜索體驗(yàn)

    摘要:?2018飛天技術(shù)匯,阿里巴巴機(jī)器智能技術(shù)實(shí)驗(yàn)室的劉磊帶來題為全域精準(zhǔn)圖像搜索介紹的演講,主要從四個(gè)方面進(jìn)行了闡述,第一部分介紹了圖像搜索的基本概念,第二部分主要是講解了圖像搜索
    發(fā)表于 07-31 17:55 ?271次閱讀
    全域<b class='flag-5'>圖像</b>搜索給你更<b class='flag-5'>精準(zhǔn)</b>的搜索體驗(yàn)

    什么是低功耗藍(lán)牙配對?什么又是綁定?

    配對過程中會生成一個(gè)長期密鑰(LTK,long-term Key),如果配對雙方把這個(gè)LTK存儲起來放在Flash,那么這兩個(gè)設(shè)備再次重連的時(shí)候,就可以跳過配對流程,而直接使用LTK
    的頭像 發(fā)表于 06-02 14:45 ?9163次閱讀
    什么是低功耗藍(lán)牙<b class='flag-5'>配對</b>?什么又是綁定?

    介紹一種通用匹配對齊框架MAF

    多模態(tài)命名實(shí)體識別在傳統(tǒng)的命名實(shí)體識別基礎(chǔ)上額外引入了圖像,可以為文本補(bǔ)充語義信息來進(jìn)行消岐,近些年來受到人們廣泛的關(guān)注。
    的頭像 發(fā)表于 09-06 16:16 ?1009次閱讀

    教程 5:配對、綁定和安全

    教程 5:配對、綁定和安全
    發(fā)表于 03-15 19:39 ?0次下載
    教程 5:<b class='flag-5'>配對</b>、綁定和安全

    教程 5:配對、綁定和安全

    教程 5:配對、綁定和安全
    發(fā)表于 07-06 18:49 ?0次下載
    教程 5:<b class='flag-5'>配對</b>、綁定和安全