0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

8g3K_AI_Thinker ? 來源:未知 ? 作者:工程師郭婷 ? 2018-07-31 17:50 ? 次閱讀

大規(guī)模帶標(biāo)注的數(shù)據(jù)集的出現(xiàn)是深度學(xué)習(xí)計算機視覺領(lǐng)域取得巨大成功的關(guān)鍵因素之一。然而,監(jiān)督式學(xué)習(xí)存在一個主要問題:過于依賴大規(guī)模數(shù)據(jù)集,而數(shù)據(jù)集的收集和手動數(shù)據(jù)標(biāo)注需要耗費大量的人力成本。

作為替代方案,自監(jiān)督學(xué)習(xí)旨在通過設(shè)計輔助任務(wù)來學(xué)習(xí)可區(qū)別性的視覺特征,如此,目標(biāo)標(biāo)簽就能夠自由獲取。這些標(biāo)簽?zāi)軌蛑苯訌挠?xùn)練數(shù)據(jù)或圖像中獲得,并為計算機視覺模型的訓(xùn)練提供監(jiān)督信息,這與監(jiān)督式學(xué)習(xí)的原理是相同的。但是不同于監(jiān)督式學(xué)習(xí)的是,自監(jiān)督學(xué)習(xí)方法通過挖掘數(shù)據(jù)的性質(zhì),從中學(xué)習(xí)并生成視覺特征的語義標(biāo)簽信息。還有一類方法是弱監(jiān)督學(xué)習(xí),這種學(xué)習(xí)方式能夠利用低水平的注釋信息來解決更復(fù)雜的計算機視覺任務(wù),如利用自然場景下每張圖像的類別標(biāo)簽進行目標(biāo)檢測任務(wù)。

我們的目標(biāo)是探索一種自監(jiān)督的解決方案,利用圖像和圖像之間的相關(guān)性來替代完全監(jiān)督式的 CNN訓(xùn)練。此外,我們還將探索非結(jié)構(gòu)化語言語義信息的強弱,并將其作為文本監(jiān)督信號來學(xué)習(xí)視覺特征。

我們擴展了之前提出的方法并展示了以自監(jiān)督的方式進行插圖文章的學(xué)習(xí),這能夠進一步擴展到更大的訓(xùn)練數(shù)據(jù)集(如整個英語維基百科)。

通過實驗,我們驗證了 TextTopicNet的表現(xiàn)優(yōu)于其他基準評估中的自監(jiān)督或自然監(jiān)督的方法。此外,我們還在更具挑戰(zhàn)性的 SUN397數(shù)據(jù)集上測試了我們的方法,結(jié)果表明 TextTopicNet能夠減少自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)之間的性能差距。

我們展示了將上下文的文本表征用于模型的訓(xùn)練,這能夠有助于網(wǎng)絡(luò)自動學(xué)習(xí)多模態(tài)的語義檢索。在圖像——文本的檢索任務(wù)中,TextTopicNet的表現(xiàn)超過了無監(jiān)督學(xué)習(xí)的方法,而與監(jiān)督學(xué)習(xí)的方法相比,我們的方法能夠在無需任何特定類別信息的情況下還能表現(xiàn)出有競爭力的性能。

在自監(jiān)督學(xué)習(xí)設(shè)置下,我們對不同的文本嵌入方法進行了對比分析,如word2vec,GloVe,F(xiàn)astText,doc2vec等。

此外,我們還公開發(fā)布了我們所收集的數(shù)據(jù)集,該數(shù)據(jù)集采自整個英語維基百科,由 420 萬個圖像組成,每張圖像都有對應(yīng)的文字描述信息。

維基圖像——文本數(shù)據(jù)集

我們以維基百科作為數(shù)據(jù)的來源,這是一個基于網(wǎng)絡(luò)的多語言的百科全書項目,目前有 4000 多萬篇文章,含 299 種不同語言。維基百科文章通常由文字及其他多媒體類型的對象(如圖像,音頻視頻文件)組成,因此可以將其視為多模態(tài)的文檔數(shù)據(jù)。對于我們的實驗,我們使用兩個不同的維基百科文章集合:(a) ImageCLEF 2010維基百科數(shù)據(jù)集;(b)我們所收集的英語維基百科圖像——文本數(shù)據(jù)集,包含 420 萬圖像文本對組成的數(shù)據(jù),下圖1展示了 11 種類別的文章分布情況。

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

圖1英語維基百科種11種類別的文章分布情況

TextTopicNet

我們提出了一種 TextTopicNet的方法,通過挖掘大規(guī)模多模態(tài)網(wǎng)絡(luò)文檔的大規(guī)模語料庫(如維基百科文章),以自監(jiān)督的方式來學(xué)習(xí)視覺特征。在自監(jiān)督學(xué)習(xí)設(shè)置下,TextTopicNet能夠使用免費可用的非結(jié)構(gòu)化、多模態(tài)的內(nèi)容來學(xué)習(xí)可區(qū)別的視覺特征,并在給定圖像的下,通過訓(xùn)練 CNN來預(yù)測可能插圖的語義環(huán)境。我們的方法示意圖如下圖 2 所示,該方法采用一個文本嵌入算法來獲取文本部分的向量表征,然后將該表征作為 CNN視覺特征學(xué)習(xí)的一種監(jiān)督信號。我們進一步使用多種類別的文檔以及詞級(word-level)的文本嵌入方法,發(fā)現(xiàn)通過 LDA主題模型框架發(fā)現(xiàn)的隱藏語義結(jié)構(gòu),能夠在主題層面最佳地展現(xiàn)文本信息。

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

圖2 方法概覽。維基百科文章包含一個主題的文本描述,這些文章同時也附有支持文本的插圖。文本嵌入框架能夠與文本信息相關(guān)的全局上下文表征。而整篇文章的這種文本表征向量被用于為 CNN的訓(xùn)練提供自監(jiān)督信號

如圖 3 所示,作為主題層面的語義描述器,需要大量可用的關(guān)于特定類別或細粒度類別的視覺數(shù)據(jù)。雖然在我們收集的數(shù)據(jù)中,這類數(shù)據(jù)非常有限,但是這很容易在更廣泛的目標(biāo)類別(如哺乳動物)中找到足夠多的、有代表性的圖像。因此,在給定的目標(biāo)主題情況下,我們的方法能夠?qū)W習(xí)到期望的視覺特征,這種特征是通用的,即同樣適用于其他特定的計算機視覺任務(wù)。

圖 3 描述特定實體的維基百科文章。如 (a) 中“羚羊”或 (b) 中的“馬”,每個實體通常包含五張圖像。對于一些特定實體,如 (c)中的“食草哺乳動物”,相關(guān)的圖像很容易就達到數(shù)百或成千上萬張。

我們還訓(xùn)練一個 CNN模型,它能夠直接將圖像投影到文本的語義空間,而 TextTopicNet不僅能夠在無需任何標(biāo)注信息的情況下從頭開始學(xué)習(xí)數(shù)據(jù)的視覺特征,還可以以自然的方式進行多模態(tài)的檢索,而無需額外的注釋或?qū)W習(xí)成本。

實驗

我們通過大量的實驗來展示 TextTopicNet模型所學(xué)習(xí)到的視覺特征質(zhì)量。衡量的標(biāo)準是所習(xí)得的視覺特征具有足夠好的可區(qū)別性和魯棒性,并能進一步適用于那些未見過的類別數(shù)據(jù)。

首先,為了驗證圖像—文本對的自監(jiān)督學(xué)習(xí),我們比較了各種文本嵌入方法。其次,我們在 PASCAL VOC 2007 數(shù)據(jù)集的圖像分類任務(wù)中對 TextTopicNet模型每層的特征進行基準分析,以找到了 LDA模型的最佳主題數(shù)量。然后,我們分別在 PASCAL、SUN397和 STL-10數(shù)據(jù)集的圖像分類和檢測任務(wù)中進一步與當(dāng)前最佳的自監(jiān)督方法和無監(jiān)督方法進行了比較。最后,我們利用維基百科檢索數(shù)據(jù)集對我們的方法進行了圖像檢索和文本查詢實驗。

自監(jiān)督視覺特征學(xué)習(xí)的文本嵌入算法比較

在自監(jiān)督視覺特征學(xué)習(xí)的設(shè)置下,我們對 word2vec,GloVe,F(xiàn)astText,doc2vec及 LDA算法進行了比較分析。對于每種文本嵌入方法,我們都將訓(xùn)練一個 CNN模型并利用網(wǎng)絡(luò)不同層獲得的特征信息去學(xué)習(xí)一個一對多的SVM (one-vs-all SVM)。下表1顯示了在 PASCAL VOC2007數(shù)據(jù)集中,使用不同文本嵌入方法,模型所展現(xiàn)的分類性能。我們觀察到在自監(jiān)督的視覺特征學(xué)習(xí)任務(wù)中,基于嵌入的 LDA方法展現(xiàn)了最佳全局表現(xiàn)。

表1:使用不同文本嵌入方法的 TextTopicNet模型在 PASCAL VOC2007數(shù)據(jù)集圖像分類任務(wù)上的性能表現(xiàn)(%mAP)

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

LDA模型的超參數(shù)設(shè)置

我們用 ImageCLEF Wikipedia數(shù)據(jù)集上 35582 篇文章訓(xùn)練了一個 LDA 模型,以確定 LDA模型的主題數(shù)量。下圖4展示了實驗結(jié)果,我們可以看到擁有 40 個主題數(shù)的 LDA模型能夠獲得最佳的 SVM驗證準確性。

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

圖4隨著 LDA主題數(shù)量的變化,PASCAL VOC2007數(shù)據(jù)集上 One vs. Rest線性 SVM所取得的驗證準確性(%mAP)

圖像分類和圖像檢測

我們分別在 PASCAL、SUN397和 STL-10數(shù)據(jù)集進行圖像分類和檢測任務(wù),比較并分析 TextTopicNet以及當(dāng)前最佳的自監(jiān)督和無監(jiān)督模型的表現(xiàn)。下表 2、3和4 分別展示各模型在 PASCAL VOC 2007、SUN397和 STL-10數(shù)據(jù)集上的分類表現(xiàn),表 5 展示了在 PASCAL VOC 2007數(shù)據(jù)集上模型的檢測性能。

表 2 PASCAL VOC2007數(shù)據(jù)集上各模型的分類表現(xiàn)(%mAP)

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

表 3 SUN397數(shù)據(jù)集上各模型的分類表現(xiàn)(%mAP)

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

表 4 STL-10數(shù)據(jù)集上各模型的分類表現(xiàn)(%mAP)

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

表 5 PASCAL VOC 2007數(shù)據(jù)集上各模型的檢測表現(xiàn)(%mAP)

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

圖像檢索和文本查詢

我們還在多模態(tài)檢索任務(wù)中評估所習(xí)得的自監(jiān)督視覺特征:(1)圖像查詢與文本數(shù)據(jù)庫; (2)文本查詢與圖像數(shù)據(jù)庫。我們使用維基百科檢索數(shù)據(jù)集,由2,866 個圖像文檔對組成,包含 2173 和 693 對訓(xùn)練和測試數(shù)據(jù)。每個圖像--文本對數(shù)據(jù)都帶有其語義標(biāo)簽。下表 6 展示了監(jiān)督和無監(jiān)督學(xué)習(xí)方法在多模態(tài)檢索任務(wù)中的表現(xiàn),其中監(jiān)督學(xué)習(xí)的方法能夠利用與類別相關(guān)的每個圖像--文本對信息,而無監(jiān)督學(xué)習(xí)方法則不能。

表 8維基數(shù)據(jù)集上各監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方法的表現(xiàn)(%mAP)

TextTopicNet模型:以自監(jiān)督學(xué)習(xí)方式學(xué)習(xí)區(qū)別視覺特征

圖 4 顯示了與給定查詢圖像(最左側(cè))最接近的 4 張圖像,其中每行使用的是 TextTopicNet模型不同層次獲得的特征,從上到下:prob,fc7,fc6,pool5層。這些查詢圖像是從 PASCAL VOC 2007中隨機選擇的,且從未在訓(xùn)練時出現(xiàn)過。

圖4與查詢圖像(最左側(cè))最相近的4張圖像

圖 5顯示了在 TextTopicNet主題空間中,與給定查詢文本最接近的 12 個查詢內(nèi)容??梢钥吹剑瑢τ诘谝粭l查詢文本(“飛機”),所檢索到的圖像列表幾乎是其相同的同義詞,如“flight”,“airway”或“aircraft”。利用文本的語義信息,我們的方法能夠?qū)W習(xí)多義詞的圖像表示。此外,TextTopicNet模型還能夠處理語義文本查詢,如檢索(“飛機”+ “戰(zhàn)斗機”或“飛行”+“天空”)等。

圖 5與不同文本查詢最接近的12個查詢內(nèi)容

結(jié)論

在本文中,我們提出了一種自監(jiān)督學(xué)習(xí)方法,用于學(xué)習(xí) LDA模型的文本主題空間。該方法 TextTopicNet能夠在無監(jiān)督設(shè)置下,利用多模態(tài)數(shù)據(jù)的優(yōu)勢,學(xué)習(xí)并訓(xùn)練計算機視覺算法。將文章插圖中的文字視為噪聲圖像標(biāo)注信息,我們的方法能夠通過視覺特征的學(xué)習(xí),訓(xùn)練 CNN模型并預(yù)測在特定的上下文語義中最可能出現(xiàn)的插圖。

我們通過實驗證明我們方法的有效性,并可以擴展到更大、更多樣化的訓(xùn)練數(shù)據(jù)集。此外,TextTopicNet模型學(xué)到了視覺特征不僅適用于廣泛的主題,而且還能將其應(yīng)用到更具體、復(fù)雜的計算機視覺任務(wù),如圖像分類,物體檢測和多模態(tài)檢索。與現(xiàn)有的自監(jiān)督或無監(jiān)督方法相比,我們方法的表現(xiàn)更優(yōu)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7174

    瀏覽量

    87159
  • 視覺特征
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    5339

原文標(biāo)題:CMU最新視覺特征自監(jiān)督學(xué)習(xí)模型——TextTopicNet

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 監(jiān)督學(xué)習(xí)模型采用
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機器學(xué)習(xí)的分類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和強化
    發(fā)表于 07-25 14:33

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的
    的頭像 發(fā)表于 07-09 18:06 ?573次閱讀

    機器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    在機器學(xué)習(xí)的整個流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和
    的頭像 發(fā)表于 07-09 15:57 ?197次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實現(xiàn)。因此,無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法,包括自編碼器、生成對抗網(wǎng)絡(luò)、聚類算法等,并分析它們的原理、應(yīng)用場景以及優(yōu)
    的頭像 發(fā)表于 07-09 10:50 ?216次閱讀

    深度學(xué)習(xí)視覺檢測中的應(yīng)用

    深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中的一個重要分支,其核心在于通過構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型,使計算機能夠從大量數(shù)據(jù)中自動學(xué)習(xí)并提取特征,進而實現(xiàn)對復(fù)
    的頭像 發(fā)表于 07-08 10:27 ?339次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計算機科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度學(xué)習(xí)
    的頭像 發(fā)表于 07-05 09:47 ?492次閱讀

    通過強化學(xué)習(xí)策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構(gòu)建機器學(xué)習(xí)模型過程中的決定性步驟。為模型和我們想要完成的任務(wù)選擇好的特征,可以提高性能。如果我們處理
    的頭像 發(fā)表于 06-05 08:27 ?224次閱讀
    通過強化<b class='flag-5'>學(xué)習(xí)</b>策略進行<b class='flag-5'>特征</b>選擇

    深度學(xué)習(xí)與度量學(xué)習(xí)融合的綜述

    如今,機器學(xué)習(xí)的應(yīng)用廣泛,包括人臉識別、醫(yī)療診斷等,為復(fù)雜問題和大量數(shù)據(jù)提供解決方案。機器學(xué)習(xí)算法能基于數(shù)據(jù)產(chǎn)生成功的分類模型,但每個數(shù)據(jù)都有其問題,需定義區(qū)別
    發(fā)表于 04-24 09:49 ?298次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>與度量<b class='flag-5'>學(xué)習(xí)</b>融合的綜述

    2024年AI領(lǐng)域?qū)心男┬峦黄颇兀?/a>

    傳統(tǒng)的機器學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)進行訓(xùn)練,但監(jiān)督學(xué)習(xí)可以通過無監(jiān)督方式從大規(guī)模未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)
    的頭像 發(fā)表于 01-24 09:58 ?1831次閱讀

    基于transformer和監(jiān)督學(xué)習(xí)的路面異常檢測方法分享

    鋪設(shè)異常檢測可以幫助減少數(shù)據(jù)存儲、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1223次閱讀
    基于transformer和<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的路面異常檢測方法分享

    Backbone之戰(zhàn):計算機視覺任務(wù)模型大比較

    盡管Vision Transformer(ViTs)和監(jiān)督學(xué)習(xí)(SSL)越來越受歡迎,但在大多數(shù)任務(wù)中,文章發(fā)現(xiàn)在大型訓(xùn)練集上監(jiān)督方式預(yù)
    的頭像 發(fā)表于 11-13 15:41 ?722次閱讀
    Backbone之戰(zhàn):計算機<b class='flag-5'>視覺</b>任務(wù)<b class='flag-5'>模型</b>大比較

    用于計算機視覺的經(jīng)典機器學(xué)習(xí)應(yīng)用分析

    深度學(xué)習(xí)是指在大部分未處理或“原始”數(shù)據(jù)上運行的非常大的神經(jīng)網(wǎng)絡(luò)模型。深度學(xué)習(xí)通過將特征提取操作拉入模型本身,對計算機
    發(fā)表于 11-07 10:11 ?337次閱讀
    用于計算機<b class='flag-5'>視覺</b>的經(jīng)典機器<b class='flag-5'>學(xué)習(xí)</b>應(yīng)用分析

    什么是強化學(xué)習(xí)

    強化學(xué)習(xí)是機器學(xué)習(xí)方式之一,它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列,是三種機器學(xué)習(xí)訓(xùn)練方法之一。 在圍棋
    的頭像 發(fā)表于 10-30 11:36 ?3475次閱讀
    什么是強化<b class='flag-5'>學(xué)習(xí)</b>

    深度學(xué)習(xí)的由來 深度學(xué)習(xí)的經(jīng)典算法有哪些

    深度學(xué)習(xí)作為機器學(xué)習(xí)的一個分支,其學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。兩種方法都具有其獨特的學(xué)習(xí)
    發(fā)表于 10-09 10:23 ?483次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>的由來 深度<b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法有哪些