0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

用遷移學習探明CV任務的底層結(jié)構

zhKF_jqr_AI ? 來源:未知 ? 作者:胡薇 ? 2018-06-26 15:22 ? 次閱讀

今天凌晨,第31屆計算機視覺和模式識別大會(CVPR)在美國鹽湖城正式召開。本屆大會一共收到3309篇投稿文章,最終接受979篇,接受率為29.6%,其中斯坦福和伯克利研究人員合作的Taskonomy: Disentangling Task Transfer Learning斬獲最佳論文,圖賓根大學教授Andreas Geiger和FAIR何凱明獲得PAMI年輕學者獎。

雖然這幾天學界大牛都忙著在twitter上譴責特朗普政府的“零容忍”移民政策,但CVPR 2018火熱依舊,大會剛開幕,官網(wǎng)就因訪問量過大掛了(現(xiàn)已恢復)。下面是論智帶來的最佳論文預覽,如有錯誤,歡迎留言指出。

視覺任務之間是否存在相關性?就像表面法線可以被用來簡化圖像深度估計。針對這些問題,直覺給出了積極的答案,暗示視覺任務中可能存在某種“結(jié)構”。掌握這種結(jié)構是意義重大的;它是遷移學習的基礎,也為確定各種任務之間的冗余提供了理論依據(jù),例如,它允許我們在各種相關任務中無縫重復使用監(jiān)督,或是用一個模型完成多種任務而不增加復雜度。

本文提出了一種完全計算的方法,從26個2D、2.5D、3D和語義任務中提取遷移學習相關性關系,進而建模視覺任務空間結(jié)構。該產(chǎn)品已經(jīng)上線,是遷移學習的計算分類圖。此外,文章還探究了這個結(jié)構的作用,比如利用提取到的non-trivial關系減少任務對標記數(shù)據(jù)量的需求。實驗表明,對于10個不同的視覺任務,這種方法可以減少2/3的標記數(shù)據(jù)量,同時模型的性能和單獨訓練的模型基本一致。

物體識別、深度估計、邊緣檢測、姿態(tài)估計等都是常見的計算機視覺任務,它們也被學界看作是有價值的研究課題。其中的一些任務是高度相關的,比如我們知道表面法線和深度估計存在衍生關系,空間中消失的點對目標定位也有一定作用。但對于其他關系,我們掌握的知識就很有限了,例如,我們還沒有弄清關鍵點檢測和空間中的陰影為什么能被一起用來進行姿態(tài)估計。

計算機視覺確實沒有明確使用這些關系,近年來學界在開發(fā)先進學習模型上已經(jīng)取得了令人矚目的成就,如ConvNets,它們能從多對(x, y)中找到X到Y(jié)的復雜映射。當然,x∈X,y∈Y,這些前提是訓練數(shù)據(jù)給出的,也就是我們常說的完全監(jiān)督學習。監(jiān)督學習的一個缺點是會導致模型只能解決一類孤立的問題,這也意味著每接受一個新任務,模型就得從頭開始訓練——我們需要大量標記數(shù)據(jù)。

如果模型掌握了各種任務之間的關系,它需要的監(jiān)督學習就更少,計算壓力也更輕,而且預測效率更高。但到目前為止,這個關系是未知的。因此本文的目標是揭示任務空間底層結(jié)構,并提出一個計算機視覺任務之間的映射框架。這里的“結(jié)構”指的是任務間的相關性集合,即這個任務能給那個任務提供多少有用的信息

論文作者在這里用的是完全計算的方法,在前饋神經(jīng)網(wǎng)絡中,每一層都包含將輸入映射到輸出所需信息的抽象表征,這些表征可以被用來計算對輸出的貢獻程度,繼而推導任務之間的相關性矩陣。簡而言之,這里需要用到完全抽樣的遷移學習,從不同任務中提取相關的遷移策略。經(jīng)實驗證實,最后獲得的模型大大降低了對標記數(shù)據(jù)量的需求,同時這個架構在普通數(shù)據(jù)集上也能使用。

工具

上述任務可以被定義如下:在有限的監(jiān)督預算γ內(nèi)(計算量、數(shù)據(jù)量和時間限制),我們要在一組任務T = {t1, ..., tn}中實現(xiàn)任務集體性能的最大化。其中γ表示允許從頭開始訓練的最大任務數(shù)(源任務),T表示我們想要完成的任務集(目標任務),S表示可以訓練的任務集(源任務),那么

V=T ∪ S是任務詞典;

T ? T ∩ S是我們想要完成但沒法訓練的任務(target-only);

T ∩ S既是目標任務,也是源任務;

S ? T ∩ S是可以訓練的任務,但我們對它們不感興趣(source-only)。

什么是Taxonomy?

Taxonomy,也就是任務分類法是一個定向的超圖模型,它可以從給定任務詞典里找出可遷移的元素。正如上文提到的,我們手里有一個源任務集和一個目標任務集,它們相交的邊表示一個可行的遷移方案,具體預測性能由雙方權重決定。為了預測T的全局最優(yōu)遷移策略,我們需要用到這些邊,因此taskonomy的作用是生成一系列圖(如上面動圖),它的參數(shù)由監(jiān)督預算、選擇的任務、遷移順序和遷移函數(shù)表達構成。

創(chuàng)建taskonomy

taskonomy的創(chuàng)建過程可分為4步:I.在S中,訓練針對特定任務的神經(jīng)網(wǎng)絡;II.源任務和目標任務間的所有可遷移元素都已經(jīng)訓練好了,用多輸入任務對一輸出任務訓練一個高階遷移函數(shù);III.用AHP(層次分析法)獲得歸一化的遷移相關性;IV.用BIP(二元整數(shù)規(guī)劃)查找全局遷移taskonomy。

任務詞典

如下圖所示,任務詞典中一共有26種計算機視覺任務,涵蓋2D、2.5D、3D和語義任務等常見主題。需要注意的是,這個詞典應該是所有可以想象的視覺任務的采樣集,而不是詳盡的列表。采樣允許我們稀疏地模擬視覺任務的密集空間,并依靠假設把成果推廣到詞典以外的任務中。采樣空間越規(guī)則/越好,成果的通用性就越好。

任務詞典

數(shù)據(jù)集

論文作者制作了一個室內(nèi)場景的大型高質(zhì)量數(shù)據(jù)集:

通過對齊的網(wǎng)格記錄像素級的幾何信息;

通過蒸餾從ImageNet、MS COCO和MIT Places圖像中提取語義信息;

一致的攝影角度,相機功能完整;

高清晰度的圖像;

是ImageNet的3倍。

這個數(shù)據(jù)集大小有12TB,如果讀者有使用的興趣,可直接聯(lián)系作者申請:zamir@eecs.berkeley.edu / zamir@cs.stanford.edu。

步驟1:特定任務建模

為S中的每個任務訓練一個專用的神經(jīng)網(wǎng)絡(完全監(jiān)督),這些特定網(wǎng)絡有一個均勻的encoder-decoder架構,其中編碼器很大,能提取強大的表征;解碼器相對較小,但足以實現(xiàn)良好的性能。

步驟2:遷移模型

給定一個源任務s和一個目標任務t,其中s∈S,t∈T,如上圖所示,從輸入任務s和輸出任務t中,我們的遷移網(wǎng)絡應該能學到一些有關遷移函數(shù)的知識。其中,編碼器從圖片I中提取的表征是Es(I),輸出函數(shù)Ds→t中包含參數(shù)θs→t,它的目標是使損失Lt最小:

其中ft(I)是t對于圖像I的真值,因為Es(I)可能無法基于t和s的相關性,完美地解決任務t,所以函數(shù)Ds→t就為兩者的相關性提供了一個可用的參考指標。

步驟3:用AHP進行歸一化處理

既然已經(jīng)獲得了任務間的相關性,我們自然希望能建立一個跨任務的、具有可傳遞性的相關性矩陣。對于這個目標,如果只是簡單地把Ls→t匯總到矩陣中,那顯然是有問題的,因為它們跨度太大,而且處于不同的任務空間中,因此適當?shù)臍w一化是必須的。

這里我們不能直接把它線性縮小到[0, 1]內(nèi),因為損失-性能曲線是未知的,這樣粗暴的縮小沒有效果。論文采用的是一種序數(shù)方法,它把輸出性能和損失假設為單調(diào)變化,這之后,對于每個t,Wt是遷移到t的所有可行源任務的成對矩陣。(i, j)處的值是保留測試集中圖像的百分比,即Dtest,其中si遷移到t比sj遷移到t更優(yōu)(Dsi→t(I) > Dsj→t(I))。

對矩陣Wt做拉普拉斯平滑,把閾值控制在[0.001,0.999],然后計算Wt' = Wt/WtT,這樣矩陣就能量化si和sj的差距,顯示兩者的倍數(shù)關系:

步驟4:計算全局Taxonomy

現(xiàn)在已經(jīng)有了歸一化的相關性矩陣,我們還需要制定一項全局遷移策略,最大限度地提高所有任務的集體性能,同時盡量減少所用的監(jiān)督。這個問題可以表示為子圖選擇,其中任務是節(jié)點,傳輸是邊。最佳子圖選擇理想源節(jié)點和從這些源任務到目標任務的最佳邊,同時滿足源節(jié)點數(shù)量不超過監(jiān)督預算。

對于這個問題,論文使用的方法是布爾整數(shù)規(guī)劃(BIP),詳情這里不再具體介紹。

BIP計算出的關系圖

實驗

在論文正文中,作者沒有明確給出自己的模型和其他state-of-art模型的具體對比情況,他們在附錄(taskonomy.stanford.edu/taskonomysuppCVPR2018.pdf)和FCRN做了對比,發(fā)現(xiàn)兩者在性能上并沒有多大差距,但因為論文模型掌握了任務底層結(jié)構知識,在遷移上更加得心應手,使用的標記數(shù)據(jù)更少,用時也更短。

小結(jié)

本文提出了一種利用遷移學習對計算機視覺任務空間進行建模的方法,并展示了它在減少標記數(shù)據(jù)量方面的實用性。任務空間本身就是一個有趣的研究對象,但本文的研究還只是皮毛。對于這個框架,論文作者還提出了一些應注意的假設:

Model Dependence:盡管本文驗證了成果在各種架構和數(shù)據(jù)集上的穩(wěn)定性,但這不意味著它是萬能的,它在原則上還是只適用于特性模型和特定數(shù)據(jù)。

Compositionality:本文通過一組常用的人工定義的計算機視覺任務來進行建模,那么在此基礎上的進階做法應該是把這些任務作為觀察樣本,進一步探究它們和其他冷門任務的相關性。

Space Regularity:本文通過一個采樣詞典對密集空間進行建模,盡管它表現(xiàn)出了良好的通用性,但為了證實這種通用性,我們還需要對計算空間的屬性做更嚴謹?shù)难芯俊?/p>

Transferring to Non-visual and Robotic Tasks:既然遷移學習在計算機視覺任務中能找出任務空間的底層結(jié)構,那它在其他領域的任務中應該也有用武之地,比如機器人研究,也許它能被用于解決機器人對下游任務的感知問題。

Lifelong Learning:在終身學習問題中,系統(tǒng)是不斷演變的,任務數(shù)量也是不斷增加的,對于這類情況,本文的一次性建模方法就不再適用了,它需要考慮更多的新因素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    8

    文章

    1685

    瀏覽量

    45811
  • 遷移學習
    +關注

    關注

    0

    文章

    74

    瀏覽量

    5536

原文標題:CVPR 2018最佳論文:用遷移學習探明CV任務的底層結(jié)構

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    遷移學習訓練網(wǎng)絡

    keras 之 遷移學習,改變VGG16輸出層,imagenet權重retrain
    發(fā)表于 09-09 11:02

    遷移學習

    經(jīng)典機器學習算法介紹章節(jié)目標:機器學習是人工智能的重要技術之一,詳細了解機器學習的原理、機制和方法,為學習深度學習
    發(fā)表于 04-21 15:15

    cv::bmcv::resize看代碼底層調(diào)用的是bmcv_image_resize,cv::resize的是cpu嗎?

    cv::bmcv::resize 看代碼底層調(diào)用的是bmcv_image_resize,cv::resize的是cpu嗎,處理的是mat中cpu內(nèi)存中的那部分數(shù)據(jù)嗎?還有1個
    發(fā)表于 09-18 06:40

    面向NLP任務遷移學習新模型ULMFit

    除了能夠更快地進行訓練之外,遷移學習也是特別有趣的,僅在最后一層進行訓練,讓我們可以僅僅使用較少的標記數(shù)據(jù),而對整個模型進行端對端訓練則需要龐大的數(shù)據(jù)集。標記數(shù)據(jù)的成本很高,在無需大型數(shù)據(jù)集的情況下建立高質(zhì)量的模型是很可取的方法。
    的頭像 發(fā)表于 08-22 08:11 ?5554次閱讀

    遷移學習、多任務學習領域的進展

    如果我們想使用多任務學習,但只有一個任務,該怎么辦呢?一篇名為 “Pseudo-task Augmentation: From Deep Multitask Learning
    的頭像 發(fā)表于 09-04 08:50 ?3861次閱讀

    對深度遷移學習的當前研究進行了回顧和分類

    定義 1:(遷移學習)。給定一個基于數(shù)據(jù) Dt 的學習任務 Tt,我們可以從 Ds 中獲取對任務 Ts 有用的知識。
    的頭像 發(fā)表于 09-17 16:17 ?7422次閱讀

    面向自然語言處理的神經(jīng)網(wǎng)絡遷移學習的答辯PPT

    現(xiàn)實中的自然語言處理面臨著多領域、多語種上的多種類型的任務,為每個任務都單獨進行數(shù)據(jù)標注是不大可行的,而遷移學習可以將學習的知識
    的頭像 發(fā)表于 03-02 09:16 ?3004次閱讀

    遷移學習與模型預訓練:何去何從

    把我們當前要處理的NLP任務叫做T(T稱為目標任務),遷移學習技術做的事是利用另一個任務S(S稱為源任務
    的頭像 發(fā)表于 07-18 11:29 ?7738次閱讀
    <b class='flag-5'>遷移</b><b class='flag-5'>學習</b>與模型預訓練:何去何從

    遷移學習的意圖識別在口語理解中的應用

    獲得大量數(shù)據(jù),因此為搭建新領域的深度學習模型提出了挑戰(zhàn)。遷移學習是深度學習的一種特殊應用,在遷移學習
    發(fā)表于 04-12 11:18 ?4次下載
    <b class='flag-5'>遷移</b><b class='flag-5'>學習</b>的意圖識別在口語理解中的應用

    基于特征和實例遷移的加權多任務聚類算法

    基于特征和實例遷移的加權多任務聚類算法
    發(fā)表于 06-07 15:18 ?3次下載

    一種基于標簽比例信息的遷移學習算法

    摘要: 標簽比例學習問題是一項僅使用樣本標簽比例信息去構建分類模型的挖掘任務,由于訓練樣本不充分,現(xiàn)有方法將該問題視為單一任務,在文本分類中的表現(xiàn)并不理想。考慮到遷移
    發(fā)表于 03-30 15:46 ?462次閱讀

    遷移學習Finetune的四種類型招式

    遷移學習廣泛地應用于NLP、CV等各種領域,通過在源域數(shù)據(jù)上學習知識,再遷移到下游其他目標任務
    的頭像 發(fā)表于 04-02 17:35 ?2966次閱讀

    周三研討會預告 | 從 CUDA 到 CV-CUDA:如何為自己定制高效的 CV 任務算子

    的 CUDA (Compute Unified Device Architecture)編程模型 ,利用 GPU 強大的并行計算能力,為計算機視覺任務帶來了前所未有的加速效果。 為了能讓 CV
    的頭像 發(fā)表于 06-13 20:55 ?394次閱讀
    周三研討會預告 | 從 CUDA 到 <b class='flag-5'>CV</b>-CUDA:如何為自己定制高效的 <b class='flag-5'>CV</b> <b class='flag-5'>任務</b>算子

    一文詳解遷移學習

    遷移學習需要將預訓練好的模型適應新的下游任務。然而,作者觀察到,當前的遷移學習方法通常無法關注與任務
    的頭像 發(fā)表于 08-11 16:56 ?5930次閱讀
    一文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>

    遷移學習的基本概念和實現(xiàn)方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個相關任務
    的頭像 發(fā)表于 07-04 17:30 ?690次閱讀