0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

湯新加坡團隊 針對長尾數(shù)據(jù)分布提出了視覺識別方案

ss ? 來源:學術(shù)頭條 ? 作者:學術(shù)頭條 ? 2020-11-25 17:05 ? 次閱讀

導讀:在NeurIPS 2020上,商湯新加坡團隊提出的Balanced-Meta Softmax (BALMS), 針對真實世界中常見的長尾數(shù)據(jù)分布提出了新的視覺識別方案。在優(yōu)化目標方面,BALMS 提出一種新的損失函數(shù),Balanced Softmax,來修正長尾設定下因訓練與測試標簽分布不同而導致的偏差。在優(yōu)化過程方面,BALMS提出 Meta Sampler來自動學習最優(yōu)采樣率以配合Balanced Softmax,避免過平衡問題。BALMS在長尾圖像分類與長尾實例分割的共四個數(shù)據(jù)集上取得SOTA表現(xiàn)。這項研究也被收錄為ECCV LVIS workshop的spotlight。

論文名稱: Balanced Meta-Softmax for Long-Tailed Visual Recognition

問題和挑戰(zhàn)

真實世界中的數(shù)據(jù)分布大多符合長尾分布:常見類比占據(jù)了數(shù)據(jù)集中的主要樣本,而大量的罕見類別只在數(shù)據(jù)集中少量出現(xiàn)。例如一個動物圖片數(shù)據(jù)集中,寵物貓的圖片數(shù)量可能遠遠超過熊貓的圖片數(shù)量。

由于長尾現(xiàn)象對算法落地造成了很大的挑戰(zhàn),視覺社區(qū)對這一問題的關(guān)注日漸增加,近年陸續(xù)推出了一些長尾數(shù)據(jù)集,例如大規(guī)模實例分割數(shù)據(jù)集LVIS。我們發(fā)現(xiàn)長尾問題的難點主要存在于以下兩個方面:

1)優(yōu)化目標。根據(jù)長尾問題的設定,訓練集是類別不均衡的。然而主流的指標,如mean AP (mAP),衡量全部類別上的平均精度,因此鼓勵算法在類別平衡的測試集上取得較好的表現(xiàn)。這導致了訓練與測試時標簽分布不同的問題,我們稱之為標簽分布遷移。

2)優(yōu)化過程。罕見類別在模型訓練過程中很少出現(xiàn),因此無法在優(yōu)化過程中提供足夠的梯度。這使得即使我們有了一個較好的優(yōu)化目標,也很難使模型收斂到對應的全局最優(yōu)。

方法介紹

1. Balanced Softmax

Softmax函數(shù)常常被用來將模型輸出轉(zhuǎn)化為物體屬于每個類別的條件概率。

應用貝葉斯定理可以發(fā)現(xiàn)常規(guī)的Softmax回歸會受到標簽分布遷移的影響,并作出帶偏差的估計。這個偏差導致Softmax回歸出的分類器更傾向于認為樣本屬于常見類別。

舉一個簡單的例子,考慮這樣一個任務:通過性別來分類貓和狗。這個任務看起來是無法完成的,因為我們知道性別在貓和狗上是均勻分布的。無論貓還是狗,都有50%的可能性是雌性和50%的可能性是雄性,因此只靠性別我們無法區(qū)別貓和狗。

有趣的是,當我們的訓練數(shù)據(jù)是類別不平衡的時,比如有90%的貓和10%的狗,我們的估計就會出現(xiàn)偏差:這時無論是雄性還是雌性,我們都會傾向于認為它是一只貓。在這樣的訓練數(shù)據(jù)上學習到的分類器就會天然帶有對常見類別的偏愛。

為了避免這個偏差,我們從多項分布的Exponential Family形式出發(fā)重新對Softmax進行了推導并顯式考慮了標簽分布遷移,得到了適合長尾問題的Balanced Softmax。同時,我們發(fā)現(xiàn)Balanced Softmax可以近似地最小化長尾設定下的泛化錯誤上界。

為了分析Balanced Softmax的效果,我們將模型在測試集上預測的分數(shù)在每個類別上累加,用來計算模型預測的標簽分布。理想情況下,模型在測試集上預測出的標簽分布應該是平衡的。在下圖中我們對不同模型的預測類別進行了可視化,類別按照出現(xiàn)頻率降序排列,第0類為出現(xiàn)次數(shù)最多的類。我們發(fā)現(xiàn)藍色線代表的常規(guī)Softmax明顯地偏向于常見類別,橙色線代表的Equalization Loss [1] 通過去除某閾值以下罕見類別的負樣本梯度緩解了這一問題,而紅色線代表的Balanced Softmax則進一步達到了最平衡的預測類別分布。

2. 元采樣器Meta Sampler

雖然我們得到了一個適合長尾問題的理想的優(yōu)化目標,優(yōu)化過程本身依然充滿挑戰(zhàn):罕見類別只能在訓練中出現(xiàn)極少次數(shù),因此無法很好地貢獻到訓練梯度。解決這一問題的最常見的方法是類別均衡采樣 (CBS)[2],也就是對每個類別采樣同樣數(shù)量的樣本來組成訓練批次。然而,實驗表明直接將Balanced Softmax與CBS一起使用會導致模型表現(xiàn)下降,于是我們對兩者一起使用時的梯度進行了分析。在假設接近收斂時,我們有:

理想情況下每個類別的梯度的權(quán)重應和類別內(nèi)樣本數(shù)量成反比,但上式中的權(quán)重為和類別內(nèi)樣本數(shù)量成平方反比。我們將這個現(xiàn)象稱為過平衡問題。

下圖展示了一個對過平衡問題的可視化。這是一個類別不平衡的二維數(shù)據(jù)三分類問題,三個類別分別為紅、黃、藍,樣本數(shù)量分別為10000、100和1。可以發(fā)現(xiàn)Balanced Softmax和CBS一起使用時,優(yōu)化過程會被藍色的罕見類別主導。

為了解決過平衡問題,我們提出了Meta Sampler(元采樣器),一種可學習版本的CBS。Meta Sampler使用元學習的方法,顯式地學習當前最佳的采樣率,從而更好地配合Balanced Softmax的使用。

下圖展示了我們對不同模型預測的標簽分布進行的可視化。其中,紫色線代表的Balanced Softmax與CBS的組合由于過平衡問題,明顯地偏向于尾部類別。而紅色線代表的Balanced Softmax與Meta Sampler的組合則很好地解決了這一問題,最終取得了最為均衡的標簽分布。

實驗結(jié)果

我們在圖像分類(CIFAR-10/100-LT,ImageNet-LT,Places-LT)與實例分割(LVIS-v0.5)兩個任務上分別進行了實驗驗證。實驗結(jié)果顯示了Balanced Softmax和Meta Sampler對模型表現(xiàn)都有明顯的貢獻。兩者的組合,Balanced Meta-Softmax (BALMS),在這兩個任務上都達到或超過了SOTA結(jié)果,尤其在最具挑戰(zhàn)性的LVIS數(shù)據(jù)集上大幅超過了之前的SOTA結(jié)果。

這項研究也被收錄為ECCV LVIS workshop的Spotlight,關(guān)于LVSI-v1.0的相關(guān)實驗結(jié)果可以在LVSI workshop主頁上找到(Team Innova)。

結(jié)語

BALMS對長尾問題下的概率建模以及采樣策略進行了探討。我們發(fā)現(xiàn)常用的Softmax回歸在存在標簽分布遷移時會出現(xiàn)估計偏差,并提出了Balanced Softmax來避免這個偏差。另一方面,我們發(fā)現(xiàn)類別均衡采樣器在與Balanced Softmax一起使用時會導致過平衡問題,于是提出元采樣器來顯式學習最優(yōu)采樣策略。我們的解決方案在長尾圖像分類與長尾實例分割任務上均得到了驗證。歡迎關(guān)注我們的開源代碼庫,希望BALMS可以成為未來長尾學習的良好基線。

責任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6722

    瀏覽量

    88338
  • 視覺識別
    +關(guān)注

    關(guān)注

    3

    文章

    89

    瀏覽量

    16611
收藏 人收藏

    評論

    相關(guān)推薦

    基于分布式存儲系統(tǒng)醫(yī)療影像數(shù)據(jù)存儲解決方案

    基于分布式存儲系統(tǒng)醫(yī)療影像數(shù)據(jù)存儲解決方案
    的頭像 發(fā)表于 09-14 09:53 ?146次閱讀
    基于<b class='flag-5'>分布</b>式存儲系統(tǒng)醫(yī)療影像<b class='flag-5'>數(shù)據(jù)</b>存儲解決<b class='flag-5'>方案</b>

    醫(yī)療PACS影像數(shù)據(jù)的極速分布式塊存儲解決方案

    醫(yī)療PACS影像數(shù)據(jù)的極速分布式塊存儲解決方案
    的頭像 發(fā)表于 08-23 10:13 ?155次閱讀
    醫(yī)療PACS影像<b class='flag-5'>數(shù)據(jù)</b>的極速<b class='flag-5'>分布</b>式塊存儲解決<b class='flag-5'>方案</b>

    瑞薩針對顯示應用的MCU和方案介紹

    瑞薩針對人機交互的應用(TFT顯示)推出了多款MCU產(chǎn)品和參考方案。從簡單的串口屏方案到RGB和MIPI接口的TFT顯示方案,瑞薩基于不同的
    發(fā)表于 07-02 18:23 ?567次閱讀
    瑞薩<b class='flag-5'>針對</b>顯示應用的MCU和<b class='flag-5'>方案</b>介紹

    新加坡智慧停車迎來革新,AMD攜手恒星系統(tǒng)打造新型AI解決方案

    停車解決方案提供商新加坡恒星系統(tǒng)有限公司(Sun Singapore Systems Pte. Ltd.)已成功部署一款基于AI的新型智慧停車解決方案。這款革命性的方案由AMD的Zyn
    的頭像 發(fā)表于 06-21 15:32 ?1544次閱讀

    基于FPGA EtherCAT的六自由度機器人視覺伺服控制設計

    和增強系統(tǒng)處理圖像的實時性,本文提出了一種伊瑟特的六自由度機器人視覺伺服控制系統(tǒng),將攝像頭集成到基于 Zynq的伊瑟特主站上,提高了視覺伺服的實時性.經(jīng)測試,該平臺能夠?qū)?b class='flag-5'>視覺檢測目標的
    發(fā)表于 05-29 16:17

    解決方案|3D視覺引導多SKU紙箱混拆

    在物流和包裝行業(yè),紙箱混拆是常見的作業(yè)需求。然而,由于紙箱的多樣性(如尺寸、形狀和重量),傳統(tǒng)的方法往往難以應對。針對這一背景,富唯智能提出了基于3D視覺引導SKU紙箱的解決方案,助力
    的頭像 發(fā)表于 05-10 16:36 ?291次閱讀
    解決<b class='flag-5'>方案</b>|3D<b class='flag-5'>視覺</b>引導多SKU紙箱混拆

    解決方案|基于3D視覺技術(shù)的鋁合金板件刷油烘干自動化上下料

    針對鋁合金板件刷油烘干上下料過程中的自動化需求,我們提出了一套基于3D視覺引導的解決方案。該方案通過引入先進的3D
    的頭像 發(fā)表于 04-20 17:45 ?219次閱讀
    解決<b class='flag-5'>方案</b>|基于3D<b class='flag-5'>視覺</b>技術(shù)的鋁合金板件刷油烘干自動化上下料

    分布式存儲與計算:大數(shù)據(jù)時代的解決方案

    分布式存儲和計算技術(shù)應運而生,并迅速成為處理大數(shù)據(jù)的首選方案。本文將深入探討分布式存儲和計算的概念、優(yōu)勢及其在各個領(lǐng)域的應用情況。 1.分布
    的頭像 發(fā)表于 03-07 14:42 ?580次閱讀

    機器視覺的圖像目標識別方法綜述

    文章來源:MEMS引言從20世紀80年代開始,機器視覺技術(shù)的發(fā)展速度不斷加快,已經(jīng)走進了人們的日常生活與工作之中。機器視覺的圖像目標識別系統(tǒng)的自動化程度較高,應用范圍廣,尤其在危險場所的運用,采用
    的頭像 發(fā)表于 02-23 08:26 ?607次閱讀
    機器<b class='flag-5'>視覺</b>的圖像目標<b class='flag-5'>識別</b>方法綜述

    計算機視覺:AI如何識別與理解圖像

    計算機視覺是人工智能領(lǐng)域的一個重要分支,它致力于讓機器能夠像人類一樣理解和解釋圖像。隨著深度學習和神經(jīng)網(wǎng)絡的發(fā)展,人們對于如何讓AI識別和理解圖像產(chǎn)生了濃厚的興趣。本文將探討計算機視覺中AI如何進
    的頭像 發(fā)表于 01-12 08:27 ?1194次閱讀
    計算機<b class='flag-5'>視覺</b>:AI如何<b class='flag-5'>識別</b>與理解圖像

    AI視覺識別有哪些工業(yè)應用

    AI視覺識別涵蓋多種應用,如人臉識別、目標檢測和識別、圖像分割、行為識別、視頻分析等。本篇就簡單介紹一下AI
    的頭像 發(fā)表于 11-27 18:05 ?1034次閱讀
    AI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>有哪些工業(yè)應用

    深技大科研團隊首次提出基于超光速等離子體尾波場產(chǎn)生阿秒脈沖的方案

    近日,深圳技術(shù)大學阮雙琛教授和周滄濤教授團隊在國際上首次提出基于超光速等離子體尾波場產(chǎn)生阿秒脈沖、亞周期相干光激波輻射的物理方案,并闡釋了一種由電子集體作用主導的全新相干輻射產(chǎn)生機制。
    的頭像 發(fā)表于 11-09 10:40 ?547次閱讀
    深技大科研<b class='flag-5'>團隊</b>首次<b class='flag-5'>提出</b>基于超光速等離子體尾波場產(chǎn)生阿秒脈沖的<b class='flag-5'>方案</b>

    請問視覺識別用什么處理芯片比較好?

    視覺識別領(lǐng)域有許多新的應用。比如自動駕駛。我們機器人比賽做巡線如果用視覺,就比較可靠。不知道誰有這方面的經(jīng)驗,推薦一個好用的主板及方案。
    發(fā)表于 11-08 07:43

    MHz高頻電感分布電容建模及優(yōu)化設計方案

    本成果針對高頻電感中的分布電容問題提出了建模及優(yōu)化設計方案。探究了磁芯內(nèi)部電場分布規(guī)律及建模方法;揭示了浮空磁芯電位的求解方法,推導了磁芯與
    發(fā)表于 10-30 10:44 ?492次閱讀
    MHz高頻電感<b class='flag-5'>分布</b>電容建模及優(yōu)化設計<b class='flag-5'>方案</b>

    求助,用python實現(xiàn)機器視覺識別硬件那個好?

    要做個東西,需要視覺識別
    發(fā)表于 10-30 07:50