0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SSL方法是否適用于“現(xiàn)實世界”的環(huán)境?

mK5P_AItists ? 來源:未知 ? 作者:李倩 ? 2018-04-27 10:03 ? 次閱讀

半監(jiān)督學習(Semi-supervised learning,SSL)提供了一個強大的框架,可以在標記有限或昂貴的情況下利用無標記數(shù)據(jù)。近期,基于深度神經(jīng)網(wǎng)絡(luò)的SSL算法已被證明在標準基準任務(wù)上是成功的。然而,我們認為,這些基準無法解決這些算法在實際應(yīng)用程序中遇到的許多問題。在對各種廣泛使用的SSL技術(shù)進行了統(tǒng)一重新實現(xiàn)(unified reimplemention)之后,我們在一組旨在解決這些問題的實驗中對它們進行了測試。我們發(fā)現(xiàn):不使用無標記數(shù)據(jù)的簡單基線的性能經(jīng)常被低估;SSL方法對標記數(shù)據(jù)和無標記數(shù)據(jù)數(shù)量的敏感性不同;當無標記數(shù)據(jù)集包含類外的樣本時,其性能會大幅降低。為了幫助指導(dǎo)SSL研究在現(xiàn)實世界的實際應(yīng)用,我們開源了我們的統(tǒng)一重新實現(xiàn)和評估平臺。

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)一再被表明,可以通過利用大量標記數(shù)據(jù),在某些監(jiān)督學習問題上達到人類水平或超越人類水平的性能。然而,這些成功有著不同的代價;也就是說,創(chuàng)建這些大型數(shù)據(jù)集通常需要大量的人力(以手工對樣本增添標記)、痛苦或風險(對于涉及侵入性測試的醫(yī)療數(shù)據(jù)集)或財務(wù)費用(用于雇傭標記標注者或構(gòu)建在特定領(lǐng)域收集數(shù)據(jù)所需的基礎(chǔ)設(shè)施)。對于許多實際問題和應(yīng)用程序來說,沒有足夠的資源來創(chuàng)建足夠大的標記數(shù)據(jù)集,這限制了深度學習技術(shù)的廣泛采用。

有一個具有吸引力的方法可以緩解這個問題,就是半監(jiān)督學習(semi-supervised learning,SSL)框架。與需要所有樣本都有標記的監(jiān)督學習(supervised learning)算法相反,SSL算法可以通過使用無標記樣本來提高其性能。SSL算法通常提供一種從無標記樣本中學習數(shù)據(jù)結(jié)構(gòu)的方法,這可以減輕對標記的需求。最近的一些研究結(jié)果表明,在某些情況下,SSL能夠接近純粹監(jiān)督學習的性能,即使在給定的數(shù)據(jù)集中有很大一部分的標記被丟棄。

每種SSL技術(shù)在CIFAR-10(六類動物)上的測試誤差,其中,在標記數(shù)據(jù)與無標記數(shù)據(jù)之間,存在不同程度的重疊。例如,“25%”是指來自不同類的4種無標記數(shù)據(jù)之一,而非來自標記數(shù)據(jù)的6類?!氨O(jiān)督”是指不使用無標記數(shù)據(jù)。陰影區(qū)域表示5次試驗的標準偏差。

這些最近的成功引出了一個自然的問題:SSL方法是否適用于“現(xiàn)實世界”的環(huán)境?在本文中,我們認為,當前評估SSL技術(shù)的實際方法并不能以令人滿意的方式解決這個問題。具體而言,采用大型標記數(shù)據(jù)集并丟棄許多標記的標準評估程序沒有考慮到SSL應(yīng)用程序的各種常見特征。我們的目標是通過提出一種新的實驗方法來更直接地解決這個問題,我們認為該方法能夠更好地測量對現(xiàn)實世界問題的適應(yīng)性。我們的一些發(fā)現(xiàn)包括:

?當給予調(diào)優(yōu)超參數(shù)(hyperparameter)相同預(yù)算時,使用SSL和使用標記數(shù)據(jù)之間的性能差距比通常記錄的差距要小。

?此外,使用無標記數(shù)據(jù)的大型、高度正則化的分類器的強大性能證明了在同一個基礎(chǔ)模型上評估不同SSL算法的重要性。

?在不同的標記數(shù)據(jù)集上對分類器進行預(yù)先訓練,然后僅在利益相關(guān)數(shù)據(jù)集中的標記數(shù)據(jù)上進行再訓練,這可以勝過所有我們研究過的SSL算法。

?當無標記數(shù)據(jù)包含與標記數(shù)據(jù)不同的類分布時,SSL技術(shù)的性能可能會急劇下降。

?不同的方法對標記數(shù)據(jù)和無標記數(shù)據(jù)數(shù)量的敏感度有很大不同。

?實際的小型驗證集(validation set)會妨礙對不同方法、模型和超參數(shù)設(shè)置進行可靠的比較。

在SVHN和CIFAR-10中,每種SSL技術(shù)的測試誤差都隨標記數(shù)據(jù)量的變化而變化。陰影區(qū)域表示5次實驗的標準偏差。X軸采用對數(shù)形式表示

此外,與機器學習中的許多領(lǐng)域一樣,對超參數(shù)、模型結(jié)構(gòu)及訓練的微小調(diào)整,都會對方法的直接比較構(gòu)成混淆,并對結(jié)果產(chǎn)生重大影響。為了改善這一問題,我們提出了關(guān)于各種SSL方法的統(tǒng)一的、模塊化的重新實現(xiàn),這些方法也使得我們的評估技術(shù)成為現(xiàn)實。

結(jié)論與建議

我們的實驗提供了有力的證據(jù),證明SSL的標準評估實踐是不現(xiàn)實的。為了更好地反應(yīng)在現(xiàn)實世界中的應(yīng)用,我們應(yīng)該對評估進行哪些改進呢?我們對SSL算法的評估有以下建議:

?在比較不同的SSL方法時,使用完全相同的基礎(chǔ)模型。因為模型結(jié)構(gòu)或?qū)崿F(xiàn)細節(jié)的差異會對結(jié)果產(chǎn)生很大影響。

?報告需認真評估對完全監(jiān)督精確度和遷移學習性能的要求,以將其作為基準。SSL的目標應(yīng)該定為,顯著優(yōu)于完全監(jiān)督環(huán)境下的綜合表現(xiàn)。

?對類分布失協(xié)情況的系統(tǒng)性變化的結(jié)果進行報告。 我們表明,當采用是不同類的無標記數(shù)據(jù),而非標記數(shù)據(jù)時,我們對SSL技術(shù)的研究受到了影響。據(jù)我們了解,這一現(xiàn)實問題被嚴重忽略了。

?在評估性能時,應(yīng)調(diào)整標記數(shù)據(jù)和無標記數(shù)據(jù)的數(shù)量。理想的SSL算法即使在標記數(shù)據(jù)很少的情況下也是非常有效的,并且它還可以從額外的無標記數(shù)據(jù)中受益。具體而言,我們建議將SVHN和SVHN-extract相結(jié)合,來測試大型無標記數(shù)據(jù)機制的性能。

?注意,不要在非真實的大型驗證集上過度調(diào)節(jié)超參數(shù)。如果驗證集非常小,那么為了獲得理想的性能而在每個模型或每個任務(wù)基礎(chǔ)上,對超參數(shù)進行重大調(diào)整的SSL方法將不可用。

我們的研究還表明,面對以下情況時,SSL或許是研究人員最正確的選擇:

?當沒有來自類似域的高質(zhì)量標記數(shù)據(jù)集用于微調(diào)時。

?當標記數(shù)據(jù)是通過獨立同分布(i.i.d)采樣,從無標記數(shù)據(jù)集中采集得到,而不是從不同分布中收集得來時。

?當標記的數(shù)據(jù)集足夠大,能夠準確計算驗證精確度時(這是進行模型選擇和超參數(shù)調(diào)優(yōu)所必須的條件)。

近來,SSL收獲了巨大的成功。我們希望我們的研究成果,以及公開可用的統(tǒng)一實現(xiàn),能夠讓成功之花在現(xiàn)實世界中遍地綻放。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4740

    瀏覽量

    100430
  • SSL
    SSL
    +關(guān)注

    關(guān)注

    0

    文章

    124

    瀏覽量

    25709
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5468

    瀏覽量

    120903

原文標題:該如何對「半監(jiān)督學習算法」實際性應(yīng)用進行評估?Google給出了新答案

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    是否適用于CYBT-343026-01的SPICE型號?

    是否適用于 CYBT-343026-01 的 SPICE 型號? 該模塊將在本質(zhì)安全應(yīng)用中使用,并且需要知道內(nèi)部電容/電感。
    發(fā)表于 03-01 07:56

    LMP91051是否適用于Pyreos的雙通道?

    LMP91051是否適用于Pyreos的雙通道(兩顆sensor集成在同一封裝中,共用電源和地)熱釋電紅外傳感器
    發(fā)表于 08-19 07:17

    適用于高性能運算的處理器

    三星八核64位高性能處理器適用于對運算要求較高的設(shè)備.如機器人,虛擬現(xiàn)實,增加現(xiàn)實
    發(fā)表于 03-14 15:39

    FMC是否適用于ML507?

    適用于ML507。我可以在此鏈接中使用任何ADC用于ML507嗎?我試圖運行的系統(tǒng)應(yīng)該在200-400MHz左右。謝謝。
    發(fā)表于 06-12 16:35

    適用于所有atmega328p項目的通用板

    描述適用于所有 atmega328p 項目的通用板這個項目在我們的現(xiàn)實世界中有很多用途,它用于水位控制器,基于gsm的項目,7段接口,遠程控制,可連接Nrf24l01模塊和許多其他傳感
    發(fā)表于 08-29 07:43

    STM32L073RZ是否適用于近地軌道運行環(huán)境?

    我正在考慮將 STM32L073RZ 用于近地軌道應(yīng)用。此 MCU 是否適用于以下操作環(huán)境?海拔 590 – 630 公里。溫度環(huán)境范圍為-
    發(fā)表于 02-07 07:12

    是否適用于LPC4078的SVD文件?

    是否適用于 LPC4078 的 SVD 文件?我似乎無法在任何地方找到它。是否有一個集中放置所有 .SVD 文件的地方?
    發(fā)表于 03-29 08:21

    是否適用于LPC4357的替代屏幕?

    看起來是一個顯而易見的選擇。 我看到它使用 K43WQA 屏幕,但這些屏幕并不廣泛,我想選擇屏幕尺寸,以及更容易獲得的屏幕尺寸。 是否適用于 LPC4357 的替代屏幕?我不知道界面是什么。如果它是標準界面,那么我想我可以選擇不同的屏幕尺寸來使用?
    發(fā)表于 06-02 07:57

    是否適用于LS1046ARDB上的Secure JTAG的任何應(yīng)用說明?

    我想知道是否適用于 LS1046ARDB 上的 Secure JTAG 的任何應(yīng)用說明,就像適用于 i.MXRT10XX 系列的應(yīng)用說明一樣,例如適用于 i.MXRT10xx.pdf
    發(fā)表于 06-08 09:05

    泰科電子推出適用于LED印刷電路板上全新的IDC SSL連接

    泰科電子推出適用于LED印刷電路板上全新的IDC SSL連接器   日前,泰科電子宣布推出全新IDC SSL連接器,用于實現(xiàn)LED印刷電路板(PCB)上散線的快速、免工具刺破式連接。
    發(fā)表于 04-20 10:16 ?638次閱讀

    基于一種適用于SSL產(chǎn)品的LED控制電路設(shè)計

    方法適用于基于LED的控制電路和散熱器的SSL產(chǎn)品,適用于燈具形式(包含光源裝置)以及集成的LED燈,即這些設(shè)備只需要AC或DC電源即可運行;不
    發(fā)表于 11-27 16:36 ?1141次閱讀
    基于一種<b class='flag-5'>適用于</b><b class='flag-5'>SSL</b>產(chǎn)品的LED控制電路設(shè)計

    適用于惡劣環(huán)境的產(chǎn)品

    適用于惡劣環(huán)境的產(chǎn)品
    發(fā)表于 05-27 20:30 ?9次下載
    <b class='flag-5'>適用于</b>惡劣<b class='flag-5'>環(huán)境</b>的產(chǎn)品

    工業(yè)加固三防平板適用于哪些環(huán)境

    本期上海研強給大家分享的是工業(yè)加固三防平板適用于哪些環(huán)境,希望看完本篇文章您能三防加固平板有一個全新的認識!
    發(fā)表于 07-12 16:17 ?822次閱讀

    UltraFAST設(shè)計方法指南(適用于Vivado Design Suite)

    電子發(fā)燒友網(wǎng)站提供《UltraFAST設(shè)計方法指南(適用于Vivado Design Suite).pdf》資料免費下載
    發(fā)表于 09-13 10:18 ?0次下載
    UltraFAST設(shè)計<b class='flag-5'>方法</b>指南(<b class='flag-5'>適用于</b>Vivado Design Suite)

    UltraFAST設(shè)計方法指南(適用于Vivado Design Suite)

    電子發(fā)燒友網(wǎng)站提供《UltraFAST設(shè)計方法指南(適用于Vivado Design Suite).pdf》資料免費下載
    發(fā)表于 09-15 09:56 ?1次下載
    UltraFAST設(shè)計<b class='flag-5'>方法</b>指南(<b class='flag-5'>適用于</b>Vivado Design Suite)