半監(jiān)督學習(Semi-supervised learning,SSL)提供了一個強大的框架,可以在標記有限或昂貴的情況下利用無標記數(shù)據(jù)。近期,基于深度神經(jīng)網(wǎng)絡(luò)的SSL算法已被證明在標準基準任務(wù)上是成功的。然而,我們認為,這些基準無法解決這些算法在實際應(yīng)用程序中遇到的許多問題。在對各種廣泛使用的SSL技術(shù)進行了統(tǒng)一重新實現(xiàn)(unified reimplemention)之后,我們在一組旨在解決這些問題的實驗中對它們進行了測試。我們發(fā)現(xiàn):不使用無標記數(shù)據(jù)的簡單基線的性能經(jīng)常被低估;SSL方法對標記數(shù)據(jù)和無標記數(shù)據(jù)數(shù)量的敏感性不同;當無標記數(shù)據(jù)集包含類外的樣本時,其性能會大幅降低。為了幫助指導(dǎo)SSL研究在現(xiàn)實世界的實際應(yīng)用,我們開源了我們的統(tǒng)一重新實現(xiàn)和評估平臺。
深度神經(jīng)網(wǎng)絡(luò)已經(jīng)一再被表明,可以通過利用大量標記數(shù)據(jù),在某些監(jiān)督學習問題上達到人類水平或超越人類水平的性能。然而,這些成功有著不同的代價;也就是說,創(chuàng)建這些大型數(shù)據(jù)集通常需要大量的人力(以手工對樣本增添標記)、痛苦或風險(對于涉及侵入性測試的醫(yī)療數(shù)據(jù)集)或財務(wù)費用(用于雇傭標記標注者或構(gòu)建在特定領(lǐng)域收集數(shù)據(jù)所需的基礎(chǔ)設(shè)施)。對于許多實際問題和應(yīng)用程序來說,沒有足夠的資源來創(chuàng)建足夠大的標記數(shù)據(jù)集,這限制了深度學習技術(shù)的廣泛采用。
有一個具有吸引力的方法可以緩解這個問題,就是半監(jiān)督學習(semi-supervised learning,SSL)框架。與需要所有樣本都有標記的監(jiān)督學習(supervised learning)算法相反,SSL算法可以通過使用無標記樣本來提高其性能。SSL算法通常提供一種從無標記樣本中學習數(shù)據(jù)結(jié)構(gòu)的方法,這可以減輕對標記的需求。最近的一些研究結(jié)果表明,在某些情況下,SSL能夠接近純粹監(jiān)督學習的性能,即使在給定的數(shù)據(jù)集中有很大一部分的標記被丟棄。
每種SSL技術(shù)在CIFAR-10(六類動物)上的測試誤差,其中,在標記數(shù)據(jù)與無標記數(shù)據(jù)之間,存在不同程度的重疊。例如,“25%”是指來自不同類的4種無標記數(shù)據(jù)之一,而非來自標記數(shù)據(jù)的6類?!氨O(jiān)督”是指不使用無標記數(shù)據(jù)。陰影區(qū)域表示5次試驗的標準偏差。
這些最近的成功引出了一個自然的問題:SSL方法是否適用于“現(xiàn)實世界”的環(huán)境?在本文中,我們認為,當前評估SSL技術(shù)的實際方法并不能以令人滿意的方式解決這個問題。具體而言,采用大型標記數(shù)據(jù)集并丟棄許多標記的標準評估程序沒有考慮到SSL應(yīng)用程序的各種常見特征。我們的目標是通過提出一種新的實驗方法來更直接地解決這個問題,我們認為該方法能夠更好地測量對現(xiàn)實世界問題的適應(yīng)性。我們的一些發(fā)現(xiàn)包括:
?當給予調(diào)優(yōu)超參數(shù)(hyperparameter)相同預(yù)算時,使用SSL和使用標記數(shù)據(jù)之間的性能差距比通常記錄的差距要小。
?此外,使用無標記數(shù)據(jù)的大型、高度正則化的分類器的強大性能證明了在同一個基礎(chǔ)模型上評估不同SSL算法的重要性。
?在不同的標記數(shù)據(jù)集上對分類器進行預(yù)先訓練,然后僅在利益相關(guān)數(shù)據(jù)集中的標記數(shù)據(jù)上進行再訓練,這可以勝過所有我們研究過的SSL算法。
?當無標記數(shù)據(jù)包含與標記數(shù)據(jù)不同的類分布時,SSL技術(shù)的性能可能會急劇下降。
?不同的方法對標記數(shù)據(jù)和無標記數(shù)據(jù)數(shù)量的敏感度有很大不同。
?實際的小型驗證集(validation set)會妨礙對不同方法、模型和超參數(shù)設(shè)置進行可靠的比較。
在SVHN和CIFAR-10中,每種SSL技術(shù)的測試誤差都隨標記數(shù)據(jù)量的變化而變化。陰影區(qū)域表示5次實驗的標準偏差。X軸采用對數(shù)形式表示
此外,與機器學習中的許多領(lǐng)域一樣,對超參數(shù)、模型結(jié)構(gòu)及訓練的微小調(diào)整,都會對方法的直接比較構(gòu)成混淆,并對結(jié)果產(chǎn)生重大影響。為了改善這一問題,我們提出了關(guān)于各種SSL方法的統(tǒng)一的、模塊化的重新實現(xiàn),這些方法也使得我們的評估技術(shù)成為現(xiàn)實。
結(jié)論與建議
我們的實驗提供了有力的證據(jù),證明SSL的標準評估實踐是不現(xiàn)實的。為了更好地反應(yīng)在現(xiàn)實世界中的應(yīng)用,我們應(yīng)該對評估進行哪些改進呢?我們對SSL算法的評估有以下建議:
?在比較不同的SSL方法時,使用完全相同的基礎(chǔ)模型。因為模型結(jié)構(gòu)或?qū)崿F(xiàn)細節(jié)的差異會對結(jié)果產(chǎn)生很大影響。
?報告需認真評估對完全監(jiān)督精確度和遷移學習性能的要求,以將其作為基準。SSL的目標應(yīng)該定為,顯著優(yōu)于完全監(jiān)督環(huán)境下的綜合表現(xiàn)。
?對類分布失協(xié)情況的系統(tǒng)性變化的結(jié)果進行報告。 我們表明,當采用是不同類的無標記數(shù)據(jù),而非標記數(shù)據(jù)時,我們對SSL技術(shù)的研究受到了影響。據(jù)我們了解,這一現(xiàn)實問題被嚴重忽略了。
?在評估性能時,應(yīng)調(diào)整標記數(shù)據(jù)和無標記數(shù)據(jù)的數(shù)量。理想的SSL算法即使在標記數(shù)據(jù)很少的情況下也是非常有效的,并且它還可以從額外的無標記數(shù)據(jù)中受益。具體而言,我們建議將SVHN和SVHN-extract相結(jié)合,來測試大型無標記數(shù)據(jù)機制的性能。
?注意,不要在非真實的大型驗證集上過度調(diào)節(jié)超參數(shù)。如果驗證集非常小,那么為了獲得理想的性能而在每個模型或每個任務(wù)基礎(chǔ)上,對超參數(shù)進行重大調(diào)整的SSL方法將不可用。
我們的研究還表明,面對以下情況時,SSL或許是研究人員最正確的選擇:
?當沒有來自類似域的高質(zhì)量標記數(shù)據(jù)集用于微調(diào)時。
?當標記數(shù)據(jù)是通過獨立同分布(i.i.d)采樣,從無標記數(shù)據(jù)集中采集得到,而不是從不同分布中收集得來時。
?當標記的數(shù)據(jù)集足夠大,能夠準確計算驗證精確度時(這是進行模型選擇和超參數(shù)調(diào)優(yōu)所必須的條件)。
近來,SSL收獲了巨大的成功。我們希望我們的研究成果,以及公開可用的統(tǒng)一實現(xiàn),能夠讓成功之花在現(xiàn)實世界中遍地綻放。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4740瀏覽量
100430 -
SSL
+關(guān)注
關(guān)注
0文章
124瀏覽量
25709 -
深度學習
+關(guān)注
關(guān)注
73文章
5468瀏覽量
120903
原文標題:該如何對「半監(jiān)督學習算法」實際性應(yīng)用進行評估?Google給出了新答案
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論