我們對(duì)機(jī)器學(xué)習(xí)的發(fā)展認(rèn)識(shí),很大程度上取決于少數(shù)幾個(gè)標(biāo)準(zhǔn)基準(zhǔn),比如CIFAR-10,ImageNet或MuJoCo。
近年來人工智能發(fā)展,大的,比如一項(xiàng)又一項(xiàng)“超越人類水平”的進(jìn)步,以及小的、甚至幾乎每天都在發(fā)生的(這要感謝Arxiv),比如在各種論文中不斷被刷新的“state-of-the-art”,無不讓人感嘆領(lǐng)域的蓬勃。
但是,實(shí)際情況或許并沒有這么美好。
一項(xiàng)伯克利和MIT合作的新研究,對(duì)過去近十年中提出的一些經(jīng)典分類器(比如VGG和ResNet)進(jìn)行再測(cè)試后發(fā)現(xiàn),由于測(cè)試集過擬合,很多分類器的精度實(shí)際并沒有宣稱的那么高;在新的數(shù)據(jù)集上測(cè)試結(jié)果表明,這些分類器的精度普遍都有下降,幅度4%~10%不等。
研究者表示,這一結(jié)果可以被視為證據(jù),證明模型的精度這個(gè)數(shù)字是不可靠的,并且容易受到數(shù)據(jù)分布中微小的自然變化的影響。
這項(xiàng)新的研究也提出了一個(gè)值得反思的問題——我們目前用來衡量機(jī)器學(xué)習(xí)進(jìn)展的手段和方法,究竟有多可靠?
重復(fù)使用相同的測(cè)試集,無法推廣到新數(shù)據(jù)
作者在論文中寫道,在過去五年里,機(jī)器學(xué)習(xí)已經(jīng)成為一個(gè)實(shí)驗(yàn)領(lǐng)域。在深度學(xué)習(xí)的推動(dòng)下,大多數(shù)發(fā)表的論文都采用了同一種套路,那就是看一種新的方法在幾個(gè)關(guān)鍵基準(zhǔn)上性能有多少提升。換句話說,就是簡(jiǎn)單粗暴地對(duì)比數(shù)值,很少有人去解釋為什么。
而在對(duì)比數(shù)值的時(shí)候,大多數(shù)研究的評(píng)估都取決于少數(shù)幾個(gè)標(biāo)準(zhǔn)的基準(zhǔn),例如CIFAR-10、ImageNet或MuJoCo。不僅如此,由于Ground truth的數(shù)據(jù)分布一般很難得到,所以研究人員只能在單獨(dú)的測(cè)試集上評(píng)估模型的性能。
“現(xiàn)在,在整個(gè)算法和模型設(shè)計(jì)過程中,多次重復(fù)使用相同的測(cè)試集的做法已經(jīng)被普遍接受。盡管將新模型與以前的結(jié)果進(jìn)行比較是很自然的想法,但顯然目前的研究方法破壞了分類器獨(dú)立于測(cè)試集這一關(guān)鍵假設(shè)。”
這種不匹配帶來了明顯的危害,因?yàn)檠芯咳藛T可以很容易地設(shè)計(jì)出只能在特定測(cè)試集上運(yùn)行良好,但實(shí)際上無法推廣到新數(shù)據(jù)的模型。
CIFAR-10可重復(fù)性實(shí)驗(yàn):VGG、ResNet等經(jīng)典模型精度普遍下降
為了審視這種現(xiàn)象造成的后果,研究人員對(duì)CIFAR-10以及相關(guān)分類器做了再調(diào)查。研究的主要目標(biāo)是,衡量新進(jìn)的分類器在泛化到來自相同分布的、未知新數(shù)據(jù)時(shí)能做得多好。
選擇標(biāo)準(zhǔn)CIFAR-10數(shù)據(jù)集,是因?yàn)樗该鞯膭?chuàng)建過程使其特別適合于這個(gè)任務(wù)。此外,CIFAR-10已經(jīng)成為近10年來研究的熱點(diǎn),在調(diào)查適應(yīng)性(adaptivity)是否導(dǎo)致過擬合這個(gè)問題上,它是一個(gè)很好的測(cè)試用例。
在實(shí)驗(yàn)中,研究人員首先用新的、確定是模型沒有見過的大約2000幅圖像,制作了一個(gè)新的測(cè)試集,并將新測(cè)試集的子類分布與原始 CIFAR-10 數(shù)據(jù)集仔細(xì)地做匹配,盡可能保持一致。
然后,在新測(cè)試集上評(píng)估了30個(gè)圖像分類器的性能,包括經(jīng)典的VGG、ResNet,最近新提出的ResNeXt、PyramidNet、DenseNet,以及在ICLR 2018發(fā)布的Shake-Drop,這個(gè)Shake-Drop正則化方法結(jié)合以前的分類器,取得了目前的state-of-art。
結(jié)果如下表所示。原始CIFAR-10測(cè)試集和新測(cè)試集的模型精度,Gap是兩者精度的差異。ΔRank表示排名的變化,比如“-2”意味著在新測(cè)試集中的排名下降了兩個(gè)位置。
由結(jié)果可知,新測(cè)試集上模型的精度相比原始測(cè)試集有明顯下降。例如,VGG和ResNet這兩個(gè)模型在原始數(shù)據(jù)集上準(zhǔn)確率為93%,而在新測(cè)試集上降為了85%左右。此外,作者還表示,他們發(fā)現(xiàn)現(xiàn)有測(cè)試集上模型的性能相比新測(cè)試集更加具有預(yù)測(cè)性。
對(duì)于出現(xiàn)這種結(jié)果的原因,作者設(shè)定了多個(gè)假設(shè)并一一進(jìn)行了討論,除了統(tǒng)計(jì)誤差、調(diào)參等之外,主要還是過擬合。
作者表示,他們的結(jié)果展現(xiàn)了當(dāng)前機(jī)器學(xué)習(xí)進(jìn)展令人意外的一面。盡管CIFAR-10測(cè)試集已經(jīng)被不斷適應(yīng)(adapting)了很多年,但這種趨勢(shì)并沒有停滯。表現(xiàn)最好的模型仍然是最近提出的Shake-Shake網(wǎng)絡(luò)(Cutout正則化)。而且,在新的測(cè)試集置上,Shake-Shake比標(biāo)準(zhǔn)ResNet的優(yōu)勢(shì)從4%增加到8%。這表明,瞄準(zhǔn)一個(gè)測(cè)試集猛攻的研究方法對(duì)過擬合而言是十分有效的。
同時(shí),這個(gè)結(jié)果也對(duì)當(dāng)前分類器的魯棒性提出了質(zhì)疑。盡管新數(shù)據(jù)集只做了微小的改變(分布轉(zhuǎn)移),但現(xiàn)有的被廣泛使用的模型,分類準(zhǔn)確性普遍顯著下降。例如,前面提到的VGG和ResNet的精度損失對(duì)應(yīng)于CIFAR-10的多年進(jìn)展。
作者特別指出,他們的實(shí)驗(yàn)引起的分布轉(zhuǎn)移(distributional shift)既不是對(duì)抗性的(adversarial),也不是不同數(shù)據(jù)源導(dǎo)致的結(jié)果。因此,即使在良性環(huán)境中,分布轉(zhuǎn)移也會(huì)帶來嚴(yán)峻的挑戰(zhàn),研究人員需要思考,目前的模型真正能泛化到什么程度。
機(jī)器學(xué)習(xí)研究也需要注意可重復(fù)性
Python Machine Learning 一書作者Sebastian Raschka評(píng)論這項(xiàng)研究認(rèn)為,它再次提醒機(jī)器學(xué)習(xí)研究人員注意測(cè)試集重復(fù)使用(以及違背獨(dú)立性)的問題。
谷歌大腦研究科學(xué)家、Twitter賬戶hardmaru表示,對(duì)機(jī)器學(xué)習(xí)研究進(jìn)行可靠評(píng)估的方法十分重要。他期待見到有關(guān)文本和翻譯的類似研究,并查看PTB,wikitext,enwik8,WMT'14 EN-FR,EN-DE等結(jié)構(gòu)如何從相同分布轉(zhuǎn)移到新的測(cè)試集。
不過,hardmaru表示,如果在PTB上得到類似的結(jié)果,那么對(duì)于深度學(xué)習(xí)研究界來說實(shí)際上是好事,因?yàn)樵赑TB這個(gè)小數(shù)據(jù)集上進(jìn)行超級(jí)優(yōu)化的典型過程,確實(shí)會(huì)讓人發(fā)現(xiàn)泛化性能更好的新方法。
作者表示,未來實(shí)驗(yàn)應(yīng)該探索在其他數(shù)據(jù)集(例如ImageNet)和其他任務(wù)(如語(yǔ)言建模)上是否同樣對(duì)過擬合具有復(fù)原性。此外,我們應(yīng)該了解哪些自然發(fā)生的分布變化對(duì)圖像分類器具有挑戰(zhàn)性。
為了真正理解泛化問題,更多的研究應(yīng)該收集有洞察力的新數(shù)據(jù)并評(píng)估現(xiàn)有算法在這些數(shù)據(jù)上的性能表現(xiàn)。類似于招募新參與者進(jìn)行醫(yī)學(xué)或心理學(xué)的可重復(fù)性實(shí)驗(yàn),機(jī)器學(xué)習(xí)研究也需要對(duì)模型性能的可重復(fù)多做研究。
-
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23312 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131848
原文標(biāo)題:十年機(jī)器學(xué)習(xí)結(jié)果不可靠?伯克利&MIT研究質(zhì)疑了30個(gè)經(jīng)典模型
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論