谷歌研究人員最新提出了一種自動(dòng)數(shù)據(jù)增強(qiáng)方法,受AutoML的啟發(fā),他們嘗試將數(shù)據(jù)增強(qiáng)的過程也實(shí)現(xiàn)自動(dòng)化,使用強(qiáng)化學(xué)習(xí)從數(shù)據(jù)本身中找出最佳圖像轉(zhuǎn)換策略,在不依賴于生成新的和不斷擴(kuò)展的數(shù)據(jù)集的情況下,提高了計(jì)算機(jī)視覺模型的性能。
計(jì)算機(jī)視覺深度學(xué)習(xí)的成功,可部分歸因于擁有大量帶標(biāo)記的訓(xùn)練數(shù)據(jù)——數(shù)據(jù)的質(zhì)、量和多樣性提高,模型的性能也通常會(huì)增強(qiáng)。但是,要收集足夠多的高質(zhì)量數(shù)據(jù)訓(xùn)練模型來實(shí)現(xiàn)良好的性能,通常非常困難。
解決這個(gè)問題的一種方法,是將圖像對(duì)稱(image symmetries)硬編碼為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),或者,讓專家手動(dòng)設(shè)計(jì)數(shù)據(jù)增強(qiáng)方法,比如旋轉(zhuǎn)和翻轉(zhuǎn)圖像,這些都是訓(xùn)練性能良好的視覺模型常會(huì)用到的方法。
但是,直到最近,人們很少關(guān)注如何利用機(jī)器學(xué)習(xí)來自動(dòng)增強(qiáng)現(xiàn)有數(shù)據(jù)。谷歌此前推出了AutoML,代替人為設(shè)計(jì)的系統(tǒng)組件,讓神經(jīng)網(wǎng)絡(luò)自動(dòng)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)和優(yōu)化器,得到了良好的結(jié)果。受此啟發(fā),谷歌研究人員不禁問自己:是否也可以讓數(shù)據(jù)增強(qiáng)過程自動(dòng)完成?
在最新公布的論文《AutoAugment:從數(shù)據(jù)學(xué)習(xí)增強(qiáng)策略》(AutoAugment: Learning Augmentation Policies from Data)中,谷歌的研究人員探索了一種強(qiáng)化學(xué)習(xí)算法,增加了現(xiàn)有訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)的數(shù)量和多樣性。直觀地說,數(shù)據(jù)增強(qiáng)用于教會(huì)模型有關(guān)數(shù)據(jù)域中的圖像不變性(image invariances),讓神經(jīng)網(wǎng)絡(luò)對(duì)這些重要的對(duì)稱性保持不變(invariant),從而改善其性能。
研究人員表示,與以前使用手工設(shè)計(jì)數(shù)據(jù)增強(qiáng)策略的先進(jìn)深度學(xué)習(xí)模型不同,他們使用強(qiáng)化學(xué)習(xí)從數(shù)據(jù)本身中找出最佳圖像轉(zhuǎn)換策略。結(jié)果在不依賴于生成新的和不斷擴(kuò)展的數(shù)據(jù)集的情況下,提高了計(jì)算機(jī)視覺模型的性能。
訓(xùn)練數(shù)據(jù)的增強(qiáng)
數(shù)據(jù)增強(qiáng)的思路很簡單:圖像具有許多對(duì)稱性,這些對(duì)稱性不會(huì)改變圖像中存在的信息。例如,狗的鏡面反射仍然是狗。這些“不變性”中的一些對(duì)人類來說顯而易見,但有很多人類很難注意到。例如,mixup方法,通過在訓(xùn)練期間將圖像置于彼此之上來增強(qiáng)數(shù)據(jù),從而產(chǎn)生改善神經(jīng)網(wǎng)絡(luò)性能的數(shù)據(jù)。
左圖:來自ImageNet數(shù)據(jù)集的原始圖像。 右圖:通過常用數(shù)據(jù)增強(qiáng)方法,水平翻轉(zhuǎn)后的相同的圖像。
AutoAugment是為計(jì)算機(jī)視覺數(shù)據(jù)集設(shè)計(jì)自定義數(shù)據(jù)增強(qiáng)策略的自動(dòng)方式,例如,AutoAugment能指導(dǎo)基本圖像轉(zhuǎn)換操作的選擇,例如水平/垂直翻轉(zhuǎn)圖像,旋轉(zhuǎn)圖像,更改圖像顏色等。AutoAugment不僅可以預(yù)測要合并的圖像轉(zhuǎn)換,還可以預(yù)測所使用轉(zhuǎn)換的每個(gè)圖像的概率和大小,從而不總是以相同的方式操作圖像。AutoAugment能夠從2.9 x 10^32大的搜索空間中,選擇出圖像轉(zhuǎn)換的最佳策略。
AutoAugment 根據(jù)所運(yùn)行的數(shù)據(jù)集學(xué)習(xí)不同的轉(zhuǎn)換。例如,對(duì)于包含數(shù)字自然場景的街景(SVHN)圖像,AutoAugment 的重點(diǎn)是像剪切和平移這樣的幾何變換,它們代表了數(shù)據(jù)集中常見的失真現(xiàn)象。此外,由于世界上不同的建筑和房屋編號(hào)材料的多樣性,AutoAugment機(jī)構(gòu)已經(jīng)學(xué)會(huì)了完全反轉(zhuǎn)原始SVHN數(shù)據(jù)集中自然出現(xiàn)的顏色。
左:來自SVHN數(shù)據(jù)集的原始圖像。右:相同的圖像AutoAugment。在這種情況下,最優(yōu)轉(zhuǎn)換是剪切圖像并反轉(zhuǎn)像素顏色的結(jié)果。
在CIFAR-10和ImageNet上,AutoAugment 不使用剪切,因?yàn)檫@些數(shù)據(jù)集通常不包含剪切對(duì)象的圖像,也不完全反轉(zhuǎn)顏色,因?yàn)檫@些轉(zhuǎn)換將導(dǎo)致不真實(shí)的圖像。相反,AutoAugment r的重點(diǎn)是稍微調(diào)整顏色和色調(diào)分布,同時(shí)保持一般的色彩屬性。這說明在CIFAR-10和ImageNet中對(duì)象的實(shí)際顏色是重要的,而在SVHN中只有相對(duì)的顏色是重要的。
結(jié)果
我們的AutoAugment 算法發(fā)現(xiàn)了一些最著名的計(jì)算機(jī)視覺數(shù)據(jù)集的增強(qiáng)策略,這些數(shù)據(jù)集被納入到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,會(huì)產(chǎn)生最先進(jìn)的精確性。通過增強(qiáng)ImageNet數(shù)據(jù),我們獲得了83.54% top1精度的新的最新精度,在CIFAR10上我們獲得了1.48%的錯(cuò)誤率,這比科學(xué)家設(shè)計(jì)的默認(rèn)數(shù)據(jù)增強(qiáng)提高了0.83%。在SVHN上,我們將最先進(jìn)的誤差從1.30%提高到1.02%。重要的是,AutoAugment策略被發(fā)現(xiàn)是可轉(zhuǎn)移的——為ImageNet數(shù)據(jù)集找到的策略也可以應(yīng)用于其他視覺數(shù)據(jù)集(斯坦福汽車、FGVC-Aircraft等),從而改善神經(jīng)網(wǎng)絡(luò)的性能。
我們很高興地看到,我們的AutoAugment算法在許多不同的競爭性計(jì)算機(jī)視覺數(shù)據(jù)集上都達(dá)到了這樣的性能水平,并期待著未來在更多的計(jì)算機(jī)視覺任務(wù)中,甚至在音頻處理或語言模型等其他領(lǐng)域,都能應(yīng)用這種技術(shù)。在本文的附錄中包含了性能最好的策略,以便研究人員可以使用它們來改進(jìn)他們?cè)谙嚓P(guān)視覺任務(wù)上的模型。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4749瀏覽量
100435 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1695瀏覽量
45905 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132330
原文標(biāo)題:谷歌放大招!數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)自動(dòng)化
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論