0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

針對(duì)線性回歸模型和深度學(xué)習(xí)模型,介紹了確定訓(xùn)練數(shù)據(jù)集規(guī)模的方法

電子工程師 ? 來(lái)源:lq ? 2019-05-05 11:03 ? 次閱讀

【導(dǎo)讀】對(duì)于機(jī)器學(xué)習(xí)而言,獲取數(shù)據(jù)的成本有時(shí)會(huì)非常昂貴,因此為模型選擇一個(gè)合理的訓(xùn)練數(shù)據(jù)規(guī)模,對(duì)于機(jī)器學(xué)習(xí)是至關(guān)重要的。在本文中,作者針對(duì)線性回歸模型和深度學(xué)習(xí)模型,分別介紹了確定訓(xùn)練數(shù)據(jù)集規(guī)模的方法。

數(shù)據(jù)是否會(huì)成為新時(shí)代的“原油”是人們近來(lái)常常爭(zhēng)論的一個(gè)問(wèn)題。

無(wú)論爭(zhēng)論結(jié)果如何,可以確定的是,在機(jī)器學(xué)前期,數(shù)據(jù)獲取成本可能十分高昂(人力工時(shí)、授權(quán)費(fèi)、設(shè)備運(yùn)行成本等)。因此,對(duì)于機(jī)器學(xué)習(xí)的一個(gè)非常關(guān)鍵的問(wèn)題是,確定能使模型達(dá)到某個(gè)特定目標(biāo)(如分類器精度)所需要的訓(xùn)練數(shù)據(jù)規(guī)模。

在本文中,我們將對(duì)經(jīng)驗(yàn)性結(jié)果和研究文獻(xiàn)中關(guān)于訓(xùn)練數(shù)據(jù)規(guī)模的討論進(jìn)行簡(jiǎn)明扼要的綜述,涉及的機(jī)器學(xué)習(xí)模型包括回歸分析等基本模型,以及復(fù)雜模型如深度學(xué)習(xí)。訓(xùn)練數(shù)據(jù)規(guī)模在文獻(xiàn)中也稱樣本復(fù)雜度,本文將對(duì)如下內(nèi)容進(jìn)行介紹:

針對(duì)線性回歸和計(jì)算機(jī)視覺(jué)任務(wù),給出基于經(jīng)驗(yàn)確定訓(xùn)練數(shù)據(jù)規(guī)模的限制;

討論如何確定樣本大小,以獲得更好的假設(shè)檢驗(yàn)結(jié)果。雖然這是一個(gè)統(tǒng)計(jì)問(wèn)題,但是該問(wèn)題和確定機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)集規(guī)模的問(wèn)題很相似,因此在這里一并討論;

對(duì)影響訓(xùn)練數(shù)據(jù)集規(guī)模的因素,給出基于統(tǒng)計(jì)理論學(xué)習(xí)的結(jié)果;

探討訓(xùn)練集增大對(duì)模型表現(xiàn)提升的影響,并著重分析深度學(xué)習(xí)中的情形;

給出一種在分類任務(wù)中確定訓(xùn)練數(shù)據(jù)集大小的方法;

探討增大訓(xùn)練集是否是應(yīng)對(duì)不平衡數(shù)據(jù)集的最好方式。

基于經(jīng)驗(yàn)確定訓(xùn)練集規(guī)模的限制

首先,我們依據(jù)使用的模型類型,探討一些廣泛使用的經(jīng)驗(yàn)性方法:

回歸分析:依據(jù)統(tǒng)計(jì)學(xué)中的“十分之一”經(jīng)驗(yàn)法則(one-in-ten rule),每個(gè)預(yù)測(cè)器都需要使用 10 個(gè)實(shí)例訓(xùn)練。這種經(jīng)驗(yàn)法則還有其他版本,例如用于解決回歸系數(shù)縮減問(wèn)題的“二十分之一”規(guī)則(one-in-twenty rule)。最近,《Sample Size For Binary Logistic Prediction Models: Beyond Events Per Variable Criteria》一文中還提出了一種有趣的二元邏輯回歸變體。在該文中,作者通過(guò)預(yù)測(cè)器中變量的個(gè)數(shù)、總樣本量,以及正樣本量與總樣本量的比值,對(duì)訓(xùn)練數(shù)據(jù)規(guī)模進(jìn)行了估計(jì)。

計(jì)算機(jī)視覺(jué):對(duì)于利用深度學(xué)習(xí)的圖像分類問(wèn)題,根據(jù)“經(jīng)驗(yàn)法則”,建議每一個(gè)類別收集 1000 張圖像。如果使用預(yù)訓(xùn)練模型,數(shù)據(jù)集的規(guī)模則可以大幅減少。

通過(guò)假設(shè)檢驗(yàn)確定樣本規(guī)模

假設(shè)檢驗(yàn)是數(shù)據(jù)科學(xué)常用的一種統(tǒng)計(jì)工具,一般也可以用于確定樣本規(guī)模。

舉個(gè)例子:某科技巨頭搬去 A 城后,A 城的房?jī)r(jià)便急劇上漲,而某記者想知道現(xiàn)在每套公寓的均價(jià)是多少。那么問(wèn)題來(lái)了,在保證 95% 的置信度,60 K 的公寓價(jià)格標(biāo)準(zhǔn)差,且價(jià)格誤差在10K 以內(nèi)的條件下,計(jì)算多少棟公寓的均價(jià)較為合理?

相應(yīng)公式見(jiàn)下圖,其中 N 為所需的樣本規(guī)模,1.96 為標(biāo)準(zhǔn)正態(tài)分布在 95% 置信度下所對(duì)應(yīng)的常數(shù):

? ? ?

樣本量估計(jì)

根據(jù)上述公式,該記者需要考慮大概 138 棟公寓的價(jià)格。

該公式將隨著檢驗(yàn)問(wèn)題的不同而改變,但是都要通過(guò)置信區(qū)間、可容忍誤差和標(biāo)準(zhǔn)差值來(lái)計(jì)算。

訓(xùn)練數(shù)據(jù)規(guī)模的統(tǒng)計(jì)學(xué)習(xí)理論

我們先介紹一下著名的 VC 維(Vapnik-Chevronenkis dimension)。VC 維是一種模型復(fù)雜度的度量;模型越復(fù)雜,它的 VC 維就越高。下面介紹根據(jù) VC 維來(lái)確定訓(xùn)練數(shù)據(jù)規(guī)模的公式。

首先,通過(guò)一個(gè)例子來(lái)看一下 VC 維是如何計(jì)算的:假設(shè)一個(gè)二維平面上有三個(gè)點(diǎn)需要被分類,而我們的分類器為該平面上的一條直線。無(wú)論這三點(diǎn)怎樣組合(均為正例,兩正一負(fù)、一正兩負(fù)等),這條直線都能正確地將正負(fù)樣本歸類/分開。那么,我們就認(rèn)為一個(gè)線性分類器可以劃分這三點(diǎn)中的任意一點(diǎn),因而它的 VC 維至少為 3。

另外,由于存在四個(gè)點(diǎn)的組合不能被一條直線準(zhǔn)確分開,所以這個(gè)線性分類器的 VC 維為 3??梢宰C明,訓(xùn)練數(shù)據(jù)規(guī)模 N 是 VC 維的一個(gè)函數(shù):

由 VC 維估計(jì)訓(xùn)練數(shù)據(jù)規(guī)模

其中 d 為失敗率, epsilon 為學(xué)習(xí)中的誤差率。由此可見(jiàn),學(xué)習(xí)模型所需的樣本量取決于模型的復(fù)雜度。但該方法有一個(gè)弊端,就是在面對(duì)神經(jīng)網(wǎng)絡(luò)顯著的復(fù)雜度時(shí),會(huì)要求十分龐大的訓(xùn)練數(shù)據(jù)規(guī)模。

當(dāng)訓(xùn)練集增大時(shí),模型的表現(xiàn)會(huì)持續(xù)提升嗎?在深度學(xué)習(xí)任務(wù)又如何呢?

上圖展示了隨著數(shù)據(jù)規(guī)模的增長(zhǎng),傳統(tǒng)的機(jī)器學(xué)習(xí)算法(回歸等)和深度學(xué)習(xí)表現(xiàn)的變化。

具體來(lái)看,對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,模型的表現(xiàn)先是遵循冪定律(power law),之后趨于平緩;而對(duì)于深度學(xué)習(xí),該問(wèn)題還在持續(xù)不斷地研究中,不過(guò)圖一為目前較為一致的結(jié)論,即隨著數(shù)據(jù)規(guī)模的增長(zhǎng),深度學(xué)習(xí)模型的表現(xiàn)會(huì)按照冪定律持續(xù)提升。例如,有人曾用深度學(xué)習(xí)方法對(duì)三億張圖像進(jìn)行分類,發(fā)現(xiàn)模型的表現(xiàn)隨著訓(xùn)練數(shù)據(jù)規(guī)模的增長(zhǎng)按對(duì)數(shù)關(guān)系提升。

值得注意的是,在深度學(xué)習(xí)中也有一些與上述例子不同的結(jié)果。比如,在《Learning Visual Features from Large Weakly Supervised Data》一文中,作者使用了一億條 Flickr 上的圖片和標(biāo)簽來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),剛開始模型表現(xiàn)會(huì)隨著數(shù)據(jù)規(guī)模的增大而提升,但超過(guò)五千萬(wàn)張圖片后模型的效果提升就不太明顯了。

文章《How Training Data Affect the Accuracy and Robustness of Neural Networks for Image Classification》的作者還發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)規(guī)模的增加,圖像分類的準(zhǔn)確度確實(shí)會(huì)上升;但是,模型的魯棒性會(huì)在數(shù)據(jù)規(guī)模到達(dá)一定程度后開始下降。

分類任務(wù)中確定訓(xùn)練數(shù)據(jù)集大小的方法

該方法基于我們所熟知的學(xué)習(xí)曲線,一般而言,學(xué)習(xí)曲線圖的縱軸為誤差,橫軸為訓(xùn)練數(shù)據(jù)集大小?!禩utorial: Learning Curves for Machine Learning in Python》和《Learning Curve》是很好的參考資料,可以用于進(jìn)一步了解機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線,以及它們是如何隨著偏差或方差的增加而變化的。Python 在 scikit-learn 中提供了一種學(xué)習(xí)曲線函數(shù)。

在分類任務(wù)中,我們往往會(huì)使用學(xué)習(xí)曲線的一種輕微變體,在該曲線圖中,縱軸為分類準(zhǔn)確度,橫軸為訓(xùn)練數(shù)據(jù)集大小。訓(xùn)練集規(guī)模的確定十分簡(jiǎn)單:只需針對(duì)你的問(wèn)題,先確定學(xué)習(xí)曲線的確切形狀,然后找到曲線上你預(yù)期的分類準(zhǔn)確度所對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集大小即可。

例如,在文章《Predicting Sample Size Required for Classification Performance》和《How Much Data Is Needed to Train A Medical Image Deep Learning System to Achieve Necessary High Accuracy?》中,作者們將學(xué)習(xí)曲線的方法應(yīng)用到了醫(yī)學(xué)領(lǐng)域,并且給出了一個(gè)相應(yīng)的冪函數(shù):

學(xué)習(xí)曲線公式

其中,y 為分類準(zhǔn)確度,x 為訓(xùn)練集,b1,b2 分別為學(xué)習(xí)率和衰減率。根據(jù)問(wèn)題的不同,參數(shù)會(huì)有所不同,可以通過(guò)非線性回歸或加權(quán)非線性回歸對(duì)參數(shù)進(jìn)行估計(jì)。

增大訓(xùn)練集是應(yīng)對(duì)不平衡數(shù)據(jù)集的最好方式?

文章《Precision-Recall Versus Accuracy and the Role of Large Data Sets》對(duì)該問(wèn)題進(jìn)行了討論。該文作者提出了一個(gè)很有意思的觀點(diǎn):在不平衡的數(shù)據(jù)集下,準(zhǔn)確度并不是一個(gè)分類器表現(xiàn)好壞的最佳度量。

原因很簡(jiǎn)單,對(duì)于一個(gè)負(fù)樣本為主的數(shù)據(jù)集,模型往往通過(guò)將大部分樣本分類為負(fù)樣本,以提高準(zhǔn)確度。為了更好地衡量模型效果,他們將準(zhǔn)確率和召回率(又稱敏感性)作為不平衡數(shù)據(jù)集下度量模型表現(xiàn)的合理標(biāo)準(zhǔn)。

除了上述提到的關(guān)于準(zhǔn)確度的問(wèn)題,作者們還指出,對(duì)于存在不平衡數(shù)據(jù)的問(wèn)題而言,模型的準(zhǔn)確率往往對(duì)其更加重要。比如一個(gè)醫(yī)院的警報(bào)系統(tǒng)而言,高精確率就意味著當(dāng)警鈴響起時(shí),很有可能確實(shí)有病人遇到了麻煩。

之后,該文章分別使用較大的非平衡訓(xùn)練集和不平衡學(xué)習(xí)包(imbalanced-learn, 基于Python scikit-learn)對(duì)模型進(jìn)行了訓(xùn)練,并使用準(zhǔn)確率和召回率對(duì)訓(xùn)練效果進(jìn)行了分別的度量。

第一個(gè)模型使用了一個(gè)包含5萬(wàn)個(gè)樣本的藥物研發(fā)數(shù)據(jù),并構(gòu)建了使用不平衡矯正方法的K-近鄰模型。第二個(gè)模型使用了一個(gè)包含大約100萬(wàn)個(gè)樣本的數(shù)據(jù)集上,構(gòu)建了一個(gè)簡(jiǎn)單的K-近鄰模型。

其中,不平衡矯正方法包括欠采樣、過(guò)采樣和集成學(xué)習(xí)。文章作者重復(fù)了200次實(shí)驗(yàn),其結(jié)論為,當(dāng)把精確率和召回率作為度量時(shí),沒(méi)有任何一種不平衡矯正方法比增加更多訓(xùn)練數(shù)據(jù)的效果更好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:如何確定最佳訓(xùn)練數(shù)據(jù)集規(guī)模?6 大必備“錦囊”全給你了 | 技術(shù)頭條

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

    大語(yǔ)言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語(yǔ)言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來(lái)理解和生成自然語(yǔ)言文本。這些模型通過(guò)
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)
    發(fā)表于 05-07 17:10

    Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

    本教程以實(shí)際應(yīng)用、工程開發(fā)為目的,著重介紹模型訓(xùn)練過(guò)程中遇到的實(shí)際問(wèn)題和方法。在機(jī)器學(xué)習(xí)模型開發(fā)
    發(fā)表于 12-21 09:18

    【微信精選】手把手跟我入門機(jī)器學(xué)習(xí):手寫體識(shí)別模型

    快的機(jī)器學(xué)習(xí)分支,然后解決的是機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)下面的分類問(wèn)題,用的是神經(jīng)網(wǎng)絡(luò)里的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 方法。1 神經(jīng)網(wǎng)絡(luò)相關(guān)理論這一部分主要介紹
    發(fā)表于 09-23 07:00

    TensorFlow實(shí)現(xiàn)簡(jiǎn)單線性回歸

    器: 聲明初始化操作符: 現(xiàn)在,開始計(jì)算圖,訓(xùn)練 100 次: 查看結(jié)果:解讀分析從下圖中可以看到,簡(jiǎn)單線性回歸器試圖擬合給定數(shù)據(jù)
    發(fā)表于 08-11 19:34

    TensorFlow實(shí)現(xiàn)多元線性回歸(超詳細(xì))

    。這里是波士頓房?jī)r(jià)數(shù)據(jù)的多重線性回歸的代碼,使用 13 個(gè)輸入特征。波士頓房?jī)r(jià)數(shù)據(jù)可從htt
    發(fā)表于 08-11 19:35

    深度融合模型的特點(diǎn)

    深度融合模型的特點(diǎn),背景深度學(xué)習(xí)模型訓(xùn)練完成之后,部署并應(yīng)用在生產(chǎn)環(huán)境的這一步至關(guān)重要,畢竟
    發(fā)表于 07-16 06:08

    人工智能基本概念機(jī)器學(xué)習(xí)算法

    目錄人工智能基本概念機(jī)器學(xué)習(xí)算法1. 決策樹2. KNN3. KMEANS4. SVM5. 線性回歸深度學(xué)習(xí)算法1. BP2. GANs3.
    發(fā)表于 09-06 08:21

    深度學(xué)習(xí)模型是如何創(chuàng)建的?

    嵌入式系統(tǒng)已被證明可以降低成本并增加各個(gè)行業(yè)的收入,包括制造工廠,供應(yīng)鏈管理,醫(yī)療保健等等。本文將介紹有關(guān)深度學(xué)習(xí)嵌入式系統(tǒng)的信息。深度學(xué)習(xí)
    發(fā)表于 10-27 06:34

    使用KNN進(jìn)行分類和回歸

    ,這種學(xué)習(xí)器很少或根本不處理訓(xùn)練數(shù)據(jù)。與線性回歸等積極學(xué)習(xí)的算法不同,KNN 不會(huì)估計(jì)在
    發(fā)表于 10-28 14:44

    基于預(yù)訓(xùn)練模型和長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

    作為模型的初始化詞向量。但是,隨機(jī)詞向量存在不具備語(yǔ)乂和語(yǔ)法信息的缺點(diǎn);預(yù)訓(xùn)練詞向量存在¨一詞-乂”的缺點(diǎn),無(wú)法為模型提供具備上下文依賴的詞向量。針對(duì)該問(wèn)題,提岀
    發(fā)表于 04-20 14:29 ?19次下載
    基于預(yù)<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>和長(zhǎng)短期記憶網(wǎng)絡(luò)的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>

    深度學(xué)習(xí)如何訓(xùn)練出好的模型

    算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來(lái)得到了廣泛的應(yīng)用,從圖像識(shí)別、語(yǔ)音識(shí)別到自然語(yǔ)言處理等領(lǐng)域都有卓越的表現(xiàn)。但是,要訓(xùn)練出一個(gè)高效準(zhǔn)確
    的頭像 發(fā)表于 12-07 12:38 ?1035次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>如何<b class='flag-5'>訓(xùn)練</b>出好的<b class='flag-5'>模型</b>

    深度學(xué)習(xí)模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程中,往往會(huì)遇到各種問(wèn)題和挑戰(zhàn),如過(guò)擬合、欠擬合、梯度消失或爆炸等。因此,對(duì)深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?643次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    詳細(xì)介紹深度學(xué)習(xí)模型訓(xùn)練的全過(guò)程,包括數(shù)據(jù)預(yù)處理、模型
    的頭像 發(fā)表于 07-01 16:13 ?1018次閱讀

    AI大模型深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來(lái)進(jìn)行
    的頭像 發(fā)表于 10-23 15:25 ?304次閱讀