本文對非平衡類數(shù)據(jù)分類問題進行了概述。首先在簡單介紹非平衡類數(shù)據(jù)基本概念的基礎(chǔ)上,分析了非平衡類數(shù)據(jù)引起的問題及其導(dǎo)致分類性能下降的原因;然后介紹了目前主要的解決方法,分析了現(xiàn)有處理方法的優(yōu)缺點;最后討論了未來的研究方向
普通分類問題中,各個類包含的數(shù)據(jù)分布比較平衡,稀有類分類問題中,數(shù)據(jù)的分布極不平衡。例如:將一批醫(yī)療數(shù)據(jù)分類為“癌癥患者”和“非癌癥患者”兩個類,其中 “癌癥患者”是小比例樣本(假設(shè)占總樣本的1%),稱其為目標類,“非癌癥患者”為多數(shù)類樣本,稱為非目標類,從大量數(shù)據(jù)中正確識別“癌癥患者”就是稀有類分類問題。由于在數(shù)據(jù)集中所占比率太小,使得稀有類分類問題比普通分類問題更具挑戰(zhàn)性。
研究表明,解決稀有類分類問題的方法總體上可以分為:基于數(shù)據(jù)集的、算法的,以及使用組合分類器方法,如Bagging、Random Forest及Rotation Forest等。
影響稀有類分類的因素有很多,本文針對其中的一個因素——樣本大小進行研究。實驗基于上述的若干組合分類器,在特定的類比率下通過改變樣本大小,觀察樣本大小對稀有類分類的影響。
1 影響稀有類分類的因素
通常認為影響稀有類分類的因素是不平衡的類分布(Imbalanced class distribution),還有一些重要的因素影響稀有類分布,如小樣本規(guī)格(Small sample size)和分離性(Separability)。下面簡單討論這些因素對稀有類分類的影響。
(1)不平衡的類分布:研究表明,類分布越是相對平衡的數(shù)據(jù)分類的性能越好。探討了訓(xùn)練集的類分布和判定樹分類性能的關(guān)系,但是不能確定多大的類分布比率使得分類性能下降。研究表明,在有些應(yīng)用中1:35時不能很好地建立分類器,而有的應(yīng)用中1:10時就很難建立了。
(2)樣本大?。航o定特定的類分布比率(稀有類實例和普通類實例的比值),樣本大小在確定一個好的分類模型中起著非常重要的作用,要在有限的樣本中發(fā)現(xiàn)稀有類內(nèi)在的規(guī)律是不可能的。改變該數(shù)據(jù)集的樣本大小,使得稀有類實例為50個,非稀有類實例為1 000個。結(jié)果是類分布同樣為1:20,但是前者沒有后者提供的稀有類信息量大,稀有類分類的性能沒有后者高。
(3)分離性:從普通類中區(qū)分出稀有類是稀有類分類的關(guān)鍵問題。假定每個類中存在高度可區(qū)分模式,則不需要很復(fù)雜的規(guī)則區(qū)分它們。但是如果在一些特征空間上不同類的模式有重疊就會極大降低被正確識別的稀有類實例數(shù)目。
根據(jù)以上分析可知,由于影響稀有類分類的因素多種多樣,使得稀有類分類問題更加復(fù)雜,分類的性能降低。本文在其他因素相同的前提下研究樣本大小對稀有類分類的影響。實驗證明在類分布相同的情況下,樣本越大稀有類分類的性能越好。
2 稀有類分類的評估標準
常用的分類算法的評估標準有:預(yù)測的準確率、速度、強壯性、可規(guī)模性及可解釋性。通常使用分類器的總準確率來評價普通類的分類效果。而對于稀有類分類問題,由于關(guān)注的焦點不同,僅用準確率是不合適的。
在稀有類分類問題中應(yīng)更關(guān)注稀少目標類的正確分類率。在評價稀有類分類時,還應(yīng)該采用其他的評價標準。
這里假設(shè)只考慮包含兩個類的二元分類問題,設(shè)C類為目標類,即稀有類,NC為非目標類。根據(jù)分類器的預(yù)測類標號和實際類標號的分布情況存在如表1所示的混合矩陣(Confusion Matrix)。
根據(jù)表1得到如下度量:
3 組合分類器介紹
組合分類器是目前機器學(xué)習(xí)和模式識別方面研究的熱門領(lǐng)域之一,大量研究表明,在理論和實驗中,組合方法比單個分類模型有明顯的優(yōu)勢。常用的組合分類器有:Bagging、Random Forest及Rotation Forest。
3.1 Bagging介紹
Bagging算法是一種投票方法,各個分類器的訓(xùn)練集由原始訓(xùn)練集利用可重復(fù)取樣(bootstrap sampling)技術(shù)獲得,其過程如下:對于迭代t(t=1,2,…,T),訓(xùn)練集St采用放回選樣,由原始樣本集S選取。由于使用放回選樣,S的某些樣本可能不在St中,而其他的可能出現(xiàn)多次。由每個訓(xùn)練集St學(xué)習(xí),得到一個分類算法Ct。為對一個未知的樣本X分類,每個分類算法Ct返回它的類預(yù)測,算作一票。Bagging的分類算法C*統(tǒng)計得票,并將得票最高的類賦予X[1]。
3.2 Random Forest介紹
隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機森林的算法。 而 "Random Forests" 是他們的商標。 這個術(shù)語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來的。這個方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造決策樹的集合。重復(fù)M次這樣的抽樣過程分別得到M棵決策樹的學(xué)習(xí)樣本。單棵決策樹建造過程不進行剪枝,森林形成之后,對于一個新的樣本,每棵樹都得出相應(yīng)的分類結(jié)論,最后由所有樹通過簡單多數(shù)投票決定分類結(jié)果。
3.3 Rotation Forest介紹
Rotation Forest是一個基于判定樹的組合分類器,其基本思想如下:假設(shè)x=[x1,…,xn]為不含類標號的數(shù)據(jù)集X的一個元組,則該數(shù)據(jù)集可以表示為N×n的矩陣;定義Y=[y1,…,yN]為X中元組對應(yīng)的類標號集合,其中yi∈{w1,…,wc};定義D1,…,DL為組合方法中的基分類器;F為屬性集合。Rotation Forest意在建立L個不同的準確的分類器。基于新的數(shù)據(jù)集訓(xùn)練得到Di分類器。L次不同的屬性集劃分得到L個不同的提取特征集,映射原始數(shù)據(jù)得到L個不同的數(shù)據(jù)集,分別訓(xùn)練得到L個分類器。對于未知樣本的實例X,組合L個分類器計算每個類的置信度,將其歸類于置信度最高的類中。
為了驗證稀有類分類算法受到樣本規(guī)格大小的影響,使用UCI機器學(xué)習(xí)庫[8]中的稀有類數(shù)據(jù)集sick作為實驗數(shù)據(jù)集。實驗采用十折交叉驗證的方法統(tǒng)計分類的準確率。
sick數(shù)據(jù)集的基本情況為:30個屬性(帶類標號)、2個類(0,1),共有實例3 772條。其中sick和negative類分別擁有實例數(shù)目3 541和231,分別占總樣本比例93.88%和6.12%。sick類可看作稀有類。
4.1 實驗結(jié)果
基于每個數(shù)據(jù)集,采用weka平臺提供的unsupervised resample數(shù)據(jù)預(yù)處理方法改變樣本規(guī)格的大小,使得實例數(shù)目分別是原始數(shù)據(jù)的倍到10倍不等。對這些處理后的數(shù)據(jù)集分別應(yīng)用組合分類器bagging、FandomForest和Rotation Forest算法進行分類。
表2是應(yīng)用Rotation Forest算法在處理后得到的sick數(shù)據(jù)集上關(guān)于sick類的實驗結(jié)果。sick數(shù)據(jù)集樣本被擴充了若干倍不等。
表3是應(yīng)用Random Forest算法在處理后得到的sick數(shù)據(jù)集上關(guān)于sick類的實驗結(jié)果。sick數(shù)據(jù)集樣本被擴充了若干倍不等。
表4是應(yīng)用Bagging算法在處理后得到的sick數(shù)據(jù)集上關(guān)于sick類的實驗結(jié)果。Bagging算法在sick數(shù)據(jù)集上實驗時,樣本被擴充到10倍后,recall值仍沒有達到1,后來實驗又將樣本擴充至12倍,但由于內(nèi)存不夠?qū)嶒灲K止。
通過上述表格中的實驗結(jié)果,可以看到隨著樣本規(guī)格變大,衡量稀有類分類的這些參數(shù)也呈遞增。這也意味著隨著稀有類實例數(shù)目的增加,算法可以獲得更多關(guān)于稀有類的信息,從而有利于對稀有類實例的識別。
4.2 結(jié)果分析
通常認為影響稀有類分類的重要因素是數(shù)據(jù)分布的不平衡性,也就是說對于稀有類問題,普通的分類算法往往失效,但本文的實驗結(jié)果表明,數(shù)據(jù)分布的不平衡性影響稀有類分類的一個因素,在特定的類比率下,使樣本規(guī)格變大,普通的分類算法往往也可以取得很好的分類結(jié)果。
本文對稀有類分類問題進行了研究,分析了影響稀有類分類問題的因素,探討了稀有類分類的評估標準。針對影響稀有類分類的一個因素:樣本規(guī)格的大小進行研究,在同等類分布比率下,改變樣本規(guī)格的大小,在weka平臺下進行實驗,得到數(shù)據(jù)集中稀有類的recall、precision和F-measure值。實驗結(jié)果表明,在特定的類比率下,使樣本規(guī)格變大,普通的分類算法往往也可以取得很好的分類結(jié)果。同時也說明,數(shù)據(jù)分布的不平衡性只是影響稀有類分類的一個因素,即使數(shù)據(jù)分布極不平衡。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6837瀏覽量
88754 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132324
發(fā)布評論請先 登錄
相關(guān)推薦
評論