在格物匯之前發(fā)表的《工業(yè)大數(shù)據(jù)挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠對工業(yè)現(xiàn)場海量數(shù)據(jù)進行高效挖掘,快速呈現(xiàn)結果給業(yè)務分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法,并將應用該算法對工業(yè)數(shù)據(jù)進行代碼實戰(zhàn)。
1算法概念
GB(Gradient Boosting)梯度提升算法,GB 共需要進行M次迭代,通過采用梯度下降的方法,每次迭代向損失函數(shù)的負梯度方向進行移動,從而使損失函數(shù)越來越小,進而使模型越來越精確。算法偽代碼如下:
GB算法跟原始的Boosting算法相比較,還是有比較明顯的區(qū)別。
Boosting算法開始的時候,是會給每個樣本附上權重的,在每次迭代的時候就會增加錯的樣本的權重,減少對的樣本的權重,經(jīng)過N次迭代之后,會得到N個分類器,然后我們再將他們組合起來,得到最終模型。
GB算法與Boosting區(qū)別是,他的每一次迭代的目標都是減少上一次的殘差,所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹,就是GBDT(GradientBoost Decision Tree)算法。
GBDT主要的優(yōu)點有:
1) 可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。
2) 在相對少的調(diào)參時間情況下,預測的準備率也可以比較高。這個是相對SVM來說的。
3)使用一些健壯的損失函數(shù),對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。
4) 很好的利用了弱分類器進行級聯(lián)。
5) 充分考慮的每個分類器的權重。
6) 可以得到變量間的重要性排序。
GBDT的主要缺點有:
1)由于弱學習器之間存在依賴關系,難以并行訓練數(shù)據(jù),不過可以通過自采樣的SGBT來達到部分并行。
2完整代碼實例
工業(yè)生產(chǎn)中,產(chǎn)品在制程過程中會有很多特性值,如果能對產(chǎn)品的特性值及時進行預測,得到特性值的具體數(shù)值,那么就會幫組業(yè)務人員知曉產(chǎn)品的質(zhì)量,實現(xiàn)產(chǎn)品的全檢,并能防止異常產(chǎn)品后流,造成不必要的浪費。
本次實戰(zhàn)代碼的采用的數(shù)據(jù)是半導體制程中某一道工序的機臺的制程參數(shù)值,通過采用SparkMLlib中的GBDT算法對工業(yè)現(xiàn)場機臺的制程參數(shù)進行建模,預測出經(jīng)過該機臺生產(chǎn)之后產(chǎn)品的膜層厚度。
模型最后輸出模型性能指標如下:
Mape(Mean Absolute Percentage Error):0.23%
通過上圖模型輸出的預測值與實際值對比,發(fā)現(xiàn)預測出來的產(chǎn)品膜厚的數(shù)值走勢跟實際數(shù)值走勢基本符合,mape達到0.5%以內(nèi),擬合度相當可觀,后續(xù)還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調(diào)優(yōu)。
在模型達到業(yè)務需求的擬合度等指標后,通過該模型進行部署,實現(xiàn)產(chǎn)品的“實時全檢”,從而實現(xiàn)產(chǎn)品質(zhì)量的全面監(jiān)控,杜絕異常產(chǎn)品后流;與工廠內(nèi)的抽檢系統(tǒng)結合后,降低產(chǎn)品的抽檢率,提高工廠的效率。
GBDT算法的用途還是比較廣泛的,它不僅可以處理分類問題,能對線性與非線性回歸問題進行處理,還能通過輸出變量間重要因子排序,方便業(yè)務人員快速定位異常變量。在工業(yè)現(xiàn)場的頑固異常分析還是產(chǎn)品特性預測等領域,GBDT算法確實是很值得數(shù)據(jù)分析人員考慮的一種算法。
本文作者:
格創(chuàng)東智大數(shù)據(jù)工程師黃歡(轉載請注明作者及來源)
審核編輯:符乾江
-
智能計算
+關注
關注
0文章
170瀏覽量
16449 -
智能制造
+關注
關注
48文章
5446瀏覽量
76235 -
工業(yè)互聯(lián)網(wǎng)
關注
28文章
4290瀏覽量
94022 -
工業(yè)大數(shù)據(jù)
關注
0文章
72瀏覽量
7821
發(fā)布評論請先 登錄
相關推薦
評論