0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

SparkMLlib GBDT算法工業(yè)大數(shù)據(jù)的實戰(zhàn)案例

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-25 17:42 ? 次閱讀

在格物匯之前發(fā)表的《工業(yè)大數(shù)據(jù)挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠對工業(yè)現(xiàn)場海量數(shù)據(jù)進行高效挖掘,快速呈現(xiàn)結果給業(yè)務分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法,并將應用該算法對工業(yè)數(shù)據(jù)進行代碼實戰(zhàn)。

1算法概念

GB(Gradient Boosting)梯度提升算法,GB 共需要進行M次迭代,通過采用梯度下降的方法,每次迭代向損失函數(shù)的負梯度方向進行移動,從而使損失函數(shù)越來越小,進而使模型越來越精確。算法偽代碼如下:

GB算法跟原始的Boosting算法相比較,還是有比較明顯的區(qū)別。

Boosting算法開始的時候,是會給每個樣本附上權重的,在每次迭代的時候就會增加錯的樣本的權重,減少對的樣本的權重,經(jīng)過N次迭代之后,會得到N個分類器,然后我們再將他們組合起來,得到最終模型。

GB算法與Boosting區(qū)別是,他的每一次迭代的目標都是減少上一次的殘差,所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹,就是GBDT(GradientBoost Decision Tree)算法。

GBDT主要的優(yōu)點有:

1) 可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。

2) 在相對少的調(diào)參時間情況下,預測的準備率也可以比較高。這個是相對SVM來說的。

3)使用一些健壯的損失函數(shù),對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。

4) 很好的利用了弱分類器進行級聯(lián)。

5) 充分考慮的每個分類器的權重。

6) 可以得到變量間的重要性排序。

GBDT的主要缺點有:

1)由于弱學習器之間存在依賴關系,難以并行訓練數(shù)據(jù),不過可以通過自采樣的SGBT來達到部分并行。

2完整代碼實例

工業(yè)生產(chǎn)中,產(chǎn)品在制程過程中會有很多特性值,如果能對產(chǎn)品的特性值及時進行預測,得到特性值的具體數(shù)值,那么就會幫組業(yè)務人員知曉產(chǎn)品的質(zhì)量,實現(xiàn)產(chǎn)品的全檢,并能防止異常產(chǎn)品后流,造成不必要的浪費。

本次實戰(zhàn)代碼的采用的數(shù)據(jù)是半導體制程中某一道工序的機臺的制程參數(shù)值,通過采用SparkMLlib中的GBDT算法對工業(yè)現(xiàn)場機臺的制程參數(shù)進行建模,預測出經(jīng)過該機臺生產(chǎn)之后產(chǎn)品的膜層厚度。

模型最后輸出模型性能指標如下:

Mape(Mean Absolute Percentage Error):0.23%

通過上圖模型輸出的預測值與實際值對比,發(fā)現(xiàn)預測出來的產(chǎn)品膜厚的數(shù)值走勢跟實際數(shù)值走勢基本符合,mape達到0.5%以內(nèi),擬合度相當可觀,后續(xù)還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調(diào)優(yōu)。

在模型達到業(yè)務需求的擬合度等指標后,通過該模型進行部署,實現(xiàn)產(chǎn)品的“實時全檢”,從而實現(xiàn)產(chǎn)品質(zhì)量的全面監(jiān)控,杜絕異常產(chǎn)品后流;與工廠內(nèi)的抽檢系統(tǒng)結合后,降低產(chǎn)品的抽檢率,提高工廠的效率。

GBDT算法的用途還是比較廣泛的,它不僅可以處理分類問題,能對線性與非線性回歸問題進行處理,還能通過輸出變量間重要因子排序,方便業(yè)務人員快速定位異常變量。在工業(yè)現(xiàn)場的頑固異常分析還是產(chǎn)品特性預測等領域,GBDT算法確實是很值得數(shù)據(jù)分析人員考慮的一種算法。

本文作者:

格創(chuàng)東智大數(shù)據(jù)工程師黃歡(轉載請注明作者及來源)


審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    智慧城市與大數(shù)據(jù)的關系

    智慧城市與大數(shù)據(jù)之間存在著密切的關系,這種關系體現(xiàn)在大數(shù)據(jù)對智慧城市建設的支撐和推動作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)大數(shù)據(jù)技術的應用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?414次閱讀

    基于大數(shù)據(jù)與深度學習的穿戴式運動心率算法

    性能的關鍵手段。然而,在復雜多變的運動環(huán)境中,準確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術瓶頂。本文將探討如何運用大數(shù)據(jù)和深度學習技術來開發(fā)創(chuàng)新的穿戴式運動心率算
    的頭像 發(fā)表于 09-10 08:03 ?208次閱讀
    基于<b class='flag-5'>大數(shù)據(jù)</b>與深度學習的穿戴式運動心率<b class='flag-5'>算法</b>

    小鵬汽車榮獲2024年機械工業(yè)大型重點骨干企業(yè)

    近日,由中國機械工業(yè)聯(lián)合會主辦的“2024年機械工業(yè)大型重點骨干企業(yè)發(fā)展論壇暨機械、鋼鐵產(chǎn)業(yè)鏈融通發(fā)展大會”在北京舉行,小鵬汽車榮獲“機械工業(yè)大型重點骨干企業(yè)”稱號。
    的頭像 發(fā)表于 08-05 10:26 ?455次閱讀

    工業(yè)大數(shù)據(jù)云平臺在設備預測性維護中的作用

    ,只有保證設備的安全穩(wěn)定運行才能保障生產(chǎn)的持續(xù),質(zhì)量的可靠,提升企業(yè)產(chǎn)品競爭力。 因此,企業(yè)就需要加強對設備狀況的及時把握,并一定程度上實現(xiàn)工業(yè)設備預測性維護。為此,數(shù)之能提供的工業(yè)大數(shù)據(jù)云平臺可以全面接入
    的頭像 發(fā)表于 06-28 15:31 ?222次閱讀

    感謝湖北工業(yè)大學對我司高低溫試驗箱的認可

    近日,我們收到了來自湖北工業(yè)大學的一份重要認可函,這份函件是對我們公司研發(fā)的高低溫試驗箱的高度評價和肯定。在此,我們深感榮幸,并對湖北工業(yè)大學表示衷心的感謝。感謝湖北工業(yè)大學對我司高低溫試驗箱的認可
    的頭像 發(fā)表于 05-29 09:59 ?261次閱讀
    感謝湖北<b class='flag-5'>工業(yè)大</b>學對我司高低溫試驗箱的認可

    海清智元與某央企銀行簽訂行業(yè)大模型和AI算法戰(zhàn)略合作協(xié)議

    海清智元與某央企銀行簽訂行業(yè)大模型和AI算法戰(zhàn)略合作協(xié)議
    的頭像 發(fā)表于 05-14 14:58 ?432次閱讀
    海清智元與某央企銀行簽訂行<b class='flag-5'>業(yè)大</b>模型和AI<b class='flag-5'>算法</b>戰(zhàn)略合作協(xié)議

    工業(yè)大模型的五個基本問題

    工業(yè)業(yè)大模型是大模型為賦能工業(yè)應用所產(chǎn)生的產(chǎn)業(yè)新形態(tài),是制造業(yè)數(shù)字化轉型3.0的重要載體,是一個新質(zhì)體。
    發(fā)表于 04-23 16:04 ?649次閱讀
    <b class='flag-5'>工業(yè)大</b>模型的五個基本問題

    工業(yè)大數(shù)據(jù)發(fā)展面臨的問題

    工業(yè)大數(shù)據(jù)作為工業(yè)與數(shù)字經(jīng)濟之間的橋梁紐帶,對加快工業(yè)數(shù)字化轉型、推進數(shù)實融合,支撐新型工業(yè)化建設意義重大。
    的頭像 發(fā)表于 04-16 11:52 ?470次閱讀

    什么是國密算法?工業(yè)網(wǎng)關為什么要支持國密算法

    工業(yè)網(wǎng)關是應用于工業(yè)物聯(lián)網(wǎng)關的常見通信交換傳輸設備,由于在使用過程中通常涉及工業(yè)敏感數(shù)據(jù),因此也需要支持國密算法實現(xiàn)
    的頭像 發(fā)表于 01-31 16:55 ?1071次閱讀
    什么是國密<b class='flag-5'>算法</b>?<b class='flag-5'>工業(yè)</b>網(wǎng)關為什么要支持國密<b class='flag-5'>算法</b>?

    大數(shù)據(jù)技術是干嘛的 大數(shù)據(jù)核心技術有哪些

    大數(shù)據(jù)技術是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領域,對企業(yè)決策和業(yè)務發(fā)展起到了重要作用。本文將詳細介紹大數(shù)據(jù)技術的概念、發(fā)展
    的頭像 發(fā)表于 01-31 11:07 ?2981次閱讀

    基于工業(yè)大數(shù)據(jù)和物聯(lián)網(wǎng)的智能工廠如何實現(xiàn)

    在中國制造2025及工業(yè)4.0技術的加持下,離散制造業(yè)的流程工業(yè)實現(xiàn)生產(chǎn)設備網(wǎng)絡化、生產(chǎn)數(shù)據(jù)可視化、生產(chǎn)現(xiàn)場無人化等現(xiàn)金數(shù)據(jù)應用,做到橫向與縱向的集成,實現(xiàn)邊緣到云端的
    的頭像 發(fā)表于 12-25 15:32 ?529次閱讀

    誠邀報名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

    2023 開放原子開發(fā)者大會 OPEN ATOM DEVELOPERS CONFERENCE 開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)分論壇 2023.12.17 物聯(lián)網(wǎng)與大數(shù)據(jù)技術的飛速進步,為工業(yè)數(shù)字
    的頭像 發(fā)表于 12-20 16:54 ?340次閱讀
    誠邀報名|黃向東邀您共話開源<b class='flag-5'>工業(yè)</b>物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>

    開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)分論壇圓滿舉辦

    物聯(lián)網(wǎng)與大數(shù)據(jù)技術的快速發(fā)展,為工業(yè)數(shù)字化提供了技術支撐。推進新型工業(yè)化建設過程中,工業(yè)復雜場景離不開底層操作系統(tǒng)、物聯(lián)網(wǎng)數(shù)據(jù)采集、
    的頭像 發(fā)表于 12-20 09:40 ?796次閱讀
    開源<b class='flag-5'>工業(yè)</b>物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>分論壇圓滿舉辦

    誠邀報名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

    2023開放原子開發(fā)者大會 . OPEN ATOM DEVELOPERS CONFERENCE 開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)分論壇 2023.12.17 物聯(lián)網(wǎng)與大數(shù)據(jù)技術 的飛速進步,為工業(yè)
    的頭像 發(fā)表于 12-05 19:35 ?519次閱讀
    誠邀報名|黃向東邀您共話開源<b class='flag-5'>工業(yè)</b>物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>

    電梯物聯(lián)網(wǎng)大數(shù)據(jù)平臺是什么意思?

    電梯物聯(lián)網(wǎng)大數(shù)據(jù)化平臺是將電梯的使用時間和管理中的各項數(shù)據(jù)進行采集,整合及利用大數(shù)據(jù)分析能力和計算機視覺技術、結合關聯(lián)分析、空間分析和多維分析等多種分析手段,挖掘對應數(shù)據(jù)業(yè)務
    的頭像 發(fā)表于 11-23 11:01 ?769次閱讀