基于Spark機(jī)器學(xué)習(xí)工具來分析信用風(fēng)險問題
大?。?/span>0.17 MB 人氣: 2017-10-10 需要積分:1
分類算法
分類算法是一類監(jiān)督式機(jī)器學(xué)習(xí)算法,它根據(jù)已知標(biāo)簽的樣本(如已經(jīng)明確交易是否存在欺詐)來預(yù)測其它樣本所屬的類別(如是否屬于欺詐性的交易)。分類問題需要一個已經(jīng)標(biāo)記過的數(shù)據(jù)集和預(yù)先設(shè)計好的特征,然后基于這些信息來學(xué)習(xí)給新樣本打標(biāo)簽。所謂的特征即是一些“是與否”的問題。標(biāo)簽就是這些問題的答案。在下面這個例子里,如果某個動物的行走姿態(tài)、游泳姿勢和叫聲都像鴨子,那么就給它打上“鴨子”的標(biāo)簽。
我們來看一個銀行信貸的信用風(fēng)險例子:
我們需要預(yù)測什么?
某個人是否會按時還款這就是標(biāo)簽:此人的信用度
你用來預(yù)測的“是與否”問題或者屬性是什么?
申請人的基本信息和社會身份信息:職業(yè),年齡,存款儲蓄,婚姻狀態(tài)等等……這些就是特征,用來構(gòu)建一個分類模型,你從中提取出對分類有幫助的特征信息。
決策樹模型
決策樹是一種基于輸入特征來預(yù)測類別或是標(biāo)簽的分類模型。決策樹的工作原理是這樣的,它在每個節(jié)點(diǎn)都需要計算特征在該節(jié)點(diǎn)的表達(dá)式值,然后基于運(yùn)算結(jié)果選擇一個分支通往下一個節(jié)點(diǎn)。下圖展示了一種用來預(yù)測信用風(fēng)險的決策樹模型。每個決策問題就是模型的一個節(jié)點(diǎn),“是”或者“否”的答案是通往子節(jié)點(diǎn)的分支。
問題1:賬戶余額是否大于200元?
否問題2:當(dāng)前就職時間是否超過1年?
否不可信賴
隨機(jī)森林模型
融合學(xué)習(xí)算法結(jié)合了多個機(jī)器學(xué)習(xí)的算法,從而得到了效果更好的模型。隨機(jī)森林是分類和回歸問題中一類常用的融合學(xué)習(xí)方法。此算法基于訓(xùn)練數(shù)據(jù)的不同子集構(gòu)建多棵決策樹,組合成一個新的模型。預(yù)測結(jié)果是所有決策樹輸出的組合,這樣能夠減少波動,并且提高預(yù)測的準(zhǔn)確度。對于隨機(jī)森林分類模型,每棵樹的預(yù)測結(jié)果都視為一張投票。獲得投票數(shù)最多的類別就是預(yù)測的類別。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
基于Spark機(jī)器學(xué)習(xí)工具來分析信用風(fēng)險問題下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤點(diǎn) 16
- Hugging Face被限制訪問 404
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 生成式人工智能和機(jī)器學(xué)習(xí)正在這9個學(xué)科中打造未來 216
- 智慧礦山AI算法帶你解決皮帶運(yùn)行難題! 51
- 人工智能領(lǐng)域存在第一性原理嗎? 53
- 英特爾啟動首個AI PC加速計劃,目標(biāo)2025年前為超100萬臺PC提供AI特性 223
- PLC就是邏輯控制嗎?PLC的網(wǎng)絡(luò)通信怎么樣? 51
- 機(jī)器學(xué)習(xí)常用的5種采樣方法盤點(diǎn) 45