當(dāng)涉及大數(shù)據(jù)和高級(jí)分析的話題時(shí),熱鬧非凡。頂級(jí)分析公司就這些概念所采取的措施可以為數(shù)字時(shí)代的企業(yè)帶來(lái)革命性的變化進(jìn)行了廣泛的撰寫。世界各地的《財(cái)富》 500強(qiáng)公司都在大數(shù)據(jù)和高級(jí)分析方面進(jìn)行了大量投資,并從中受益匪淺。問(wèn)題在于,許多公司也希望取得令人難以置信的成果,但不確定確切的起點(diǎn)。
高級(jí)分析通常始于單個(gè)用例。這包括應(yīng)用新的數(shù)據(jù)轉(zhuǎn)換和分析方法來(lái)發(fā)現(xiàn)數(shù)據(jù)中以前未知的趨勢(shì)和模式。當(dāng)將此新信息應(yīng)用于業(yè)務(wù)流程和操作規(guī)范時(shí),它就有可能改變您的業(yè)務(wù)。
為了從數(shù)據(jù)中獲取更大的價(jià)值,請(qǐng)使用以下五類算法。
線性回歸
線性回歸是高級(jí)分析的最基本算法之一。這也使其成為使用最廣泛的之一。人們可以輕松地查看其工作方式以及輸入數(shù)據(jù)與輸出數(shù)據(jù)的關(guān)系。
線性回歸使用兩組連續(xù)定量度量之間的關(guān)系。第一組稱為預(yù)測(cè)變量或自變量。另一個(gè)是響應(yīng)或因變量。線性回歸的目標(biāo)是以公式的形式識(shí)別關(guān)系,該公式根據(jù)自變量描述因變量。一旦這種關(guān)系被量化,就可以為自變量的任何實(shí)例預(yù)測(cè)因變量。
時(shí)間是最常用的自變量之一。無(wú)論您的自變量是收入,成本,客戶,使用或生產(chǎn)力,如果您可以定義其與時(shí)間的關(guān)系,那么可以使用線性回歸預(yù)測(cè)值。
?邏輯回歸
Logistic回歸聽起來(lái)與線性回歸相似,但實(shí)際上專注于涉及分類而不是定量預(yù)測(cè)的問(wèn)題。在這里,輸出變量值是離散且有限的,而不是連續(xù)的,并且具有無(wú)限值,就像線性回歸一樣。
邏輯回歸的目標(biāo)是對(duì)輸入變量的實(shí)例是否適合類別進(jìn)行分類。Logistic回歸的輸出值為0到1之間的值。結(jié)果接近1表示輸入變量更清楚地適合類別。結(jié)果接近0表示輸入變量可能不適合該類別。
Logistic回歸通常用于回答明確定義的是或否問(wèn)題??蛻魰?huì)再次購(gòu)買嗎?買家信用值得嗎?潛在客戶會(huì)成為客戶嗎?預(yù)測(cè)這些問(wèn)題的答案會(huì)在業(yè)務(wù)流程中產(chǎn)生一系列動(dòng)作,從而有助于增加未來(lái)的收入。
分類和回歸樹
分類樹和回歸樹使用決策來(lái)對(duì)數(shù)據(jù)進(jìn)行分類。每個(gè)決定都是基于與輸入變量之一有關(guān)的問(wèn)題。有了每個(gè)問(wèn)題和相應(yīng)的答案,數(shù)據(jù)實(shí)例就變得更接近以特定方式進(jìn)行分類了。這組問(wèn)題和答案以及隨后的數(shù)據(jù)劃分創(chuàng)建了一個(gè)樹狀結(jié)構(gòu)。每行問(wèn)題的末尾都有一個(gè)類別。這稱為分類樹的葉節(jié)點(diǎn)。
這些分類樹可能變得非常大和復(fù)雜。控制復(fù)雜性的一種方法是通過(guò)修剪樹或有意刪除問(wèn)題級(jí)別以在精確匹配和抽象之間取得平衡。對(duì)于輸入值的所有實(shí)例(在訓(xùn)練中已知的值和在訓(xùn)練中未知的值)都適用的模型至關(guān)重要。要防止此模型過(guò)度擬合,就需要在精確擬合和抽象之間達(dá)到微妙的平衡。
分類樹和回歸樹的一種變體稱為隨機(jī)森林。隨機(jī)森林不是構(gòu)建具有多個(gè)邏輯分支的單個(gè)樹,而是由許多小的樹和簡(jiǎn)單樹組成的頂點(diǎn),每個(gè)樹都評(píng)估數(shù)據(jù)實(shí)例并確定分類。一旦所有這些簡(jiǎn)單的樹完成了其數(shù)據(jù)評(píng)估,該過(guò)程將合并單個(gè)結(jié)果,以基于較小類別的組合來(lái)創(chuàng)建類別的最終預(yù)測(cè)。這通常稱為合奏方法。這些隨機(jī)森林通常在平衡精確匹配和抽象方面做得很好,并且已在許多業(yè)務(wù)案例中成功實(shí)現(xiàn)。
與側(cè)重于是或否分類的邏輯回歸相反,分類和回歸樹可用于預(yù)測(cè)多值分類。它們也更容易可視化并查看引導(dǎo)算法進(jìn)行特定分類的確定路徑。
?K最近鄰法?(KNN)
K最近鄰法?也是一種分類算法。它被稱為“懶惰學(xué)習(xí)者”,因?yàn)樵撨^(guò)程的培訓(xùn)階段非常有限。學(xué)習(xí)過(guò)程由存儲(chǔ)的訓(xùn)練數(shù)據(jù)集組成。在評(píng)估新實(shí)例時(shí),將評(píng)估到訓(xùn)練集中每個(gè)數(shù)據(jù)點(diǎn)的距離,并且基于新數(shù)據(jù)實(shí)例與訓(xùn)練實(shí)例的接近程度,就該數(shù)據(jù)實(shí)例屬于哪個(gè)類別達(dá)成共識(shí)。
根據(jù)訓(xùn)練集的大小和范圍,此算法在計(jì)算上可能會(huì)很昂貴。由于必須將每個(gè)新實(shí)例與訓(xùn)練數(shù)據(jù)集的所有實(shí)例進(jìn)行比較并得出距離,因此該過(guò)程每次運(yùn)行都可以使用許多計(jì)算資源。
該分類算法允許對(duì)數(shù)據(jù)進(jìn)行多值分類。另外,嘈雜的訓(xùn)練數(shù)據(jù)傾向于使分類傾斜。 通常選擇K近鄰,因?yàn)樗子谑褂?,易于?xùn)練并且易于解釋結(jié)果。當(dāng)您嘗試查找相似的項(xiàng)目時(shí),它通常在搜索應(yīng)用程序中使用。
K均值聚類
K-均值聚類專注于創(chuàng)建相關(guān)屬性組。這些組稱為群集。一旦創(chuàng)建了這些集群,就可以針對(duì)它們?cè)u(píng)估其他實(shí)例,以查看它們最適合的位置。
此技術(shù)通常用作數(shù)據(jù)探索的一部分。首先,分析人員指定群集的數(shù)量。K-means群集過(guò)程基于在稱為“質(zhì)心”的公共集線器周圍找到具有相似性的數(shù)據(jù)點(diǎn),將數(shù)據(jù)分解為該數(shù)量的群集。這些群集與類別不同,因?yàn)樗鼈冏畛鯖](méi)有業(yè)務(wù)意義。它們只是輸入變量的緊密相關(guān)實(shí)例。一旦識(shí)別并分析了這些集群,就可以將它們轉(zhuǎn)換為類別,并提供具有業(yè)務(wù)意義的名稱。
經(jīng)常使用K均值聚類是因?yàn)樗子谑褂煤徒忉?,并且速度很快。要注意的一個(gè)方面是k均值聚類對(duì)異常值極為敏感。這些離群值會(huì)極大地改變這些聚類的性質(zhì)和定義,并最終改變分析結(jié)果。
#智能制造#, 這些是高級(jí)分析計(jì)劃中使用的一些最受歡迎的算法。每種方法都有優(yōu)缺點(diǎn),并且可以有效地利用各種方法來(lái)產(chǎn)生業(yè)務(wù)價(jià)值。實(shí)施這些算法的最終目標(biāo)是進(jìn)一步優(yōu)化數(shù)據(jù),使結(jié)果信息可以應(yīng)用于業(yè)務(wù)決策。正是此過(guò)程為下游流程提供了更精細(xì)和更高價(jià)值的數(shù)據(jù),這對(duì)于公司真正利用其數(shù)據(jù)的價(jià)值并實(shí)現(xiàn)其所需的結(jié)果至關(guān)重要。
責(zé)任編輯人:CC
-
分析算法
+關(guān)注
關(guān)注
0文章
5瀏覽量
6762 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8856瀏覽量
137217
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論