深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能——這些流行詞皆代表了分析學(xué)的未來。在這篇文章中,我們將通過一些真實(shí)世界的案例來解釋什么是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。在以后的文章中,我們將探索垂直用例。這樣做的目的不是要把你變成一個(gè)數(shù)據(jù)科學(xué)家,而是讓你更好地理解你可以用機(jī)器學(xué)習(xí)做什么。開發(fā)人員能越來越容易地使用機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué)家時(shí)常與領(lǐng)域?qū)<?、架?gòu)師、開發(fā)人員和數(shù)據(jù)工程師一起工作,因此,詳細(xì)了解機(jī)器學(xué)習(xí)的可能性對(duì)每個(gè)人來說都很重要。你的業(yè)務(wù)產(chǎn)生的每一條信息都有增加價(jià)值的潛力。這篇和以后的文章旨在激發(fā)你對(duì)自己數(shù)據(jù)的回顧,以發(fā)現(xiàn)新的機(jī)會(huì)。
什么是人工智能?
縱觀人工智能的歷史,其定義被不斷重寫。人工智能是一個(gè)概括性術(shù)語(這個(gè)概念始于50年代);機(jī)器學(xué)習(xí)是AI的子集,而深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)的子集。
1985年,當(dāng)我還是美國國家安全局的實(shí)習(xí)生時(shí),人工智能也是一個(gè)非常熱門的話題。在美國國家安全局,我甚至上了一節(jié)麻省理工關(guān)于人工智能專家系統(tǒng)的視頻課程。專家系統(tǒng)在規(guī)則引擎中捕獲專家的知識(shí)。規(guī)則引擎在金融和醫(yī)療保健等行業(yè)中有廣泛的應(yīng)用,最近更是用于事件處理,但是當(dāng)數(shù)據(jù)發(fā)生變化時(shí),規(guī)則的更新和維護(hù)會(huì)變得異常困難。機(jī)器學(xué)習(xí)的優(yōu)勢(shì)在于從數(shù)據(jù)中學(xué)習(xí),并且可以提供數(shù)據(jù)驅(qū)動(dòng)的概率預(yù)測(cè)。
在過去10年里,分析學(xué)發(fā)生了怎樣的變化?
根據(jù)《哈佛商業(yè)評(píng)論》的托馬斯?達(dá)文波特,分析技術(shù)過去十年里發(fā)生了翻天覆地的變化,跨商用服務(wù)器功能更強(qiáng)大、成本更低的分布式計(jì)算,流媒體分析、改進(jìn)的機(jī)器學(xué)習(xí)技術(shù),都使企業(yè)能夠存儲(chǔ)和分析更多的、不同類型的數(shù)據(jù)。
類似Apache Spark這樣的技術(shù)使用迭代算法,通過在內(nèi)存中跨迭代緩存數(shù)據(jù)并使用更輕量級(jí)的線程,進(jìn)一步加速了分布式數(shù)據(jù)的并行處理。
圖形處理單元(GPUs)加快了多核服務(wù)器的并行處理速度。GPU擁有一個(gè)由數(shù)千個(gè)更小、更高效的核心組成的大規(guī)模并行架構(gòu),這些核心專門設(shè)計(jì)用于同時(shí)處理多任務(wù),而CPU由幾個(gè)為順序串行處理而優(yōu)化的核心組成。就潛在的性能而言,從Cray -1進(jìn)化到如今擁有大量GPU的集群,其性能提升大約是曾經(jīng)世界上最快計(jì)算機(jī)的100萬倍,而成本卻只有其極小一部分。
什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)使用算法在數(shù)據(jù)中發(fā)現(xiàn)模式,然后使用一個(gè)能識(shí)別這些模式的模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
一般來說,機(jī)器學(xué)習(xí)可以分為三種類型:監(jiān)督型、非監(jiān)督型、介于兩者之間。監(jiān)督學(xué)習(xí)算法使用標(biāo)記數(shù)據(jù),而非監(jiān)督學(xué)習(xí)算法在未標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)模式。半監(jiān)督學(xué)習(xí)使用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)的混合。強(qiáng)化學(xué)習(xí)訓(xùn)練算法在反饋的基礎(chǔ)上最大化獎(jiǎng)勵(lì)。
監(jiān)督學(xué)習(xí)
監(jiān)督算法使用標(biāo)記數(shù)據(jù),這些數(shù)據(jù)的輸入和目標(biāo)的結(jié)果或標(biāo)簽都會(huì)提供給算法。
監(jiān)督學(xué)習(xí)也被稱為預(yù)測(cè)建?;蝾A(yù)測(cè)分析,因?yàn)槟憬⒘艘粋€(gè)能夠做出預(yù)測(cè)的模型。預(yù)測(cè)建模的一些例子是分類和回歸。分類根據(jù)已知項(xiàng)的已標(biāo)記示例(例如,已知是否為欺詐的交易)來識(shí)別一個(gè)項(xiàng)屬于哪個(gè)類別(例如,某交易是否為欺詐)。邏輯回歸預(yù)測(cè)了一個(gè)概率——例如,欺詐的概率。線性回歸預(yù)測(cè)一個(gè)數(shù)值——例如,欺詐的數(shù)量。
一些分類的例子包括:
信用卡欺詐檢測(cè)(欺詐,不是欺詐)。
信用卡申請(qǐng)(良好信用,不良信用)。
垃圾郵件檢測(cè)(垃圾郵件,不是垃圾郵件)。
文字情緒分析(快樂,不快樂)。
預(yù)測(cè)患者風(fēng)險(xiǎn)(高風(fēng)險(xiǎn)患者、低風(fēng)險(xiǎn)患者)。
惡性或非惡性腫瘤的分類。
邏輯回歸(或其他算法)的一些例子包括:
根據(jù)歷史汽車保險(xiǎn)欺詐性索賠以及這些索賠的特征,例如索賠人的年齡、索賠金額、事故嚴(yán)重程度等,預(yù)測(cè)欺詐發(fā)生的概率。
給定患者特征,預(yù)測(cè)充血性心力衰竭的概率。
So線性回歸的一些例子包括:
根據(jù)歷史汽車保險(xiǎn)欺詐性索賠以及這些索賠的特征,如索賠人的年齡、索賠金額、事故的嚴(yán)重程度等,預(yù)測(cè)欺詐金額。
根據(jù)歷史房地產(chǎn)銷售價(jià)格和房屋特征(如平方英尺,臥室數(shù)量,位置),預(yù)測(cè)房子的價(jià)格。
根據(jù)歷史上的社區(qū)犯罪統(tǒng)計(jì),預(yù)測(cè)犯罪率。
這里還有其他的監(jiān)督和非監(jiān)督學(xué)習(xí)算法,我們不會(huì)一一介紹,但我們會(huì)詳細(xì)介紹每類中的一個(gè)。
分類示例 :借記卡詐騙
分類選用一組具有已知標(biāo)簽和預(yù)先確定特性的數(shù)據(jù),并學(xué)習(xí)如何根據(jù)這些信息標(biāo)記新數(shù)據(jù)。特性是你問的“是否”問題。標(biāo)簽就是這些問題的答案。
讓我們看一個(gè)借記卡詐騙的示例。
我們想要預(yù)測(cè)什么?
某一筆借記卡交易是否為欺詐。
欺詐是標(biāo)簽(對(duì)或錯(cuò))。
你可以用來進(jìn)行預(yù)測(cè)的“ 是否 ”問題或?qū)傩允鞘裁矗?/p>
今天花費(fèi)的金額是否大于歷史平均水平?
今天的這些交易是否在多個(gè)國家?
今天的交易數(shù)量是否大于歷史平均水平?
今天的新商戶類型與過去三個(gè)月相比是否較高?
今天是否在多個(gè)帶有風(fēng)險(xiǎn)類別代碼的商家處購買?
今天是否有不尋常的簽名與以往使用PIN相比?
與過去三個(gè)月相比,是否有新的購買行為?
與過去三個(gè)月相比,現(xiàn)在是否有國外購買?
要構(gòu)建分類器模型,你需要提取對(duì)分類最有貢獻(xiàn)的有用特性。
決策樹
決策樹創(chuàng)建一個(gè)基于輸入特征預(yù)測(cè)類或標(biāo)簽的模型。它的工作原理在于評(píng)估每個(gè)節(jié)點(diǎn)上包含一個(gè)特征的問題,然后根據(jù)答案選擇到下一個(gè)節(jié)點(diǎn)的分支。預(yù)測(cè)借記卡欺詐的可能決策樹如下所示。特性問題是節(jié)點(diǎn),答案“是”或“否”是樹中到子節(jié)點(diǎn)的分支。(注意,真正的樹會(huì)有更多的節(jié)點(diǎn)。)
問題一:24小時(shí)內(nèi)的花費(fèi)是否大于平均?
是
問題2:今天是否有多筆交易來自高風(fēng)險(xiǎn)的商家?
是欺詐概率 = 90%
非欺詐概率 = 50%
決策樹很受歡迎,因?yàn)樗鼈円子诳梢暬徒忉?。將算法與集成方法相結(jié)合,可以提高模型的精度。一個(gè)集成例子是一個(gè)隨機(jī)森林算法,它結(jié)合了決策樹的多個(gè)隨機(jī)子集。
無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí),有時(shí)也被稱為描述分析,沒有預(yù)先提供的標(biāo)記數(shù)據(jù)。這些算法發(fā)現(xiàn)輸入數(shù)據(jù)中的相似性或規(guī)律。無監(jiān)督學(xué)習(xí)的一個(gè)例子是基于購買數(shù)據(jù)對(duì)相似的客戶進(jìn)行分組。
聚類
在聚類中,一個(gè)算法通過分析輸入實(shí)例之間的相似性將它們分類。一些聚類用例包括:
搜索結(jié)果分組。
分組相似客戶。
分組相似病人。
文本分類。
網(wǎng)絡(luò)安全異常檢測(cè)(發(fā)現(xiàn)不相似之處,集群中的異常值)。
K均值算法將數(shù)據(jù)分組到K個(gè)集群中,每個(gè)數(shù)據(jù)都屬于離其集群中心均值最近的集群。
聚類的一個(gè)例子是,一個(gè)公司希望細(xì)分其客戶,以便更好地定制產(chǎn)品和服務(wù)。客戶可以依據(jù)比如人口統(tǒng)計(jì)和購買歷史記錄等特征被分組。為了得到更有價(jià)值的結(jié)果,無監(jiān)督學(xué)習(xí)的聚類常常與有監(jiān)督學(xué)習(xí)相結(jié)合。例如,在這個(gè)banking customer 360用例中,首先根據(jù)問卷答案對(duì)客戶進(jìn)行細(xì)分。接著對(duì)客戶群體進(jìn)行分析,并標(biāo)上用戶畫像。然后,這些標(biāo)簽通過客戶ID與賬戶類型和購買內(nèi)容等特性進(jìn)行鏈接。最后,我們?cè)诒粯?biāo)簽的客戶身上應(yīng)用了監(jiān)督機(jī)器學(xué)習(xí),允許將調(diào)查用戶畫像與他們的銀行行為聯(lián)系起來,以提供深入的見解。
深度學(xué)習(xí)
深度學(xué)習(xí)用來稱呼多層神經(jīng)網(wǎng)絡(luò),它是由輸入和輸出之間的節(jié)點(diǎn)“隱含層”組成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有許多變種,你可以在這個(gè)神經(jīng)網(wǎng)絡(luò)備忘單上了解更多。改進(jìn)的算法、GPUs和大規(guī)模并行處理(MPP)使得具有數(shù)千層的神經(jīng)網(wǎng)絡(luò)成為可能。每個(gè)節(jié)點(diǎn)接受輸入數(shù)據(jù)和一個(gè)權(quán)重,然后向下一層的節(jié)點(diǎn)輸出一個(gè)置信值,直到到達(dá)輸出層,計(jì)算出該置信值的誤差。通過在一個(gè)叫做梯度下降的過程中進(jìn)行反向傳播,誤差會(huì)再次通過網(wǎng)絡(luò)發(fā)送回來,并調(diào)整權(quán)值來改進(jìn)模型。這個(gè)過程重復(fù)了數(shù)千次,根據(jù)產(chǎn)生的誤差調(diào)整模型的權(quán)值,直到誤差不無法再減少為止。
在此過程中,各層學(xué)習(xí)模型的最優(yōu)特征,其優(yōu)點(diǎn)是特征不需要預(yù)先確定。然而,這也意味著一個(gè)缺點(diǎn),即模型的決策是不可解釋的。由于解釋決策可能很重要,研究人員正在開發(fā)新的方法來理解深度學(xué)習(xí)這個(gè)黑盒子。
責(zé)編AJX
-
人工智能
+關(guān)注
關(guān)注
1787文章
46060瀏覽量
234958 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131838 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120587
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論