人類一直試圖讓機(jī)器具有智能,也就是人工智能(Artificial Intelligence)。從上世紀(jì)50年代,人工智能的發(fā)展經(jīng)歷了“推理期”,通過賦予機(jī)器邏輯推理能力使機(jī)器獲得智能,當(dāng)時(shí)的AI程序能夠證明一些著名的數(shù)學(xué)定理,但由于機(jī)器缺乏知識(shí),遠(yuǎn)不能實(shí)現(xiàn)真正的智能。因此,70年代,人工智能的發(fā)展進(jìn)入“知識(shí)期”,即將人類的知識(shí)總結(jié)出來教給機(jī)器,使機(jī)器獲得智能。 無論是“推理期”還是“知識(shí)期”,機(jī)器都是按照人類設(shè)定的規(guī)則和總結(jié)的知識(shí)運(yùn)作,永遠(yuǎn)無法超越其創(chuàng)造者,其次人力成本太高。于是,一些學(xué)者就想到,如果機(jī)器能夠自我學(xué)習(xí)問題不就迎刃而解了嗎!機(jī)器學(xué)習(xí)(Machine Learning)方法應(yīng)運(yùn)而生,人工智能進(jìn)入“機(jī)器學(xué)習(xí)時(shí)期”。機(jī)器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對(duì)世界上的某件事情做出決定或預(yù)測”。機(jī)器學(xué)習(xí)最大的突破是2006年的深度學(xué)習(xí)。深度學(xué)習(xí)是一類機(jī)器學(xué)習(xí),目的是模仿人腦的思維過程,經(jīng)常用于圖像和語音識(shí)別。深度學(xué)習(xí)的出現(xiàn)導(dǎo)致了我們今天使用的(可能是理所當(dāng)然的)許多技術(shù)。當(dāng)你問你的iPhone關(guān)于今天的天氣時(shí),你的話語會(huì)用一種復(fù)雜的語音解析算法進(jìn)行分析。如果沒有深度學(xué)習(xí),這一切都是不可能的。
機(jī)器學(xué)習(xí)與統(tǒng)計(jì)區(qū)別
機(jī)器學(xué)習(xí)是一類算法的總稱,這些算法企圖從大量歷史數(shù)據(jù)中挖掘出其中隱含的規(guī)律,并用于預(yù)測或者分類,更具體的說,機(jī)器學(xué)習(xí)可以看作是尋找一個(gè)函數(shù),輸入是樣本數(shù)據(jù),輸出是期望的結(jié)果,只是這個(gè)函數(shù)過于復(fù)雜,以至于不太方便形式化表達(dá)。
通常學(xué)習(xí)一個(gè)好的函數(shù),分為以下三步:
1、選擇一個(gè)合適的模型,這通常需要依據(jù)實(shí)際問題而定,針對(duì)不同的問題和任務(wù)需要選取恰當(dāng)?shù)哪P汀?br />
2、判斷一個(gè)函數(shù)的好壞,這需要確定一個(gè)衡量標(biāo)準(zhǔn),如回歸問題一般采用歐式距離,分類問題一般采用交叉驗(yàn)證函數(shù)。
3、找出“最好”的函數(shù),如何從眾多函數(shù)中最快的找出“最好”的那一個(gè),學(xué)習(xí)得到“最好”的函數(shù)后,需要在新樣本上進(jìn)行測試,只有在新樣本上表現(xiàn)很好,才算是一個(gè)“好”的函數(shù)。
機(jī)器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對(duì)世界上的某件事情做出決定或預(yù)測”。這意味著,與其顯式地編寫程序來執(zhí)行某些任務(wù),不如教計(jì)算機(jī)如何開發(fā)一個(gè)算法來完成任務(wù)。有三種主要類型的機(jī)器學(xué)習(xí):監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
【案例分享】為了預(yù)測過程輸出性能,提高客戶滿意度及產(chǎn)品質(zhì)量,現(xiàn)從數(shù)據(jù)庫中批量導(dǎo)入了2019年5月份生產(chǎn)報(bào)表,檢測產(chǎn)品能否滿足規(guī)格要求及相關(guān)生產(chǎn)環(huán)境,試分析影響產(chǎn)品質(zhì)量的相關(guān)原因及預(yù)測結(jié)果。
本例共有9個(gè)變量,近5000個(gè)測試數(shù)據(jù),其數(shù)據(jù)表如下:
在Minitab最新發(fā)布的版本Minitab19.2020中,除了可以將Python的腳本可以導(dǎo)入Minitab加載分析之外,還增加了機(jī)器學(xué)習(xí)的CART分析法。我們將上述案例用CART分析步驟如下:
1、統(tǒng)計(jì)---預(yù)測分析---CART分類,將響應(yīng)和影響因子分別填入對(duì)應(yīng)位置
2、點(diǎn)擊 先驗(yàn)/成本,設(shè)置誤分類成本
誤分類成本就是判斷錯(cuò)誤的風(fēng)險(xiǎn),例如,在醫(yī)學(xué)影像檢測中,把健康的人誤診為病人還不是最糟的情況,只要醫(yī)生能對(duì)診斷結(jié)果進(jìn)行復(fù)查,并把健康的這個(gè)人找出來就可以了。但反過來,未能診斷出真正的病人而不提供給他任何治療,則就非常危險(xiǎn)了。默認(rèn)情況下,Minitab 使用相等的成本 1。
3、點(diǎn)擊 驗(yàn)證,選擇驗(yàn)證方法
設(shè)置模型驗(yàn)證:數(shù)據(jù)通常被分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)
訓(xùn)練數(shù)據(jù)(學(xué)習(xí)數(shù)據(jù))通常被用來創(chuàng)建模型及評(píng)估模型的系數(shù);測試數(shù)據(jù)通常檢模型性能,通過測試數(shù)據(jù)得到擬合值,在用訓(xùn)練數(shù)據(jù)的數(shù)據(jù)和對(duì)應(yīng)的擬合值進(jìn)行比較來檢驗(yàn)?zāi)P偷念A(yù)測性能通過驗(yàn)證,防止模型過度擬合若用同一組數(shù)據(jù)來擬合模型并評(píng)估模型的擬合優(yōu)度,會(huì)導(dǎo)致過度擬合,過度擬合的模型并不能用于很好的預(yù)測…..
4、點(diǎn)擊 選項(xiàng),設(shè)置節(jié)點(diǎn)分裂方式
默認(rèn)的節(jié)點(diǎn)分裂,選擇 基尼
對(duì)所有對(duì)話框點(diǎn)擊 確定,查看Minitab輸出(部分):
默認(rèn)情況下,Minitab 為誤分類成本在最小誤分類成本 1 個(gè)標(biāo)準(zhǔn)誤內(nèi)的最小樹生成輸出。也可以識(shí)別最優(yōu)樹的序列中探索其他樹。終端節(jié)點(diǎn)數(shù)越多,模型就越復(fù)雜。
ROC曲線指受試者工作特征曲線 / 接收器操作特性曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個(gè)不同的臨界值,從而計(jì)算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1-特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。
點(diǎn)擊ROC圖左下角的預(yù)測,可以根據(jù)模型預(yù)測不同場景下的輸出概率。
總結(jié):
機(jī)器學(xué)習(xí)是目前業(yè)界最為火熱的一項(xiàng)技術(shù),從網(wǎng)上的每一次淘寶的購買東西,到自動(dòng)駕駛汽車技術(shù),以及網(wǎng)絡(luò)攻擊抵御系統(tǒng)等等,都有機(jī)器學(xué)習(xí)的因子在內(nèi),同時(shí)機(jī)器學(xué)習(xí)也是最有可能使人類完成“AI 夢”的一項(xiàng)技術(shù),各種人工智能目前的應(yīng)用,如微軟小冰聊天機(jī)器人,到計(jì)算機(jī)視覺技術(shù)的進(jìn)步,都有機(jī)器學(xué)習(xí)努力的成分。作為全球領(lǐng)先的統(tǒng)計(jì)分析軟件,Minitab在2018年收購了SPM,并在Minitab.19.2020版中增加了預(yù)測分析的CART分類和CART回歸功能,能夠幫助我們了解一些機(jī)器學(xué)習(xí)的相關(guān)知識(shí)與概念,更好的理解為我們帶來莫大便利技術(shù)的背后原理,以及讓我們更好的理解當(dāng)代科技的進(jìn)程。
審核編輯:符乾江
-
預(yù)測分析
+關(guān)注
關(guān)注
0文章
11瀏覽量
6428 -
Minitab
+關(guān)注
關(guān)注
0文章
161瀏覽量
11653 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132335
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論