《機(jī)器學(xué)習(xí)導(dǎo)論》第1章緒論,本章詳細(xì)地討論一些應(yīng)用領(lǐng)域的例子,以進(jìn)一步深入了解機(jī)器學(xué)習(xí)的類(lèi)型和用途。本節(jié)為大家介紹什么是機(jī)器學(xué)習(xí)。
什么是機(jī)器學(xué)習(xí)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,我們現(xiàn)在已經(jīng)擁有存儲(chǔ)和處理海量數(shù)據(jù)以及通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)從遠(yuǎn)程站點(diǎn)訪問(wèn)數(shù)據(jù)的能力。目前大多數(shù)的數(shù)據(jù)存取設(shè)備都是數(shù)字設(shè)備,記錄的數(shù)據(jù)也很可靠。以一家連鎖超市為例,它擁有遍布全國(guó)各地的數(shù)百家分店,并且在為數(shù)百萬(wàn)顧客提供數(shù)千種商品的零售服務(wù)。銷(xiāo)售點(diǎn)的終端設(shè)備記錄每筆交易的詳細(xì)資料,包括日期、顧客識(shí)別碼、購(gòu)買(mǎi)商品和數(shù)量、消費(fèi)總額等。這是典型的每日幾個(gè)G字節(jié)的數(shù)據(jù)。只有分析這些數(shù)據(jù),并且將它轉(zhuǎn)換為可以利用的信息時(shí),這些存儲(chǔ)的數(shù)據(jù)才能變得有用,例如做預(yù)測(cè)。
1我們不能確切地知道哪些人比較傾向于購(gòu)買(mǎi)哪種特定的商品,也不知道應(yīng)該向喜歡讀海明威作品的人推薦哪位作者。如果我們知道,我們就不需要任何數(shù)據(jù)分析;我們只管供貨并記錄下編碼就可以了。但是,正因?yàn)槲覀儾恢溃圆胖荒苁占瘮?shù)據(jù),并期望從數(shù)據(jù)中提取這些問(wèn)題或相似問(wèn)題的答案。
Glühwein是一種溫?zé)?、有點(diǎn)甜味、加香料的葡萄酒。圣誕節(jié)期間,在歐洲很受歡迎。--譯者注我們確信存在某種過(guò)程,可以解釋我們所觀測(cè)到的數(shù)據(jù)。盡管我們不清楚數(shù)據(jù)產(chǎn)生過(guò)程(例如顧客行為)的細(xì)節(jié),但是,我們知道數(shù)據(jù)產(chǎn)生不是完全隨機(jī)的。人們并不是去超市隨機(jī)購(gòu)買(mǎi)商品。當(dāng)人們買(mǎi)啤酒時(shí),也會(huì)買(mǎi)薯片;夏天買(mǎi)冰淇淋,而冬天則為Glühwein?買(mǎi)香料。數(shù)據(jù)中存在確定的模式。
我們也許不能夠完全識(shí)別該過(guò)程,但是我們相信,我們能夠構(gòu)造一個(gè)好的并且有用的近似(good and useful approximation)。盡管這樣的近似還不可能解釋一切,但其仍然可以解釋數(shù)據(jù)的某些部分。我們相信,盡管識(shí)別全部過(guò)程也許是不可能的,但是我們?nèi)匀荒軌虬l(fā)現(xiàn)某些模式或規(guī)律。這正是機(jī)器學(xué)習(xí)的定位。這些模式可以幫助我們理解該過(guò)程,或者我們可以使用這些模式進(jìn)行預(yù)測(cè):假定將來(lái),至少是不遠(yuǎn)的將來(lái),情況不會(huì)與收集樣本數(shù)據(jù)時(shí)有很大的不同,則未來(lái)的預(yù)測(cè)也將有望是正確的。
機(jī)器學(xué)習(xí)方法在大型數(shù)據(jù)庫(kù)中的應(yīng)用稱(chēng)為數(shù)據(jù)挖掘(data mining)。類(lèi)似的情況如大量的金屬氧化物以及原料從礦山中開(kāi)采出來(lái),處理后產(chǎn)生少量非常珍貴的物質(zhì)。同樣地,在數(shù)據(jù)挖掘中,需要處理大量的數(shù)據(jù)以構(gòu)建簡(jiǎn)單有用的模型,例如具有高精度的預(yù)測(cè)模型。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域非常廣泛:除零售業(yè)以外,在金融業(yè),銀行分析他們的歷史數(shù)據(jù),構(gòu)建用于信用分析、詐騙檢測(cè)、股票市場(chǎng)等方面的應(yīng)用模型;在制造業(yè),學(xué)習(xí)模型可以用于優(yōu)化、控制以及故障檢測(cè)等;在醫(yī)學(xué)領(lǐng)域,學(xué)習(xí)程序可以用于醫(yī)療診斷等;在電信領(lǐng)域,通話模式的分析可用于網(wǎng)絡(luò)優(yōu)化和提高服務(wù)質(zhì)量;在科學(xué)研究領(lǐng)域,比如物理學(xué)、天文學(xué)以及生物學(xué)的大量數(shù)據(jù)只有用計(jì)算機(jī)才可能得到足夠快的分析。萬(wàn)維網(wǎng)(World Wide Web)是巨大的,并且在不斷地增長(zhǎng),因此在萬(wàn)維網(wǎng)上檢索相關(guān)信息不可能依靠人工完成。
然而,機(jī)器學(xué)習(xí)不僅僅是數(shù)據(jù)庫(kù)方面的問(wèn)題,它也是人工智能的組成部分。為了智能化,處于變化環(huán)境中的系統(tǒng)必須具備學(xué)習(xí)的能力。如果系統(tǒng)能夠?qū)W習(xí)并且適應(yīng)這些變化,那么系統(tǒng)的設(shè)計(jì)者就不必預(yù)見(jiàn)所有的情況,并為它們提供解決方案了。
機(jī)器學(xué)習(xí)還可以幫助我們解決視覺(jué)、語(yǔ)音識(shí)別以及機(jī)器人方面的許多問(wèn)題。以人臉識(shí)別問(wèn)題為例:我們做這件事毫不費(fèi)力;即使姿勢(shì)、光線、發(fā)型等不同,我們每天還是可以通過(guò)看真實(shí)的面孔或其照片來(lái)認(rèn)出我們的家人和朋友。但是我們做這件事是下意識(shí)的,而且無(wú)法解釋我們是如何做的。因?yàn)槲覀儾荒軌蚪忉屛覀兯邆涞倪@種技能,我們也就不可能編寫(xiě)相應(yīng)的計(jì)算機(jī)程序。但是我們知道,臉部圖像并非只是像素點(diǎn)的隨機(jī)組合;人臉是有結(jié)構(gòu)的、對(duì)稱(chēng)的。臉上有眼睛、鼻子和嘴巴,并且它們都位于臉的特定部位。每個(gè)人的臉都有各自的眼睛、鼻子和嘴巴的特定組合模式。通過(guò)分析一個(gè)人臉部圖像的多個(gè)樣本,學(xué)習(xí)程序可以捕捉到那個(gè)人特有的模式,然后在所給的圖像中檢測(cè)這種模式,從而進(jìn)行辨認(rèn)。這就是模式識(shí)別(pattern recognition)的一個(gè)例子。
機(jī)器學(xué)習(xí)使用實(shí)例數(shù)據(jù)或過(guò)去的經(jīng)驗(yàn)訓(xùn)練計(jì)算機(jī),以?xún)?yōu)化某種性能標(biāo)準(zhǔn)。我們有依賴(lài)于某些參數(shù)的模型,而學(xué)習(xí)就是執(zhí)行計(jì)算機(jī)程序,利用訓(xùn)練數(shù)據(jù)或以往經(jīng)驗(yàn)來(lái)優(yōu)化該模型的參數(shù)的。模型可以是預(yù)測(cè)性的(predictive),用于未來(lái)的預(yù)測(cè),或者是描述性的(descriptive),用于從數(shù)據(jù)中獲取知識(shí),也可以二者兼?zhèn)洹?/p>
機(jī)器學(xué)習(xí)在構(gòu)建數(shù)學(xué)模型時(shí)利用了統(tǒng)計(jì)學(xué)理論,因?yàn)槠浜诵娜蝿?wù)就是從樣本中推理。計(jì)算機(jī)科學(xué)的角色是雙重的:第一,在訓(xùn)練時(shí),我們需要求解優(yōu)化問(wèn)題以及存儲(chǔ)和處理通常所面對(duì)的海量數(shù)據(jù)的高效算法。第二,一旦學(xué)習(xí)得到了一個(gè)模型,它的表示和用于推理的算法解也必須是高效的。在特定的應(yīng)用中,學(xué)習(xí)或推理算法的效率,即它的空間復(fù)雜度和時(shí)間復(fù)雜度,可能與其預(yù)測(cè)精確度同樣重要。
-
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3752瀏覽量
64234 -
人臉識(shí)別
+關(guān)注
關(guān)注
76文章
4002瀏覽量
81678 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論