0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習基本過程

jt_rfid5 ? 來源:新機器視覺 ? 作者:新機器視覺 ? 2022-10-27 15:12 ? 次閱讀

機器學習(Machine Learning)本質(zhì)上就是讓計算機自己在數(shù)據(jù)中學習規(guī)律,并根據(jù)所得到的規(guī)律對未來數(shù)據(jù)進行預測。

機器學習包括如聚類、分類、決策樹、貝葉斯、神經(jīng)網(wǎng)絡、深度學習(Deep Learning)等算法。

機器學習的基本思路是模仿人類學習行為的過程,如我們在現(xiàn)實中的新問題一般是通過經(jīng)驗歸納,總結(jié)規(guī)律,從而預測未來的過程。機器學習的基本過程如下:

機器學習基本過程

01 機器學習發(fā)展歷程

從機器學習發(fā)展的過程上來說,其發(fā)展的時間軸如下所示:

cc6e622e-551d-11ed-a3b6-dac502259ad0.png

機器學習發(fā)展歷程

從上世紀50年代的圖靈測試提出、塞繆爾開發(fā)的西洋跳棋程序,標志著機器學習正式進入發(fā)展期。

60年代中到70年代末的發(fā)展幾乎停滯。

80年代使用神經(jīng)網(wǎng)絡反向傳播(BP)算法訓練的多參數(shù)線性規(guī)劃(MLP)理念的提出將機器學習帶入復興時期。

90年代提出的“決策樹”(ID3算法),再到后來的支持向量機(SVM)算法,將機器學習從知識驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的思路。

21世紀初Hinton提出深度學習(Deep Learning),使得機器學習研究又從低迷進入蓬勃發(fā)展期。

從2012年開始,隨著算力提升和海量訓練樣本的支持,深度學習(Deep Learning)成為機器學習研究熱點,并帶動了產(chǎn)業(yè)界的廣泛應用。

02 機器學習分類

機器學習經(jīng)過幾十年的發(fā)展,衍生出了很多種分類方法,這里按學習模式的不同,可分為監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習和強化學習。

監(jiān)督學習

監(jiān)督學習(Supervised Learning)是從有標簽的訓練數(shù)據(jù)中學習模型,然后對某個給定的新數(shù)據(jù)利用模型預測它的標簽。如果分類標簽精確度越高,則學習模型準確度越高,預測結(jié)果越精確。

監(jiān)督學習主要用于回歸和分類。

常見的監(jiān)督學習的回歸算法有線性回歸、回歸樹、K鄰近、Adaboost、神經(jīng)網(wǎng)絡等。

常見的監(jiān)督學習的分類算法有樸素貝葉斯、決策樹、SVM、邏輯回歸、K鄰近、Adaboost、神經(jīng)網(wǎng)絡等。

半監(jiān)督學習

半監(jiān)督學習(Semi-Supervised Learning)是利用少量標注數(shù)據(jù)和大量無標注數(shù)據(jù)進行學習的模式。

半監(jiān)督學習側(cè)重于在有監(jiān)督的分類算法中加入無標記樣本來實現(xiàn)半監(jiān)督分類。

常見的半監(jiān)督學習算法有Pseudo-Label、Π-Model、Temporal Ensembling、Mean Teacher、VAT、UDA、MixMatch、ReMixMatch、FixMatch等。

無監(jiān)督學習

無監(jiān)督學習(Unsupervised Learning)是從未標注數(shù)據(jù)中尋找隱含結(jié)構(gòu)的過程。

無監(jiān)督學習主要用于關聯(lián)分析、聚類和降維。

常見的無監(jiān)督學習算法有稀疏自編碼(Sparse Auto-Encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means算法(K均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)、最大期望算法(Expectation-Maximization algorithm, EM)等。

強化學習

強化學習(Reinforcement Learning)類似于監(jiān)督學習,但未使用樣本數(shù)據(jù)進行訓練,是是通過不斷試錯進行學習的模式。

在強化學習中,有兩個可以進行交互的對象:智能體(Agnet)和環(huán)境(Environment),還有四個核心要素:策略(Policy)、回報函數(shù)(收益信號,Reward Function)、價值函數(shù)(Value Function)和環(huán)境模型(Environment Model),其中環(huán)境模型是可選的。

強化學習常用于機器人避障、棋牌類游戲、廣告和推薦等應用場景中。

為了便于讀者理解,用灰色圓點代表沒有標簽的數(shù)據(jù),其他顏色的圓點代表不同的類別有標簽數(shù)據(jù)。監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習、強化學習的示意圖如下所示:

ccd9758c-551d-11ed-a3b6-dac502259ad0.png

03 機器學習應用之道

機器學習是將現(xiàn)實中的問題抽象為數(shù)學模型,利用歷史數(shù)據(jù)對數(shù)據(jù)模型進行訓練,然后基于數(shù)據(jù)模型對新數(shù)據(jù)進行求解,并將結(jié)果再轉(zhuǎn)為現(xiàn)實問題的答案的過程。機器學習一般的應用實現(xiàn)步驟如下:

將現(xiàn)實問題抽象為數(shù)學問題;

數(shù)據(jù)準備;

選擇或創(chuàng)建模型;

模型訓練及評估;

預測結(jié)果;

cd09feb4-551d-11ed-a3b6-dac502259ad0.png

這里我們以Kaggle上的一個競賽Cats vs. Dogs(貓狗大戰(zhàn))為例來進行簡單介紹,感興趣的可親自實驗。

現(xiàn)實問題抽象為數(shù)學問題

現(xiàn)實問題:給定一張圖片,讓計算機判斷是貓還是狗?

數(shù)學問題:二分類問題,1表示分類結(jié)果是狗,0表示分類結(jié)果是貓。

數(shù)據(jù)準備

數(shù)據(jù)下載地址:
https://www.kaggle.com/c/dogs-vs-cats。

下載 kaggle 貓狗數(shù)據(jù)集解壓后分為 3 個文件 train.zip、 test.zip 和 sample_submission.csv。

train 訓練集包含了 25000 張貓狗的圖片,貓狗各一半,每張圖片包含圖片本身和圖片名。命名規(guī)則根據(jù) “type.num.jpg” 方式命名。

訓練集示例

test 測試集包含了 12500 張貓狗的圖片,沒有標定是貓還是狗,每張圖片命名規(guī)則根據(jù)“num.jpg”命名。

測試集示例

sample_submission.csv 需要將最終測試集的測試結(jié)果寫入.csv 文件中。

sample_submission示例

我們將數(shù)據(jù)分成3個部分:訓練集(60%)、驗證集(20%)、測試集(20%),用于后面的驗證和評估工作。

選擇模型

機器學習有很多模型,需要選擇哪種模型,需要根據(jù)數(shù)據(jù)類型,樣本數(shù)量,問題本身綜合考慮。

如本問題主要是處理圖像數(shù)據(jù),可以考慮使用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)模型來實現(xiàn)二分類,因為選擇CNN的優(yōu)點之一在于避免了對圖像前期預處理過程(提取特征等)。貓狗識別的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)如下面所示:

最下層是網(wǎng)絡的輸入層(Input Layer),用于讀入圖像作為網(wǎng)絡的數(shù)據(jù)輸入;最上層是網(wǎng)絡的輸出層(Output Layer),其作用是預測并輸出讀入圖像的類別,由于只需要區(qū)分貓和狗,因此輸出層只有2個神經(jīng)計算單元;位于輸入和輸出層之間的,都稱之為隱含層(Hidden Layer),也叫卷積層(Convolutional Layer),這里設置3個隱含層。

模型訓練及評估

我們預先設定損失函數(shù)Loss計算得到的損失值,通過準確率Accuracy來評估訓練模型。損失函數(shù)LogLoss作為模型評價指標:

ce9d3cb4-551d-11ed-a3b6-dac502259ad0.pngcea925b0-551d-11ed-a3b6-dac502259ad0.jpg

準確率(accuracy)來衡量算法預測結(jié)果的準確程度:

cee11f60-551d-11ed-a3b6-dac502259ad0.png

TP(True Positive)是將正類預測為正類的結(jié)果數(shù)目。

FP(False Positive)是將負類預測為正類的結(jié)果數(shù)目。

TN(True Negative)是將負類預測為負類的結(jié)果數(shù)目。

FN(False Negative)是將正類預測為負類的結(jié)果數(shù)目。

cef38f88-551d-11ed-a3b6-dac502259ad0.png

訓練過中的 loss 和 accuracy

預測結(jié)果

訓練好的模型,我們載入一張圖片,進行識別,看看識別效果:

04 機器學習趨勢分析

機器學習正真開始研究和發(fā)展應該從80年代開始,我們借助AMiner平臺,將近些年機器學習論文進行統(tǒng)計分析所生成的發(fā)展趨勢圖如下所示:

cf431792-551d-11ed-a3b6-dac502259ad0.png

可以看出,深度神經(jīng)網(wǎng)絡(Deep Neural Network)、強化學習(Reinforcement Learning)、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network)、生成模型(Generative Model)、圖像分類(Image Classification)、支持向量機(Support Vector Machine)、遷移學習(Transfer Learning)、主動學習(Active Learning)、特征提?。‵eature Extraction)是機器學習的熱點研究。

以深度神經(jīng)網(wǎng)絡、強化學習為代表的深度學習相關的技術研究熱度上升很快,近幾年仍然是研究熱點。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:【光電智造】超全干貨!機器學習基礎知識大總結(jié)

文章出處:【微信號:今日光電,微信公眾號:今日光電】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    未來出行說 | 皮埃羅·斯加魯菲:自動駕駛技術目前還不值得信任

    目前車輛所謂的自動駕駛或者輔助駕駛,還只是一個缺乏常識性的機器,其實不值得我們?nèi)バ湃?。它可能還需要一個很長的機器學習過程。
    的頭像 發(fā)表于 09-26 11:21 ?4195次閱讀

    [1.4.1]--典型的機器學習過程

    機器學習
    jf_90840116
    發(fā)布于 :2023年02月22日 10:37:43

    典型的機器學習過程#機器學習

    機器學習
    未來加油dz
    發(fā)布于 :2023年07月14日 16:09:16

    機器人從事件提取規(guī)律或道理行得通嗎?

    比如說下面的文字模擬一下機器學習過程:我:昨天我喝醉了。機器人:原來,人可以喝醉。我:但我摔了一跤。機器人:摔跤是好事嗎?我:是壞事。
    發(fā)表于 03-09 14:29

    機器學習必須避開的九大陷阱

    意識到可能會扭曲團隊工作結(jié)果的常見問題。為了實現(xiàn)可靠的機器學習過程,以下是要避免的九個常見陷阱,以及可采用的最佳實踐方法。
    發(fā)表于 05-07 12:39 ?2523次閱讀

    谷歌用神經(jīng)網(wǎng)絡根據(jù)筆畫生成漢字,新造了一系列“假漢字

    在一定程度上,機器學習過程也一樣,最初都是從簡單的分類問題開始:判斷輸入的圖像是貓還是狗,交易是真實的還是是欺詐……這些任務非常有用。但是,hardmaru認為,更有趣的任務是生成數(shù)據(jù),在
    的頭像 發(fā)表于 06-25 11:44 ?7634次閱讀
    谷歌用神經(jīng)網(wǎng)絡根據(jù)筆畫生成漢字,新造了一系列“假漢字

    AutoML模型壓縮技術,利用強化學習將壓縮流程自動化

    “Cloud AutoML 產(chǎn)品設計讓機器學習過程變得更簡單,讓即便沒有機器學習經(jīng)驗的人也可以享受機器
    的頭像 發(fā)表于 09-24 08:44 ?5238次閱讀

    什么是機器學習?機器學習是如何工作的呢?

    為了更清楚地理解機器學習過程,我們將以開發(fā)能夠識別手寫數(shù)字的機器為具體例子來考慮模式識別的問題。這樣的機器應該能夠準確識別一個字符所代表的
    的頭像 發(fā)表于 01-12 10:05 ?7714次閱讀

    先考慮AI帶來的好處還是帶來的憂患

    AI 以及機器學習等,由于需要通過收集大量數(shù)據(jù)以完成機器學習過程,因此在企業(yè)角度來說,稍一不慎便很容易誤墮法網(wǎng),尤其是對于某些行業(yè)。
    發(fā)表于 01-07 17:11 ?665次閱讀

    如何用數(shù)學函數(shù)去理解機器學習過程

    機器學習,需要先學習才能預測判斷,樣本則是機器學習的信息輸入,樣本的質(zhì)量很大程度上決定了機器
    的頭像 發(fā)表于 04-15 15:39 ?1880次閱讀

    人工智能(AI)和機器學習(ML)

    總的來說人工智能是一種具體的結(jié)果,而機器學習是我們達到人工智能的一個途徑。人工智能可以主導機器學習過程,但是
    的頭像 發(fā)表于 04-15 17:19 ?2920次閱讀

    為生產(chǎn)系統(tǒng)構(gòu)建機器學習的一些考慮

    這篇文章介紹了為生產(chǎn)系統(tǒng)構(gòu)建機器學習過程的很多方面的內(nèi)容,都是從實踐中總結(jié)出來的。
    的頭像 發(fā)表于 04-19 11:34 ?1533次閱讀

    手把手教你在機器學習過程設計Python接口

    為了進行機器學習工程,首先要部署一個模型,在大多數(shù)情況下作為一個預測API。為了使此API在生產(chǎn)中工作,必須首先構(gòu)建模型服務基礎設施。這包括負載平衡、擴展、監(jiān)視、更新等等。
    的頭像 發(fā)表于 08-20 14:29 ?1791次閱讀
    手把手教你在<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>過程</b>設計Python接口

    機器學習的基本過程及關鍵要素

    機器學習的基本過程,羅列了幾個主要流程和關鍵要素;繼而展開介紹機器學習主要的算法框架,包括監(jiān)督學習
    發(fā)表于 11-12 10:28 ?1.1w次閱讀

    人工智能正在加快速度從“云端”走向“邊緣”

    人工智能(AI)正在加快速度從“云端”走向“邊緣”,進入到越來越小的物聯(lián)網(wǎng)設備中。在終端和邊緣側(cè)的微處理器上,實現(xiàn)的機器學習過程,被稱為微型機器學習
    的頭像 發(fā)表于 04-04 12:01 ?1212次閱讀
    人工智能正在加快速度從“云端”走向“邊緣”