0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

kNN算法是監(jiān)督學習中分類方法的一種

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-09-19 17:40 ? 次閱讀

1.引言

頂級數據挖掘會議ICDM于2006年12月評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Na?ve Bayes與 CART。 以前看過關于這些數據挖掘算法,但對背后數學原理未做過多探究,因而借此整理以更深入地理解這些算法。

本文討論的kNN算法是監(jiān)督學習中分類方法的一種。所謂監(jiān)督學習與非監(jiān)督學習,是指訓練數據是否有標注類別,若有則為監(jiān)督學習,若否則為非監(jiān)督學習。監(jiān)督學習是根據輸入數據(訓練數據)學習一個模型,能對后來的輸入做預測。在監(jiān)督學習中,輸入變量與輸出變量可以是連續(xù)的,也可以是離散的。若輸入變量與輸出變量均為連續(xù)變量,則稱為回歸;輸出變量為有限個離散變量,則稱為分類;輸入變量與輸出變量均為變量序列,則稱為標注[2]。

2.kNN算法

kNN算法的核心思想非常簡單:在訓練集中選取離輸入的數據點最近的k個鄰居,根據這個k個鄰居中出現次數最多的類別(最大表決規(guī)則),作為該數據點的類別。

算法描述

訓練,其類別,訓練集中樣本點數為N,類別數為K。輸入待預測數據,則預測類別

其中,涵蓋的k鄰域記作,當時指示函數,否則

分類決策規(guī)則

kNN學習模型:輸入,通過學習得到決策函數:輸出類別。假設分類損失函數為0-1損失函數,即分類正確時損失函數值為0,分類錯誤時則為1。假如給預測類別為,即;同時由式子(1)可知k鄰域的樣本點對學習模型的貢獻度是均等的,則kNN學習模型誤分類率為

若要最小化誤分類率,則應

所以,最大表決規(guī)則等價于經驗風險最小化。

存在問題

k值得選取對kNN學習模型有著很大的影響。若k值過小,預測結果會對噪音樣本點顯得異常敏感。特別地,當k等于1時,kNN退化成最近鄰算法,沒有了顯式的學習過程。若k值過大,會有較大的鄰域訓練樣本進行預測,可以減小噪音樣本點的減少;但是距離較遠的訓練樣本點對預測結果會有貢獻,以至于造成預測結果錯誤。下圖給出k值的選取對于預測結果的影響:

前面提到過,k鄰域的樣本點對預測結果的貢獻度是相等的;但距離更近的樣本點應有更大的相似度,其貢獻度應比距離更遠的樣本點大。可以加上權值進行修正,則最大表決原則變成:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4587

    瀏覽量

    92501
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    24189

原文標題:【十大經典數據挖掘算法】kNN

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何用卷積神經網絡方法去解決機器監(jiān)督學習下面的分類問題?

    人工智能下面有哪些機器學習分支?如何用卷積神經網絡(CNN)方法去解決機器學習監(jiān)督學習下面的分類問題?
    發(fā)表于 06-16 08:09

    基于半監(jiān)督學習框架的識別算法

    問題,對半監(jiān)督學習中的協(xié)同訓練算法進行改進,提出了一種基于多學習器協(xié)同訓練模型的人體行為識別方法.這是
    發(fā)表于 01-21 10:41 ?1次下載

    你想要的機器學習課程筆記在這:主要討論監(jiān)督學習和無監(jiān)督學習

    with experience E(個程序從經驗E中學習解決任務T進行某任務量度P,通過P測量在T的表現而提高經驗E(另一種定義:機器學習
    發(fā)表于 12-03 17:12 ?536次閱讀

    如何用Python進行無監(jiān)督學習

    監(jiān)督學習一種用于在數據中查找模式的機器學習技術。無監(jiān)督算法給出的數據不帶標記,只給出輸入變量(X),沒有相應的輸出變量。在無
    的頭像 發(fā)表于 01-21 17:23 ?4195次閱讀

    詳解機器學習分類算法KNN

    本文主要介紹個被廣泛使用的機器學習分類算法,K-nearest neighbors(KNN),中文叫K近鄰
    的頭像 發(fā)表于 10-31 17:18 ?6055次閱讀

    機器學習算法中有監(jiān)督和無監(jiān)督學習的區(qū)別

    監(jiān)督學習的好處之是,它不需要監(jiān)督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學習算法
    的頭像 發(fā)表于 07-07 10:18 ?5682次閱讀

    最基礎的半監(jiān)督學習

    導讀 最基礎的半監(jiān)督學習的概念,給大家個感性的認識。 半監(jiān)督學習(SSL)是一種機器學習技術,其中任務是從
    的頭像 發(fā)表于 11-02 16:08 ?2600次閱讀

    監(jiān)督學習最基礎的3個概念

    導讀 今天給大家介紹半監(jiān)督學習中的3個最基礎的概念:致性正則化,熵最小化和偽標簽,并介紹了兩個經典的半監(jiān)督學習方法。 沒看的點這里哈:半監(jiān)督學習
    的頭像 發(fā)表于 11-02 16:14 ?2914次閱讀
    半<b class='flag-5'>監(jiān)督學習</b>最基礎的3個概念

    監(jiān)督學習:比監(jiān)督學習做的更好

    監(jiān)督學習是人工智能領域的第一種學習類型。從它的概念開始,無數的算法,從簡單的邏輯回歸到大規(guī)模的神經網絡,都已經被研究用來提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1376次閱讀

    深度學習:基于語境的文本分類監(jiān)督學習

    高成本的人工標簽使得弱監(jiān)督學習備受關注。seed-driven 是弱監(jiān)督學習中的一種常見模型。該模型要求用戶提供少量的seed words,根據seed words對未標記的訓練數據生成偽標簽,增加
    的頭像 發(fā)表于 01-18 16:04 ?2938次閱讀

    一種基于光滑表示的半監(jiān)督分類算法

    。文中提岀了一種基于光滑表示的半監(jiān)督分類算法。具體來說,此方法通過應用個低通濾波器來實現數據的
    發(fā)表于 04-08 10:47 ?17次下載
    <b class='flag-5'>一種</b>基于光滑表示的半<b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b><b class='flag-5'>算法</b>

    一種基于DE和ELM的半監(jiān)督分類方法

    演化算法和分析方法的結合是機器學習領域近幾年的個研究熱點。研究如何將差分進化(DE)演化算法與基于超限
    發(fā)表于 04-09 16:16 ?5次下載
    <b class='flag-5'>一種</b>基于DE和ELM的半<b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b><b class='flag-5'>方法</b>

    機器學習中的無監(jiān)督學習應用在哪些領域

    解決數據中心、云計算、人工智能和邊緣計算等各個行業(yè)的問題,為人們帶來極大便益。 自監(jiān)督學習是什么? 自監(jiān)督學習監(jiān)督學習和非監(jiān)督學習的關系 自我監(jiān)督
    發(fā)表于 01-20 10:52 ?4898次閱讀
    機器<b class='flag-5'>學習</b>中的無<b class='flag-5'>監(jiān)督學習</b>應用在哪些領域

    一種基于偽標簽半監(jiān)督學習的小樣本調制識別算法

    一種基于偽標簽半監(jiān)督學習的小樣本調制識別算法 來源:《西北工業(yè)大學學報》,作者史蘊豪等 摘 要:針對有標簽樣本較少條件下的通信信號調制識別問題,提出了一種基于偽標簽半
    發(fā)表于 02-10 11:37 ?789次閱讀

    KNN算法、分類回歸樹、隨機森林的優(yōu)缺點及應用實例

    KNN屬于一種監(jiān)督學習分類算法,用于訓練的數據集是完全正確且已分好類的。
    的頭像 發(fā)表于 11-11 10:11 ?5303次閱讀