0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

標(biāo)簽 > SVM

SVM

+關(guān)注 0人關(guān)注

SVM(Support Vector Machine)指的是支持向量機(jī),是常見的一種判別方法。在機(jī)器學(xué)習(xí)領(lǐng)域,是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類以及回歸分析。

文章: 54
視頻: 34
瀏覽: 32377
帖子: 26

SVM簡介

  SVM(Support Vector Machine)指的是支持向量機(jī),是常見的一種判別方法。在機(jī)器學(xué)習(xí)領(lǐng)域,是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類以及回歸分析。

  Vapnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在后來提出的一種新方法。SVM的主要思想可以概括為兩點:

  它是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能。

  它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中構(gòu)建最優(yōu)超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望以某個概率滿足一定上界。

SVM百科

  SVM(Support Vector Machine)指的是支持向量機(jī),是常見的一種判別方法。在機(jī)器學(xué)習(xí)領(lǐng)域,是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類以及回歸分析。

  Vapnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在后來提出的一種新方法。SVM的主要思想可以概括為兩點:

  它是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能。

  它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中構(gòu)建最優(yōu)超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望以某個概率滿足一定上界。

  例子

  如右圖:將1維的“線性不可分”上升到2維后就成為線性可分了。⑵它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。在學(xué)習(xí)這種方法時,首先要弄清楚這種方法考慮問題的特點,這就要從線性可分的最簡單情況討論起,在沒有弄懂其原理之前,不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況,支持向量機(jī)在設(shè)計時,需要用到條件極值問題的求解,因此需用拉格朗日乘子理論,但對多數(shù)人來說,以前學(xué)到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿足的條件,此時只要了解拉格朗日理論的有關(guān)結(jié)論就行。

  一般特征

  ⑴SVM學(xué)習(xí)問題可以表示為凸優(yōu)化問題,因此可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最小值。而其他分類方法(如基于規(guī)則的分類器和人工神經(jīng)網(wǎng)絡(luò))都采用一種基于貪心學(xué)習(xí)的策略來搜索假設(shè)空間,這種方法一般只能獲得局部最優(yōu)解。⑵SVM通過最大化決策邊界的邊緣來控制模型的能力。盡管如此,用戶必須提供其他參數(shù),如使用核函數(shù)類型和引入松弛變量等。⑶通過對數(shù)據(jù)中每個分類屬性引入一個啞變量,SVM可以應(yīng)用于分類數(shù)據(jù)。⑷SVM一般只能用在二類問題,對于多類問題效果不好。

  原理介紹

  SVM方法是通過一個非線性映射p,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題.簡單地說,就是升維和線性化.升維,就是把樣本向高維空間做映射,一般情況下這會增加計算的復(fù)雜性,甚至?xí)?ldquo;維數(shù)災(zāi)難”,因而人們很少問津.但是作為分類、回歸等問題來說,很可能在低維樣本空間無法線性處理的樣本集,在高維特征空間中卻可以通過一個線性超平面實現(xiàn)線性劃分(或回歸).一般的升維都會帶來計算的復(fù)雜化,SVM方法巧妙地解決了這個難題:應(yīng)用核函數(shù)的展開定理,就不需要知道非線性映射的顯式表達(dá)式;由于是在高維特征空間中建立線性學(xué)習(xí)機(jī),所以與線性模型相比,不但幾乎不增加計算的復(fù)雜性,而且在某種程度上避免了“維數(shù)災(zāi)難”.這一切要歸功于核函數(shù)的展開和計算理論.選擇不同的核函數(shù),可以生成不同的SVM,常用的核函數(shù)有以下4種:⑴線性核函數(shù)K(x,y)=x·y;⑵多項式核函數(shù)K(x,y)=[(x·y)+1]^d;⑶徑向基函數(shù)K(x,y)=exp(-|x-y|^2/d^2)⑷二層神經(jīng)網(wǎng)絡(luò)核函數(shù)K(x,y)=tanh(a(x·y)+b).

  應(yīng)用

  SVM可用于解決各種現(xiàn)實世界的問題:

  支持向量機(jī)有助于文本和超文本分類,因為它們的應(yīng)用程序可以顯著減少對標(biāo)準(zhǔn)感應(yīng)和轉(zhuǎn)換設(shè)置中標(biāo)記的訓(xùn)練實例的需求。

  圖像的分類也可以使用SVM進(jìn)行。實驗結(jié)果表明,只有三到四輪的相關(guān)性反饋,支持向量機(jī)的搜索精度要比傳統(tǒng)的查詢優(yōu)化方案高得多。圖像分割系統(tǒng)也是如此,包括使用Vapnik建議的使用特權(quán)方法的修改版SVM的系統(tǒng)。

  使用SVM可以識別手寫字符。

  SVM算法已廣泛應(yīng)用于生物科學(xué)和其他科學(xué)領(lǐng)域。它們已被用于對高達(dá)90%正確分類的化合物進(jìn)行蛋白質(zhì)分類。已經(jīng)提出基于SVM權(quán)重的置換測試作為解釋SVM模型的機(jī)制。支持向量機(jī)權(quán)重也被用于解釋過去的SVM模型。Posthoc解釋支持向量機(jī)模型為了識別模型使用的特征進(jìn)行預(yù)測是一個比較新的研究領(lǐng)域,在生物科學(xué)中具有特殊的意義。

  手把手教你實現(xiàn)SVM算法

  機(jī)器學(xué)習(xí)是研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域。

  機(jī)器學(xué)習(xí)的大致分類:

  1)分類(模式識別):要求系統(tǒng)依據(jù)已知的分類知識對輸入的未知模式(該模式的描述)作分析,以確定輸入模式的類屬,例如手寫識別(識別是不是這個數(shù))。

  2)問題求解:要求對于給定的目標(biāo)狀態(tài),尋找一個將當(dāng)前狀態(tài)轉(zhuǎn)換為目標(biāo)狀態(tài)的動作序列。

  SVM一般是用來分類的(一般先分為兩類,再向多類推廣一生二,二生三,三生萬物哈)

  clip_image002

  問題的描述

  向量表示:假設(shè)一個樣本有n個變量(特征):Ⅹ= (X1,X2,…,Xn)T

  樣本表示方法:

  clip_image004

  SVM線性分類器

  SVM從線性可分情況下的最優(yōu)分類面發(fā)展而來。最優(yōu)分類面就是要求分類線不但能將兩類正確分開(訓(xùn)練錯誤率為0),且使分類間隔最大。SVM考慮尋找一個滿足分類要求的超平面,并且使訓(xùn)練集中的點距離分類面盡可能的遠(yuǎn),也就是尋找一個分類面使它兩側(cè)的空白區(qū)域(margin)最大。

  過兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上H1,H2的訓(xùn)練樣本就叫做支持向量。

  圖例:

  clip_image006

  問題描述:

  假定訓(xùn)練數(shù)據(jù) :clip_image008

  可以被分為一個超平面:clip_image010

  進(jìn)行歸一化:clip_image012

  此時分類間隔等于:clip_image014

  即使得:最大間隔最大等價于使clip_image016最小

  下面這兩張圖可以看一下,有個感性的認(rèn)識。那個好?

  clip_image018

  看下面這張圖:

  clip_image020

  下面我們要開始優(yōu)化上面的式子,因為推導(dǎo)要用到拉格朗日定理和KKT條件,所以我們先了解一下相關(guān)知識。在求取有約束條件的優(yōu)化問題時,拉格朗日乘子法(Lagrange Multiplier) 和KKT條件是非常重要的兩個求取方法,對于等式約束的優(yōu)化問題,可以應(yīng)用拉格朗日乘子法去求取最優(yōu)值;如果含有不等式約束,可以應(yīng)用KKT條件去求取。當(dāng)然,這兩個方法求得的結(jié)果只是必要條件,只有當(dāng)是凸函數(shù)的情況下,才能保證是充分必要條件。KKT條件是拉格朗日乘子法的泛化。之前學(xué)習(xí)的時候,只知道直接應(yīng)用兩個方法,但是卻不知道為什么拉格朗日乘子法(Lagrange Multiplier) 和KKT條件能夠起作用,為什么要這樣去求取最優(yōu)值呢?

  拉格朗日乘子法和KKT條件

  定義:給定一個最優(yōu)化問題:

  最小化目標(biāo)函數(shù):clip_image022

  制約條件:clip_image024

  定義拉格朗日函數(shù)為:

  clip_image026

  求偏倒方程

  clip_image029

  可以求得clip_image031的值。這個就是神器拉格朗日乘子法。

  上面的拉格朗日乘子法還不足以幫我們解決所有的問題,下面引入不等式約束

  最小化目標(biāo)函數(shù):clip_image022

  制約條件變?yōu)椋?/p>

  clip_image033

  定義拉格朗日函數(shù)為:

  clip_image035

  可以列出方程:

  clip_image037

  新增加的條件被稱為KKT條件

  KKT條件詳解

  對于含有不等式約束的優(yōu)化問題,如何求取最優(yōu)值呢?常用的方法是KKT條件,同樣地,把所有的不等式約束、等式約束和目標(biāo)函數(shù)全部寫為一個式子L(a, b, x)= f(x) + a*g(x)+b*h(x),KKT條件是說最優(yōu)值必須滿足以下條件:

  1. L(a, b, x)對x求導(dǎo)為零;

  2. h(x) =0;

  3. a*g(x) = 0;

  求取這三個等式之后就能得到候選最優(yōu)值。其中第三個式子非常有趣,因為g(x)《=0,如果要滿足這個等式,必須a=0或者g(x)=0. 這是SVM的很多重要性質(zhì)的來源,如支持向量的概念。

  二。 為什么拉格朗日乘子法(Lagrange Multiplier) 和KKT條件能夠得到最優(yōu)值?

  為什么要這么求能得到最優(yōu)值?先說拉格朗日乘子法,設(shè)想我們的目標(biāo)函數(shù)z = f(x), x是向量, z取不同的值,相當(dāng)于可以投影在x構(gòu)成的平面(曲面)上,即成為等高線,如下圖,目標(biāo)函數(shù)是f(x, y),這里x是標(biāo)量,虛線是等高線,現(xiàn)在假設(shè)我們的約束g(x)=0,x是向量,在x構(gòu)成的平面或者曲面上是一條曲線,假設(shè)g(x)與等高線相交,交點就是同時滿足等式約束條件和目標(biāo)函數(shù)的可行域的值,但肯定不是最優(yōu)值,因為相交意味著肯定還存在其它的等高線在該條等高線的內(nèi)部或者外部,使得新的等高線與目標(biāo)函數(shù)的交點的值更大或者更小,只有到等高線與目標(biāo)函數(shù)的曲線相切的時候,可能取得最優(yōu)值,如下圖所示,即等高線和目標(biāo)函數(shù)的曲線在該點的法向量必須有相同方向,所以最優(yōu)值必須滿足:f(x)的梯度 = a* g(x)的梯度,a是常數(shù),表示左右兩邊同向。這個等式就是L(a,x)對參數(shù)求導(dǎo)的結(jié)果。(上述描述,我不知道描述清楚沒,如果與我物理位置很近的話,直接找我,我當(dāng)面講好理解一些,注:下圖來自wiki)。

  clip_image038

  而KKT條件是滿足強(qiáng)對偶條件的優(yōu)化問題的必要條件,可以這樣理解:我們要求min f(x), L(a, b, x) = f(x) + a*g(x) + b*h(x),a》=0,我們可以把f(x)寫為:max_{a,b} L(a,b,x),為什么呢?因為h(x)=0, g(x)《=0,現(xiàn)在是取L(a,b,x)的最大值,a*g(x)是《=0,所以L(a,b,x)只有在a*g(x) = 0的情況下才能取得最大值,否則,就不滿足約束條件,因此max_{a,b} L(a,b,x)在滿足約束條件的情況下就是f(x),因此我們的目標(biāo)函數(shù)可以寫為 min_x max_{a,b} L(a,b,x)。如果用對偶表達(dá)式: max_{a,b} min_x L(a,b,x),由于我們的優(yōu)化是滿足強(qiáng)對偶的(強(qiáng)對偶就是說對偶式子的最優(yōu)值是等于原問題的最優(yōu)值的),所以在取得最優(yōu)值x0的條件下,它滿足 f(x0) = max_{a,b} min_x L(a,b,x) = min_x max_{a,b} L(a,b,x) =f(x0),我們來看看中間兩個式子發(fā)生了什么事情:

  f(x0) = max_{a,b} min_x L(a,b,x) = max_{a,b} min_x f(x) + a*g(x) + b*h(x) = max_{a,b} f(x0)+a*g(x0)+b*h(x0) = f(x0)

  可以看到上述加黑的地方本質(zhì)上是說 min_x f(x) + a*g(x) + b*h(x) 在x0取得了最小值,用Fermat定理,即是說對于函數(shù) f(x) + a*g(x) + b*h(x),求取導(dǎo)數(shù)要等于零,即

  f(x)的梯度+a*g(x)的梯度+ b*h(x)的梯度 = 0

  這就是KKT條件中第一個條件:L(a, b, x)對x求導(dǎo)為零。

  而之前說明過,a*g(x) = 0,這時KKT條件的第3個條件,當(dāng)然已知的條件h(x)=0必須被滿足,所有上述說明,滿足強(qiáng)對偶條件的優(yōu)化問題的最優(yōu)值都必須滿足KKT條件,即上述說明的三個條件。可以把KKT條件視為是拉格朗日乘子法的泛化。

  上面跑題了,下面我繼續(xù)我們的SVM之旅。

  經(jīng)過拉格朗日乘子法和KKT條件推導(dǎo)之后

  最終問題轉(zhuǎn)化為:

  最大化:clip_image040

  條件:

  clip_image042

  這個是著名的QP問題。決策面:clip_image044其中 clip_image046為問題的優(yōu)化解。

  松弛變量(slack vaviable)

  由于在采集數(shù)據(jù)的過程中,也可能有誤差(如圖)

  clip_image048

  所以我們引入松弛變量對問題進(jìn)行優(yōu)化。

  clip_image050式子就變?yōu)?img alt="clip_image052" border="0" height="25" src="http://images.cnitblog.com/blog/458371/201212/31223705-c648f3b4460c4054839619d3e09e19a7.jpg" width="252" />

  最終轉(zhuǎn)化為下面的優(yōu)化問題:

  clip_image054

  其中的C是懲罰因子,是一個由用戶去指定的系數(shù),表示對分錯的點加入多少的懲罰,當(dāng)C很大的時候,分錯的點就會更少,但是過擬合的情況可能會比較嚴(yán)重,當(dāng)C很小的時候,分錯的點可能會很多,不過可能由此得到的模型也會不太正確。

  上面那個個式子看似復(fù)雜,現(xiàn)在我?guī)Т蠹乙黄鹜频挂幌?/p>

  ……

  …(草稿紙上,敲公式太煩人了)

  最終得到:

  最大化:

  clip_image058

  條件:

  clip_image060

  呵呵,是不是感覺和前面的式子沒啥區(qū)別內(nèi),親,數(shù)學(xué)就是這么美妙啊。

  這個式子看起來beautiful,但是多數(shù)情況下只能解決線性可分的情況,只可以對線性可分的樣本做處理。如果提供的樣本線性不可分,結(jié)果很簡單,線性分類器的求解程序會無限循環(huán),永遠(yuǎn)也解不出來。但是不怕不怕。我們有殺手锏還沒有出呢。接著咱要延伸到一個新的領(lǐng)域:核函數(shù)。嘻嘻,相信大家都應(yīng)該聽過這廝的大名,這個東東在60年代就提出來,可是直到90年代才開始火起來(第二春哈),主要是被Vapnik大大翻出來了。這也說明計算機(jī)也要多研讀經(jīng)典哈,不是說過時了就不看的,有些大師的論文還是有啟發(fā)意義的。廢話不多說,又跑題了。

  核函數(shù)

  那到底神馬是核函數(shù)呢?

  介個咱得先介紹一下VC維的概念。

  為了研究經(jīng)驗風(fēng)險最小化函數(shù)集的學(xué)習(xí)一致收斂速度和推廣性,SLT定義了一些指標(biāo)來衡量函數(shù)集的性能,其中最重要的就是VC維(Vapnik-Chervonenkis Dimension)。

  VC維定義:對于一個指示函數(shù)(即只有0和1兩種取值的函數(shù))集,如果存在h個樣本能夠被函數(shù)集里的函數(shù)按照所有可能的2h種形式分開,則稱函數(shù)集能夠把h個樣本打散,函數(shù)集的VC維就是能夠打散的最大樣本數(shù)目。

  如果對任意的樣本數(shù),總有函數(shù)能打散它們,則函數(shù)集的VC維就是無窮大。

  看圖比較方便(三個點分類,線性都可分的)。

  clip_image062

  如果四個點呢?哈哈,右邊的四個點要分為兩個類,可能就分不啦。

  clip_image064

  如果四個點,一條線可能就分不過來啦。

  一般而言,VC維越大, 學(xué)習(xí)能力就越強(qiáng),但學(xué)習(xí)機(jī)器也越復(fù)雜。

  目前還沒有通用的關(guān)于計算任意函數(shù)集的VC維的理論,只有對一些特殊函數(shù)集的VC維可以準(zhǔn)確知道。

  N維實數(shù)空間中線性分類器和線性實函數(shù)的VC維是n+1。

  Sin(ax)的VC維為無窮大。

  對于給定的學(xué)習(xí)函數(shù)集,如何計算其VC維是當(dāng)前統(tǒng)計學(xué)習(xí)理論研究中有待解決的一個難點問題,各位童鞋有興趣可以去研究研究。

  咱們接著要說說為啥要映射。

  例子是下面這張圖:

  下面這段來自百度文庫http://wenku.baidu.com/view/8c17ebda5022aaea998f0fa8.html

  俺覺得寫的肯定比我好,所以咱就選擇站在巨人的肩膀上啦。

  clip_image065

  我們把橫軸上端點a和b之間紅色部分里的所有點定為正類,兩邊的黑色部分里的點定為負(fù)類。試問能找到一個線性函數(shù)把兩類正確分開么?不能,因為二維空間里的線性函數(shù)就是指直線,顯然找不到符合條件的直線。

  但我們可以找到一條曲線,例如下面這一條:

  clip_image066

  顯然通過點在這條曲線的上方還是下方就可以判斷點所屬的類別(你在橫軸上隨便找一點,算算這一點的函數(shù)值,會發(fā)現(xiàn)負(fù)類的點函數(shù)值一定比0大,而正類的一定比0?。?。這條曲線就是我們熟知的二次曲線,它的函數(shù)表達(dá)式可以寫為:

  clip_image067

  問題只是它不是一個線性函數(shù),但是,下面要注意看了,新建一個向量y和a:

  clip_image068

  這樣g(x)就可以轉(zhuǎn)化為f(y)=《a,y》,你可以把y和a分別回帶一下,看看等不等于原來的g(x)。用內(nèi)積的形式寫你可能看不太清楚,實際上f(y)的形式就是:

  g(x)=f(y)=ay

  在任意維度的空間中,這種形式的函數(shù)都是一個線性函數(shù)(只不過其中的a和y都是多維向量罷了),因為自變量y的次數(shù)不大于1。

  看出妙在哪了么?原來在二維空間中一個線性不可分的問題,映射到四維空間后,變成了線性可分的!因此這也形成了我們最初想解決線性不可分問題的基本思路——向高維空間轉(zhuǎn)化,使其變得線性可分。

  而轉(zhuǎn)化最關(guān)鍵的部分就在于找到x到y(tǒng)的映射方法。遺憾的是,如何找到這個映射,沒有系統(tǒng)性的方法(也就是說,純靠猜和湊)。具體到我們的文本分類問題,文本被表示為上千維的向量,即使維數(shù)已經(jīng)如此之高,也常常是線性不可分的,還要向更高的空間轉(zhuǎn)化。其中的難度可想而知。

  為什么說f(y)=ay是四維空間里的函數(shù)?

  大家可能一時沒看明白?;叵胍幌挛覀兌S空間里的函數(shù)定義

  g(x)=ax+b

  變量x是一維的,為什么說它是二維空間里的函數(shù)呢?因為還有一個變量我們沒寫出來,它的完整形式其實是

  y=g(x)=ax+b

  即

  y=ax+b

  看看,有幾個變量?兩個。那是幾維空間的函數(shù)?

  再看看

  f(y)=ay

  里面的y是三維的變量,那f(y)是幾維空間里的函數(shù)?

  用一個具體文本分類的例子來看看這種向高維空間映射從而分類的方法如何運作,想象一下,我們文本分類問題的原始空間是1000維的(即每個要被分類的文檔被表示為一個1000維的向量),在這個維度上問題是線性不可分的?,F(xiàn)在我們有一個2000維空間里的線性函數(shù)

  f(x’)=《w’,x’》+b

  注意向量的右上角有個 ’哦。它能夠?qū)⒃瓎栴}變得可分。式中的 w’和x’都是2000維的向量,只不過w’是定值,而x’是變量(好吧,嚴(yán)格說來這個函數(shù)是2001維的,哈哈),現(xiàn)在我們的輸入呢,是一個1000維的向量x,分類的過程是先把x變換為2000維的向量x’,然后求這個變換后的向量x’與向量w’的內(nèi)積,再把這個內(nèi)積的值和b相加,就得到了結(jié)果,看結(jié)果大于閾值還是小于閾值就得到了分類結(jié)果。

  你發(fā)現(xiàn)了什么?我們其實只關(guān)心那個高維空間里內(nèi)積的值,那個值算出來了,分類結(jié)果就算出來了。而從理論上說, x’是經(jīng)由x變換來的,因此廣義上可以把它叫做x的函數(shù)(有一個x,就確定了一個x’,對吧,確定不出第二個),而w’是常量,它是一個低維空間里的常量w經(jīng)過變換得到的,所以給了一個w 和x的值,就有一個確定的f(x’)值與其對應(yīng)。這讓我們幻想,是否能有這樣一種函數(shù)K(w,x),他接受低維空間的輸入值,卻能算出高維空間的內(nèi)積值《w’,x’》?

  如果有這樣的函數(shù),那么當(dāng)給了一個低維空間的輸入x以后,

  g(x)=K(w,x)+b

  f(x’)=《w’,x’》+b

  這兩個函數(shù)的計算結(jié)果就完全一樣,我們也就用不著費力找那個映射關(guān)系,直接拿低維的輸入往g(x)里面代就可以了(再次提醒,這回的g(x)就不是線性函數(shù)啦,因為你不能保證K(w,x)這個表達(dá)式里的x次數(shù)不高于1哦)。

  萬幸的是,這樣的K(w,x)確實存在(發(fā)現(xiàn)凡是我們?nèi)祟惸芙鉀Q的問題,大都是巧得不能再巧,特殊得不能再特殊的問題,總是恰好有些能投機(jī)取巧的地方才能解決,由此感到人類的渺小),它被稱作核函數(shù)(核,kernel),而且還不止一個,事實上,只要是滿足了Mercer條件的函數(shù),都可以作為核函數(shù)。核函數(shù)的基本作用就是接受兩個低維空間里的向量,能夠計算出經(jīng)過某個變換后在高維空間里的向量內(nèi)積值。幾個比較常用的核函數(shù),俄,教課書里都列過,我就不敲了(懶?。?。

  回想我們上節(jié)說的求一個線性分類器,它的形式應(yīng)該是:

  clip_image070

  現(xiàn)在這個就是高維空間里的線性函數(shù)(為了區(qū)別低維和高維空間里的函數(shù)和向量,我改了函數(shù)的名字,并且給w和x都加上了 ’),我們就可以用一個低維空間里的函數(shù)(再一次的,這個低維空間里的函數(shù)就不再是線性的啦)來代替,

  clip_image070

  又發(fā)現(xiàn)什么了?f(x’) 和g(x)里的α,y,b全都是一樣一樣的!這就是說,盡管給的問題是線性不可分的,但是我們就硬當(dāng)它是線性問題來求解,只不過求解過程中,凡是要求內(nèi)積的時候就用你選定的核函數(shù)來算。這樣求出來的α再和你選定的核函數(shù)一組合,就得到分類器啦!

  明白了以上這些,會自然的問接下來兩個問題:

  1. 既然有很多的核函數(shù),針對具體問題該怎么選擇?

  2. 如果使用核函數(shù)向高維空間映射后,問題仍然是線性不可分的,那怎么辦?

  第一個問題現(xiàn)在就可以回答你:對核函數(shù)的選擇,現(xiàn)在還缺乏指導(dǎo)原則!各種實驗的觀察結(jié)果(不光是文本分類)的確表明,某些問題用某些核函數(shù)效果很好,用另一些就很差,但是一般來講,徑向基核函數(shù)是不會出太大偏差的一種,首選。(我做文本分類系統(tǒng)的時候,使用徑向基核函數(shù),沒有參數(shù)調(diào)優(yōu)的情況下,絕大部分類別的準(zhǔn)確和召回都在85%以上。

  感性理解,映射圖:

  clip_image072

  常用的兩個Kernel函數(shù):

  多項式核函數(shù):clip_image074

  高斯核函數(shù):clip_image076

  定義:clip_image078

  將核函數(shù)帶入,問題又轉(zhuǎn)化為線性問題啦,如下:

  clip_image080

  求clip_image082,其中clip_image084

  式子是有了,但是如何求結(jié)果呢?不急不急,我會帶著大家一步一步的解決這個問題,并且通過動手編程使大家對這個有個問題有個直觀的認(rèn)識。(PS:大家都對LIBSVM太依賴了,這樣無助于深入的研究與理解,而且我覺得自己動手實現(xiàn)的話會比較有成就感)

查看詳情

svm知識

展開查看更多

svm技術(shù)

支持向量機(jī)(SVM)的定義、分類及工作流程圖詳解

支持向量機(jī)(SVM)的定義、分類及工作流程圖詳解

SVM可以做線性分類、非線性分類、線性回歸等,相比邏輯回歸、線性回歸、決策樹等模型。

2017-11-30 標(biāo)簽:svm機(jī)器學(xué)習(xí) 8.4萬 0

SVM算法附代碼和公式詳細(xì)概述

支持向量機(jī)(SVM),一個神秘而眾知的名字,在其出來就受到了莫大的追捧,號稱最優(yōu)秀的分類算法之一,以其簡單的理論構(gòu)造了復(fù)雜的算法,又以其簡單的用法實現(xiàn)了...

2018-04-30 標(biāo)簽:SVMKKT 1.4萬 0

帶你入門SVM,從較高的層次講解SVM的機(jī)制

帶你入門SVM,從較高的層次講解SVM的機(jī)制

基本上我們想要的是某種“算法”,接受“評分元組”(math_score, stats_score)輸入,預(yù)測學(xué)生在圖中是紅點還是綠點(綠/紅也稱為分類或...

2018-07-29 標(biāo)簽:SVM機(jī)器學(xué)習(xí) 7813 1

機(jī)器學(xué)習(xí)之支持向量機(jī)SVM

機(jī)器學(xué)習(xí)之支持向量機(jī)SVM

掌握機(jī)器學(xué)習(xí)算法并不是什么神話。對于大多數(shù)機(jī)器學(xué)習(xí)初學(xué)者來說,回歸算法是很多人接觸到的第一類算法,它易于理解、方便使用,堪稱學(xué)習(xí)工作中的一大神器,但它真...

2018-05-16 標(biāo)簽:SVM機(jī)器學(xué)習(xí) 6889 0

如何簡化兩電平SVM調(diào)制方法詳細(xì)說明

如何簡化兩電平SVM調(diào)制方法詳細(xì)說明

簡化兩電平SVM法 首先我們先來看一下最近三矢量NTV法和簡化兩電平SVM法扇區(qū)劃分的比較,見下圖:

2019-07-06 標(biāo)簽:電壓電平SVM 5965 0

SVM與神經(jīng)網(wǎng)絡(luò)結(jié)合會發(fā)生什么?

SVM與神經(jīng)網(wǎng)絡(luò)結(jié)合會發(fā)生什么?

SVM 是機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典算法之一。如果將 SVM推廣到神經(jīng)網(wǎng)絡(luò),會發(fā)生什么呢?

2020-09-14 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)SVM 4881 0

排序算法如何在機(jī)器學(xué)習(xí)技術(shù)中發(fā)揮重要作用

排序算法如何在機(jī)器學(xué)習(xí)技術(shù)中發(fā)揮重要作用

本文將首先從支持向量機(jī)的基礎(chǔ)理論知識入手,和大家探討一個良好的排序算法如何在在機(jī)器學(xué)習(xí)技術(shù)中發(fā)揮著重要的作用。

2018-07-26 標(biāo)簽:SVM機(jī)器學(xué)習(xí) 4846 0

將反推控制方法和SVM-DTC控制方法結(jié)合的實例分析

將反推控制方法和SVM-DTC控制方法結(jié)合的實例分析

新能源電力系統(tǒng)國家重點實驗室、河北省電力公司的研究人員米增強(qiáng)、鄭曉明等,在2017年第21期《電工技術(shù)學(xué)報》上撰文,機(jī)械彈性儲能系統(tǒng)在儲能過程中驅(qū)動電機(jī)...

2017-12-11 標(biāo)簽:svmdtc 4845 0

機(jī)器學(xué)習(xí)之分類分析與聚類分析

數(shù)據(jù)挖掘中應(yīng)用較多的技術(shù)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)主流算法包括三種:關(guān)聯(lián)分析、分類分析、聚類分析。

2023-03-27 標(biāo)簽:SVM機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)路 4601 0

SVM在車牌字符識別中的應(yīng)用

SVM在車牌字符識別中的應(yīng)用

1 引言    車牌識別是智能交通系統(tǒng)的一個重要研究課題,存在巨大的市場需求。車牌識別系統(tǒng)分車輛圖像的獲取、車牌的定位與字...

2009-05-16 標(biāo)簽:SVM 3793 0

查看更多>>

svm資料下載

查看更多>>

svm資訊

基于深度學(xué)習(xí)的目標(biāo)檢測算法

基于深度學(xué)習(xí)的目標(biāo)檢測算法

整體框架 目標(biāo)檢測算法主要包括:【兩階段】目標(biāo)檢測算法、【多階段】目標(biāo)檢測算法、【單階段】目標(biāo)檢測算法 什么是兩階段目標(biāo)檢測算法,與單階段目標(biāo)檢測有什么...

2021-04-30 標(biāo)簽:檢測器SVM目標(biāo)檢測 1.0萬 0

什么叫AI計算?AI計算力是什么?

什么叫AI計算?AI計算力是什么? 隨著科技的不斷發(fā)展,人工智能(AI)已經(jīng)成為當(dāng)今最熱門的技術(shù)之一。而在人工智能中,AI計算是非常重要的一環(huán)。那么,什...

2023-08-24 標(biāo)簽:計算機(jī)系統(tǒng)向量機(jī)人工智能 6572 0

人工智能預(yù)處理建構(gòu)模塊加速大數(shù)據(jù)機(jī)器學(xué)習(xí)算法案例解讀

SVM算法還可為所學(xué)習(xí)的模型建立幾何式解讀,這和無法證實其結(jié)論的神經(jīng)網(wǎng)絡(luò)是不一樣的。IBM的數(shù)據(jù)預(yù)處理方法讓該算法可在不到1分鐘的時間完成執(zhí)行,比目前采...

2017-12-06 標(biāo)簽:ibm人工智能svm 6064 0

剖析計算機(jī)視覺識別簡史

剖析計算機(jī)視覺識別簡史

最近,物體識別已經(jīng)成為計算機(jī)視覺和 AI 最令人激動的領(lǐng)域之一。即時地識別出場景中所有的物體的能力似乎已經(jīng)不再是秘密。隨著卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的發(fā)展,以及大...

2021-04-30 標(biāo)簽:SVM卷積分類器 2708 0

用于癌細(xì)胞轉(zhuǎn)移亞型無標(biāo)記分層的微流控流式細(xì)胞儀+深度學(xué)習(xí)

用于癌細(xì)胞轉(zhuǎn)移亞型無標(biāo)記分層的微流控流式細(xì)胞儀+深度學(xué)習(xí)

細(xì)胞變形性(Cellular deformability)是醫(yī)學(xué)上評價細(xì)胞生理狀態(tài)的一種很有前景的生物標(biāo)志物。

2023-10-27 標(biāo)簽:向量機(jī)SVM微流控 2289 0

圖解支持向量機(jī)SVM

作者說:我以前一直沒有真正理解支持向量機(jī),直到我畫了一張圖。 1. 問題 支持向量機(jī)(SVM)旨在解決「分類」問題。數(shù)據(jù)通常包含一定數(shù)量的條目/行/點。...

2020-12-26 標(biāo)簽:向量機(jī)SVM 2256 0

認(rèn)真讀完這21句話你的機(jī)器學(xué)習(xí)就算是入門了

【編者按】這是一篇關(guān)于機(jī)器學(xué)習(xí)工具包Scikit-learn的入門級讀物。對于程序員來說,機(jī)器學(xué)習(xí)的重要性毋庸贅言。也許你還沒有開始,也許曾經(jīng)失敗過,都...

2021-07-06 標(biāo)簽:數(shù)據(jù)SVM代碼 1997 0

好消息 Python與Excel終于互通了 !

好消息 Python與Excel終于互通了 !

很多開發(fā)者說自從有了 Python/Pandas,Excel 都不怎么用了,用它來處理與可視化表格非??焖?。但是這樣還是有一大缺陷,操作不是可視化的表格...

2021-04-30 標(biāo)簽:數(shù)據(jù)函數(shù)SVM 1964 0

淺談面向人臉表情識別的雙模板稀疏分類方法

淺談面向人臉表情識別的雙模板稀疏分類方法

提出一種面向人臉表情識別的雙模板稀疏分類方法(DT-SRC)。該算法在用訓(xùn)練樣本組成觀測矩陣的基礎(chǔ)上,通過添加正、

2021-05-05 標(biāo)簽:SVM人臉識別SRC 1859 0

淺析SVM多核學(xué)習(xí)方法

淺析SVM多核學(xué)習(xí)方法

SVM是機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)的一種方法,常用于解決分類問題,其基本原理是:在特征空間里尋找一個超平面,以最小的錯分率把正負(fù)樣本分開。因為SVM既能達(dá)到工業(yè)...

2020-05-04 標(biāo)簽:SVM機(jī)器學(xué)習(xí) 1798 0

查看更多>>

svm數(shù)據(jù)手冊

相關(guān)標(biāo)簽

相關(guān)話題

換一批
  • 加速度傳感器
    加速度傳感器
    +關(guān)注
    加速度傳感器是一種能夠測量加速度的傳感器。通常由質(zhì)量塊、阻尼器、彈性元件、敏感元件和適調(diào)電路等部分組成。
  • OBD
    OBD
    +關(guān)注
    OBD是英文On-Board Diagnostic的縮寫,中文翻譯為“車載診斷系統(tǒng)”。這個系統(tǒng)隨時監(jiān)控發(fā)動機(jī)的運行狀況和尾氣后處理系統(tǒng)的工作狀態(tài),一旦發(fā)現(xiàn)有可能引起排放超標(biāo)的情況,會馬上發(fā)出警示。
  • 傅里葉變換
    傅里葉變換
    +關(guān)注
    盡管最初傅里葉分析是作為熱過程的解析分析的工具,但是其思想方法仍然具有典型的還原論和分析主義的特征。“任意”的函數(shù)通過一定的分解,都能夠表示為正弦函數(shù)的線性組合的形式,而正弦函數(shù)在物理上是被充分研究而相對簡單的函數(shù)類,這一想法跟化學(xué)上的原子論想法何其相似!
  • 角度傳感器
    角度傳感器
    +關(guān)注
    角度傳感器,顧名思義,是用來檢測角度的。它的身體中有一個孔,可以配合樂高的軸。當(dāng)連結(jié)到RCX上時,軸每轉(zhuǎn)過1/16圈,角度傳感器就會計數(shù)一次。
  • TOF
    TOF
    +關(guān)注
  • L298
    L298
    +關(guān)注
  • DMD
    DMD
    +關(guān)注
    DMD是一種整合的微機(jī)電上層結(jié)構(gòu)電路單元,利用COMS SRAM記憶晶胞所制成。DMD上層結(jié)構(gòu)的制造是從完整CMOS內(nèi)存電路開始,再透過光罩層的使用,制造出鋁金屬層和硬化光阻層交替的上層結(jié)構(gòu)
  • OV7620
    OV7620
    +關(guān)注
    ov7620是一款CMOS攝像頭器件,是彩色CMOS型圖像采集集成芯片,提供高性能的單一小體積封裝,該器件分辨率可以達(dá)到640X480,傳輸速率可以達(dá)到30幀。
  • MC9S12XS128
    MC9S12XS128
    +關(guān)注
    HCS12X系列單片機(jī)簡介 Freescale 公司的16位單片機(jī)主要分為HC12 、HCS12、HCS12X三個系列。HC12核心是16位高速CPU12核,總線速度8MHZ;HCS12系列單片機(jī)以速度更快的CPU12內(nèi)核為核心,簡稱S12系列,典型的S12總線速度可以達(dá)到25MHZ。
  • TDC-GP2
    TDC-GP2
    +關(guān)注
  • 干擾器
    干擾器
    +關(guān)注
    干擾器有多種類型,如GPS干擾器是適用于長途客車司機(jī)以及一些不想被GPS信號追蹤到的人群的一個機(jī)器,手機(jī)信號干擾器主要針對各類考場、學(xué)校、加油站、教堂、法庭、圖書館、會議中心(室)、影劇院、醫(yī)院、政府、金融、監(jiān)獄、公安、軍事重地等禁止使用手機(jī)的場所。
  • 重力傳感器
    重力傳感器
    +關(guān)注
    采用彈性敏感元件制成懸臂式位移器,與采用彈性敏感元件制成的儲能彈簧來驅(qū)動電觸點,完成從重力變化到電信號的轉(zhuǎn)換,廣泛應(yīng)用在中高端智能手機(jī)和平板電腦內(nèi)。
  • 線束
    線束
    +關(guān)注
  • 半導(dǎo)體工藝
    半導(dǎo)體工藝
    +關(guān)注
  • 機(jī)械臂
    機(jī)械臂
    +關(guān)注
  • MPSoC
    MPSoC
    +關(guān)注
  • Genesys
    Genesys
    +關(guān)注
  • 直流無刷電機(jī)
    直流無刷電機(jī)
    +關(guān)注
    無刷直流電機(jī)由電動機(jī)主體和驅(qū)動器組成,是一種典型的機(jī)電一體化產(chǎn)品。 無刷電機(jī)是指無電刷和換向器(或集電環(huán))的電機(jī),又稱無換向器電機(jī)。早在十九紀(jì)誕生電機(jī)的時候,產(chǎn)生的實用性電機(jī)就是無刷形式,即交流鼠籠式異步電動機(jī),這種電動機(jī)得到了廣泛的應(yīng)用。
  • 半導(dǎo)體制冷片
    半導(dǎo)體制冷片
    +關(guān)注
  • 聲紋識別
    聲紋識別
    +關(guān)注
    聲紋識別,生物識別技術(shù)的一種,也稱為說話人識別,包括說話人辨認(rèn)和說話人確認(rèn)。聲紋識別就是把聲信號轉(zhuǎn)換成電信號,再用計算機(jī)進(jìn)行識別。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù),如縮小刑偵范圍時可能需要辨認(rèn)技術(shù),而銀行交易時則需要確認(rèn)技術(shù)。
  • 零序
    零序
    +關(guān)注
  • ATmega16單片機(jī)
    ATmega16單片機(jī)
    +關(guān)注
  • 直流電壓
    直流電壓
    +關(guān)注
    凡是電流方向不隨時間變化的電流稱為直流電壓。電流值可以全為正值,也可以全為負(fù)值。在直流電流中又可分為兩種:穩(wěn)恒直流和脈動直流。直流輸電技術(shù)已經(jīng)由簡單的端對端工程朝著大規(guī)模多端輸電的方向發(fā)展,這些工程將是未來直流電網(wǎng)的組成部分,將相同電壓等級的直流工程連接成網(wǎng)遠(yuǎn)比不同電壓等級下的獨立工程更經(jīng)濟(jì)、便捷。
  • LPC2368
    LPC2368
    +關(guān)注
  • 緩沖電路
    緩沖電路
    +關(guān)注
  • Buck-Boost
    Buck-Boost
    +關(guān)注
    buck是降壓型電路,boost是升壓型電路,可以分開單獨使用,buck-boost電路就是把2種電路合在一起,可升可降。buck-boost拓?fù)潆娐房梢詫崿F(xiàn)升降壓功能,常見的buck-boost電路有兩種,第一種是輸入與輸出電壓極性相反,只需采用一個開關(guān)管和二極管。另外一種是采用兩個開關(guān)管和兩個二極管,可實現(xiàn)同極性電壓升降壓功能。
  • 識別技術(shù)
    識別技術(shù)
    +關(guān)注
    所謂識別技術(shù),也稱為自動識別技術(shù),通過被識別物體與識別裝置之間的交互自動獲取被識別物體的相關(guān)信息,并提供給計算機(jī)系統(tǒng)供進(jìn)一步處理。
  • 制冷片
    制冷片
    +關(guān)注
  • 電磁繼電器
    電磁繼電器
    +關(guān)注
    電磁繼電器是一種電子控制器件,它具有控制系統(tǒng)(又稱輸入回路)和被控制系統(tǒng)(又稱輸出回路),通常應(yīng)用于自動控制電路中,它實際上是用較小的電流、較低的電壓去控制較大電流、較高的電壓的一種“自動開關(guān)”。故在電路中起著自動調(diào)節(jié)、安全保護(hù)、轉(zhuǎn)換電路等作用。
  • VCM
    VCM
    +關(guān)注
換一批

關(guān)注此標(biāo)簽的用戶(0人)

編輯推薦廠商產(chǎn)品技術(shù)軟件/工具OS/語言教程專題