前言
支持向量機(jī)是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,在小樣本數(shù)據(jù)集的情況下有非常廣的應(yīng)用,我覺得,不懂支持向量機(jī)不算是入門機(jī)器學(xué)習(xí)。本篇循序漸進(jìn)的講解了支持向量機(jī)的分類思想,希望對(duì)您有幫助。
目錄
1. 函數(shù)間隔和幾何間隔
2. 支持向量機(jī)的分類思想
3. 總結(jié)
1. 函數(shù)間隔和幾何間隔
為了能夠更好的闡述支持向量機(jī)的分類思想,需要理解函數(shù)間隔和幾何間隔的定義。
1. 點(diǎn)到超平面的距離
假設(shè)超平面方程:
點(diǎn)到平面的距離:
由上式可得:沒有分類信息,而函數(shù)間隔和幾何間隔不僅包含了距離信息,還包含了分類信息。
2. 函數(shù)間隔和幾何間隔
對(duì)于給定的訓(xùn)練數(shù)據(jù)集T,正樣本和負(fù)樣本分別為+1和-1,我們對(duì)式(1.1)稍微進(jìn)行了修改:
(1). 點(diǎn)到平面的距離不作規(guī)范化處理,得:
(2). 去掉絕對(duì)值符號(hào),并乘以標(biāo)記結(jié)果y0,得:
d2表達(dá)式就是函數(shù)間隔的定義,有兩層含義:大小表示點(diǎn)P0到超平面的距離,正負(fù)表示點(diǎn)P0是否正確分類,若d<0,分類錯(cuò)誤;反之,則分類正確。
因此,我們定義點(diǎn)到超平面的函數(shù)間隔為:
接著定義訓(xùn)練數(shù)據(jù)集T的函數(shù)間隔是所有樣本點(diǎn)(xi,yi)的函數(shù)間隔的最小值,即:
其中,
但是,若成比例的增加超平面參數(shù)w和b,超平面沒有改變,但是函數(shù)間隔卻成比例的增加了,這是不符合理論的,因此,需要對(duì)函數(shù)間隔進(jìn)行規(guī)范化,得:
(1.7)式就是幾何間隔的定義,幾何間隔的值是確定的。
2. 支持向量機(jī)的分類思想
1. 感知機(jī)和logistic回歸的分類思想
感知機(jī)的損失函數(shù)為所有誤分類點(diǎn)到超平面的距離之和:
無(wú)誤分類點(diǎn)時(shí),損失函數(shù)為0,滿足模型分類條件的超平面有無(wú)數(shù)個(gè),如下圖:
初始超平面為l1,誤分類點(diǎn)為紅色框,最小化式(2.1)有無(wú)窮多個(gè)滿足損失函數(shù)為0的超平面,如上圖的l2~ln,然而,最佳分類超平面只有一個(gè),即支持向量機(jī)所對(duì)應(yīng)的超平面。
假設(shè)logistic回歸的模型是,logistic回歸的損失函數(shù):
簡(jiǎn)單分析(2.2)式的分類思想:
(1).當(dāng)yi=1時(shí),損失函數(shù)簡(jiǎn)化為:
若要使損失函數(shù)越小越好,則xi的值越大越好,如下圖:
圖2.1
當(dāng)往箭頭方向移動(dòng)時(shí),損失函數(shù)逐漸變小。
(2). 當(dāng)yi=0時(shí),損失函數(shù)簡(jiǎn)化為:
若要使損失函數(shù)越小越好,則xi的值越小越好,如下圖:
當(dāng)往箭頭方向移動(dòng)時(shí),損失函數(shù)逐漸變小。
2. 支持向量機(jī)的分類思想
支持向量機(jī)結(jié)合了感知機(jī)和logistic回歸分類思想,假設(shè)訓(xùn)練樣本點(diǎn)(xi,yi)到超平面H的幾何間隔為γ(γ>0),由上節(jié)定義可知,幾何間隔是點(diǎn)到超平面最短的距離,如下圖的紅色直線:
用logisitic回歸模型分析幾何間隔:
因此,當(dāng)γ越大時(shí),損失函數(shù)越小,結(jié)果為正樣本的概率也越大。
因此,感知機(jī)的分類思想是最大化點(diǎn)到超平面的幾何間隔,這個(gè)問題可以表示為下面的約束最優(yōu)化問題:
根據(jù)幾何間隔和函數(shù)間隔的關(guān)系,得幾何間隔的約束最優(yōu)化問題:
函數(shù)間隔是樣本點(diǎn)到超平面的最短距離,因此,令函數(shù)間隔為常數(shù)1,那么其他樣本點(diǎn)到超平面的距離都大于1,且最大化和最小化是等價(jià)的。于是就得到下面的最優(yōu)化問題:
由(2.8)式和(2.9)式,解得最優(yōu)解w*,b*,易知最優(yōu)超平面到正負(fù)樣本的幾何間隔相等(請(qǐng)理解幾何間隔的含義,然后仔細(xì)回想整個(gè)分類過程,就會(huì)得到這個(gè)結(jié)論)。
3. 總結(jié)
本文結(jié)合了感知機(jī)和logistic回歸的分類思想來(lái)推導(dǎo)支持向量機(jī)的最優(yōu)化問題,即最大間隔分離超平面。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4277瀏覽量
62323 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132312
原文標(biāo)題:支持向量機(jī)(一):支持向量機(jī)的分類思想
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論