各行各業(yè)的欺詐者一直存在,尤其是金融服務行業(yè)欺詐性事件更是數(shù)不勝數(shù)。為了阻止欺詐事件的產(chǎn)生,反欺詐者也越來越多。隨著人工智能在計算機領域的發(fā)展,使用機器學習進行欺詐檢測已在許多行業(yè)中流行起來。
用于欺詐檢測的最佳機器學習算法
一、使用機器學習相對于傳統(tǒng)方法的好處
1.機器學習的概念
在深入研究如何使用機器學習來檢測欺詐之前,我們先簡要定義一下機器學習是什么。機器學習是人工智能的一種應用,它使系統(tǒng)能夠從經(jīng)驗中學習和改進,而無需明確編程。
2.欺詐檢測的方法
欺詐檢測有兩種方法。最常見的是基于規(guī)則的方法,而最有效的是使用機器學習。基于規(guī)則的檢測已經(jīng)存在了一段時間并且仍被廣泛使用,但該方法難以應對不斷變化的欺詐環(huán)境。此外,使用規(guī)則意味著必須撒大網(wǎng),可能會導致一些正常的交易被標記為欺詐。例如,風險分析師可以根據(jù)位置創(chuàng)建規(guī)則從而阻止假定有風險的位置的交易。
通過機器學習,規(guī)則進行了相應的改進。通過機器學習,系統(tǒng)可以從以往的經(jīng)驗(數(shù)據(jù))中學習,而這往往是應對欺詐事件的好方法。使用機器學習并不意味著規(guī)則沒有用或已經(jīng)過時。事實上,結(jié)合使用這兩種方法可以讓你在與欺詐者斗智斗勇過程中獲得最佳機會。
二、使用機器學習進行欺詐檢測
在使用機器學習檢測欺詐時,通常有兩種方法可以解決:
第一個是異常檢測,它從無監(jiān)督學習的角度解決問題。
另一種是分類,這是一種有監(jiān)督的學習方法。
1.異常檢測
一般來說,異常檢測,也稱為聚類,是一種用于識別異常行為的機器學習技術。表明異常行為的遙遠數(shù)據(jù)點被稱為點異常。在檢測金融欺詐時,重要的是要了解大多數(shù)金融交易(超過 99%)不是欺詐性的。因此,欺詐者實際進行的交易中只有一小部分是點異常,這些小部分的點異常則是企業(yè)系統(tǒng)需要標記的事務。
2.分類
在機器學習中使用分類,是通過不同的角度解來檢測欺詐。在這里,需要訓練一個模型來學習好交易和壞交易的特征,以便對新交易進行分類。值得注意的是,需要有足夠數(shù)量的數(shù)據(jù)并標記好了“好的交易數(shù)據(jù)”和“壞交易的數(shù)據(jù)”,這樣系統(tǒng)對數(shù)據(jù)進行模型訓練后才能分辨哪些交易具有欺詐性。
三、機器學習欺詐檢測算法
目前有多種算法可以進行欺詐檢測,至于哪種算法更好、更適用,關鍵還要看企業(yè)的數(shù)據(jù)。下面是目前使用比較多的一些機器學習欺詐檢測算法。
1.邏輯回歸
邏輯回歸是最基本,但功能最強大的算法,可用于預測真假(二進制)值。邏輯回歸通過將數(shù)據(jù)擬合到邏輯函數(shù)來從一組自變量中估計離散值(通常是欺詐/無欺詐等二進制值)。
2.決策樹
決策樹是另一種流行的算法,它學習規(guī)則來分割或分類數(shù)據(jù)。決策樹算法最有趣的一點是,該模型是一組易于解釋的規(guī)則,同時也可以采用這些規(guī)則并創(chuàng)建基于規(guī)則的系統(tǒng)。但是,該模型絕不是基于規(guī)則的系統(tǒng),因為基礎數(shù)據(jù)的微小變化可能會導致一組完全不同的規(guī)則。
3.隨機森林
隨機森林是一種基于多個決策樹的算法,可以提供更準確的分類。它通過平均單個決策樹的結(jié)果來做到這一點,其預測能力是非常優(yōu)秀的。隨機森林適用于具有大量輸入變量的訓練集。
但從一方面看,隨機森林比決策樹更難解釋。通過隨機森林最終會得到許多規(guī)則,而不是一套規(guī)則。尤其需要對系統(tǒng)合規(guī)性或其他監(jiān)管要求進行解釋時,多種規(guī)則可能會出現(xiàn)問題。
4.K-近鄰算法 (KNN)
K-近鄰算法是一個簡單的算法,它存儲所有可用案例,通過對其k個最佳鄰居進行多數(shù)投票來對新案例進行分類。在K-近鄰算法中,會使用像歐幾里得距離這樣的距離函數(shù)。此外,該算法的訓練過程并不完全生成模型。相反,“訓練”和“分類”是即時發(fā)生的。
這使得 KNN 算法在欺詐檢測方面比其他機器學習算法的計算密集度更高。
5.K-均值
K-均值是一種解決聚類問題的無監(jiān)督學習算法(不同于 KNN)。該算法將給定的數(shù)據(jù)集分組到多個集群中,以使集群中的數(shù)據(jù)點盡可能相似。與KNN類似,K-均值也會使用距離函數(shù)。
四、在欺詐檢測中使用機器學習面臨的挑戰(zhàn)
1.標簽不平衡
在現(xiàn)實世界的欺詐檢測中,幾乎都需要處理不平衡的數(shù)據(jù)集,因為欺詐條目在數(shù)據(jù)集中僅占少數(shù)。如果用戶使用的是有監(jiān)督的機器學習,則更適合處理平衡數(shù)據(jù)而非不平衡的數(shù)據(jù)集。
對于該問題,一種常見的解決方案是使用上采樣等技術來增加少數(shù)欺詐樣本或使用下采樣來減少大多數(shù)合法樣本。
2.非平穩(wěn)數(shù)據(jù)
想要抓住欺詐者,就像一場貓捉老鼠的游戲。因為欺詐行為會迅速發(fā)生變化,這也會導致數(shù)據(jù)發(fā)生變化。因此,不斷訓練新模型來應對欺詐非常關鍵。一種有效的方法是建立一個模型再訓練過程,以便更快地適應并更好地捕捉欺詐行為。
審核編輯 :李倩
-
算法
+關注
關注
23文章
4592瀏覽量
92519 -
機器學習
+關注
關注
66文章
8356瀏覽量
132324
原文標題:【11月1日虹科免費課程直播】Redis欺詐檢測方案及機器學習算法!
文章出處:【微信號:Hongketeam,微信公眾號:廣州虹科電子科技有限公司】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論