IEEE x ATEC
IEEE x ATEC科技思享會是由專業(yè)技術(shù)學(xué)會IEEE與前沿科技探索社區(qū)ATEC聯(lián)合主辦的技術(shù)沙龍。邀請行業(yè)專家學(xué)者分享前沿探索和技術(shù)實踐,助力數(shù)字化發(fā)展。
在社會數(shù)字化進程中,隨著網(wǎng)絡(luò)化、智能化服務(wù)的不斷深入,伴隨服務(wù)衍生出的各類風(fēng)險不容忽視。本期分享會的主題是《網(wǎng)絡(luò)欺詐的風(fēng)險與對抗》。五位嘉賓將從不同的技術(shù)領(lǐng)域和觀察視角,圍繞網(wǎng)絡(luò)欺詐場景下的風(fēng)險及對抗技術(shù)展開分享。
以下是莊福振研究員的演講,《NN模型在金融風(fēng)控場景中的應(yīng)用》。
《NN模型在金融風(fēng)控場景中的應(yīng)用》
很高興能來參加IEEE x ATEC科技思享會。我今天分享的題目是《NN模型在金融風(fēng)控場景中的應(yīng)用》。我今天的演講內(nèi)容主要分成三個部分:背景,研究工作,我們的一點總結(jié)。
眾所周知,在過去十幾年中,第三方在線支付市場發(fā)展迅速。同時,與在線交易相關(guān)的犯罪活動也大大增加,并且這種交易欺詐行為嚴重威脅了在線支付行業(yè)。2016年,互聯(lián)網(wǎng)犯罪投訴中心就收到了近380萬投訴,導(dǎo)致超過13億的財務(wù)損失。在線交易欺詐中,最常見的是賬戶被盜以及卡被盜。賬戶被盜指的是未經(jīng)授權(quán)的賬戶操作或欺詐者在控制了某人的付款賬戶后進行的交易,通常由于憑證泄露造成的??ū槐I表示某人卡的相關(guān)信息,例如卡號、賬單信息等已被欺詐者獲取并用于未經(jīng)授權(quán)的一些收費。
下面我分享一下我們和螞蟻集團聯(lián)合做的一些研究工作。主要有三個工作,一個是基于神經(jīng)層級分解機的用戶事件序列分析(SIGIR 2020),第二個是基于雙重重要性感知分解機的欺詐檢測 (AAAI 2021),第三個是我們在可解釋方面提出的利用層級可解釋網(wǎng)絡(luò)建模用戶行為序列的跨領(lǐng)域欺詐檢測 (WWW 2020)。
一、基于神經(jīng)層級分解機的用戶事件序列分析
首先是基于神經(jīng)層級分解機的用戶事件序列分析。在支付業(yè)務(wù)中,每個人都從注冊系統(tǒng)、登錄系統(tǒng),再到把自己選擇的商品放入購物車,最后做交易或者付款。根據(jù)用戶的賬戶動態(tài),我們可以判定下次付款到底是不是一個欺詐行為。用戶的賬戶動態(tài)有豐富的數(shù)據(jù)序列信息可供利用。單純只關(guān)注特征組合的工作或者單純關(guān)注序列信息的工作,都只能從單獨的角度去建模用戶事件序列行為,每個事件僅通過簡單的嵌入、拼接或者全連接,而難以獲得更好的事件表示。我們希望設(shè)立一個層次化的模型同時結(jié)合這兩方面進行建模,從而對欺詐檢測進行分析。
右圖有兩個案例,一個是我們在豆瓣上看了電影(如圖1),同樣也是一個用戶行為序列,這里面最大的一個貢獻是怎么去做這個事件的表示。我們剛才看到,每個事件實際上都包含了很多的特征。
如圖2所示,一個事件的特征包含X1到Xn這么多個特征。我們在用戶的事件序列里,包括e1到eT的T個事件,每個事件在場景里面有56個特征,包括50個類別型特征和6個數(shù)字型特征。事件內(nèi)部的特征之間的組合實際上更具判別性地來判定、預(yù)測欺詐檢驗。例如在1分鐘之內(nèi)進行的跨國交易,我們就很容易判斷這是一筆盜卡行為。我們希望用FM模型去建模這種特征組合關(guān)系。FM是一種在嵌入空間中自動進行二階特征組合的模型??匆幌拢▓D2)事件的表示:vi跟vj是兩個特征的向量化的空間的表示,它是兩兩特征之間的一個組合,Xi跟Xj實際上是一個權(quán)重的表示。最后我們會得到一個事件的表示,從特征的交互得到一個特征的事件表示。
當這個事件表示完后,我們希望得到一個比較好的序列表示,即我們對這個序列進行提取一個比較好的特征表示。每個用戶序列實際上包含多個事件,兩個事件組合發(fā)生,對欺詐行為檢測更具有判別性。同樣的,我們也希望去考慮事件之間的序列的影響。比如說我們先做A事件再做B事件,可能會導(dǎo)致欺詐的可能性變大。我們希望我們的模型能夠去建模這種序列的影響。從剛才的角度出發(fā),事件組合的建模,我們用S來表示,同樣也是因子分解機去做的。不同事件兩兩組合,qi和qj也是它的一個權(quán)重。對于序列影響,我們從兩方面去考慮,一是從事件自身的重要性去考慮,它有一個自注意力機制來表示就是Sself;還有一個是我們用RNN網(wǎng)絡(luò)來去建模事件的歷史序列行為信息,也就是雙向的LSTM去建模。最后,我們可得出這個序列是由三部分組成:事件的組合;事件的自注意力機制;事件本身具有的一個特征。把三者組合在一起得到整體的序列表示。
右邊這張圖是我們提出的一個框架,也叫做神經(jīng)層級分解機。從底部開始,是有事件的特征。我們對哪個事件特征進行編碼后,就可以去做這個事件的表示,學(xué)習(xí)做這個序列的提取。提取后,我們可以看到模型做一個多層感知機的輸出。我們同樣可以在這個Feature上面去做一個線性的分類。最終我們把這兩部分當成一個Sigmoid的一個參數(shù),得到0到1之間的輸出,我們最終的一個優(yōu)化函數(shù)其實是一個交叉熵的損失函數(shù),N是對所有有標記的數(shù)據(jù)進行學(xué)習(xí)。這是我們的模型的一個框架。
在這個實驗中,我們利用工業(yè)界里面的一個真實的數(shù)據(jù)集。例如LAZADA這樣一個東南亞的電商平臺,我們從這個平臺上面拿到了三個國家的數(shù)據(jù)集。這個數(shù)據(jù)集正例是欺詐行為,負例是正常的交易行為,可以看到正常交易行為和異常的欺詐行為,相差非常大、類別非常不平衡。我們的公開數(shù)據(jù)集上、電影上的數(shù)據(jù)集也做了一個實驗。在基準的算法比較上,我們采用了比較先進的一些算法,比如W&D(Wide & deep)寬度和深度,還有NFM、DeepFM、xDeepFM,以及M3利用混合模型同時學(xué)習(xí)序列的長短期依賴的模型。
我們的評價指標是采用真實工業(yè)場景里面比較關(guān)注的低用戶打擾率時的召回率,即我們在給出結(jié)果時,我們希望對前面頭部的百分之多少的用戶打電話告訴他們這可能是一個欺詐行為。例如打1000個電話,這1000個應(yīng)該都是有欺詐行為,即這個比例應(yīng)該是越高越好的,因此我們采用的評價指標更關(guān)注于ROC曲線的頭部(FPR<=1%) 。這里面有一個消融的
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3032瀏覽量
48351 -
STM
+關(guān)注
關(guān)注
1文章
555瀏覽量
42272
原文標題:【北航莊福振分享】NN模型在金融風(fēng)控場景中的應(yīng)用
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論