文章來源:電信工程技術(shù)與標(biāo)準(zhǔn)化,作者:林宇俊,許鑫伶,何洋,魯銀冰
近年來,通信信息詐騙造成的損失逐年遞增,且詐騙形式和劇本層出不窮。通信信息詐騙已形成了一條非常完整的犯罪產(chǎn)業(yè)鏈。根據(jù)有關(guān)機(jī)構(gòu)測算,通信信息詐騙從業(yè)者達(dá)上百萬人,年產(chǎn)業(yè)規(guī)模已經(jīng)高達(dá)千億元。目前通信信息詐騙案例集中呈現(xiàn)出了一些新的特征。
一是詐騙模式事件鏈化、精準(zhǔn)化。犯罪分子往往利用社會(huì)工程學(xué)設(shè)置詐騙場景腳本,利用不斷升級的詐騙手法、運(yùn)營商的業(yè)務(wù)規(guī)則和流程漏洞,通過詐騙事件鏈設(shè)置將受害人一步步引入圈套,讓人防不勝防。
二是詐騙渠道和手段多樣化、專業(yè)化,隨著科技手段的進(jìn)步,作案手段已從最原始的發(fā)短信、打電話等發(fā)展到掃描惡意二維碼植入木馬病毒、釣魚詐騙等惡意網(wǎng)站等多種渠道聯(lián)合作案的新型犯罪手段。
隨著5G技術(shù)的發(fā)展,通信將變得更加便捷,數(shù)據(jù)源變得更多樣化,數(shù)據(jù)量也會(huì)呈現(xiàn)激增的趨勢。采用傳統(tǒng)的社會(huì)治理手段和識別規(guī)則難以適應(yīng),相關(guān)部門和企業(yè)防范打擊經(jīng)驗(yàn)不足,防不勝防。
1 研究目的
隨著互聯(lián)網(wǎng)和5G的發(fā)展,運(yùn)營商采集的數(shù)據(jù)源更豐富,產(chǎn)生的數(shù)據(jù)量呈指數(shù)上升。電信詐騙作案方式也層出不窮,從冒充親友類的“猜猜我是誰”的常見詐騙方式,到結(jié)合了匿名網(wǎng)站、釣魚網(wǎng)站和垃圾郵件等多種黑產(chǎn)手段的新型詐騙方式。因此,通信信息詐騙案件更難檢測和預(yù)防,也對通信信息詐騙治理工作提出了更高要求,即須能夠利用大數(shù)據(jù)技術(shù),在短時(shí)間內(nèi)處理海量通信數(shù)據(jù),并能利用機(jī)器學(xué)習(xí)方法建模,及時(shí)對詐騙案件進(jìn)行研判和處置。
目前業(yè)界主要的騷擾詐騙電話識別方案有以下幾種。
(1)語音分析:分析陌生電話語音內(nèi)容,使用自然語言處理提取行為特征,但造成侵犯用戶通話隱私和影響用戶感知等不良影響。
(2)閾值匹配:從主叫號碼字段匹配及其呼叫頻率閾值,再用投訴樣本數(shù)據(jù)對其驗(yàn)證,易造成具有字段特征的普通用戶號碼被誤判,亦難以識別出不具有號碼字段特征的詐騙電話,且投訴樣本數(shù)量少,只有少量詐騙電話被記錄。
(3)聚類計(jì)算:計(jì)算詐騙電話簇和主叫號碼簇相似度,并與已確認(rèn)的詐騙電話特征指標(biāo)值進(jìn)行匹配,但易造成廣告營銷等電話與詐騙電話較為相似,從而誤判的情況。且通信信息詐騙形式多變,活躍期短,因而無法得到有效管控。
在5G背景下,由于數(shù)據(jù)流的數(shù)量和速度呈指數(shù)上升,識別和防止詐騙的數(shù)據(jù)處理的復(fù)雜程度也隨之增大。
在數(shù)據(jù)源方面:由于5G 將大規(guī)模地提供物聯(lián)網(wǎng)等微服務(wù),因而數(shù)據(jù)庫引擎必須能夠從多個(gè)通道中提取信令數(shù)據(jù),且支持多種數(shù)據(jù)格式。
在時(shí)效性方面:為了更及時(shí)有效地識別詐騙行為,需要在秒級別內(nèi)自動(dòng)應(yīng)用數(shù)千個(gè)內(nèi)置機(jī)器學(xué)習(xí)規(guī)則。
在準(zhǔn)確性方面:為了阻止欺詐性交易和用戶,底層數(shù)據(jù)庫需要實(shí)時(shí)分析數(shù)千個(gè)屬性,以做到實(shí)時(shí)智能和復(fù)雜事件處理,例如用戶行為、地理位置、設(shè)備信息和交易類型等。使用內(nèi)置機(jī)器學(xué)習(xí)算法,將這些屬性與正確的行為進(jìn)行比較,并在事件中識別和阻斷、提醒。
基于上述問題,本文提出了一種治理通信信息詐騙的方法,可利用大數(shù)據(jù)中的Hadoop組件,實(shí)現(xiàn)5G時(shí)代下從信令中提取疑似碼號的通信特征,而后利用XGBoost算法,通過對海量黑白樣本的學(xué)習(xí),建立一套詐騙案件識別模型,能夠?qū)νㄓ嵭畔⒃p騙進(jìn)行快速研判和處置。
2 系統(tǒng)技術(shù)架構(gòu)
整體系統(tǒng)技術(shù)架構(gòu)如圖1所示。系統(tǒng)主要包含詐騙電話識別、受害程度判定規(guī)則及易感人群識別等三大模塊。利用信令數(shù)據(jù)中異常主叫行為及事件鏈來識別詐騙號碼,利用通話相似行為來識別通信信息詐騙受害人,并結(jié)合業(yè)務(wù)運(yùn)營支撐系統(tǒng)(BOSS)數(shù)據(jù)中用戶歷史通話數(shù)據(jù)、身份數(shù)據(jù)和消費(fèi)數(shù)據(jù)來對易感程度進(jìn)行分級。
在詐騙電話識別算法中主要涉及到信令數(shù)據(jù)中的若干字段,提取用戶的通話異常行為,并篩選該通話異常行為前后的通話行為,對與該用戶有過通話的主叫號碼和被叫號碼進(jìn)行標(biāo)記,作為疑似詐騙電話集合。從信令數(shù)據(jù)、BOSS數(shù)據(jù)中提取疑似詐騙電話的全部通話特征,依據(jù)CART決策樹和異常點(diǎn)檢測識別規(guī)則對是否為詐騙電話進(jìn)行判別。
若判別為詐騙電話,則篩選出與詐騙電話有過通話行為的所有號碼,根據(jù)通話行為特征判別上述用戶受害程度。
最后根據(jù)深度受害人用戶通話和消費(fèi)行為,對易感人群進(jìn)行畫像,從而實(shí)現(xiàn)對其他用戶的易感程度分級。
圖1 整體系統(tǒng)技術(shù)架構(gòu)
3 設(shè)計(jì)實(shí)現(xiàn)
3.1 詐騙電話識別模塊
該模塊用于精準(zhǔn)識別詐騙電話。對于被網(wǎng)絡(luò)爬蟲標(biāo)記且具有異常通信特征的用戶,采用CART決策樹模型進(jìn)行識別。而對于活躍期短或新出現(xiàn)的詐騙電話,利用用戶異常主叫及其前后通話行為事件鏈模型進(jìn)行識別。
3.1.1 標(biāo)簽樣本爬取及樣本標(biāo)記
由于大量已標(biāo)記的詐騙/騷擾電話樣本獲取困難。因此采用網(wǎng)絡(luò)爬蟲的方式,將所有樣本號碼提交到360、百度等網(wǎng)站,利用這些網(wǎng)站自有的黑名單庫對樣本號碼進(jìn)行檢測,爬取被各種手機(jī)助手標(biāo)記的疑似詐騙/騷擾號碼信息。將這些可疑號碼信息導(dǎo)入數(shù)據(jù)庫用于模型訓(xùn)練。
由于用戶在各種手機(jī)助手標(biāo)記手機(jī)號碼時(shí)的不確定性,采用以下方法來提升標(biāo)記結(jié)果的準(zhǔn)確性。
(1)當(dāng)360和百度對同一號碼標(biāo)記,得到的結(jié)果相同時(shí),采用該標(biāo)記結(jié)果。
(2)當(dāng)360和百度對同一號碼標(biāo)記,得到的結(jié)果不相同時(shí),對該號碼在行為特征上進(jìn)行分析,選擇行為特征邏輯上與標(biāo)記結(jié)果比較符合的作為最終標(biāo)記結(jié)果。如號碼1822553****,在百度上標(biāo)記為騷擾電話,在360上標(biāo)記為正常號碼,從數(shù)據(jù)庫中分析此號碼通信行為特征可知,該號碼在一天內(nèi)主叫通話次數(shù)14次、主叫率1、主叫聯(lián)系人個(gè)數(shù)14、主叫外地聯(lián)系地個(gè)數(shù)14、被叫通話次數(shù)0、回?fù)苈?、聯(lián)系人/通話次數(shù)比例1等,不太符合正常手機(jī)用戶的通信行為,因此將該號碼標(biāo)記為騷擾電話。
3.1.2 特征選擇及特征統(tǒng)計(jì)分析
考慮到詐騙/騷擾電話、響一聲電話、呼死你電話在通信行為上與正常電話之間必然存在某些區(qū)別,而且這些電話多為主叫,因此選取以下通信行為特征(包括主叫通話次數(shù)、主叫外地通話次數(shù)、主叫率、主叫聯(lián)系人個(gè)數(shù)、主叫外地聯(lián)系人個(gè)數(shù)、主叫外地聯(lián)系地個(gè)數(shù)、主叫通話頻率、主叫通話時(shí)長、被叫通話次數(shù)、回?fù)苈?、活?dòng)基站數(shù)、聯(lián)系人/通話次數(shù)比例等)進(jìn)行統(tǒng)計(jì)分析。
對某一天某個(gè)省的信令數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以下通過表格的方式對4種號碼類型的各項(xiàng)通信特征的統(tǒng)計(jì)值進(jìn)行具體展現(xiàn),如表1所示。
表1 4類號碼通信特征統(tǒng)計(jì)值
選擇統(tǒng)計(jì)分析下較顯著的特征(主叫通話次數(shù)、主叫率、主叫外地聯(lián)系人個(gè)數(shù)、主叫外地聯(lián)系地個(gè)數(shù)、主叫通話頻率、主叫通話時(shí)長、回?fù)苈省⒙?lián)系人/通話次數(shù)比例),將兩兩特征進(jìn)一步關(guān)聯(lián)分析,用圖2直觀地展現(xiàn)這4種號碼類型在特征上的區(qū)別。
圖2 4類號碼特征區(qū)別
從特征統(tǒng)計(jì)分析表和兩兩特征關(guān)聯(lián)分析圖可知,正常號碼、詐騙電話、響一聲、呼死你在某些特征上具有顯著區(qū)別。具體如表2所示。
表2 4類號碼主要特征
從表2可得以下結(jié)論。
(1)詐騙/騷擾電話、響一聲、呼死你在主叫通話次數(shù)、主叫率、主叫通話頻率都大大高于正常號碼,而在回?fù)苈噬洗蟠蟮陀谡L柎a。
(2)響一聲、呼死你相對于詐騙/騷擾電話主叫通話次數(shù)更多,主叫外地聯(lián)系人個(gè)數(shù)較少,通話頻率更高,聯(lián)系人/通話次數(shù)比例極少。
(3)響一聲相對于呼死你、詐騙/騷擾電話在主叫通話時(shí)長上有顯著區(qū)別。
為進(jìn)一步區(qū)分這4類號碼,引入決策樹做具體分析。
3.1.3 基于CART決策樹的詐騙電話識別模型
將主叫通話次數(shù)、主叫率、主叫外地聯(lián)系人個(gè)數(shù)、主叫外地聯(lián)系地個(gè)數(shù)、主叫通話頻率、主叫通話時(shí)長、回?fù)苈省⒙?lián)系人/通話次數(shù)比例等共8個(gè)特征作為CART決策樹的輸入變量,決策樹深度為5,樣本量為100萬。目標(biāo)類型中0代表正常號碼、1代表詐騙/騷擾電話、2代表響一聲、3代表呼死你。
通過決策樹得到的決策規(guī)則后,對預(yù)測數(shù)據(jù)采用該規(guī)則進(jìn)行預(yù)測,得出疑似詐騙/騷擾電話結(jié)果集1。
3.1.4 基于XGBoost三分類模型
由于詐騙號碼和廣告號碼沒有明確的界限,需對于CART決策樹結(jié)果中詐騙、廣告、普通用戶(類型1和類型2的號碼)進(jìn)行進(jìn)一步識別,即三分類模型。其中詐騙即網(wǎng)絡(luò)標(biāo)記為詐騙、騷擾或被用戶舉報(bào)的,廣告即網(wǎng)絡(luò)標(biāo)記為中介或廣告推銷等。
三分類標(biāo)簽化處理情況如下:設(shè)label0-1代表互聯(lián)網(wǎng)標(biāo)簽無標(biāo)記的號碼,label1-1代表互聯(lián)網(wǎng)標(biāo)簽標(biāo)記為“騷擾” 或 “詐騙”的號碼,label2-1代表互聯(lián)網(wǎng)標(biāo)簽標(biāo)記為“外賣” 或 “中介”或 “廣告” 或 “購物”的號碼,label1-2代表第三方數(shù)據(jù)標(biāo)記為關(guān)停或加黑的號碼。
黑白名單劃分邏輯如下:白名單(0)代表label0-1號碼 + 聯(lián)系人數(shù)小于20的非label1號碼,黑名單(1)代表label1-1 號碼+ label1-2號碼,灰名單(2)代表label2-1號碼。
本次XGBoost調(diào)整的參數(shù)如表3所示,其它參數(shù)采用模型默認(rèn)取值,不做調(diào)整。
表3 三分類參數(shù)設(shè)置
獲取結(jié)果集中的類型3和類型4,與三分類模型輸出結(jié)果合并為結(jié)果集2。
3.1.5 基于事件鏈的詐騙電話識別模型
對于活躍期短或新出現(xiàn)的詐騙電話難以識別。根據(jù)圖3所示通信信息詐騙場景圖,一般單獨(dú)一次通話無法完成整個(gè)詐騙流程,而多是由詐騙團(tuán)伙成員各有分工,通過多次通話獲得受害人信任,從而完成詐騙。
圖3 通信信息詐騙場景
從用戶角度而言,大部分用戶接到詐騙電話后可短時(shí)間內(nèi)識別,不會(huì)有后續(xù)通話行為。而無法短時(shí)間內(nèi)識別詐騙電話的用戶,則會(huì)與詐騙號碼及其他號碼有交互行為,且通話時(shí)間較長。因此可從用戶異常主叫行為角度入手,通話挖掘用戶異常通話行為,定位疑似詐騙電話,再通過詐騙電話識別規(guī)則,對詐騙電話進(jìn)行精準(zhǔn)識別。用戶異常行為主要有以下幾種。
(1)多個(gè)用戶短時(shí)間內(nèi)接到了一組陌生電話。
(2)用戶在接到某陌生電話后,短期內(nèi)發(fā)生主叫行為,且對象為公共電話。
(3)多個(gè)用戶在接到某陌生電話后,短期內(nèi)發(fā)生主叫行為,且主叫對象為同一陌生電話。
其中公共電話指110、114和95550等客服電話。陌生號碼指30天內(nèi)未曾與該用戶有過通話行為的號碼,且排除上述公共電話。
當(dāng)發(fā)生上述異常行為時(shí),記錄下陌生電話,并標(biāo)記為疑似詐騙電話。通過查詢疑似詐騙電話的信令、BOSS數(shù)據(jù),匹配該疑似詐騙電話的通話行為和消費(fèi)行為等,如表4所示。
表4 事件鏈模型輸入特征
詐騙電話和廣告推銷等非詐騙電話,均具有主叫高頻、外地聯(lián)系人占比高和通話時(shí)長長尾型分布等特點(diǎn)。為進(jìn)一步精確判定詐騙電話,引入離群點(diǎn)檢測方法進(jìn)行精準(zhǔn)識別。
由于對于疑似詐騙電話樣本,難以獲得其是否為真正詐騙的標(biāo)簽,因此采用無監(jiān)督學(xué)習(xí)方法中的離群點(diǎn)檢測技術(shù),找到疑似詐騙電話中的異常點(diǎn),作為詐騙電話。將疑似詐騙電話樣本集視為X,通過引入基于相對密度概念技術(shù),將離群的得分較高前N個(gè)號碼視為詐騙電話,詐騙電話識別規(guī)則的具體算法步驟如下。
通過事件鏈模型得出疑似詐騙/騷擾電話結(jié)果集3,與疑似詐騙/騷擾電話結(jié)果集2進(jìn)行合并去重得到最后的結(jié)果集4。
3.2 受害程度判定規(guī)則模塊
該利用用戶與詐騙電話通話情況,對受害程度進(jìn)行分級。
對于上述已被識別規(guī)則判定為詐騙電話的號碼,對被詐騙電話呼叫過的用戶進(jìn)行細(xì)分。由于用戶對詐騙電話的識別能力具有差異性,部分用戶在可以立即判斷并掛掉,此類情況受騙可能性較小。而部分用戶會(huì)在接到詐騙電話后,呼叫親友、114等號碼進(jìn)行確認(rèn),也存在部分用戶一天內(nèi)被多次騷擾的情況,因此需要對多種受害人后續(xù)行為場景進(jìn)行分級,如受害程度判定規(guī)則模塊所示。
受害人發(fā)起主叫的對象分為親密人、詐騙電話、公共電話和陌生號碼4類。
(1)親密人指在若干天通話記錄中,符合親密人判定規(guī)則的聯(lián)系人。其中親密人判定規(guī)則是指同一歸屬地,且30內(nèi)與受害人通話不少于5次的號碼。受害人接到詐騙電話后,若撥給自己的親密人,則認(rèn)為其在一定程度上相信了詐騙電話,需再次向親友核實(shí),故將其放入2級深度受害人數(shù)據(jù)庫。
(2)詐騙電話指已被識別規(guī)則判別為詐騙電話的號碼。受害人接到詐騙電話后,犯罪分子往往會(huì)要求受害人撥給一個(gè)新號碼,該號碼多為詐騙同伙,則認(rèn)為受害人在已完全相信了詐騙電話,故將其放入3級深度受害人數(shù)據(jù)庫。
(3)公共電話指110、114和95550等客服電話。受害人接到詐騙電話后,若及時(shí)識別并向110、95550等官方電話進(jìn)行核實(shí)或求助,則認(rèn)為其收到詐騙可能性較小,故將其放入1級深度受害人數(shù)據(jù)庫。
(4)陌生號碼指除了親密人、詐騙電話和公共電話之外的號碼,可能是聯(lián)系不頻繁的親密人或未標(biāo)記的詐騙電話,存在一定被騙可能,故將其放入2級深度受害人數(shù)據(jù)庫。
若受害人在接到騷擾電話后未發(fā)起主叫,則考察該受害人是否被頻繁騷擾,若在此記錄前已被多次騷擾,則將其放入2級深度受害人數(shù)據(jù)庫。若為初次騷擾,則將其放入1級深度受害人數(shù)據(jù)庫。
在符合深度受害人定義前提下,再對受害人進(jìn)行細(xì)分,并給出1/2/3級深度受害人的定義。
1級深度受害人:與詐騙騷擾電話通話時(shí)長較短,且受害人未發(fā)起主叫也未被多次騷擾?;蚴芎θ税l(fā)起主叫,主叫對象為110、95550等公共電話,能夠及時(shí)中止詐騙。
2級深度受害人:與詐騙騷擾電話通話時(shí)長較短,且受害人主叫對象為親密聯(lián)系人或陌生電話,存在被騙可能?;蚴芎θ嗽诙唐趦?nèi)遭到了陌生電話的多次騷擾。
3級深度受害人:與詐騙騷擾電話通話時(shí)長較長,超過10min?;蚴芎θ嗽诮拥皆p騙電話后,主動(dòng)撥給了另一個(gè)詐騙電話,被騙可能性很大。
從運(yùn)營商角度,模擬受害人的受騙心理,從而能夠從源頭上對電信詐騙受害人進(jìn)行鎖定和監(jiān)控,為了對用戶進(jìn)行有針對性的電信詐騙防護(hù),引入如下易感人群畫像和分類模塊。
3.3 易感人群識別模塊
該模型根據(jù)用戶通話和消費(fèi)行為,對易感人群進(jìn)行畫像和分類。將詐騙電話識別模塊已有的詐騙號碼數(shù)據(jù),將該類詐騙號碼聯(lián)系過的用戶進(jìn)行聚合,得出所有被叫用戶的通話類型,將受害人識別模塊和受害程度判定模塊獲得的1/2/3級受害人,分別標(biāo)記為1/2/3級易感人群,而沒有遭受任何詐騙電話侵害的用戶標(biāo)記為潛在易感人群。具體輸入變量和輸出目標(biāo)類型如表5所示。
表5 易感人群識別模塊輸入變量和輸出目標(biāo)類型
基于上述1/2/3類深度受害人和潛在受害人的社交信息、行為信息特征數(shù)據(jù),及4類易感人群類別,作為樣本數(shù)據(jù)集合,利用機(jī)器學(xué)習(xí)中的kNN算法,獲得易感程度分級規(guī)則。當(dāng)輸入沒有標(biāo)簽的新用戶數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征值與樣本集中數(shù)據(jù)對應(yīng)的特征值進(jìn)行比較,然后算法提取樣本集中特征最相似的數(shù)據(jù)的分類標(biāo)簽,具體實(shí)現(xiàn)步驟如下。
步驟1:把兩組已知的打好標(biāo)簽的用戶數(shù)據(jù)放到Hadoop的HDFS上,分別作為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。數(shù)據(jù)的表示形式如下:A用戶可以表示成(xA0, xA1, ……xA10),B用戶可以表示成(xB0, xB1, ……xB10),其中xA0表示用戶A聯(lián)系人數(shù),xA1表示外地聯(lián)系人個(gè)數(shù),以此類推。
步驟2:通過Map函數(shù)計(jì)算測試數(shù)據(jù)的節(jié)點(diǎn)到訓(xùn)練樣本節(jié)點(diǎn)之間的距離,其中距離計(jì)算方法采用上述Mahalanobis距離公式。按照距離遞增次序排序,排序的結(jié)果作為Map的輸出結(jié)果作為Reduce函數(shù)的輸入量。
步驟3:在Reduce函數(shù)中,選取與當(dāng)前節(jié)點(diǎn)距離最小的k個(gè)點(diǎn) ,并確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率,最終返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測分類。
步驟4:計(jì)算測試數(shù)據(jù)中kNN算法的錯(cuò)誤率,通過調(diào)節(jié)k的大小來對分類器進(jìn)行調(diào)優(yōu)。
步驟5:對于新的用戶數(shù)據(jù),首先計(jì)算其特征值,然后按照步驟2和3,返回易感人群分級類別。
4 結(jié)束語
本文設(shè)計(jì)了一種對通信信息詐騙行為進(jìn)行識別和對深度受害人進(jìn)行防控雙重防護(hù)的方法。該方法結(jié)合可獲知的可疑樣本采用機(jī)器學(xué)習(xí)算法來識別詐騙電話,同時(shí)能夠根據(jù)用戶與陌生電話的通話行為,匹配異常通話行為模式,并根據(jù)疑似詐騙號碼匹配出更多潛在受害人,及時(shí)介入并對用戶進(jìn)行提示告警。最后從用戶角度,對通信信息詐騙易感程度進(jìn)行分級。
為了能夠更有效地使用論文中的方法來防止5G電話詐騙,下一步需要不斷提升本方法識別精度和識別的覆蓋能力,以及應(yīng)對5G電話詐騙新衍生場景的能力。
責(zé)任編輯:gt
評論
查看更多