在金融領域,機器學習可能會產(chǎn)生神奇的效果,盡管它本身并沒有什么神奇之處(嗯,也許只是一點點)。然而,機器學習項目的成功更多依賴于構建高效的基礎結構、收集適當?shù)臄?shù)據(jù)集和應用正確的算法。
機器學習正在對金融服務業(yè)產(chǎn)生重大影響。讓我們來看看為什么金融公司會關心這項技術,以及使用人工智能和機器學習可以實現(xiàn)什么解決方案和如何應用這項技術
定義
我們可以將機器學習(ML)看作是數(shù)據(jù)科學的一個子集,它使用統(tǒng)計模型洞悉內(nèi)在規(guī)律并做出預測。下圖解釋了人工智能、數(shù)據(jù)科學和機器學習的關系。為了簡單起見,我們在這篇文章中集中討論機器學習。
機器學習的神奇之處在于,它們無需明確地編程就能從經(jīng)驗中學習。簡單地說就是,選擇模型并向它們提供數(shù)據(jù),該模型能自動調(diào)整參數(shù),以改善結果。
數(shù)據(jù)科學家用現(xiàn)有的數(shù)據(jù)集訓練模型,然后將訓練好的模型應用到現(xiàn)實生活中。
模型在后臺運行,并基于以前的訓練自動提供結果。數(shù)據(jù)科學家會盡可能頻繁地對模型進行再培訓,以保持模型的最優(yōu)。例如,我們的客戶Mercanto每天都在重新訓練模型。
一般來說,提供的數(shù)據(jù)越多,結果越準確。巧合的是,龐大的數(shù)據(jù)集在金融服務行業(yè)非常普遍。有很多關于交易、客戶、賬單、轉(zhuǎn)賬的pb級數(shù)據(jù)。這非常適合機器學習。
隨著技術的發(fā)展和最佳算法的開源,很難想象不使用機器學習金融服務的未來。
大多數(shù)金融服務公司還不能從這項技術中獲得真正的價值,原因如下:
公司往往對機器學習及自身的價值抱有完全不切實際的期望。
人工智能和機器學習的研發(fā)成本很高。
DS/ML工程師的短缺是另一個主要問題。下圖顯示了對人工智能和機器學習技能需求的爆炸式增長。
在更新數(shù)據(jù)基礎設施方面,金融企業(yè)不夠靈活。
隨后我們會討論如何克服這些問題。首先,讓我們看看為什么金融服務公司不可忽視機器學習。
盡管存在挑戰(zhàn),許多金融公司已經(jīng)采用了這項技術。如下圖所示,金融服務業(yè)的高管們非常重視機器學習,他們這么做有很多原因:
自動化降低經(jīng)營成本。
更高效的生產(chǎn)力和更好的用戶體驗從而創(chuàng)收。
更好的承若并提升安全性。
有許多開源的機器學習算法和工具非常適合金融數(shù)據(jù)。此外,老牌金融服務公司擁有大量資金,他們有能力在計算硬件方面加大投入。
由于金融領域大量的歷史數(shù)據(jù),機器學習可被用于增強金融生態(tài)系統(tǒng)的許多方面。
這就是為什么這么多金融公司都在大力投資機器學習研發(fā)。對于落后者來說,忽視AI和ML的代價是高昂的。
在金融中機器學習可以用在哪些場景?
讓我們來看看未來機器學習在金融領域的一些應用。
過程自動化
過程自動化是機器學習在金融領域最常見的應用之一。該技術可以替代體力勞動,自動化重復任務,提高生產(chǎn)率。
因此,機器學習幫助公司優(yōu)化成本,改善客戶體驗,擴大服務規(guī)模。以下是過程自動化在金融領域的應用實例:
聊天機器人
客服中心自動化
文書工作自動化
員工培訓游戲化等等
以下是銀行業(yè)務流程自動化的一些例子:
摩根大通(JPMorgan Chase)推出了一個利用自然語言處理(一種機器學習技術)的智能合同(COiN)平臺。該方案可處理法律文件并從中提取重要數(shù)據(jù)。手工審查1.2萬份年度商業(yè)信貸協(xié)議通常需要大約36萬工時。然而,使用機器學習可以在幾個小時內(nèi)瀏覽相同數(shù)量的合同。
BNY Mello將過程自動化集成到他們的銀行生態(tài)系統(tǒng)中。這項創(chuàng)新可每年節(jié)省30萬美元,并帶來了廣泛的操作改進。
富國銀行(Wells Fargo)通過Facebook Messenger平臺使用一個由人工智能驅(qū)動的聊天機器人與用戶交流,并提供與密碼和賬戶相關的幫助。
Privatbank是一家烏克蘭銀行,在移動和網(wǎng)絡平臺上使用聊天機器人助手。聊天機器人加快了一般客戶查詢的速度,并減少了人工助理的數(shù)量。
安全
隨著交易、用戶和第三方集成數(shù)量的增長,金融領域的安全威脅也在不斷增加。機器學習算法在檢測欺詐方面也很出色。
例如,銀行可以使用該技術實時監(jiān)控每個帳戶的數(shù)千個交易參數(shù)。該算法分析持卡人的每一個行為并嘗試發(fā)現(xiàn)該用戶行為背后的目的。這種模型能夠精確地發(fā)現(xiàn)欺詐行為。
當系統(tǒng)識別到了可疑帳戶行為,它可以向用戶詢問額外的認證信息來驗證該筆交易。如果有95%的可能性是欺詐的話,甚至可以完全阻止交易通過。機器學習算法只需要幾秒鐘(甚至幾秒鐘)來驗證一個交易。這種速度有助于實時阻止欺詐行為的發(fā)生,而不只是在行為發(fā)生后的鑒定。
財務監(jiān)控是金融中機器學習的另一個安全用例。數(shù)據(jù)科學家可以訓練該系統(tǒng)檢測大量微支付,并標記諸如smurfing的洗錢技術。
機器學習算法也可以顯著提高網(wǎng)絡安全性。數(shù)據(jù)科學家訓練一個系統(tǒng)來定位和隔離網(wǎng)絡威脅,因為機器學習在分析數(shù)千個參數(shù)和實時方面的能力是有目共睹的。這項技術很有可能在不久的將來為最先進的網(wǎng)絡安全網(wǎng)絡提供動力。
Adyen,Payoneer,Paypal,Stripe,和Skrill是一些著名的金融科技公司,它們在安全機器學習方面投入了大量資金。
人工智能技術在金融領域的應用現(xiàn)狀
橙色及淡橙色方塊表示已經(jīng)應用相關技術或是在未來有相關計劃
承保和信用評分
機器學習算法非常適合運用于金融和保險業(yè)中很常見的承保業(yè)務。
每個客戶檔案都有數(shù)百個數(shù)據(jù)條目,數(shù)據(jù)科學家對成千上萬的客戶檔案建立模型。隨后,訓練有素的系統(tǒng)可以在現(xiàn)實環(huán)境中執(zhí)行相同的承保和信用評分任務。這種評分系統(tǒng)可以提高相關從業(yè)人員工作的效率和精確度。
銀行和保險公司擁有大量消費者歷史數(shù)據(jù),他們可以使用這些數(shù)據(jù)訓練機器學習的模型?;蛘?,他們可以使用大型電信或公用事業(yè)公司生成的數(shù)據(jù)集。
例如,BBVA Bancomer正與一個信用評分平臺Destacame合作。該銀行旨在為拉丁美洲信用記錄不足的客戶提高獲得信貸的機會。Destacame通過開放API訪問了公用事業(yè)公司的賬單支付信息。通過對賬單支付行為進行分析,Destacame為客戶生成信用評分并將結果發(fā)送給銀行。
算法交易
機器學習有助于改善算法交易中的交易決策。數(shù)學模型可以實時監(jiān)控新聞消息和交易結果,并檢測出可能導致股價波動的模式。隨后,它可以根據(jù)自己的預測主動選擇出售,持有或購買股票。
機器學習算法可以同時分析數(shù)千個數(shù)據(jù)源,遠超人類交易員的極限。
機器學習算法可以幫助人類交易員獲得略高于市場平均水平的優(yōu)勢。鑒于交易操作次數(shù)的頻繁,這種優(yōu)勢通常會轉(zhuǎn)化為巨額利潤。
機器人顧問
機器人顧問在金融領域非常普及。目前,機器學習在咨詢領域中主要有以下兩種應用:
投資組合管理。這是一種在線財富管理服務,它使用算法和統(tǒng)計數(shù)據(jù)來分配、管理和優(yōu)化客戶的資產(chǎn)。用戶輸入他們目前的金融資產(chǎn)和目標,例如,在50歲時存夠一百萬美元。隨后機器人顧問將根據(jù)風險偏好和期望目標在投資機會中分配現(xiàn)有資產(chǎn)。
金融產(chǎn)品推薦。許多在線保險服務商使用機器人顧問向特定用戶推薦訂制化保險服務。相較于個人理財顧問,客戶往往更偏好費用較低的機器人顧問,以及個性化和校準的推薦服務。
如何將機器學習運用于金融?
盡管人工智能和機器學習有很多優(yōu)點,但即使是財力雄厚的公司,也很難從這項技術中獲取真正的價值。金融服務公司希望挖掘出機器學習的獨特價值,但對于數(shù)據(jù)科學的運作原理以及如何使用它,他們僅有一個模糊的概念。
他們一次次面臨相似的挑戰(zhàn),比如缺乏合理的業(yè)績考核指標。這導致了不切實際的估算并耗盡了預算。僅僅擁有合適的軟件基礎設施是不夠的(盡管這將是一個良好的開端)。要想成功地將機器學習運用于金融服務,你需要清晰的愿景,扎實的技術人才,以及提供有價值的機器學習開發(fā)項目的決心。
當你充分理解這項技術將如何幫助你達成目標時,你需要繼續(xù)在思維層面進行驗證。數(shù)據(jù)科學家的任務是對你的這個想法進行審查,幫助你制定可行的KPI并做出合理的估算。
值得注意的是,你需要確保所有相關數(shù)據(jù)都收集完畢。否則,您需要數(shù)據(jù)工程師來收集和清理這些數(shù)據(jù)。根據(jù)用途和業(yè)務狀況,金融公司可以采用不同的方法應用機器學習:
放棄機器學習,轉(zhuǎn)而專注于大數(shù)據(jù)工程
有時候金融公司在開發(fā)機器學習項目時想要實現(xiàn)的目標,只需要適當?shù)臄?shù)據(jù)工程就可以實現(xiàn)。資深數(shù)據(jù)科學家Max Nechepurenko,在N-iX上評論:
“在開發(fā)數(shù)據(jù)科學的解決方案時,我建議使用奧卡姆剃刀原則,這意味著模型不應該過于復雜。大多數(shù)以機器學習為目標的公司實際上只需要關注可靠的數(shù)據(jù)工程技術,關注將統(tǒng)計學方法應用于聚合數(shù)據(jù)以及數(shù)據(jù)可視化。”
僅僅將統(tǒng)計模型應用于已經(jīng)處理過的結構性數(shù)據(jù)就足以讓銀行擺脫其運營中的許多瓶頸和低效。
這些瓶頸包括什么呢?比如某個分行的排隊問題,一些可以避免的重復性任務,低效的人力資源工作,手機銀行APP的缺陷等等。
除此之外,任何數(shù)據(jù)科學項目中最重要的部分都是構建一個協(xié)調(diào)的平臺生態(tài)系統(tǒng),從數(shù)百個信息源(例如CRM,報告軟件,電子表格等)收集分散孤立的數(shù)據(jù)。
在應用任何算法之前,你需要整理好數(shù)據(jù)的結構并對數(shù)據(jù)進行清理。只有這樣,才能進一步地從這些數(shù)據(jù)中挖掘出有價值的信息。實際上,機器學習項目中80%左右的時間都花在提取、轉(zhuǎn)換、載入和進一步清理數(shù)據(jù)上。
數(shù)據(jù)工程中提取、轉(zhuǎn)換和載入數(shù)據(jù)的具體流程
使用第三方的機器學習解決方案
即使你的公司決定在即將開展的項目中使用機器學習,也不一定需要開發(fā)新的算法和模型。
大多數(shù)機器學習項目需要處理的問題都已經(jīng)被解決。谷歌,微軟,亞馬遜和IBM等科技巨頭將機器學習軟件作為一種服務出售。
這些開箱即用的解決方案已經(jīng)經(jīng)過訓練,可以解決很多種業(yè)務問題。如果你的項目涉及相同的應用場景,你認為你的團隊可以超越這些有著龐大研發(fā)中心的技術巨頭們所開發(fā)的算法嗎?
Google的多種即插即用的推薦系統(tǒng)解決方案就是一個很好的例子。該軟件適用于各種領域,你只需要檢查它們是否適合你的案例。
機器學習工程師可以構建專注于特定的數(shù)據(jù)和業(yè)務領域的系統(tǒng)。專業(yè)人員需要從不同的信息源提取數(shù)據(jù),并將這些數(shù)據(jù)進行處理以適合此系統(tǒng),然后接收處理的結果并進行可視化。
你需要在對第三方系統(tǒng)的控制力和解決方案的靈活性之間權衡取舍。此外,機器學習算法并不適合所有的業(yè)務場景。資深數(shù)據(jù)科學家Ihar Rubanau在N-iX評論:
具有普適性的機器學習算法至今還未出現(xiàn)。數(shù)據(jù)科學家們需要在應用前根據(jù)各個領域不同商業(yè)案例的情況對算法進行調(diào)整。
所以如果Google的某個現(xiàn)存解決方案能夠解決你所在領域的特定問題,你也許可以使用它。如果不能的話,就要著眼于定制化的開發(fā)與集成。
創(chuàng)新與集成
從零開始開發(fā)機器學習解決方案是最費時費錢又冒險的選擇之一。然而,在某些商業(yè)案例中,這可能是應用機器學習技術的唯一途徑。
機器學習的研發(fā)針對的是某一利基領域的特定需求,這需要深入的調(diào)研。如果沒有現(xiàn)成的針對特定問題而開發(fā)的解決方案,第三方機器學習軟件可能會產(chǎn)出不準確的結果。
從左到右:解決方案架構師、大數(shù)據(jù)架構師、大數(shù)據(jù)工程師、后端開發(fā)人員、前端開發(fā)人員、數(shù)據(jù)科學家、機器學習工程師、商業(yè)智能專家。
至今,你仍然可能需要高度依賴于Google及其他開源的機器學習庫。當今的機器學習項目大多是將目前最先進的庫應用在某一特定領域和用例中。
在N-iX,我們認為成功的企業(yè)機器學習研發(fā)項目有如下七個共同特質(zhì):
一個明確的目標。在收集數(shù)據(jù)之前,你至少需要對通過人工智能和機器學習能取得的結果有大體認識。在項目初期,數(shù)據(jù)科學家會幫助把你的想法轉(zhuǎn)化成實際的KPI。
穩(wěn)健的機器學習解決方案架構設計。你需要一個經(jīng)驗豐富的軟件架構師來執(zhí)行這一任務。
(基于Apache Hadoop或者Spark的)適宜的大數(shù)據(jù)工程生態(tài)系統(tǒng)是必須的。它可以收集,集成,存儲,處理大量來源于金融服務公司的分散數(shù)據(jù)。大數(shù)據(jù)架構師和大數(shù)據(jù)工程師負責搭建這一生態(tài)系統(tǒng)。
在新建的生態(tài)系統(tǒng)中運行ETL流程(提取,轉(zhuǎn)換,加載)。大數(shù)據(jù)架構師和機器學習工程師負責這一環(huán)節(jié)。
最終數(shù)據(jù)準備。除了數(shù)據(jù)轉(zhuǎn)換和技術清理之外,數(shù)據(jù)科學家可能需要進一步提煉數(shù)據(jù),使其適用于特定的商業(yè)案例。
應用恰當?shù)乃惴▌?chuàng)建模型,調(diào)整模型,并用新數(shù)據(jù)訓練模型。數(shù)據(jù)科學家和機器學習工程師執(zhí)行這些任務。
清晰的洞察可視化。商業(yè)智能專家負責這一部分。除此之外,你可能需要前端開發(fā)人員來設計易用的界面面板。
小的項目可能需要更少的努力和更小的團隊。比如對于一些小數(shù)據(jù)集的研發(fā)項目來說,他們可能并不需要經(jīng)驗豐富的大數(shù)據(jù)工程師。在某些其他情況下,可能也并不需要復雜的控制面板和數(shù)據(jù)可視化。
重點回顧
金融機構經(jīng)常使用機器學習來實現(xiàn)進程自動化與安全化。
在收集數(shù)據(jù)之前,你需要對通過數(shù)據(jù)科學獲得的結果有清晰預判。需要在項目開始之前設置可行的KPI,并進行切實的估計。
很多金融服務公司對數(shù)據(jù)工程,統(tǒng)計和數(shù)據(jù)可視化的需求超過數(shù)據(jù)科學和機器學習。
訓練數(shù)據(jù)集越大越干凈,機器學習解決方案的結果就越準確。
你可以一邊繼續(xù)使用現(xiàn)有的機器學習算法,一邊盡可能多訓練你的模型。
并不存在廣泛適用于不同商業(yè)案例的機器學習方案。
有機器學習功能的金融軟件開發(fā)成本很高。
Google這樣的科技巨頭創(chuàng)造了機器學習解決方案。如果你的項目涉及這些用例的話,盡量用現(xiàn)成的,因為自己的算法優(yōu)于谷歌,亞馬遜或者IBM的可能性很低,
金融領域的機器學習和其他領域有何區(qū)別?
在我看來,主要的區(qū)別源于數(shù)據(jù)的不同。在金融領域,數(shù)據(jù)的噪聲(非常)大,而且通常是不穩(wěn)定的?!?a target="_blank">信號”不能用任何特定方法與噪聲剝離,這是原則性問題。舉例來說,這和圖像處理就很不同,圖像處理至少原則上可以控制噪聲等級。
另外,圖像處理也不存在不穩(wěn)定數(shù)據(jù)這一概念。包括非概率模型在內(nèi)的一些機器學習模型,因為噪聲的顯著影響,在金融領域難以發(fā)揮作用。
另一區(qū)別在于數(shù)據(jù)量。金融領域很多有趣的問題是關于中小型數(shù)據(jù)集的問題,這使得一些有很大數(shù)據(jù)需求的方法難以應用,比如深度學習。因此,金融上(根據(jù)使用方法)通過選擇正則化,貝葉斯先驗或者諸如對稱性分析之類的其他一般原則來實施一些先驗理論是很有必要的。
還有一個重要的區(qū)別是,金融上并沒有很好地定義“真實”狀態(tài)空間。有一些被稱作黑天鵝的事件——金融模型之外的事物,例如政治風險,會對證券價格產(chǎn)生重大影響。
不確定性和概率(風險)有所不同。大部分機器學習模型(以及大部分經(jīng)典金融模型)在定義良好的狀態(tài)空間下應用概率系統(tǒng)——他們不承認黑天鵝的存在。他們是風險模型,但并非不確定模型。
-
自動化
+關注
關注
29文章
5485瀏覽量
79008 -
人工智能
+關注
關注
1789文章
46663瀏覽量
237098 -
機器學習
+關注
關注
66文章
8353瀏覽量
132315
原文標題:這么多機器學習的應用場景,金融領域到底有何不同?
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論