0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

電子工程師 ? 來源:fqj ? 2019-05-16 17:11 ? 次閱讀

預(yù)測是機(jī)器學(xué)習(xí)算法最重要的一個研究方向。眾多保險公司利用機(jī)器學(xué)習(xí)算法為他們的客戶建立預(yù)測模型。其中,車禍預(yù)測模型是眾多模型里面最難建立的。

車禍發(fā)生的影響因素多種多樣,變化多端,著實讓人摸不著頭腦。

與其他商品不同的是,車禍保單的最終成本在初始銷售時是未知的。因此,建立一個合理的定價機(jī)制是非常具有挑戰(zhàn)的。有些保險公司嘗試使用統(tǒng)計方法來解決這一問題:預(yù)測每個客戶的未來風(fēng)險。

例如,非常經(jīng)典的汽車保險。大部分的保險公司確定的保險風(fēng)險因素有司機(jī)的年齡、他的汽車配置相關(guān)以及汽車發(fā)生事故的歷史情況。這也是為什么保險公司會在成交汽車保險之前需要客戶提供的詳細(xì)信息的原因。

波蘭華沙大學(xué)經(jīng)濟(jì)科學(xué)系的Kinga Kita-Wojciechowska和斯坦福大學(xué)生物工程系的?ukasz Kidziński利用谷歌Google街景收集相對應(yīng)的房屋圖像,通過標(biāo)釋房屋的特征:例如年齡、類型以及其它條件。然后與目前最先進(jìn)的保險風(fēng)險模型相比,最后發(fā)現(xiàn)用谷歌街景數(shù)據(jù)建立的模型,能夠有效地改進(jìn)了汽車事故風(fēng)險預(yù)測。

作者通過對谷歌街景數(shù)據(jù)的研究,發(fā)現(xiàn)下列結(jié)論?

房子的特征與居民的發(fā)生車禍風(fēng)險相關(guān),

與谷歌街景的其他研究用途相比,此模型數(shù)據(jù)特征來自于地址,并不是按照郵政編碼或地區(qū)進(jìn)行匯總,可能存在更為精細(xì)的劃分;

從地址中提取的數(shù)據(jù)(房屋的圖像)可用于保險和其他行業(yè);

現(xiàn)代數(shù)據(jù)收集和科技技術(shù)允許對個人數(shù)據(jù)進(jìn)行前所未有的利用,可能會超過立法的發(fā)展速度,并增加個人隱私威脅。

建模數(shù)據(jù)收集方法與特點

保險公司之前進(jìn)行的風(fēng)險建模和定價,通常只使用郵政編碼這一特征。然而匯總到郵政編碼的索賠數(shù)據(jù)仍然太不穩(wěn)定,所以還需要進(jìn)一步地調(diào)整。

另一方面,對于一些“外人”來說,保險公司客戶的信息數(shù)據(jù)很難獲得。本文使用的谷歌街景數(shù)據(jù)可以從來自Google街景的公開圖像信息中提取出來。

圖1.位于同一郵政編碼中不同房屋的示例,根據(jù)當(dāng)前保險公司的模型,這些房屋的居民具有相同的預(yù)期索賠頻率。

此數(shù)據(jù)集包含20,000條記錄的汽車保險數(shù)據(jù)集,數(shù)據(jù)來源于2012年1月至2015年12月期間收集到在波蘭的保險投資組合的隨機(jī)樣本。

其中每項記錄均涵蓋汽車發(fā)動機(jī)第三方責(zé)任(MTPL)保險單的特點,包括投保人的地址、風(fēng)險敞口(定義為一小部分有效年份在2013-2015年期間的保單)以及2013-2015年間發(fā)生的財產(chǎn)損壞索賠的統(tǒng)計數(shù)量。保險公司還提供了這些保單的財產(chǎn)損失索賠的預(yù)期頻率,是根據(jù)他們目前最好的風(fēng)險模型進(jìn)行估計的,是根據(jù)客戶的郵政編碼進(jìn)行分區(qū)的。

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

圖2.使用注釋功能將為數(shù)據(jù)庫中提供的地址,匹配收集谷歌衛(wèi)星視圖和谷歌街景圖像。

對圖像中可見的房屋中以下特征作了說明:居民的年齡、狀況、財富以及鄰近地區(qū)其他建筑物的類型。根據(jù)Fleiss’kappa(屬性型測量分析)統(tǒng)計數(shù)據(jù)結(jié)果表明,它們之間大多數(shù)是一致穩(wěn)健的。

繼續(xù)注釋剩余的19,371個地址(還從本研究的范圍中刪除了129個地址,因為它們要么是另外區(qū)域的,要么是Google地圖找不到的),剩余的都將得到了一組單獨(dú)的、隨機(jī)選擇的地址。

研究者比較了收集到的注釋的分布情況,并在最后對四個注釋器進(jìn)行了小的修正,以匹配平均值和標(biāo)準(zhǔn)差。

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

表1。在進(jìn)行了必要的簡化后,風(fēng)險模型中對7個新創(chuàng)建的變量進(jìn)行了統(tǒng)計

建模過程

接下來,估計一個廣義線性模型(GLM)來研究新創(chuàng)建的變量對于風(fēng)險預(yù)測的重要性。

假設(shè)索賠的概率模型如下:

頻率為f,定義為索賠次數(shù)除以風(fēng)險敞口:

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

其中,MTPL保險中的一些財產(chǎn)損失索賠是服從泊松分布的,X是自變量的向量,也是系數(shù)的向量。

為了對方法所帶來的增加值進(jìn)行評價,引入了三個模型:

模型A(空模型),其中向量為

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

模型B(一流保險商模型):其中向量為

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

模型C(研究者使用的模型):其中向量為

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

保險人為數(shù)據(jù)集中的每條記錄提供了模型B的實現(xiàn)。

該模型是在一個更大的未對外披露數(shù)據(jù)集上進(jìn)行估計的,包含j個預(yù)測變量(駕駛員特征、車輛特征、索賠歷史、地理區(qū)域等)。

利用GLMs的特性,可以將模型C分解為兩個部分:一個對應(yīng)于模型B,另一個則包含新變量。

因此,模型C為:

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

這些系數(shù)的值是否為非零,將表明研究者構(gòu)造的變量為模型提供了額外的預(yù)測能力。在本研究中新創(chuàng)建的七個變量中,有五個對于預(yù)測財產(chǎn)損壞MTPL索賠頻率模型具有重要意義,而在最好的保險公司模型中使用的許多其它評級變量都是重要的(表1)。

通過觀察a、B、C模型的基尼系數(shù)的顯著變異性,特別是對于模型A(只包含截距且沒有選擇其他變量的空模型)在20次重采樣試驗中,其變化范圍為20 ~ 38%。將其解釋為證據(jù),即所提供的數(shù)據(jù)集非常小(20,000條記錄),用于構(gòu)建MTPL保險中的罕見事件,如財產(chǎn)損失索賠(平均頻率為5%)。

谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

圖3.在20個自舉試驗中獲得的20%的檢驗樣本上的基尼系數(shù)(A),從零模型(A)到最好的保險公司的模型(B)和研究者新建立的變量模型(C)。

盡管數(shù)據(jù)的波動性很大,但將五個簡單變量加入到保險公司的模型中,在20次重新采樣試驗中的18次中嘗試,提高了它的性能,并提高了基尼系數(shù)的平均水平。提高系數(shù)接近2個百分點(從38.2%到40.1%)。

通常保險公司的模型會運(yùn)用更大的數(shù)據(jù)集,并包含了廣泛的變量選擇(例如駕駛員特征、汽車特征、索賠歷史和基于客戶郵政編碼的地理區(qū)域),將基尼系數(shù)與空模型從0~30%提高到0~38%,提高了8個百分點(見圖3)。

創(chuàng)新之處

通常保險公司的預(yù)測模型都是以常規(guī)的特征進(jìn)行預(yù)測的,比如駕駛車輛習(xí)慣,索賠歷史和客戶財富級別等特征。

但是文中的模型使用了全新的谷歌街景地圖的特征,比如街景地圖中房屋所在周圍環(huán)境,所在區(qū)域的密度,街景的質(zhì)量和房屋類型年限等特征,評測結(jié)果也是比較令人欣慰,三個模型的基尼系數(shù)變動范圍在20%—38%之間,我們能從圖3中看見,經(jīng)過20次的重采樣實驗得到的結(jié)果:具有街景新特征的模型比使用原有的優(yōu)秀傳統(tǒng)模型還要高出接近2個百分點。

當(dāng)然由于數(shù)據(jù)樣本量比較少,大概只有2萬條左右,所以這也在一定程度上影響了基尼系數(shù)的提升。但是這在預(yù)測模型的研究方向中,給了我們一個新的思路,原來街景地圖的特征會比傳統(tǒng)的特征更加有效。當(dāng)然未來肯定還會有更加有效的特征出現(xiàn),來幫助我們提升預(yù)測準(zhǔn)確度。

總結(jié)

從一張房子的圖像中可見的特征預(yù)測發(fā)生車禍的風(fēng)險,而且獨(dú)立于經(jīng)常使用的變量,如年齡或郵政編碼。

這一發(fā)現(xiàn)邁出了一大步。它不僅提供了更為精確的風(fēng)險預(yù)測模型,而且還說明了社會科學(xué)的一種新方法。

在這種方法中,真實世界中的細(xì)粒度數(shù)據(jù)可以經(jīng)過大規(guī)模收集后進(jìn)行分析。從保險公司的實際情況來看,給出的實驗結(jié)果是顯著的。研究者使用的模型中的5個變量包含了來自不完全注釋的一些偏差,與保險公司在其最佳風(fēng)險模型中已經(jīng)使用的眾多變量帶來的8個百分點的改進(jìn)相比,基尼系數(shù)提高了近2個百分點。

保險行業(yè)可能很快就會被銀行效仿,因為保險風(fēng)險模型與信用風(fēng)險之間存在著已被證明的相關(guān)性。從谷歌街景(GoogleStreetView)中提取有價值信息的方法本身,不僅為金融業(yè)提供了各種機(jī)會。

此方法和深層次的學(xué)習(xí)技術(shù)可以使它在一個大規(guī)模自動化的模型中進(jìn)行。同時,這種做法引起了人們對存儲在公開可用的Google街景、Microsoft Bing Streetside、Mapillary或類似的私有數(shù)據(jù)集中的數(shù)據(jù)隱私的擔(dān)憂。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104370
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131845

原文標(biāo)題:斯坦福最新研究:看圖“猜車禍”,用谷歌街景數(shù)據(jù)建立車禍預(yù)測新模型

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    谷歌發(fā)布革命性AI天氣預(yù)測模型NeuralGCM

    在科技與自然科學(xué)的交匯點上,谷歌公司于7月23日宣布了一項重大突破——全新的人工智能天氣預(yù)測模型NeuralGCM。這一創(chuàng)新成果不僅融合了機(jī)器學(xué)習(xí)的前沿技術(shù),還巧妙結(jié)合了傳統(tǒng)氣象學(xué)的精髓,其研究成果已在國際權(quán)威科學(xué)期刊《Natu
    的頭像 發(fā)表于 07-23 14:24 ?368次閱讀

    matlab預(yù)測模型怎么用

    MATLAB預(yù)測模型是一種基于統(tǒng)計和數(shù)學(xué)方法的預(yù)測工具,廣泛應(yīng)用于各種領(lǐng)域,如金融、氣象、生物醫(yī)學(xué)等。本文將介紹MATLAB預(yù)測模型的使用方
    的頭像 發(fā)表于 07-11 14:33 ?304次閱讀

    MATLAB預(yù)測模型哪個好

    在MATLAB中,預(yù)測模型的選擇取決于數(shù)據(jù)類型、問題復(fù)雜度和預(yù)測目標(biāo)。以下是一些常見的預(yù)測模型
    的頭像 發(fā)表于 07-11 14:31 ?248次閱讀

    arimagarch模型怎么預(yù)測

    GARCH模型則用于捕捉時間序列的波動性。 以下是使用ARIMA-GARCH模型進(jìn)行預(yù)測的一般步驟: 數(shù)據(jù)準(zhǔn)備:首先需要收集和整理預(yù)測所需的
    的頭像 發(fā)表于 07-09 10:22 ?245次閱讀

    神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建方法

    神經(jīng)網(wǎng)絡(luò)模型作為一種強(qiáng)大的預(yù)測工具,廣泛應(yīng)用于各種領(lǐng)域,如金融、醫(yī)療、交通等。本文將詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建方法,包括模型設(shè)計、
    的頭像 發(fā)表于 07-05 17:41 ?391次閱讀

    谷歌模型合成工具在哪找到

    谷歌模型合成工具可以在谷歌的官方網(wǎng)站或相關(guān)的開發(fā)者平臺上找到。具體地,您可以嘗試訪問谷歌的AI平臺或開發(fā)者社區(qū),以獲取有關(guān)模型合成工具的最新
    的頭像 發(fā)表于 03-01 18:13 ?1441次閱讀

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架,其中最著名的是TensorFlow。TensorFlow是一個開源的機(jī)器學(xué)習(xí)框架,由谷歌的機(jī)器學(xué)習(xí)團(tuán)隊開發(fā),用于構(gòu)建和
    的頭像 發(fā)表于 03-01 16:25 ?648次閱讀

    谷歌模型訓(xùn)練軟件有哪些?谷歌模型訓(xùn)練軟件哪個好?

    谷歌模型訓(xùn)練方面提供了一些強(qiáng)大的軟件工具和平臺。以下是幾個常用的谷歌模型訓(xùn)練軟件及其特點。
    的頭像 發(fā)表于 03-01 16:24 ?676次閱讀

    谷歌模型怎么用手機(jī)打開

    要使用手機(jī)打開谷歌模型,首先需要明確一點:谷歌模型本身是在計算機(jī)上運(yùn)行的程序或算法,而不是可以直接在手機(jī)上打開的應(yīng)用程序。然而,你可以通過手機(jī)訪問
    的頭像 發(fā)表于 03-01 16:23 ?462次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌
    的頭像 發(fā)表于 03-01 16:20 ?460次閱讀

    谷歌模型合成軟件有哪些

    谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前,谷歌推出的模型合成
    的頭像 發(fā)表于 02-29 18:20 ?1204次閱讀

    谷歌模型軟件有哪些好用的

    谷歌模型軟件的好用程度可能因個人需求和技能水平而異,但以下是一些廣受歡迎的谷歌模型軟件,它們在各自的領(lǐng)域內(nèi)有著出色的表現(xiàn)。
    的頭像 發(fā)表于 02-29 18:17 ?866次閱讀

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    LabVIEW進(jìn)行癌癥預(yù)測模型研究

    LabVIEW進(jìn)行癌癥預(yù)測模型研究 癌癥是一種細(xì)胞異常增生的疾病。隨著年齡的增長,細(xì)胞分裂速度放緩,但癌細(xì)胞會失去控制地不斷分裂,形成可能良性或惡性的腫瘤。 2012年的國際癌癥數(shù)據(jù)顯示,新發(fā)癌癥
    發(fā)表于 12-13 19:04

    如何利用高斯過程回歸模型建立燃料電池電堆功率預(yù)測模型?

    對車輛輔助裝置的控件進(jìn)行優(yōu)化設(shè)計時,需要建立一個燃料電池電堆功率預(yù)測模型,而該模型建立需要考慮各種電堆控制參數(shù),這一點至關(guān)重要。
    的頭像 發(fā)表于 11-02 15:34 ?896次閱讀
    如何利用高斯過程回歸<b class='flag-5'>模型</b><b class='flag-5'>建立</b>燃料電池電堆功率<b class='flag-5'>預(yù)測</b><b class='flag-5'>模型</b>?