吳磊 孫勇
摘 要:隨著互聯(lián)網(wǎng)信息爆炸時(shí)代來(lái)臨,保險(xiǎn)金融行業(yè)必將面臨異常嚴(yán)峻的欺詐風(fēng)險(xiǎn),及時(shí)發(fā)現(xiàn),及時(shí)識(shí)別欺詐是行業(yè),單純依靠人工判斷已經(jīng)滿足不了需求,單純依靠機(jī)器判斷,也做不到完全的自動(dòng)化。因此人工結(jié)合機(jī)器是一條可以選擇的路徑。
關(guān)鍵詞:保險(xiǎn)欺詐,有監(jiān)督機(jī)器學(xué)習(xí),無(wú)監(jiān)督機(jī)器學(xué)習(xí),分類(lèi),聚類(lèi),回歸,信息檢測(cè),規(guī)則引擎
前言
保險(xiǎn)詐騙是指以非法獲取保險(xiǎn)金為目的,違反保險(xiǎn)法規(guī),采用虛構(gòu)保險(xiǎn)標(biāo)的、保險(xiǎn)事故或者制造保險(xiǎn)事故等方法,向保險(xiǎn)公司騙取保險(xiǎn)金,數(shù)額較大的行為。保險(xiǎn)詐騙種類(lèi)是繁多的,形式是多樣的,手段是隱蔽的。在實(shí)踐中行為人為騙取保險(xiǎn)金而故意制造保險(xiǎn)事故,虛構(gòu)事實(shí),隱瞞真相,制造假案,甚至引發(fā)其他刑事犯罪。保險(xiǎn)欺詐表現(xiàn)形式多式多樣。在投保環(huán)節(jié)、理賠環(huán)節(jié)保險(xiǎn)公司目前的信息檢測(cè)手段主要是使用規(guī)則引擎+人工核保來(lái)檢測(cè)欺詐行為,面對(duì)日益增長(zhǎng)的保單數(shù)量和欺詐人多變的技術(shù)手段,保險(xiǎn)公司正面臨著嚴(yán)峻的挑戰(zhàn)。本文主要利用有監(jiān)督機(jī)器學(xué)習(xí)和無(wú)監(jiān)督機(jī)器學(xué)習(xí)檢測(cè)保險(xiǎn)欺詐行為,并且探討了業(yè)內(nèi)模型共享平臺(tái)的設(shè)計(jì),涉及到大數(shù)據(jù)技術(shù)和人工智能技術(shù)。
1. 保險(xiǎn)欺詐
1. 1. 保險(xiǎn)欺詐分類(lèi)
1.1.1 投保環(huán)節(jié)
1. 1. 1. 1. 重復(fù)投保欺詐
重復(fù)投保,一險(xiǎn)多賠。按我國(guó)法律規(guī)定,財(cái)產(chǎn)保險(xiǎn)的重復(fù)保險(xiǎn)累計(jì)保險(xiǎn)總額不得超過(guò)保險(xiǎn)價(jià)值,即使超過(guò),對(duì)于超過(guò)部分不得也不應(yīng)給予賠償。然而有的不法分子為了多得保險(xiǎn)金,往往故意向多個(gè)保險(xiǎn)人投保,并隱瞞重復(fù)保險(xiǎn)的情況,在出險(xiǎn)后向多個(gè)保險(xiǎn)人索賠,以期獲得多份賠償。
1. 1. 1. 2. 隱情投保欺詐
主要表現(xiàn)為人身保險(xiǎn),被保險(xiǎn)人已患有嚴(yán)重疾病或財(cái)產(chǎn)保險(xiǎn)標(biāo)的處于危險(xiǎn)之中而去投保。
1. 1. 1. 3. 高額投保欺詐
投保人并無(wú)保費(fèi)交費(fèi)能力,而強(qiáng)求投保高風(fēng)險(xiǎn)保障,受益人為自己,這存在嚴(yán)重的道德危險(xiǎn)。
1.1.2 理賠環(huán)節(jié)
1. 1. 2. 1. 低損高賠
夸大損失,低險(xiǎn)高賠。出險(xiǎn)損失本來(lái)很小,被保險(xiǎn)人卻故意夸大其程度,如虛列損失項(xiàng)目,夸大損失數(shù)額或偽造、涂改原始費(fèi)用憑證等方式虛報(bào)損失。又如將損失由小改大,事故時(shí)間由前改后,8號(hào)肇事,10號(hào)投保,索賠時(shí)間改為18號(hào),肇事機(jī)車(chē)本來(lái)是開(kāi)回來(lái)的,硬開(kāi)一張拖車(chē)施救費(fèi)發(fā)票數(shù)千元要求索賠??浯髶p失另一種做法是消極地放任事故的發(fā)生,故意不采取積極的防范措施或補(bǔ)救措施,這也是一種欺詐行為,違反保險(xiǎn)法第42條的規(guī)定,即保險(xiǎn)事故發(fā)生后,被保險(xiǎn)人有責(zé)任盡力采取必要的措施,防止或者減少損失。
1. 1. 2. 2. 更改標(biāo)的
張冠李戴式騙賠。主要采取移花接木,冒名頂替方式。保險(xiǎn)標(biāo)的應(yīng)該是唯一的、特定的,實(shí)踐中有的欺詐者為了騙取保險(xiǎn)賠償金,常用類(lèi)似物體或案件予以頂替,如將一投保汽車(chē)的車(chē)牌摘下掛在未投保的出險(xiǎn)汽車(chē)上,冒名頂替;在醫(yī)療保險(xiǎn)中,有的醫(yī)院因患者付不起醫(yī)藥費(fèi)而與患者串通,寫(xiě)已保險(xiǎn)的他人姓名;在財(cái)產(chǎn)保險(xiǎn)中,甲房屋著火未保險(xiǎn),報(bào)案時(shí)說(shuō)是已保險(xiǎn)的乙房。
1. 2. 保險(xiǎn)欺詐檢測(cè)
1.2.1 投保環(huán)節(jié)檢測(cè)
1. 2. 1. 1. 基于規(guī)則引擎檢測(cè)
一般而言設(shè)置一套規(guī)則樹(shù),用于業(yè)務(wù)在過(guò)往的數(shù)據(jù)中已經(jīng)發(fā)現(xiàn)的欺詐行為,綜合進(jìn)行評(píng)定。當(dāng)該投保行為在規(guī)則集中運(yùn)行完成,輸出每項(xiàng)的欺詐評(píng)分?jǐn)?shù),最后進(jìn)行加權(quán)平均得到最后的評(píng)分。分?jǐn)?shù)達(dá)到某個(gè)臨界值之后,可以采取拒絕承?;蛘咛岣弑YM(fèi)等手段來(lái)進(jìn)行風(fēng)險(xiǎn)對(duì)沖。
X=8.89,屬于高風(fēng)險(xiǎn)用戶。此方法的弊端很明顯:首先,規(guī)則數(shù)量可能會(huì)很大,隨著欺詐行為識(shí)別次數(shù)的規(guī)模以及更新方式的迭代快速的特點(diǎn),規(guī)則引擎本身不會(huì)根據(jù)數(shù)據(jù)分析觀察,只能全部依靠人工來(lái)進(jìn)行分析并且添加規(guī)則來(lái)識(shí)別新的欺詐行為;因此這種工作量將會(huì)非常龐大并且效率不高,需要引入機(jī)器學(xué)習(xí)新技術(shù)來(lái)幫助人工進(jìn)行檢測(cè)。
2. 機(jī)器學(xué)習(xí)識(shí)別保險(xiǎn)欺詐
機(jī)器學(xué)習(xí)主要分為有監(jiān)督機(jī)器學(xué)習(xí)和無(wú)監(jiān)督機(jī)器學(xué)習(xí),有監(jiān)督機(jī)器學(xué)習(xí)通過(guò)現(xiàn)有的已經(jīng)標(biāo)記為欺詐的數(shù)據(jù),訓(xùn)練為模型,用來(lái)檢測(cè)已經(jīng)發(fā)現(xiàn)的欺詐模式;無(wú)監(jiān)督機(jī)器學(xué)習(xí)主要用來(lái)發(fā)現(xiàn)新的沒(méi)有出現(xiàn)過(guò)的欺詐模式;兩者結(jié)合使用,最大程度的檢測(cè)出來(lái)保險(xiǎn)欺詐行為。
2. 1. 機(jī)器學(xué)習(xí)
C:\Users\huawei\AppData\Local\Youdao\YNote\markdown\index.html - 2-1-1概述2. 1. 1.概述
C:\Users\huawei\AppData\Local\Youdao\YNote\markdown\index.html - 線性模型和深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合線性模型和深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合
采用tensorflow的DNNLinearCombinedClassifier的API構(gòu)建廣度深度模型,將WIDE_COLUMN,DEEP_COLUMN作為數(shù)據(jù)特征組合 數(shù)據(jù)原始column如下所示:
特征字段FEATRURE_COLUMN: 字段組裝分為三類(lèi),離散數(shù)據(jù)(分類(lèi)),NUMBER非離散數(shù)據(jù)(連續(xù))。
使用tensorflow給出的接口,進(jìn)行深度學(xué)習(xí),訓(xùn)練出一個(gè)欺詐模型。相比較傳統(tǒng)的統(tǒng)計(jì)建模使用規(guī)則引擎,深度網(wǎng)絡(luò)的模型可以得到較好的魯棒性,可以學(xué)到更加復(fù)雜,更加抽象的數(shù)據(jù)表征。通過(guò)一個(gè)三分類(lèi)的任務(wù),來(lái)判斷白案件,黑案件和灰案件。其中白案件比例、黑案件、灰案件的比例為1:1:1。因?yàn)榘装讣急壤?0以上,為了平衡神經(jīng)網(wǎng)絡(luò)計(jì)算,因此設(shè)定此比例來(lái)保證不會(huì)過(guò)擬合。測(cè)試集同樣也遵循這個(gè)比例。
epoch=10 batch_size=100 分批次訓(xùn)練模型
使用線性模型結(jié)合深度網(wǎng)絡(luò),相比較傳統(tǒng)的統(tǒng)計(jì)建模得到的規(guī)則,最終準(zhǔn)確度提高了20%~35%,達(dá)到了80%左右。而且避免了傳統(tǒng)機(jī)器學(xué)習(xí)的弱點(diǎn),沒(méi)有需要決策樹(shù)存在的魯棒性不好的缺點(diǎn),具有較好的泛化能力。在實(shí)際生產(chǎn)環(huán)節(jié)中起到真正的控制風(fēng)險(xiǎn),指導(dǎo)和啟發(fā)業(yè)務(wù)的作用。
3. 模型共享
3. 1. 模型共享的意義
出于商業(yè)同業(yè)競(jìng)爭(zhēng)的角度,保險(xiǎn)公司的基礎(chǔ)數(shù)據(jù)如保單數(shù)據(jù)、理賠數(shù)據(jù)等核心數(shù)據(jù)當(dāng)然不愿意拿出來(lái)共享的,但是處于某一種共同行業(yè)利益的考慮,由一個(gè)中間層次來(lái)獲取這些數(shù)據(jù)并加以共享,杜絕某一個(gè)方面的風(fēng)險(xiǎn),顯然對(duì)于保險(xiǎn)公司樂(lè)意拿出數(shù)據(jù)。由一個(gè)具備安全性,公正性,權(quán)威性的機(jī)構(gòu)組織此類(lèi)系統(tǒng)的開(kāi)發(fā)和維護(hù),成本由各個(gè)保險(xiǎn)公司按照調(diào)用次數(shù)收取費(fèi)用以維持平臺(tái)運(yùn)轉(zhuǎn)。在車(chē)險(xiǎn)領(lǐng)域?yàn)榱硕沤^重復(fù)投保和識(shí)別出險(xiǎn)次數(shù)發(fā)現(xiàn),已經(jīng)在保險(xiǎn)行業(yè)協(xié)會(huì)搭建了數(shù)據(jù)共享平臺(tái),此平臺(tái)由于保險(xiǎn)數(shù)據(jù)屬于公司商業(yè)數(shù)據(jù),不可能保險(xiǎn)數(shù)據(jù)種類(lèi)繁多雖然數(shù)據(jù)不能共享,但是是欺詐模型;
3. 2. 模型共享的技術(shù)手段
使用一套標(biāo)準(zhǔn),一套接口,在監(jiān)管單位和行業(yè)協(xié)會(huì)的推動(dòng)之下搭建一整套的數(shù)據(jù)流轉(zhuǎn)和接口。車(chē)險(xiǎn)就已經(jīng)在此模式之下實(shí)現(xiàn)了車(chē)險(xiǎn)理賠信息共享平臺(tái),全國(guó)分散部署。是一個(gè)事實(shí)上的分布式數(shù)據(jù)庫(kù)查詢平臺(tái)。在車(chē)險(xiǎn)重復(fù)投保和查詢理賠次數(shù)、理賠金額等,基本上杜絕了車(chē)主在A公司有理賠記錄,下年費(fèi)率上浮的情況,去B公司投保可以費(fèi)率不上浮的情況。對(duì)于保險(xiǎn)業(yè)的整體健康運(yùn)營(yíng)是非常有好處。
4. 后記
本文著重闡述了保險(xiǎn)業(yè)在信息化大數(shù)據(jù)浪潮的背景之下,應(yīng)用大數(shù)據(jù)的技術(shù)手段,解決保險(xiǎn)業(yè)界存在的問(wèn)題。也只有在此背景之下,保險(xiǎn)業(yè)才能享受到大數(shù)據(jù)技術(shù)所帶來(lái)的便利性。通過(guò)部署和使用大數(shù)據(jù)技術(shù),保險(xiǎn)業(yè)應(yīng)該可以更加準(zhǔn)確的識(shí)別欺詐風(fēng)險(xiǎn),采取及時(shí)的應(yīng)對(duì)手段。保險(xiǎn)業(yè)界一直以來(lái)存在的數(shù)據(jù)不共享,但是模型可以共享。也必將更加豐富模型數(shù)據(jù),也為后面的保險(xiǎn)規(guī)模擴(kuò)大化,拒絕惡意投保帶來(lái)技術(shù)手段。
5. 引用