(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)
汽車保險(xiǎn)是我國(guó)財(cái)產(chǎn)保險(xiǎn)中的第一大險(xiǎn)種。隨著車險(xiǎn)投保數(shù)量以及金額的不斷提高,車險(xiǎn)理賠量也隨之大幅增加,汽車保險(xiǎn)詐騙案件數(shù)目也不斷上升。保險(xiǎn)欺詐的存在,從長(zhǎng)遠(yuǎn)來(lái)看影響著保險(xiǎn)公司的定價(jià)策略和社會(huì)經(jīng)濟(jì)效益,甚至嚴(yán)重威脅到了我國(guó)保險(xiǎn)業(yè)的發(fā)展[1]。
近年來(lái)國(guó)內(nèi)外學(xué)者在保險(xiǎn)欺詐識(shí)別研究上引入了多種人工智能技術(shù)。葉明華[2]以中國(guó)機(jī)動(dòng)車保險(xiǎn)為例,提出利用BP神經(jīng)網(wǎng)絡(luò)與logit回歸相結(jié)合的保險(xiǎn)欺詐檢測(cè)模型,利用logit回歸分析選出顯著性指標(biāo),最后通過(guò)檢測(cè)結(jié)果分析,與logit回歸相結(jié)合的BP神經(jīng)網(wǎng)絡(luò)模型識(shí)別的準(zhǔn)確率要高于單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)識(shí)別的結(jié)果。湯俊和莫依雯[3]利用支持向量機(jī)和Apriori算法等數(shù)據(jù)挖掘技術(shù),提出車險(xiǎn)反欺詐的檢測(cè)系統(tǒng)模型,利用Apriori挖掘到的規(guī)則對(duì)支持向量機(jī)判斷出來(lái)的可疑案例進(jìn)行再檢驗(yàn),提高了檢驗(yàn)的準(zhǔn)確性。閆春等[4]提出基于隨機(jī)森林和蟻群算法的汽車保險(xiǎn)欺詐識(shí)別模型,該模型對(duì)汽車保險(xiǎn)索賠數(shù)據(jù)和挖掘欺詐規(guī)則進(jìn)行更有效的分類和預(yù)測(cè),具有更好的準(zhǔn)確性和魯棒性。ubelj等[5]提出一種既考慮實(shí)體內(nèi)在屬性也考慮實(shí)體之間的關(guān)系的一種迭代評(píng)估算法(iterative evaluation algorithm,IAA),通過(guò)結(jié)果分析,該系統(tǒng)能夠有效檢測(cè)到汽車保險(xiǎn)欺詐行為。Yaqi等[6]提出一種基于主成分分析的潛在近鄰隨機(jī)森林法,用于汽車保險(xiǎn)欺詐的識(shí)別,最后通過(guò)實(shí)證說(shuō)明提出的方法具有較好的準(zhǔn)確率以及較強(qiáng)的魯棒性[6]。Yan等[7]將最近鄰剪枝規(guī)則的改進(jìn)孤立點(diǎn)檢測(cè)方法應(yīng)用于汽車保險(xiǎn)欺詐,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的汽車保險(xiǎn)欺詐識(shí)別算法具有時(shí)間復(fù)雜度低、識(shí)別率高等優(yōu)點(diǎn)。
傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)具有初始權(quán)值隨機(jī),導(dǎo)致學(xué)習(xí)效率低、收斂速度慢,并且容易形成局部極小值而得不到全局最優(yōu)的缺點(diǎn)。遺傳算法因其良好的尋優(yōu)能力,被許多學(xué)者[8-11]用于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,以實(shí)現(xiàn)對(duì)BP神經(jīng)網(wǎng)絡(luò)的優(yōu)化。以上文獻(xiàn)在試驗(yàn)中都證明了用遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)其預(yù)測(cè)效果優(yōu)于單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果?;谏鲜鲅芯?,提出一種改進(jìn)的自適應(yīng)遺傳算法與BP神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的識(shí)別算法,利用該算法進(jìn)行汽車保險(xiǎn)欺詐的識(shí)別。在考慮到BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的預(yù)測(cè)能力,同時(shí)遺傳算法具有很好的尋優(yōu)能力的基礎(chǔ)上,該模型將遺傳算法和BP神經(jīng)網(wǎng)絡(luò)算法有機(jī)結(jié)合。文中將已有的車險(xiǎn)欺詐數(shù)據(jù)指標(biāo)先進(jìn)行分類量化,然后將量化的數(shù)據(jù)進(jìn)行主成分分析,選出車險(xiǎn)欺詐的主成分指標(biāo),作為BP神經(jīng)網(wǎng)絡(luò)的輸入。文中改進(jìn)的自適應(yīng)遺傳算法考慮了種群適應(yīng)度的多種集中分散程度,并且非線性地自適應(yīng)調(diào)節(jié)遺傳算法的交叉概率與變異概率。為了提高遺傳算法的收斂效率以及尋優(yōu)能力,不僅在最優(yōu)保存策略基礎(chǔ)上加入排序選擇策略,而且提出了保留親本的策略。通過(guò)改進(jìn)的自適應(yīng)遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值進(jìn)行優(yōu)化,實(shí)現(xiàn)對(duì)汽車保險(xiǎn)欺詐的識(shí)別分析。
BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性映射能力,是一種多層前饋神經(jīng)網(wǎng)絡(luò),其學(xué)習(xí)規(guī)則是最速下降法,通過(guò)反向傳播來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。
1.2.1 改進(jìn)的自適應(yīng)遺傳算法
傳統(tǒng)遺傳算法(genetic algorithm)是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法,但是在處理一些較為復(fù)雜的優(yōu)化問(wèn)題時(shí),容易陷入到一些局部的極值點(diǎn)。本研究提出了一種改進(jìn)的自適應(yīng)遺傳算法(new adaptive genetic algorithm,NAGA),既考慮了種群適應(yīng)度的多種集中分散程度,又非線性地自適應(yīng)調(diào)節(jié)遺傳算法的交叉概率與變異概率;為了提高遺傳算法的收斂效率以及尋優(yōu)能力,不僅在最優(yōu)保存策略基礎(chǔ)上加入排序選擇策略,而且提出了保留親本的策略。
圖1 改進(jìn)的自適應(yīng)遺傳算法的運(yùn)算流程圖Fig.1 Flowchart of the improved adaptive genetic algorithm
改進(jìn)的自適應(yīng)遺傳算法過(guò)程為:
1)編碼初始群體(L),設(shè)置各個(gè)參數(shù);
2)設(shè)置適應(yīng)度函數(shù),計(jì)算各個(gè)體的適應(yīng)度值,保留最大適應(yīng)度個(gè)體;
3)判斷是否滿足收斂條件,如果滿足收斂條件,則輸出結(jié)果,否則進(jìn)入步驟4);
4)判斷π/12≤arcsin(fave/fmax)<π/3 是否成立,如果成立,先執(zhí)行變異操作,然后進(jìn)行交叉操作(此操作保留父代);反之先執(zhí)行交叉操作。最后執(zhí)行選擇操作;
5)判斷選擇操作的結(jié)果是否滿足收斂條件,若滿足則輸出結(jié)果,否則回到步驟2)。
求解流程圖如圖1所示。
之所以用π/12≤arcsin(fave/fmax)<π/3來(lái)判斷是否先進(jìn)行交叉,因?yàn)樵诜N群中容易出現(xiàn)除最高適應(yīng)度之外其余適應(yīng)度都集中很小的情況,此時(shí)的fave/fmax<1/2,如果根據(jù)楊從銳[12]IAGA算法思想則將此種情況列為種群處于分散狀態(tài),將先進(jìn)行交叉操作,但是此種情況下種群集中在較小適應(yīng)度下,種群差異度較小,種群不豐富,如果先進(jìn)行交叉會(huì)使得種群進(jìn)化速度加慢,導(dǎo)致收斂慢或不易收斂,正是考慮到此種情況,本文改變條件公式,使得改進(jìn)算法考慮更加全面。
1.2.2 改進(jìn)選擇算子
傳統(tǒng)的遺傳算法利用輪盤賭的方法來(lái)進(jìn)行個(gè)體的選擇,這種方法雖然優(yōu)良親本的選擇概率較高,但容易造成優(yōu)良親本被選中的情況,即“退化”現(xiàn)象,為避免出現(xiàn)該現(xiàn)象,增加了排序選擇策略和最優(yōu)保存策略,即利用排序選擇策略將個(gè)體按適應(yīng)度從大到小進(jìn)行排序,淘汰掉適應(yīng)度小的排列位于后1/4的個(gè)體,直接保留排列位于適應(yīng)度大的前1/4個(gè)體做為下一代的父本,將中間1/2個(gè)體保留繼續(xù)操作[13],以有效地把握種群進(jìn)化的方向。
然后,將保留下來(lái)的1/2種群計(jì)算出個(gè)體的選擇概率進(jìn)行輪盤賭選擇:
(1)
(2)
式中,qmax、qmin分別是最初定義的最佳個(gè)體和最差個(gè)體的選擇概率,M是最大迭代次數(shù)。
利用公式(1)、(2),從保留下來(lái)的1/2個(gè)體中根據(jù)輪盤賭選擇策略選出一半的個(gè)體,將這一半的個(gè)體與第一步中復(fù)制下來(lái)的前1/4個(gè)體組成一個(gè)個(gè)體數(shù)量為L(zhǎng)/2(L為初始種群)的父代種群。為了保持種群數(shù)目恒定,在進(jìn)行選擇概率之前的最后一次操作保留父代;為了防止了中間過(guò)程中產(chǎn)生或者錯(cuò)過(guò)更優(yōu)良的個(gè)體,又采用了最優(yōu)保存策略[13],即把新產(chǎn)生種群中的最高適應(yīng)度與前一代的最高適應(yīng)度比較,如果高于子代的最高適應(yīng)度,就隨機(jī)淘汰掉子代中的一個(gè)個(gè)體,把前一代中最高適應(yīng)度個(gè)體加入到新一代中產(chǎn)生一個(gè)新的種群,此保存策略保證了前一代的優(yōu)良個(gè)體不會(huì)被交叉變異等遺傳操作破壞。
1.2.3 自適應(yīng)調(diào)節(jié)Pc與Pm的值
傳統(tǒng)的遺傳算法采用固定的交叉概率與變異概率,但是隨著后期優(yōu)良個(gè)體的增加,如果不改變變異概率與交叉概率的大小,將會(huì)破壞掉優(yōu)良的個(gè)體。為了更充分地使交叉概率Pc和變異概率Pm在遺傳操作中發(fā)揮作用,本文在楊從銳[12]的IAGA的基礎(chǔ)上提出交叉概率Pc和變異概率Pm的值的自適應(yīng)公式(3)、(4)。
(3)
(4)
其中,k1、k2分別取1.0、0.05,k3和k4分別取0.02和2。之所以用 arcsin(fave/fmax)作為判斷條件是因?yàn)殡S著fave的變化,arcsin(fave/fmax)的變化會(huì)更快,這樣便能更好地判斷種群適應(yīng)度之間的集中分散程度。用是否大于等于π/6來(lái)判斷是因?yàn)閟in(π/6)=1/2,當(dāng)arcsin(fave/fmax)≥π/6時(shí),fave/fmax≥1/2,說(shuō)明適應(yīng)度平均值接近適應(yīng)度最大值,即種群適應(yīng)度接近最大適應(yīng)度集中分布。
本節(jié)提出的方法是將經(jīng)過(guò)改進(jìn)的遺傳算法用于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值,以達(dá)到解決BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值隨機(jī)所帶來(lái)的收斂速度慢、求解精準(zhǔn)度不高等問(wèn)題。
NAGA-BP算法過(guò)程為:
1)數(shù)據(jù)預(yù)處理,確定BP網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),編碼初始群體(L),設(shè)置各個(gè)參數(shù);
2)令測(cè)試樣本誤差作為目標(biāo)函數(shù),設(shè)置遺傳算法適應(yīng)度函數(shù);
3)進(jìn)行遺傳操作,計(jì)算各個(gè)體的適應(yīng)度值;
4)判斷是否滿足收斂條件,如果滿足,則進(jìn)入BP神經(jīng)網(wǎng)絡(luò)操作,否則進(jìn)入步驟5);
5)判斷π/12≤arcsin(fave/fmax)<π/3 是否成立,如果成立,先執(zhí)行變異操作,然后進(jìn)行交叉操作(此操作保留父代);反之先執(zhí)行交叉操作。最后進(jìn)行選擇操作;
6)將選擇操作的結(jié)果進(jìn)行判斷是否滿足收斂條件,若收斂則輸出結(jié)果,否則回到步驟2)。
具體流程圖如圖2所示。
為了驗(yàn)證所提出的算法在車險(xiǎn)欺詐識(shí)別中的有效性,選取某保險(xiǎn)公司車險(xiǎn)歷史索賠的數(shù)據(jù)為例進(jìn)行欺詐識(shí)別分析,數(shù)據(jù)來(lái)源于文獻(xiàn)[4]。
在進(jìn)行車險(xiǎn)欺詐預(yù)測(cè)之前,需要對(duì)數(shù)據(jù)進(jìn)行重要指標(biāo)的選取,將選出的指標(biāo)作為BP神經(jīng)網(wǎng)絡(luò)的輸入向量。根據(jù)已知的投保人信息,選取部分信息作為汽車保險(xiǎn)欺詐研究的指標(biāo)。再根據(jù)相關(guān)研究,初步選取15個(gè)對(duì)車險(xiǎn)欺詐存在影響的指標(biāo)因子:車輛渠道來(lái)源、被保險(xiǎn)車輛使用性質(zhì)、被保險(xiǎn)車輛所屬性質(zhì)、駕駛?cè)诵詣e、有無(wú)事故認(rèn)定書、出險(xiǎn)記錄、定損照片張數(shù)、歷史索賠次數(shù)、勘察類型、配件上報(bào)修理個(gè)數(shù)、所標(biāo)修理廠類型額等。各變量類型說(shuō)明如表1所示。
圖2 改進(jìn)自適應(yīng)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的流程圖Fig.2 Flowchart of the BP neural network optimization by improved adaptive genetic algorithm
表1 數(shù)據(jù)集指標(biāo)描述Tab.1 Data set index description
從表 1 的汽車保險(xiǎn)索賠數(shù)據(jù)變量指標(biāo)描述中,可以看出存在非數(shù)值型的分類變量以及布爾型變量,需要將這些數(shù)據(jù)進(jìn)行分層并進(jìn)行量化處理。分層結(jié)果如表 2 所示。
如果選取所有的指標(biāo)進(jìn)行分析,多個(gè)指標(biāo)之間可能存在相關(guān)性,并會(huì)影響模型的識(shí)別效率,增加數(shù)據(jù)處理的復(fù)雜程度。所以接下來(lái)需要對(duì)這15個(gè)欺詐識(shí)別指標(biāo)進(jìn)行降維處理。
表2 分類變量的分層Tab.2 Stratification of classified variables
主成分分析法是一種多元的統(tǒng)計(jì)方法,能夠?qū)Χ嗑S度的特征矩陣進(jìn)行降維處理,減小數(shù)據(jù)的復(fù)雜程度,并且降維后的數(shù)據(jù)能夠保留原始數(shù)據(jù)的主要信息。表3為將15個(gè)欺詐識(shí)別數(shù)據(jù)進(jìn)行主成分分析的結(jié)果,第一主成分貢獻(xiàn)率為16.637%,第二主成分貢獻(xiàn)率為12.752%,前9個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)80.167%,因此提取前9個(gè)主成分作為模型的輸入變量。
表3 主成分分析結(jié)果Tab.3 Principal component analysis results
圖3 誤差變化圖Fig.3 Error variation diagram
將選出的9個(gè)主成分作為神經(jīng)網(wǎng)絡(luò)的輸入,即BP神經(jīng)網(wǎng)絡(luò)輸入層具有9個(gè)節(jié)點(diǎn),根據(jù)公式p=2m+1確定隱含層節(jié)點(diǎn)數(shù)為19。將是否欺詐作為輸出,令保險(xiǎn)欺詐索賠輸出為1,誠(chéng)信索賠輸出為0,因此輸出層節(jié)點(diǎn)數(shù)為1。將79例車險(xiǎn)欺詐樣本分為兩部分,其中70例為訓(xùn)練樣本,剩余9例為檢驗(yàn)樣本;采用訓(xùn)練樣本來(lái)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)、GA算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)、IAGA算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò),以及本研究的NAGA算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)。將檢驗(yàn)樣本輸入訓(xùn)練后的模型,獲得欺詐識(shí)別的預(yù)測(cè)結(jié)果,再將各個(gè)結(jié)果與原始數(shù)據(jù)對(duì)比,以此評(píng)價(jià)各模型對(duì)于車險(xiǎn)欺詐預(yù)測(cè)的良好程度。
從圖3中可以看出,改進(jìn)的NAGA算法無(wú)論是在最優(yōu)解的取值上,還是在收斂速度上,都明顯高于GA和IAGA算法。自適應(yīng)的調(diào)節(jié)遺傳算法的交叉率和變異率,能夠提高遺傳算法的尋優(yōu)能力,而利用排序選擇和最優(yōu)保存策略相結(jié)合的選擇策略,有利于加快遺傳算法的收斂能力,因此NAGA遺傳算法在收斂速度與精準(zhǔn)度等方面都有較大的進(jìn)步。
本文利用平均絕對(duì)百分比誤差(MAPE)與預(yù)測(cè)方差(MSE)來(lái)評(píng)價(jià)實(shí)驗(yàn)的誤差,其中
(5)
(6)
式中:N為測(cè)試樣本個(gè)數(shù),本文取N=9,yi和xi分別為第i個(gè)樣本的實(shí)際值與測(cè)試值。
圖4 各遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)對(duì)比圖Fig.4 Comparative diagram of optimized BP neural networks by genetic algorithm
圖4(a)、4(b)為預(yù)測(cè)樣本輸出的原始值分布(Standard data)和三種遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)(NAGA-BP、IAGA-BP、GA-BP)的樣本輸出值和單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)系測(cè)的樣本輸出值(BP)。圖4(a)中*線代表保險(xiǎn)公司判定的是否欺詐的實(shí)際值,圖4(b)中O線表示NAGA-BP神經(jīng)網(wǎng)絡(luò)給出的預(yù)測(cè)值,當(dāng)預(yù)測(cè)值逼近 1代表預(yù)測(cè)該索賠為欺詐索賠;當(dāng)實(shí)際值逼近 0代表預(yù)測(cè)該索賠為誠(chéng)實(shí)索賠。此時(shí)按照 9個(gè)影響因子訓(xùn)練的 BP神經(jīng)網(wǎng)絡(luò),從預(yù)測(cè)結(jié)果可以看出欺詐預(yù)測(cè)和誠(chéng)實(shí)索賠預(yù)測(cè)除了樣本1、3、6、8、9逼近真實(shí)值外,樣本2、7的判定處于模棱兩可的狀態(tài),并且第4個(gè)樣本的判斷結(jié)果與真實(shí)值相反,所以單純的BP神經(jīng)網(wǎng)絡(luò)對(duì)于車險(xiǎn)欺詐的識(shí)別不理想。利用9個(gè)影響因子來(lái)訓(xùn)練改進(jìn)的NAGA算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),從預(yù)測(cè)結(jié)果中可以看出,預(yù)測(cè)的9個(gè)樣本都逼近真實(shí)值,所以NAGA-BP模型預(yù)測(cè)出的車險(xiǎn)欺詐情況較為理想。
表4 算法預(yù)測(cè)誤差對(duì)比Tab.4 Comparison of prediction errors
通過(guò)表4的各誤差對(duì)比可以看出,未經(jīng)過(guò)優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)誤差方差為0.130 2,經(jīng)過(guò)GA-ZAGA優(yōu)化的網(wǎng)絡(luò)輸出誤差分別為0.049、0.020 9,而經(jīng)過(guò)本文改進(jìn)的遺傳算法NAGA優(yōu)化的網(wǎng)絡(luò)輸出誤差方差0.010 7,預(yù)測(cè)值更加接近原始數(shù)據(jù),進(jìn)一步說(shuō)明本文算法改善了BP網(wǎng)絡(luò)容易陷入局部極小值和收斂速度慢的問(wèn)題。
隨著我國(guó)保險(xiǎn)的快速發(fā)展,車險(xiǎn)欺詐現(xiàn)象也逐漸蔓延,急需提出一種有效識(shí)別車險(xiǎn)欺詐的方法來(lái)挖掘潛在的欺詐客戶,根據(jù)客戶的索賠資料判斷其是否欺詐,以便提前采取相應(yīng)措施阻止欺詐產(chǎn)生。
本研究通過(guò)主成分分析,將某保險(xiǎn)公司的欺詐索賠數(shù)據(jù)進(jìn)行指標(biāo)的提煉,將提煉后的指標(biāo)用于模型欺詐預(yù)測(cè)的變量,以此驗(yàn)證NAGA- BP算法的識(shí)別欺詐能力。提出的NAGA算法自適應(yīng)調(diào)節(jié)遺傳算法的交叉概率與變異概率,有效地提高了遺傳算法的尋優(yōu)能力。利用NAGA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)算法,考慮到神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力,以及遺傳算法具有的搜索和優(yōu)化的特點(diǎn),將遺傳算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合,以此來(lái)克服神經(jīng)網(wǎng)絡(luò)收斂速度慢和易陷入局部極小值等缺點(diǎn)。在最后的實(shí)證分析中,用改進(jìn)的遺傳算法與IAGA和GA算法比較,NAGA算法在收斂速度與精準(zhǔn)度等方面都有較大的進(jìn)步,然后將這3種遺傳算法分別優(yōu)化BP神經(jīng)網(wǎng)絡(luò)進(jìn)行保險(xiǎn)欺詐數(shù)據(jù)預(yù)測(cè),結(jié)果表明改進(jìn)的NAGA-BP算法得到的車險(xiǎn)欺詐預(yù)測(cè)數(shù)據(jù)更加接近原始數(shù)據(jù)。
山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年5期