劉偉 彭濤 黃陽(yáng)
摘要:隨著經(jīng)濟(jì)的發(fā)展,越來(lái)越多的人參與醫(yī)療保險(xiǎn),享受到醫(yī)保福利,但醫(yī)保欺詐卻給醫(yī)療保險(xiǎn)基金帶來(lái)了巨大的損失。針對(duì)傳統(tǒng)的醫(yī)保欺詐檢測(cè)耗時(shí)長(zhǎng)、效率低的問(wèn)題,提出一種結(jié)合粒子群算法的加權(quán)K-均值的算法,從近30萬(wàn)條醫(yī)療記錄中檢測(cè)出疑似欺詐的記錄。加權(quán)的K-均值算法將不同的屬性賦予不同的權(quán)重值,為了得到一組根據(jù)數(shù)據(jù)的特性所得的權(quán)重值,引進(jìn)權(quán)重指標(biāo)評(píng)價(jià)函數(shù)CFuzziness(w)。當(dāng)權(quán)重指標(biāo)評(píng)價(jià)函數(shù)取極小值時(shí),得到最優(yōu)的權(quán)重值。采用粒子群優(yōu)化算法來(lái)求解最優(yōu)的權(quán)重值。聚類問(wèn)題中簇類數(shù)目通常由用戶確定,文中則用一種評(píng)估聚類的標(biāo)準(zhǔn)來(lái)確定最優(yōu)的聚類數(shù)目。實(shí)驗(yàn)證明,算法不僅檢測(cè)效率較高,還避免了主觀評(píng)價(jià)對(duì)于檢測(cè)的影響。
關(guān)鍵詞:K-均值;粒子群優(yōu)化;權(quán)重指標(biāo)評(píng)價(jià)函數(shù);聚類;醫(yī)保欺詐
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)28-0197-03
1 引言
醫(yī)療保險(xiǎn)是為了補(bǔ)償勞動(dòng)者因疾病風(fēng)險(xiǎn)造成的經(jīng)濟(jì)損失而建立的一項(xiàng)社會(huì)保險(xiǎn)制度。通過(guò)用人單位與個(gè)人繳費(fèi),建立醫(yī)療保險(xiǎn)基金,參保人員患病就診發(fā)生醫(yī)療費(fèi)用后,由醫(yī)療保險(xiǎn)機(jī)構(gòu)對(duì)其給予一定的經(jīng)濟(jì)補(bǔ)償。醫(yī)療保險(xiǎn)欺詐,是指公民、法人或者其他組織在參加醫(yī)療保險(xiǎn)、繳納醫(yī)療保險(xiǎn)費(fèi)、享受醫(yī)保險(xiǎn)待遇過(guò)程中,故意捏造事實(shí)、弄虛作假、隱瞞真實(shí)情況等造成醫(yī)療保險(xiǎn)基金損失的行為。
醫(yī)療保險(xiǎn)欺詐正在給世界各地的公共衛(wèi)生保健基金造成巨大的損失。據(jù)美國(guó)Federal Bureau of Investigation(FBI)評(píng)估,醫(yī)保欺詐每年花費(fèi)美國(guó)納稅人超過(guò)80億美元[1]。隨著我國(guó)醫(yī)保制度推廣范圍不斷擴(kuò)大,醫(yī)保欺詐情況也出現(xiàn)越演越烈的趨勢(shì)。據(jù)資料顯示,2015年杭州涉騙保案件金額達(dá)1300余萬(wàn)元。許多違法犯罪分子將黑手伸向了醫(yī)?;穑`法犯罪的手段日趨隱蔽,方式不斷翻新,甚至出現(xiàn)了參保人與定點(diǎn)醫(yī)藥機(jī)構(gòu)勾結(jié)共同騙保的情況,嚴(yán)重威脅醫(yī)?;鸬陌踩?。欺詐不僅造成經(jīng)濟(jì)損失,也嚴(yán)重阻礙醫(yī)療系統(tǒng)提供更為優(yōu)質(zhì)和安全的醫(yī)療服務(wù)給患者。
檢測(cè)醫(yī)保欺詐是一項(xiàng)重要而又困難的挑戰(zhàn)。傳統(tǒng)的欺詐檢測(cè)靠人工稽核和規(guī)則庫(kù)檢查為主,技術(shù)手段相對(duì)落后。醫(yī)保局審核人員每天進(jìn)行審核時(shí),要翻閱藥品費(fèi)、檢查費(fèi)、治療費(fèi)、手術(shù)費(fèi)、其他費(fèi)用、術(shù)中用藥、術(shù)中材料等,有的醫(yī)院藥品費(fèi)用、檢查費(fèi)長(zhǎng)達(dá)數(shù)十條、百余條。審核數(shù)量巨大、審核條目多,顯然,這樣的方式耗時(shí)長(zhǎng),效率低,單靠現(xiàn)有醫(yī)保編制人員是無(wú)法完成的。另一方面,醫(yī)療保險(xiǎn)數(shù)據(jù)增長(zhǎng)迅速,已積累海量歷史數(shù)據(jù)。這些數(shù)據(jù)有對(duì)醫(yī)保行業(yè)最關(guān)鍵的資金數(shù)據(jù),還有尚未被利用的病人信息、醫(yī)院信息、治療項(xiàng)目和藥方信息等。數(shù)據(jù)挖掘技術(shù)可以幫助醫(yī)療保險(xiǎn)組織等第三方支付者從成千上萬(wàn)的索賠中提取有用的知識(shí),識(shí)別一個(gè)小子集進(jìn)一步評(píng)估和審查是否有欺詐。
本文將結(jié)合已有的真實(shí)醫(yī)保系統(tǒng)中的數(shù)據(jù),采用數(shù)據(jù)挖掘的方法,對(duì)醫(yī)保數(shù)據(jù)進(jìn)行降維處理與屬性選擇,針對(duì)兩種醫(yī)保欺詐手段,分析它們的表現(xiàn)形式,利用改進(jìn)的K-均值聚類方法構(gòu)建相應(yīng)的檢測(cè)模型,并在原始數(shù)據(jù)集上開展實(shí)驗(yàn),實(shí)驗(yàn)證明了該模型的有效性以及準(zhǔn)確性。
2 相關(guān)工作
國(guó)外學(xué)者對(duì)醫(yī)保欺詐檢測(cè)早有研究。Shin H [2]針對(duì)保險(xiǎn)索賠單提出一種評(píng)分模型,來(lái)檢測(cè)門診中電子保險(xiǎn)索賠的欺詐。論文中提到模型分為二個(gè)階段,一是評(píng)分量化濫用的程度,二是分割類似的問(wèn)題模式,二項(xiàng)指標(biāo)綜合得分高的索賠單就說(shuō)明很有可能存在欺詐。Tiago P[3]對(duì)異常的個(gè)人醫(yī)療服務(wù)提供者的醫(yī)療訪問(wèn)索賠單進(jìn)行分析,利用CRIS-DM的研究方法得到可疑的索賠數(shù)據(jù)。文獻(xiàn)詳細(xì)講述了不同特征值的選擇,并進(jìn)行了實(shí)驗(yàn)和分析。MingJian T[4]提出一種非監(jiān)督和數(shù)據(jù)驅(qū)動(dòng)的欺詐檢測(cè)系統(tǒng)UNISIM,對(duì)prescription shoppers(處方購(gòu)物者)這種類型的欺詐進(jìn)行自動(dòng)檢測(cè)。該系統(tǒng)整合了特征選擇、聚類、模式識(shí)別和異常檢測(cè)的技術(shù),對(duì)澳大利亞Pharmaceutical Benefits Scheme(PBS)交易型數(shù)據(jù)庫(kù)系統(tǒng)中藥物處方數(shù)據(jù)進(jìn)行處理和檢測(cè)。
國(guó)內(nèi)醫(yī)保起步晚,對(duì)醫(yī)保欺詐檢測(cè)研究也較晚。楊超等[5]使用BP神經(jīng)網(wǎng)絡(luò)對(duì)服務(wù)提供方進(jìn)行欺詐檢測(cè)。文獻(xiàn)[6]提出一種綜合的欺詐檢測(cè)方法,一是分析用戶的行為模式得到欺詐概率,二是用改進(jìn)的LOF算法(SimLOF算法)得到欺詐概率,將兩種方法得到的欺詐可能性概率,使用Dempster-Shafer Evidence 理論進(jìn)行結(jié)合最終得到欺詐檢測(cè)的結(jié)果。文獻(xiàn)的實(shí)驗(yàn)數(shù)據(jù)是從山東省淄博市的醫(yī)療保險(xiǎn)系統(tǒng)中抽取,實(shí)驗(yàn)表明該方法的效率比其他基準(zhǔn)方法高出30%。文獻(xiàn)[7]將離群值異常檢測(cè)算法在醫(yī)保欺詐檢測(cè)中的應(yīng)用表明離群值檢測(cè)算法至少可比甚至明顯優(yōu)于其他基準(zhǔn)檢測(cè)方法。文獻(xiàn)[8]針對(duì)醫(yī)療保險(xiǎn)中屢屢出現(xiàn)的違規(guī)和欺詐行為提出了一種基于多Agent的醫(yī)療保險(xiǎn)欺詐系統(tǒng)。在系統(tǒng)中,通過(guò)利用Agent的智能性和多Agent的協(xié)同性對(duì)欺詐行為的檢測(cè)做出決策。文獻(xiàn)[9]提出將加權(quán)的FCM算法應(yīng)用在醫(yī)保欺詐行為主動(dòng)發(fā)現(xiàn)中,文中從待審核的賬單入手,經(jīng)聚類處理后初步得到疑似欺詐的賬單記錄,綜合考慮醫(yī)生和科室的因素,對(duì)賬單進(jìn)行進(jìn)一步的人工篩選,最終得到疑似欺詐的賬單。但文中考慮到數(shù)據(jù)量較大,對(duì)數(shù)據(jù)進(jìn)行分組,分別得到每組數(shù)據(jù)的不同的簇類數(shù)目,這樣的拆分方法往往忽略數(shù)據(jù)的內(nèi)部分布特性,對(duì)象所包含的重要信息在拆分過(guò)程中縮小化,最終導(dǎo)致算法精度的下降,聚類結(jié)果不佳等結(jié)果。史徑宇[10]等提出用基于指標(biāo)權(quán)重的聚類分析算法來(lái)處理醫(yī)保欺詐行為主動(dòng)發(fā)現(xiàn)的問(wèn)題。文中改進(jìn)層次聚類算法中的歐式距離,使得不需要提供欺詐樣本點(diǎn),也能通過(guò)模型得到疑似欺詐的記錄,提升了聚類的精度,但文中對(duì)于簇類數(shù)目的選擇過(guò)于主觀,對(duì)模型的準(zhǔn)確度有影響。
本文針對(duì)文獻(xiàn)[9-10]的問(wèn)題,提出一種改進(jìn)的K-均值算法,改進(jìn)聚類算法中將所有因素視為同等重要的弊端,引進(jìn)權(quán)重參數(shù),有效提高聚類效果。對(duì)于聚類數(shù)目的選擇,本文直接將全部的數(shù)據(jù)參與聚類,并根據(jù)文獻(xiàn)[11]得到合理的聚類數(shù)目,避免了簇類數(shù)目選擇的主觀性。
3 算法設(shè)計(jì)
本文中提出的醫(yī)保欺詐檢測(cè)算法設(shè)計(jì),首先是數(shù)據(jù)收集,通過(guò)深入分析數(shù)據(jù),結(jié)合醫(yī)保欺詐特定類型對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,計(jì)算加權(quán)K-均值中所需的最優(yōu)權(quán)重,再進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行分析。
3.1 數(shù)據(jù)預(yù)處理
醫(yī)保數(shù)據(jù)本身的結(jié)構(gòu)和內(nèi)容都較為復(fù)雜,存在大量的冗余信息和噪聲,嚴(yán)重影響數(shù)據(jù)分析的效率,如何對(duì)醫(yī)保數(shù)據(jù)進(jìn)行降維處理和特征選擇也是醫(yī)保數(shù)據(jù)分析中面臨的一個(gè)重要問(wèn)題。由于數(shù)據(jù)的敏感性,我們只被允許得到深圳某醫(yī)院一個(gè)月的報(bào)銷數(shù)據(jù)。本文只考慮患者購(gòu)買中、西藥等藥品費(fèi)用,其他治療的費(fèi)用在本論文中不做研究。
首先用SQL Server 將患者信息表進(jìn)行存儲(chǔ)和處理,然后將其與費(fèi)用明細(xì)進(jìn)行連接,得到入保的患者的費(fèi)用信息。對(duì)于一個(gè)月這樣的短期時(shí)間,欺詐的表現(xiàn)形式有單張賬單消費(fèi)金額高、一張卡在一定時(shí)間內(nèi)反復(fù)多次拿藥。因此最終確定數(shù)據(jù)預(yù)處理的流程如圖1所示。
3.2 加權(quán)K-均值算法
預(yù)處理過(guò)后的數(shù)據(jù)集設(shè)為X={X1,X2,....Xn},其中Xi(1≦i≦n)由m個(gè)指標(biāo)構(gòu)成,即Xi=(xi1,xi2,...xim),xij是Xi的第j維屬性。傳統(tǒng)的聚類算法描述樣本點(diǎn)數(shù)據(jù)Xp和Xq在數(shù)據(jù)集X上的相似程度,通常使用的歐式距離定義為:
從這定義可以清楚地看到,傳統(tǒng)的K-均值算法將所有的指標(biāo)賦予了相同的權(quán)重,沒(méi)有考慮實(shí)際應(yīng)用中不同的指標(biāo)對(duì)于具體問(wèn)題的影響程度,因此改進(jìn)該歐式距離,稱之為加權(quán)歐式距離,定義為:
3.3 屬性評(píng)價(jià)函數(shù)
為了得到wk的值,文獻(xiàn)[12]定義了屬性評(píng)價(jià)函數(shù)[CFuzziness(w)](簡(jiǎn)寫為cf(w)),文中提到求得該函數(shù)在一定條件下的最優(yōu)解,就能得到一組不依賴已有經(jīng)驗(yàn),只依賴所給數(shù)據(jù)的權(quán)重值。由文獻(xiàn)[11]可知,在普通的歐式距離下,定義樣本點(diǎn)數(shù)據(jù)Xp和Xq的相似度函數(shù)[ρpq],定義為:
在相似性關(guān)系不變(如果[ρpq]>0.5,則[ρpq(w)]>0.5;如果[ρpq]<0.5,則[ρpq(w)]<0.5)的前提下,采用加權(quán)的歐式距離后,相似性度量相應(yīng)進(jìn)行變化,定義為(4):
其中β的取值為[0,1]的常數(shù),通過(guò)調(diào)整β的值,使得[ρpq(w)]能近似正態(tài)分布散落在[0,1]內(nèi),文獻(xiàn)中給出了β的近似值為:
由文獻(xiàn)[12]中可知,為了使聚類模糊性較小,引進(jìn)了屬性權(quán)重評(píng)價(jià)函數(shù),其定義為(6):
文獻(xiàn)[13]給出了該評(píng)價(jià)函數(shù)的一些性質(zhì),當(dāng)該函數(shù)取極小值時(shí),滿足相似([ρpq(w)]>0.5)的對(duì)象更相似([ρpq(w)]→1),不相似([ρpq(w)]<0.5)的對(duì)象更不相似([ρpq(w)]→0)。為了最小化(6),選用粒子群優(yōu)化算法來(lái)求解。
3.4 粒子群優(yōu)化算法
粒子群優(yōu)化算法(Particle Swarm optimization,PSO)是通過(guò)模擬鳥群覓食行為而發(fā)展起來(lái)的一種基于群體協(xié)作的隨機(jī)搜索算法。文獻(xiàn)[14]詳細(xì)講述了粒子群優(yōu)化算法的相關(guān)原理。
假設(shè)一個(gè)D維的目標(biāo)搜索空間中,有N個(gè)粒子組成一個(gè)群落,其中第i個(gè)粒子用一個(gè)D維的向量表示xi={xi1,xi2,..xiD},i=1,2..N來(lái)表示,其”飛行”速度也是一個(gè)D維的向量,記為vi={vi1,vi2,...viD},i=1,2,..N;第i 個(gè)粒子迄今為止搜索到的最優(yōu)位置稱為個(gè)體極值,記為pbest={pi1,pi2,..piD},i=1,...N;迄今為止整個(gè)粒子群搜索到的最優(yōu)位置稱為全局極值,記為gbest={pg1,pg2,..pgD},g=1,...N,;粒子在飛行中不斷追蹤pbest和gbest,并根據(jù)公式(7)和(8)來(lái)更新自己的速度和位置:
(8)
公式(7)中的w表示前一時(shí)刻速度的權(quán)重,r1,r2是一個(gè)0到1之間的隨機(jī)數(shù),c1, c2 是學(xué)習(xí)因子。
3.5 求解w
利用粒子群優(yōu)化算法和[CFuzziness(w)]得到w的算法流程如下:
第1步.初始化種群規(guī)模N,各粒子速度vi,粒子位置xi;
第2步.所有粒子計(jì)算[CFuzziness(w)]的值作為自己的適應(yīng)度值fit[i];
第3步.比較各粒子的適應(yīng)度值fit[i]與個(gè)體極值pbest(i)的大小,如果fit[i] 第4步.比較各粒子的適應(yīng)度值fit[i]與全局極值gbest的大小,如果fit[i] 第5步.各粒子根據(jù)公式(7)(8)更新自己的vi和xi; 第6步.滿足最小誤差退出循環(huán),否則返回第2步。 4 實(shí)驗(yàn)結(jié)果及分析 4.1 實(shí)驗(yàn)環(huán)境 本文實(shí)驗(yàn)所用軟件工具有Eclipse和MS SQL Server2008R。 4.2 數(shù)據(jù) 原始數(shù)據(jù)有6個(gè)表格,其中包括病人資料表,費(fèi)用明細(xì)表,醫(yī)囑表,醫(yī)囑子類表,核算分類表,患者費(fèi)別表,共30萬(wàn)條數(shù)據(jù)。論文對(duì)費(fèi)用明細(xì)表、病人資料表進(jìn)行處理。刪除病人信息表中無(wú)關(guān)字段、有明顯錯(cuò)誤以及有缺失項(xiàng)的記錄,保留病人ID,病人性別,病人醫(yī)??ㄌ?hào)字段;刪除費(fèi)用明細(xì)表中無(wú)關(guān)字段,保留病人科室,病人ID,藥品單價(jià),藥品數(shù)量,藥品總價(jià),賬單號(hào)字段;病人信息表與費(fèi)用表明細(xì)表進(jìn)行連接,通過(guò)計(jì)算單張賬單費(fèi)用,拿藥次數(shù),得到字段有:賬單號(hào),病人ID,拿藥次數(shù),科室,總價(jià)。考慮到每個(gè)科室的消費(fèi)情況不同,所以將科室引入。
預(yù)處理后用于聚類分析的數(shù)據(jù)有5萬(wàn)條,其中有經(jīng)人工核定為欺詐的記錄有89條。采用z-score方法將數(shù)據(jù)標(biāo)準(zhǔn)化到[-1,1]區(qū)間;利用PSO求得權(quán)重值分別為,科室權(quán)重:2.9682,拿藥次數(shù)權(quán)重:2.6145,總價(jià)權(quán)重:2.9151。
4.3 分析
圖3中Y軸值通過(guò)計(jì)算聚類內(nèi)緊密度除以聚類間分離度得到[11]。從圖中可以看到曲線是呈下降趨勢(shì)。當(dāng)k取50左右時(shí)y值變化很小了;根據(jù)實(shí)際聚類情況,本文取K=48為最佳聚類數(shù)目,并對(duì)聚類結(jié)果進(jìn)行分析。
K取48時(shí),得到類中數(shù)目最少的一個(gè)簇中所包含的數(shù)據(jù)有84條記錄。部分記錄如表1所示。從部分實(shí)驗(yàn)結(jié)果表中可以看到,序號(hào)1,2,3,9的病人拿藥次數(shù)較少,但是單張賬單的總費(fèi)用都是很高的;序號(hào)4,5,6,7,8的病人,拿藥次數(shù)多,單張賬單的費(fèi)用也高。這些實(shí)驗(yàn)結(jié)果數(shù)據(jù)符合欺詐檢測(cè)的目標(biāo)。
這84條記錄中有60條記錄是之前被人工審核為欺詐的記錄,因此該算法的真陽(yáng)性概率接近72%。從實(shí)驗(yàn)結(jié)果可以得知,該算法對(duì)待審核的賬單數(shù)據(jù)進(jìn)行檢測(cè),檢測(cè)效率較高,能大大縮短檢測(cè)的時(shí)間,提高工作人員的效率。
5 結(jié)束語(yǔ)
本文對(duì)原始的醫(yī)療數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,根據(jù)特定欺詐的表現(xiàn)形式,提取特征屬性值,提出一種加權(quán)K-均值算法,引入屬性評(píng)價(jià)函數(shù)CFuzziness(w),利用PSO算法來(lái)求解最優(yōu)的w。對(duì)于聚類數(shù)目地選擇,本文利用聚類內(nèi)緊密度除以聚類間分離度作為評(píng)估聚類質(zhì)量的標(biāo)準(zhǔn),得到最優(yōu)的聚類數(shù)目。實(shí)驗(yàn)表明本文提出的方法能很高效的將疑似欺詐的記錄檢測(cè)出來(lái),過(guò)濾掉不符合單筆賬單數(shù)目過(guò)高,拿藥次數(shù)多的特征的記錄,大大提高了工作人員地審核效率,節(jié)省了工作人員的時(shí)間,減少了醫(yī)?;鸬膿p失。
參考文獻(xiàn):
[1] Office U S G A. Medicare Fraud, Waste, and Abuse: Challenges and Strategies for Preventing Improper Payments[J]. Government Accountability Office Reports, 2010.
[2] Shin H, Park H, Lee J, et al. A scoring model to detect abusive billing patterns in health insurance claims[J]. Expert Systems with Applications, 2012, 39(8): 7441-7450.
[3] TP Hillerman,RN Carvalho,ACB Reis.Analyzing Suspicious Medical Visit Claims from Individual Healthcare Service Provider Using K-means Clustering[M].Switzerland:Springer International Publishing,2015:191-205.
[4] MingJian Tang,B.Sunude.U.Mendis,D.Wayne Murray,et al.Unsupervised fraud detection in MedicareAustralia[C].Proceedings of the Ninth Australasian Data Mining Conference-Volume 121, 2011: 103-110.
[5] 楊超.基于BP神經(jīng)網(wǎng)絡(luò)的健康保險(xiǎn)欺詐識(shí)別研究[D]. 青島: 青島大學(xué), 2014.
[6] Chengfei Sun,Qingzhong Li, Lizhen Cui.An Effective Hybrid Fraud Detection Method[C].International Conference on Knowledge Science, Engineering and Management,2015: 563-574.
[7] 樓磊磊.醫(yī)療保險(xiǎn)數(shù)據(jù)異常行為檢測(cè)算法和系統(tǒng)[D].杭州:浙江大學(xué),2015.
[8] 劉舒舒,楊鶴標(biāo).基于多Agent的醫(yī)保欺詐檢測(cè)系統(tǒng)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展.2013,23(12):171-174.
[9] 李華,陳寧江.基于PSO的WFCM算法及其在醫(yī)保欺詐行為主動(dòng)發(fā)現(xiàn)中的應(yīng)用[J].廣西科學(xué)院學(xué)報(bào).2017, 33(1):32-39.
[10] 史徑宇,冉松靈,李晨萍.醫(yī)保欺詐行為的主動(dòng)發(fā)現(xiàn)[J].數(shù)學(xué)建模及其應(yīng)用,2016,5(1):54-59.
[11] 賈雙成,王奇.數(shù)據(jù)挖掘核心技術(shù)揭秘[M].北京:機(jī)械工業(yè)出版社,2015.
[12] 王熙照,王麗娟,王利偉.傳遞閉包聚類中的模糊性分析[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(18):92-94.|
[13] 王麗娟,關(guān)守義,王曉龍,等.基于屬性權(quán)重的Fuzzy C Mean算法[J].計(jì)算機(jī)學(xué)報(bào),2006,29(10):1797-1803.
[14] 張麗平.粒子群優(yōu)化算法的理論及實(shí)踐[D].杭州:浙江大學(xué), 2005.
【通聯(lián)編輯:代影】