李茜
【摘 要】隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展與成熟,對(duì)數(shù)據(jù)挖掘的研究和應(yīng)用逐漸深入到各個(gè)行業(yè)。在醫(yī)療保險(xiǎn)領(lǐng)域,醫(yī)保詐騙的現(xiàn)象時(shí)有發(fā)生,造成醫(yī)藥基金的損失,損害廣大參保人的利益。運(yùn)用數(shù)據(jù)挖掘技術(shù),構(gòu)建較為完整的醫(yī)保數(shù)據(jù)倉庫,實(shí)現(xiàn)醫(yī)保信息化的構(gòu)建,進(jìn)而更為高效的使用和管理醫(yī)?;稹1疚耐ㄟ^對(duì)比研究病人的所購藥品金額和藥品數(shù)量,結(jié)合醫(yī)囑時(shí)間,病人科室等項(xiàng)目,利用EXCEL,SPSS進(jìn)行數(shù)據(jù)的篩選整理及描述性統(tǒng)計(jì)分析,建立檢測模型,篩選出異常值。異常值的檢測即為主動(dòng)發(fā)現(xiàn)醫(yī)療欺詐檢測。
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù);醫(yī)保欺詐
一、問題背景
(一)關(guān)于醫(yī)保欺詐的手段分析
醫(yī)保欺詐及違規(guī)行為主要分為醫(yī)療保險(xiǎn)參?;颊撸ㄐ璺剑┑钠墼p、違規(guī)行為,醫(yī)療保險(xiǎn)服務(wù)供方(醫(yī)療機(jī)構(gòu)和藥店)和參?;颊吆现\的欺詐、違規(guī)行為,醫(yī)療保險(xiǎn)服務(wù)供方的欺詐、違規(guī)行為。
根據(jù)表格數(shù)據(jù)項(xiàng)目和特點(diǎn),主要能夠發(fā)現(xiàn)以下醫(yī)保欺詐行為:
1.冒名頂替。是指非參保患者以其他參保人身份在定點(diǎn)醫(yī)療機(jī)構(gòu)就醫(yī),包括門急診、住院、加床等。具體在數(shù)據(jù)中的體現(xiàn)為:同一個(gè)人持多張醫(yī)??ň歪t(yī)。
2.販賣藥品。指醫(yī)?;颊咄ㄟ^醫(yī)保卡多看病,多取藥的方法,然后將藥品販賣,達(dá)到騙取醫(yī)保基金的目的。
(二)醫(yī)保數(shù)據(jù)挖掘
我們通常將數(shù)據(jù)挖掘的任務(wù)主要分為描述和預(yù)測兩大類。預(yù)測任務(wù)是通過一些自變量屬性為目標(biāo)建立模型,用自變量的取值來預(yù)測目標(biāo)變量的取值。描述任務(wù)則是對(duì)數(shù)據(jù)潛在聯(lián)系或模式的概括,包括關(guān)聯(lián)分析,聚類,異常檢測等。
本題主要是針對(duì)醫(yī)保欺詐的檢測。欺詐檢測是醫(yī)?;痫L(fēng)險(xiǎn)防控中重要的一項(xiàng)任務(wù),通常根據(jù)專家知識(shí)分析可能的欺詐行為,并利用數(shù)據(jù)挖掘算法進(jìn)行檢測和驗(yàn)證。
二、識(shí)別醫(yī)保欺詐行為
(一)識(shí)別單次購藥金額高且購藥數(shù)量多和單次購藥金額過高但購藥數(shù)量少的行為
在醫(yī)療保險(xiǎn)的詐騙過程中,騙保人會(huì)反復(fù)使用醫(yī)??ㄙ徺I藥品,再將購買的藥品以高價(jià)出售,以此牟利。因此,當(dāng)某位患者單次購藥金額高且多次購藥或者雖然購藥數(shù)量少但單次金額過高,則意味著該患者有惡意騙保的可能。
1.識(shí)別單次購藥金額高且購藥數(shù)量多的行為
·數(shù)據(jù)預(yù)處理
1)數(shù)據(jù)篩選。在費(fèi)用明細(xì)中,只保留病人ID、藥品數(shù)量和總價(jià)格。
2)數(shù)據(jù)排序,數(shù)據(jù)分組。將病人ID及按升序排列,對(duì)每一個(gè)病人購買藥品數(shù)量和總價(jià)進(jìn)行單獨(dú)分析。
3)通過數(shù)據(jù)透視表將屬于同一病人ID的藥物費(fèi)用加總。用=COUNTIF()函數(shù)計(jì)數(shù),用=SUMIF()函數(shù)進(jìn)行加和。
·模型的建立及求解
1)將同一病人ID下各藥品價(jià)格加總,即可求出單次購買藥品的金額。將同一病人ID所對(duì)應(yīng)的各藥品數(shù)量加總,即可求出單次購買藥品的數(shù)量。
對(duì)“費(fèi)用明細(xì)”中藥品價(jià)格,購藥種類,每種藥品的數(shù)量等數(shù)據(jù)帶入上述公式進(jìn)行計(jì)算,得出每位患者單次購藥的總價(jià)格和藥品總數(shù)量。
2)運(yùn)用SPSS對(duì)單次購買的藥品金額進(jìn)行描述性統(tǒng)計(jì),取顯著性水平α= 1%,按照“經(jīng)驗(yàn)法則”約有99%的樣本值的平均數(shù)落在±3個(gè)標(biāo)準(zhǔn)差的置信區(qū)間內(nèi),置信區(qū)間的上限為175.6480。超出該范圍的部分認(rèn)為有詐騙的嫌疑。
3)對(duì)于單次購藥金額超出175元的部分,我們對(duì)剩余數(shù)據(jù)進(jìn)行再次篩選處理。此次是篩選出一次購藥中購買藥物數(shù)量較大的數(shù)據(jù),取顯著性水平α= 1%,按照“經(jīng)驗(yàn)法則”約有99%的樣本值的平均值落在±3個(gè)標(biāo)準(zhǔn)差的置信區(qū)間內(nèi),置信區(qū)間的上限為428.94。高于置信區(qū)間上限值的部分,符合滿足單筆金額大且所購藥品數(shù)量多的條件。
結(jié)論:經(jīng)過上述篩選過程后,可以識(shí)別出具有詐騙嫌疑的病人ID。經(jīng)過篩選,大約有28.62%的病人有該種詐騙嫌疑。
2.識(shí)別單次購藥金額過高且購藥數(shù)量少的行為
在醫(yī)療詐騙中,單次購藥金額過高同時(shí)購藥數(shù)量少的詐騙手段也常見。類似解決上一問的做法,本文從藥品總價(jià)和藥品數(shù)量入手,篩選出異常值。以此確定存在醫(yī)療詐騙行為的病人ID。
·模型的建立及求解
1)首先,對(duì)藥品購買金額按照降序排列,利用SPSS制作藥品購買金額的散點(diǎn)圖,如圖表組合二,觀察其特點(diǎn)。發(fā)現(xiàn)異常值大概在前1%左右,這些異常值可能是由醫(yī)療詐騙行為導(dǎo)致的。
2)再從藥品購買數(shù)量中篩選出低于428的數(shù)據(jù),與1%的異常值取交集,即可得到采取單次購藥金額過高且購藥數(shù)量少手段的病人ID。分析結(jié)果如下表所示。
結(jié)論:使用上述方法,可以找到在醫(yī)療過程中,單筆金額過高且數(shù)量少的數(shù)據(jù)所對(duì)應(yīng)的病人ID,通過核實(shí)病例信息,醫(yī)囑子類,可以最終確定醫(yī)療詐騙行為,結(jié)果顯示,該部分的嫌疑人數(shù)量占到0.999%。
(二)識(shí)別同一人持有不同醫(yī)??ㄙ徦幍男袨?/p>
在醫(yī)療詐騙的過程中,通過借取,租用多張醫(yī)???,反復(fù)購買藥品再出售牟利,也是一種常見的手段。這種方法由于病人ID不同,較難辨別而更加隱蔽。本文假設(shè),由于個(gè)人身體條件差異導(dǎo)致對(duì)藥物數(shù)量的需求差異較大,且不同種類藥物單價(jià)也不相同。因此,每次就醫(yī)所購買的藥品總金額應(yīng)當(dāng)具有一定差異。當(dāng)出現(xiàn)藥品總金額相同的情況時(shí),則視為具有醫(yī)療欺詐的嫌疑。
這里使用雷同價(jià)格篩選法。
·數(shù)據(jù)預(yù)處理
統(tǒng)計(jì)相同金額出現(xiàn)的頻數(shù),并按其大小進(jìn)行降序排列。
·模型的建立及求解
1)將相同的藥品總金額及其對(duì)應(yīng)的頻數(shù)列成表格
2)將頻數(shù)按降序排列
3)運(yùn)用SPSS對(duì)單次購買的藥品金額進(jìn)行描述性統(tǒng)計(jì),統(tǒng)計(jì)每個(gè)價(jià)格出現(xiàn)的次數(shù),在篩選價(jià)格頻數(shù)時(shí),首先考慮了中位數(shù)。但在操作中發(fā)現(xiàn)中位數(shù)為1,而最大值為483,說明該組數(shù)據(jù)偏態(tài)較高為28.872 ,使用中位數(shù)作為劃分依據(jù)不合理。因此使用新的篩選方法。
4)通過對(duì)藥品金額進(jìn)行描述性統(tǒng)計(jì),從頻數(shù)發(fā)現(xiàn)相同金額出現(xiàn)次數(shù)在七次以內(nèi)的占總體的95.3%??芍?,由于病人的醫(yī)療行為具有獨(dú)立性,且不同種類藥物之間單價(jià)差距大,在不同患者的醫(yī)療過程中,藥品總金額大量相同的頻率比較低。如果將金額頻數(shù)按降序排列選取前5%,已經(jīng)足以涵蓋大部分的總金額重復(fù)情況。因此,在此范圍內(nèi)的可以視為有醫(yī)療詐騙的嫌疑。