倪賢卿, 梁華卓, 馮健鋆, 高卓
(1.華南農業(yè)大學珠江學院經濟管理學院, 廣東 廣州 510900;2.華南農業(yè)大學珠江學院信息工程學院,廣東 廣州 510900;3.華南農業(yè)大學珠江學院基礎部, 廣東 廣州 510900)
近年來隨著經濟的高速發(fā)展,商業(yè)銀行業(yè)務徒增,ATM機應用系統(tǒng)扮演著重要角色。相比銀行的柜臺服務,ATM機具有無人看管,業(yè)務量大的特性,因此關于ATM機交易狀態(tài)的特征分析和異常檢驗的研究就極具必要性[1],對ATM機交易的異常數(shù)據(jù)進行及時、準確的預報和報警是一項十分重要的事情。
商業(yè)銀行的ATM應用系統(tǒng)包括前端和后端兩個部分。前端是部署在銀行營業(yè)部和各自助服務點的ATM機(系統(tǒng)),后端是總行數(shù)據(jù)中心的處理系統(tǒng)。前端的主要功能是和客戶直接交互,采集客戶請求信息,然后通過網絡傳輸?shù)胶蠖?,再進行數(shù)據(jù)和賬務處理[2]。持卡人從前端設備提交查詢、轉賬和取現(xiàn)等業(yè)務請求的任意一個,到后臺處理完畢,并將處理結果返回到前端,通知持卡人業(yè)務處理最終狀態(tài),我們稱這樣完整的一個流程為一筆交易[3]。
商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)對各分行的交易信息進行匯總統(tǒng)計。匯總信息包括業(yè)務量、交易成功率、交易響應時間三個指標。其中,業(yè)務量表示每分鐘總共發(fā)生的交易總筆數(shù);交易成功率表示每分鐘交易成功筆數(shù)和業(yè)務量的比率[4];交易響應時間表示一分鐘內每筆交易在后端處理的平均耗時,ms。
交易數(shù)據(jù)分布存在以下特征:工作日和非工作日的交易量存在差別;一天內,交易量也存在業(yè)務低谷時間段和正常業(yè)務時間段。當無交易發(fā)生時,交易成功率和交易響應時間指標為空。
商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)為了實時掌握全行的業(yè)務狀態(tài),每分鐘就對各分行的交易信息進行匯總統(tǒng)計,所以異常檢測也應該一分鐘檢測一次,這樣會使匯總統(tǒng)計更加合理[5]。我們對每一分鐘求其置信區(qū)間:根據(jù)正態(tài)分布特性,可以選取±2σ或±3σ作為其置信區(qū)間,也就是拉依達準則法,在置信區(qū)間外即判斷為數(shù)據(jù)出現(xiàn)異常;如果選取±2σ作為其置信區(qū)間,每一個數(shù)據(jù)落入這個范圍的概率只有95%,排除了過多的正常值;如果選取±3σ作為其置信區(qū)間,每一個數(shù)據(jù)落入這個范圍的概率有99.7%,相比之下,選擇±3σ作為置信區(qū)間合理性更高[6]。
拉依達準則:假設把被測量進行等精度測量,獨立得到 x1,x2,…,xn,算出其算術平均值及剩余誤差 vi=xi-(i=1,2,…,n),并按貝塞爾公式算出標準差σ,若某個測量值Xb的剩余誤差vb(1≤b≤n),滿足|vb|=|xb-|>3σ,則認為xb是含有較大誤差值的壞值,應予剔除。
我們利用拉依達準則法剔除異常值的思想來檢測異常值,也就是說,在正常情況下,數(shù)據(jù)都會落在±3σ的范圍內,如果有數(shù)據(jù)落入在這個范圍之外,則認為小概率事件發(fā)生,在現(xiàn)實生活中,我們認為小概率事件是不會發(fā)生,所以把在這個在范圍之外的數(shù)視為異常值,如果系統(tǒng)檢測到這樣的數(shù)就進行報錯。以下圖為交易量處理異常值之后的數(shù)據(jù)直方圖,由圖1可知,數(shù)據(jù)基本都在正態(tài)分布曲線內,此時均值為597.56,標準差為492.614,由±3σ作為置信區(qū),可知,正常值的范圍為(-880.282~2075)。
圖1 處理異常值后交易量數(shù)據(jù)直方圖
交易量異常檢測代碼如下:
圖2 處理異常值后成功率數(shù)據(jù)直方圖
對于成功率的異常檢測,我們采用的方法和檢測交易量的方法一樣,圖2為成功率直方圖,其均值為0.947 3,標準差為0.025 6,對成功率求置信區(qū)間。選取±3σ,只求其下限,不考慮上限,成功率越高越好,在其下限外即判定該交易成功率出現(xiàn)異常。
檢測代碼如下:
對于響應時間的異常檢測,我們采用的方法和檢測交易量的方法一樣,下圖3為響應時間第一次異常數(shù)據(jù)處理后的直方圖,發(fā)現(xiàn)還有一小小部分在正態(tài)分布曲線之外,于是,我們進行了第二次處理[7]。如圖4所示,此時,其均值為109.51,標準差為23.453,對響應時間置信區(qū)間。同上選取±3σ,只求其上限,不考慮下限,響應時間越低越好,在其上限外即判定該響應時間出現(xiàn)異常。
圖3 第一次處理異常值后響應時間數(shù)據(jù)直方圖
圖4 第二次處理異常值后響應時間數(shù)據(jù)直方圖
如果僅有交易量異常,給出藍色警報;如果是響應時間出現(xiàn)異常,給出黃色報警;如果是成功率出現(xiàn)異常,給出紅色報警。
商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)通過對每家分行的匯總統(tǒng)計信息做數(shù)據(jù)分析,來捕捉整個前端和后端整體應用系統(tǒng)運行情況以及時發(fā)現(xiàn)異?;蚬收蟍8]。因此,對交易量,成功率和響應時間這三個量進行異常檢測并給以及時預報和報警顯得尤為重要,這也為我們后續(xù)研究提供了方向。