国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

ATM交易狀態(tài)特征分析與異常檢測

2018-05-14 08:55李一蔡禮淵
成都工業(yè)學院學報 2018年1期
關(guān)鍵詞:相關(guān)系數(shù)主成分分析

李一 蔡禮淵

摘要:通過累計圖判斷ATM交易狀態(tài)各變量的周期性,計算以工作狀態(tài)、時段為周期的季節(jié)指數(shù),通過直方圖和非參數(shù)檢驗判斷各變量的分布規(guī)律。隨后,將交易變量Z標準化,依據(jù)主成分分析法提取該組變量的主元,計算每個交易時刻的主元得分,根據(jù)常規(guī)控制圖和離群值判斷系統(tǒng)運行異?;蚬收蠒r刻,判處出主元得分處于異常的時刻,以應(yīng)用狀態(tài)為因變量,建立含工作狀態(tài)、交易時段兩個虛擬變量的多元邏輯回歸方程。最后,對模型的解釋能力、模型顯著性、回歸系數(shù)顯著性進行檢驗。

關(guān)鍵詞:相關(guān)系數(shù);季節(jié)指數(shù);主成分分析;虛擬變量;邏輯回歸

中圖分類號:U448

文獻標志碼:A

文章編號:2095-5383(2018)01-0050-08

商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)通過對每家分行的匯總統(tǒng)計信息做數(shù)據(jù)分析,用以捕捉自動提款機(Automated Teller Machine,ATM)應(yīng)用系統(tǒng)運行情況以便及時發(fā)現(xiàn)異?;蚬收蟍1]。隨著ATM使用量的增長,設(shè)備維護工作量也迅猛增長,對ATM交易系統(tǒng)的異常檢測和設(shè)備維修難度也越來越大。ATM故障診斷從最初的人工檢測及識別,逐步發(fā)展為依靠信息化和大數(shù)據(jù)的智能檢測。費吉忠等[2]根據(jù)工商銀行山東省威海市分行ATM使用情況,總結(jié)了9大類、40種ATM系統(tǒng)故障,將故障原因歸為5類,從日常維護的具體技術(shù)操作層面對ATM故障及故障診斷做了較為詳細的闡述。胡定憲等[3]直接用ATM網(wǎng)絡(luò)測試儀接入被測端,運行流量測試功能,自動定位所有的交易活動并識別有關(guān)的虛通道標識符和虛通路標識符,監(jiān)測出錯誤信元,監(jiān)測流量擁塞狀況,評估出ATM網(wǎng)絡(luò)的運行狀況。汪成亮[4]采取產(chǎn)品數(shù)據(jù)管理(Product Data Management, PDM)結(jié)合失效模式和影響分析(Failure Mode and Effect Analysis, FMEA)診斷方法,將金融產(chǎn)品構(gòu)成信息、產(chǎn)品功能信息及維修信息并融合產(chǎn)品設(shè)計階段獲取的診斷知識,進行診斷,使產(chǎn)品的設(shè)計、診斷與維護形成一個有機整體,提高診斷效率與精度。高澤旭[5]提出基于神經(jīng)網(wǎng)絡(luò)的ATM故障診斷專家系統(tǒng)的構(gòu)想。

鑒于目前多從技術(shù)角度研究ATM交易故障的現(xiàn)狀,從質(zhì)量控制視角運用數(shù)學模型對ATM交易故障進行診斷、分析和預(yù)測的相關(guān)文獻較少。本文在分析ATM應(yīng)用系統(tǒng)交易信息的相關(guān)性、周期性、描述統(tǒng)計量、分布形態(tài)等統(tǒng)計規(guī)律的基礎(chǔ)上,使用主成分分析法進行多變量統(tǒng)計故障診斷,提取每個交易時刻交易量、成功率、響應(yīng)時間3個變量的主元得分,根據(jù)質(zhì)量控制理論,以應(yīng)用狀態(tài)為因變量,建立含虛擬變量的多元邏輯回歸方程。

1 數(shù)據(jù)來源及處理

1.1 數(shù)據(jù)來源

本文數(shù)據(jù)采用2017年“深圳杯”數(shù)學建模挑戰(zhàn)賽B題:ATM交易狀態(tài)特征分析與異常檢測提供的某商業(yè)銀行ATM應(yīng)用系統(tǒng)某分行的交易統(tǒng)計數(shù)據(jù)。該商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)為了實時掌握全行的業(yè)務(wù)狀態(tài),每分鐘對各分行的交易信息進行匯總統(tǒng)計,包括業(yè)務(wù)量、交易成功率、交易響應(yīng)時間3個指標。

1.2 數(shù)據(jù)處理

為便于IBM SPSS軟件識別和滿足分析的需要,將題目所給數(shù)據(jù)的時間屬性、格式轉(zhuǎn)化為統(tǒng)一格式,并保存為新變量,命名為交易時刻。

題目提供了2017年1月23日至4月23日的交易數(shù)據(jù),將該時段中我國法定節(jié)假日的工作狀態(tài)設(shè)為“休”;其余周一至周五工作狀態(tài)設(shè)為“班”;并保存為新變量,命名為“工作狀態(tài)”。

1.3 離群值的識別與設(shè)定

1.3.1 各變量的描述性統(tǒng)計

使用IBM SPSS軟件“描述統(tǒng)計”功能,計算題目提供的未經(jīng)處理的交易量、成功率、相關(guān)響應(yīng)3個變量的描述性統(tǒng)計量,計算結(jié)果如表1所示。

計算結(jié)果顯示,131 013條樣本數(shù)據(jù),交易量均值為589.930,標準差為504.061,數(shù)據(jù)波動較大,可能原因為高峰時段和低谷時段差異較大導(dǎo)致數(shù)據(jù)較為離散。成功率均值為0.96,數(shù)據(jù)相對較為集中,成功率標準差0.028,離散趨勢相對較弱。數(shù)據(jù)呈現(xiàn)左偏陡峭形態(tài)。響應(yīng)時間存在極端值,極大值為57 210.64 ms,時間接近1 min,響應(yīng)時間過長,數(shù)據(jù)離散程度較大。

1.3.2 離群值的識別

為進一步反映數(shù)據(jù)形態(tài),使用“探索性分析”功能,計算各變量的百分位數(shù)分布情況,繪制各變量的箱形圖,如圖1~3所示。

框圖較為直觀地反映出交易數(shù)據(jù)因設(shè)備故障原因,導(dǎo)致數(shù)據(jù)存在較大的奇異值,為此需要在模型建立前將數(shù)據(jù)進行清洗和整理。

1.3.3 離群值的設(shè)定

1)暫不設(shè)定交易量的離群值

因分行側(cè)網(wǎng)絡(luò)傳輸節(jié)點故障,前端交易無法上送請求,會導(dǎo)致業(yè)務(wù)量陡降,同時交易量分高峰時段和低谷時段,故不能識別出其交易量波動的具體原因,暫不設(shè)定交易量的缺失值。

2)成功率離群值的設(shè)定

分行側(cè)參數(shù)數(shù)據(jù)變更或者配置錯誤,數(shù)據(jù)中心后端處理的失敗率增加,影響交易成功率指標,考慮到交易低谷時段交易量低等其他原因?qū)е碌某晒β瘦^低,以及成功率框圖顯示的信息,盡量保留所提供的原始數(shù)據(jù),將成功率的缺失值設(shè)定為x2<0.5(依據(jù)3σ原則該數(shù)值為0.95),缺失值占總數(shù)的0.014%。

3)響應(yīng)時間離群值的設(shè)定

數(shù)據(jù)中心后端處理系統(tǒng)異常(如操作系統(tǒng)CPU負荷過大)或應(yīng)用進程異常,引起交易處理緩慢,影響交易響應(yīng)時間指標,依據(jù)3σ原則,將響應(yīng)時間的缺失值設(shè)定為x3>1 900(實際計算值為1 905),缺失值占總數(shù)的0.039%。

為分析ATM交易狀態(tài)的特征參數(shù)和規(guī)律,從變量間的相關(guān)性、各變量的周期性、各變量的描述性統(tǒng)計、各變量的分布規(guī)律4個方面分別進行選擇、分析和提取。

2 ATM交易狀態(tài)特征分析

2.1 交易狀態(tài)變量間的相關(guān)性

使用IBM SPSS軟件“相關(guān)分析”功能,分別計算交易量、成功率、響應(yīng)時間3個變量間的兩兩線性相關(guān)系數(shù)(Pearson相關(guān)系數(shù)),非參數(shù)相關(guān)系數(shù)(Spearman秩相關(guān)系數(shù)、Kendall等級相關(guān)系數(shù))。計算結(jié)果,如表2所示。

計算結(jié)果顯示,交易量、成功率、響應(yīng)時間3個變量間無論是線性相關(guān)系數(shù),還是非參數(shù)相關(guān)系數(shù),均有較強的顯著性。特別是交易量和成功率、響應(yīng)時間兩個變量呈現(xiàn)顯著負相關(guān)。

2.2 各變量的周期性

使用IBM SPSS軟件“圖形”功能,繪制交易信息相關(guān)變量的累積圖,從圖形形態(tài)上初步判斷交易數(shù)據(jù)的趨勢和周期性。

2.2.1 交易量的周期性

匯總每日交易量和每分鐘交易量,繪制累計交易量柱狀圖,如圖4~5所示。

分析結(jié)果顯示,交易量呈現(xiàn)較強的周期性。1)每日累計交易量工作日數(shù)值明顯高于非工作日數(shù)值。春節(jié)前夕,交易數(shù)量激增,明顯高于其他時間;春節(jié)放假期間數(shù)值明顯低于其他時段數(shù)值;其余時間基本呈現(xiàn)較為規(guī)律的周期性變化。2)每分鐘累計交易量工作時段明顯高于非工作時段。每分鐘累計交易量呈現(xiàn)雙峰態(tài)勢,有早、晚兩個高峰時段,基本和上班作息時間一致。22:00至6:00交易數(shù)值較低。

2.2.2 成功率的周期性

計算每日成功率的平均數(shù)和每分鐘成功率的平均數(shù),繪制平均成功率柱狀圖,如圖6~7所示。

分析結(jié)果顯示,成功率未呈現(xiàn)顯著的周期性。平均成功率基本穩(wěn)定在相同數(shù)值,亦未呈現(xiàn)顯著的長期趨勢。

2.2.3 響應(yīng)時間的周期性

計算每分鐘響應(yīng)時間的平均數(shù)和每日響應(yīng)時間的平均數(shù),繪制平均響應(yīng)時間柱狀圖,如圖8~9所示。

分析結(jié)果顯示,平均響應(yīng)時間除個別日期和時段存在奇異值外,整體基本穩(wěn)定在相同數(shù)值,交易高峰時段響應(yīng)時間相對于低谷時段時間更短,響應(yīng)時間有一定的周期性但非顯著。可能是交易筆數(shù)較大抵消了部分隨機因素的影響,響應(yīng)時間未呈現(xiàn)顯著的長期趨勢。

2.3 計算以工作狀態(tài)、時段為周期的季節(jié)指數(shù)

2.3.1 季節(jié)指數(shù)的原理

根據(jù)時間序列中的數(shù)據(jù)資料所呈現(xiàn)的季節(jié)變動規(guī)律性,計算描述該變動的季節(jié)變動指數(shù)的方法。利用季節(jié)指數(shù)預(yù)測法進行預(yù)測時,時間序列的時間單位變動循環(huán)周期固定。計算公式如下:

2.3.2 以工作狀態(tài)為周期的季節(jié)指數(shù)

將法定節(jié)假日調(diào)整后的數(shù)據(jù),分別計算按工作狀態(tài),計算星期一至星期日和不同工作狀態(tài)下的交易量等變量的季節(jié)指數(shù)。計算結(jié)果,如表3所示。

計算結(jié)果顯示,交易量有明顯的周期性特征,成功率和響應(yīng)時間的周期性不顯著。工作日交易量(季節(jié)指數(shù)為106.46%)顯著高于非工作日交易量(季節(jié)指數(shù)為87.48%),為此,在故障識別時需要分別判斷不同工作狀態(tài)下的數(shù)據(jù)特征。

2.3.2 以時段為周期的季節(jié)指數(shù)

按照交易時段,計算不同時刻的交易量等變量的季節(jié)指數(shù),將季節(jié)指數(shù)低于100%的定義為低峰時段,將季節(jié)指數(shù)高于100%的定義為高峰時段,再分別計算低峰時段、高峰時段的季節(jié)指數(shù)。計算結(jié)果,如表4所示。

計算結(jié)果顯示,成功率周期性不顯著,交易量和響應(yīng)時間的周期剛好相反,印證了兩變量的顯著負相關(guān)。交易量高峰時段的季節(jié)指數(shù)為172.35,顯著高于低峰時段的27.26,響應(yīng)時間高峰時段的季節(jié)指數(shù)為90.11,顯著高于低峰時段的111.25。為此,在故障識別時需要分別判斷不同工作狀態(tài)下的數(shù)據(jù)特征。

2.4 各變量的分布規(guī)律

使用IBM SPSS軟件“頻率”功能,繪制交易量、成功率、響應(yīng)時間直方圖(缺失值設(shè)定1 900 ms)、響應(yīng)時間直方圖(缺失值設(shè)定200 ms),如圖10~13所示。從圖形形態(tài)上初步交易數(shù)據(jù)的分布規(guī)律。使用“非參數(shù)檢驗”功能,檢驗交易數(shù)據(jù)是否滿足經(jīng)典分布形態(tài)。

圖形形態(tài)顯示,三個變量均為雙峰,可能原因為交易數(shù)據(jù)包含的正常狀態(tài)下隨機因素和故障狀態(tài)下隨機因素二者重疊影響所致。

3 基于主成分分析的多變量統(tǒng)計故障識別

故障是指ATM交易系統(tǒng)或設(shè)備運行中,由于某些原因偏離正常狀況轉(zhuǎn)而處于一種非正常的狀態(tài),并且ATM交易系統(tǒng)出現(xiàn)了異?,F(xiàn)象。故障診斷主要是指通過利用待診斷系統(tǒng)中大量的測量設(shè)備所觀測和記錄到的數(shù)據(jù)信息、系統(tǒng)運行時的狀態(tài)信息等可獲取的信息以及過程發(fā)生故障時的異常征兆,對系統(tǒng)進行全方面的判斷和分析[7]。

常用的多變量統(tǒng)計的故障診斷方法有:主成分分析(PCA)、主元回歸(PCR)、偏最小二乘(PLS)等方法。主成分分析又稱主成分分析,由Pearson最早提出,經(jīng)Hotelling改進,在過程監(jiān)控領(lǐng)域相比其他方法具有較強的適應(yīng)性、更易實現(xiàn),還具有降維能力,可以把過程變量空間劃分為表示子空間和殘差子空間,能夠?qū)崿F(xiàn)子空間識別、故障識別等[3],為此,本文選用主成分分析進行ATM交易狀態(tài)多變量統(tǒng)計故障診斷。

3.1 主成分分析

主成分分析的思想是利用降維思想,將多個互相關(guān)聯(lián)的數(shù)值變量轉(zhuǎn)化成少數(shù)幾個互不相關(guān)的綜合指標的統(tǒng)計方法。這些綜合指標就是原來多個變量的主成分,每個主成分都是原始變量的線性組合,并且各個主成分之間互不相關(guān)。對ATM交易系統(tǒng)應(yīng)用實施多變量統(tǒng)計過程控制,將反映ATM交易信息的交易量、成功率、響應(yīng)時間3個變量進行主成分分析,建立反映ATM交易系統(tǒng)應(yīng)用正常運行的主元模型[4]。

由于主成分分析的結(jié)果受數(shù)據(jù)尺度的影響,因此在進行主成分分析時,需要先將數(shù)據(jù)進行Z標準化,即將每個變量的均值減掉以后除以它的標準差。然后計算各變量之間的相關(guān)矩陣、該矩陣的特征根和特征向量,最后將特征根由大到小排列,分別計算出對應(yīng)的主成分。

3.2 主元的抽取

使用IBM SPSS軟件,提取交易量、成功率、響應(yīng)時間3個變量的主元。操作步驟如下:

1)使用“描述”功能,將交易量、成功率、響應(yīng)時間3個變量的z標準化得分另存為新的變量zscore(x1)、zscore(x2)、zscore(x3)。

2)使用 “因子分析”功能,抽取主成分,輸出碎石圖和特征值,并將因子得分保存為新變量“主元得分”。主成分分析碎石圖顯示,僅有1個主元特征值>1,因此求得主元模型為:

該主元模型初始特征值為1.683,解釋了總方差的56.116,較好地解釋了總體的波動。

3.3 故障控制限的確定

ATM交易過程中,交易信息特征值的波動分為正常波動和異常波動。正常波動是偶然性原因不可避免因素造成的,異常波動是由系統(tǒng)原因異常因素造成的,但能夠采取措施避免和消除。根據(jù)中心極限定理,這些隨機誤差的總和,即總體質(zhì)量特性,服從正態(tài)分布。根據(jù)3σ原則,按照GB/T 4091—2001《常規(guī)控制圖》要求,當前文提取的“主元得分”在某時刻的平方預(yù)測誤差,發(fā)現(xiàn)以下任一情形時,ATM交易系統(tǒng)應(yīng)用系統(tǒng)異常或故障[8]:1)一點落在3σ以外;2)連續(xù)9個點落在中心線的同一側(cè);3)連續(xù)6點遞增或遞減;4)連續(xù)14點相鄰點上下交替出現(xiàn);5)連續(xù)3點中有2點落在中心線同一側(cè)2σ以外;6)連續(xù)5點中4點落在中心線同一側(cè)的σ以外;7)連續(xù)15點落在中心線兩側(cè)的σ內(nèi);8)連續(xù)8點在中心線兩側(cè)但無一在σ內(nèi)。另外,根據(jù)題意及前文分析設(shè)定離群值的相應(yīng)時刻,ATM交易系統(tǒng)應(yīng)用系統(tǒng)異常或故障:9)成功率<0.5%;10)響應(yīng)時間>1 900 ms。

3.4 故障識別與標識

將數(shù)據(jù)導(dǎo)入ACESS數(shù)據(jù)庫,對每一個時刻的交易數(shù)據(jù),分別判斷主元得分是否發(fā)生故障控制限所限定,10條規(guī)定中任意一條發(fā)生則判定該時刻ATM交易系統(tǒng)應(yīng)用系統(tǒng)異?;蚬收?,建立新變量,命名為“應(yīng)用運行狀態(tài)”,識別出有故障的時刻記為1,識別出無故障的時刻記為0。

3.5 含虛擬變量的多元邏輯回歸

邏輯回歸(Logistic regression)是指因變量為二分類變量時的回歸分析。因變量y,服從二項分布,取值為0或者1。邏輯回歸模型為:

3.5.1 含虛擬變量的多元邏輯回歸模型的建立

前文分析交易量具有顯著的周期性,為表征并剝離出交易量的周期性,新建表征工作狀態(tài)屬性和交易時段屬性的虛擬變量。工作狀態(tài),取值為0時代表交易日期為周末或法定節(jié)假日,取值為1時代表工作日。交易時段,取值為0時代表交易時間處于低峰時段,取值為1時代表交易時間處于高峰時段。根據(jù)以上分析,建立自變量含虛擬變量的多元邏輯回歸模型:

其中:logit(x)為邏輯回歸函數(shù);因變量y,表征應(yīng)用運行狀態(tài)屬性,取值為0時代表交易系統(tǒng)應(yīng)用運行未發(fā)現(xiàn)異常,取值為1時代表交易系統(tǒng)應(yīng)用運行異?;蚬收?;x1為交易量,x2為成功率,x3為響應(yīng)時間;x4為虛擬變量,表征工作狀態(tài)屬性,取值為0時代表交易日期為周末或法定節(jié)假日,取值為1時代表工作日;x5為虛擬變量,表征交易時段屬性,取值為0時代表交易時間處于低峰時段,取值為1時代表交易時間處于高峰時段。

3.5.2 多元邏輯回歸模型的求解

使用IBM SPSS軟件“回歸分析”功能,將應(yīng)用運行狀態(tài)設(shè)置為因變量,將交易量、為成功率、為響應(yīng)時間、工作狀態(tài)、交易時段、設(shè)置為自變量,選用向后步進(似然比)方法,求得邏輯回歸方程為:

3.5.3 模型的檢驗

1)模型顯著性檢驗

對多元邏輯回歸模型,進行模型預(yù)測效果檢驗,如表6所示。

從表6可以看出,應(yīng)用運行狀態(tài)標識為故障的1128個時刻,944個被正確預(yù)測,正確率為83.7,整體正確率為99.8。較好的預(yù)測了ATM交易系統(tǒng)運行異?;蚬收?。

對多元邏輯回歸模型,進行模型顯著性檢驗,如表7所示。

預(yù)測模型的Cox & Snell R 方為0.082,Nagelkerke R 方為0.871,表明模型有較好的解釋能力,預(yù)測模型顯著。

2)回歸系數(shù)顯著性檢驗

對多元邏輯回歸模型,進行回歸系數(shù)顯著性檢驗,如表8所示。

預(yù)測模型各回歸系數(shù)的漸進顯著性均<0.05,拒絕回歸系數(shù)為零的原假設(shè),回歸系數(shù)顯著。

馬術(shù)俱樂部進行實地訪談和市場數(shù)據(jù)分析,以期將此處所提出的馬術(shù)俱樂部收益模型進行精確的量化分析。

參考文獻:

[1]MICHAEL R.Leeders purchasing management and business competitiveness in the coming decade [J].Production Planning & Control,2004, 15(7):710-718.

[2]BOER L D,LABOR E,MORLACCHI P.A review of methods supporting supplier selection[J].European Journal of Purchasing and Supply Management,2001(7):75-89.

[3]VAMPIEW W,KAY J. Encylopedia of british horseracing. london and new york[M].New York:Routledge Taylor&Fracis Group, 2005.

[4]PITTS B. Industry segmentation theory and the sport industry: developing a sport industry segmentation model [J]. Sport Marketing Quarterly,1994,3(1):15-24.

[5]丁鵬.世界賽馬產(chǎn)業(yè)的發(fā)展對中國賽馬業(yè)影響的探析[J].武漢商業(yè)服務(wù)學院學報,2010,4(2):23- 27.

[6]李要南,方武,操小龍.中國賽馬運動開展現(xiàn)狀及特征研究[J].武漢商業(yè)服務(wù)學院學報,2013,12(6):54- 56.

[7]夏云建.賽馬與休閑旅游產(chǎn)業(yè)一體化發(fā)展可行性研究:以開發(fā)武漢市賽馬休閑產(chǎn)業(yè)為例[J].武漢商業(yè)服務(wù)學院學報,2010(3):23-25.

[8]夏淑萍.論賽馬產(chǎn)業(yè)集群的經(jīng)濟學研究:以開發(fā)武漢市賽馬休閑產(chǎn)業(yè)為例[J].武漢商業(yè)服務(wù)學院學報,2010(4):19-20.

[9]李煒.賽馬產(chǎn)業(yè)在武漢的發(fā)展優(yōu)勢與市場驅(qū)動力[J].湖北經(jīng)濟學院學報(人文科學版),2009,23(3):50-51.

猜你喜歡
相關(guān)系數(shù)主成分分析
人口老齡化對我國消費結(jié)構(gòu)影響研究
南京市能見度變化趨勢及其影響因素
基于NAR模型的上海市房產(chǎn)稅規(guī)模預(yù)測
主成分分析法在大學英語寫作評價中的應(yīng)用
江蘇省客源市場影響因素研究
SPSS在環(huán)境地球化學中的應(yīng)用
服務(wù)貿(mào)易結(jié)構(gòu)優(yōu)化路徑研究
秦皇島海域夜光藻種群密度與環(huán)境因子的關(guān)系
電子鼻傳感器陣列優(yōu)化對豬肉新鮮度法的檢測
食用菌菌渣基礎(chǔ)特性分析
华蓥市| 灵山县| 临海市| 大田县| 增城市| 余庆县| 县级市| 玉屏| 绥滨县| 和平区| 和龙市| 汉沽区| 孟津县| 英德市| 泸定县| 琼结县| 工布江达县| 四会市| 金川县| 固镇县| 成武县| 宝应县| 额尔古纳市| 呼伦贝尔市| 巴马| 安陆市| 高碑店市| 丹寨县| 茌平县| 满城县| 瓮安县| 阿城市| 株洲市| 军事| 洞头县| 手机| 桓台县| 神农架林区| 蓝山县| 镇赉县| 西藏|