国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

審計(jì)信息系統(tǒng)的異常數(shù)據(jù)挖掘算法和應(yīng)用

2020-09-22 03:26毛玲玥
全國(guó)流通經(jīng)濟(jì) 2020年19期
關(guān)鍵詞:應(yīng)用

摘要:信息系統(tǒng)作為企業(yè)經(jīng)營(yíng)管理活動(dòng)的基本手段,需要從海量數(shù)據(jù)中搜索得到有效的審計(jì)證據(jù)和審計(jì)線(xiàn)索,能夠發(fā)現(xiàn)經(jīng)營(yíng)活動(dòng)的異常是審計(jì)工作的重要內(nèi)容。本文在對(duì)各類(lèi)異常數(shù)據(jù)挖掘算法的分析和總結(jié)基礎(chǔ)上,關(guān)注審計(jì)數(shù)據(jù)挖掘中問(wèn)題的解決,使得審計(jì)信息系統(tǒng)的異常數(shù)據(jù)挖掘算法得以推廣應(yīng)用。

關(guān)鍵詞:審計(jì)信息系統(tǒng);異常數(shù)據(jù);挖掘算法;應(yīng)用

中圖分類(lèi)號(hào):F232.6;TP393?文獻(xiàn)識(shí)別碼:A?文章編號(hào):2096-3157(2020)19-0183-02

隨著信息技術(shù)的發(fā)展和廣泛應(yīng)用,審計(jì)單位的經(jīng)營(yíng)和管理及核算模式出現(xiàn)明顯變化,其更加復(fù)雜且龐大的信息系統(tǒng),使得傳統(tǒng)的會(huì)計(jì)核算和經(jīng)營(yíng)管理系統(tǒng)的構(gòu)成要素也隨之改變。審計(jì)人員在進(jìn)行資料整理的時(shí)候,需要面對(duì)大量電子數(shù)據(jù)信息,信息系統(tǒng)審計(jì)屬于信息環(huán)境中全新的審計(jì)方式,其地位日益凸顯。當(dāng)前審計(jì)信息系統(tǒng)所面臨的問(wèn)題是應(yīng)對(duì)數(shù)據(jù)海量化的挑戰(zhàn),能夠在海量數(shù)據(jù)中有效快速得到規(guī)律及特點(diǎn),挖掘?qū)徲?jì)線(xiàn)索,降低審計(jì)工作的風(fēng)險(xiǎn),需要數(shù)據(jù)挖掘技術(shù)的支持,這也為審計(jì)信息系統(tǒng)的構(gòu)建及應(yīng)用提供新的發(fā)展方向[1]。

一、數(shù)據(jù)挖掘概論

數(shù)據(jù)挖掘主要是指從大量不完全和有噪音及隨機(jī)數(shù)據(jù)信息中提取隱含的信息和知識(shí)的過(guò)程,數(shù)據(jù)挖掘在信息系統(tǒng)審計(jì)工作開(kāi)展的時(shí)候具有重要作用和積極影響,其不僅能夠?qū)π畔⑾到y(tǒng)所產(chǎn)生審計(jì)業(yè)務(wù)數(shù)據(jù)及財(cái)務(wù)信息等深層次研究,得出其本來(lái)所具有的特點(diǎn)和內(nèi)在聯(lián)系,也可以在模型匹配及挖掘算法的支持下實(shí)現(xiàn)信息系統(tǒng)開(kāi)發(fā)審計(jì)和安全審計(jì)等各個(gè)方面的實(shí)際應(yīng)用,在數(shù)據(jù)挖掘技術(shù)和信息系統(tǒng)審計(jì)技術(shù)的融合下,能夠明確系統(tǒng)控制審計(jì)符合文件資料嵌入審計(jì)程序所需要采集的信息內(nèi)容[2]。

二、異常數(shù)據(jù)及其來(lái)源

數(shù)據(jù)挖掘主要是在計(jì)算機(jī)技術(shù)和軟件支持的基礎(chǔ)上,所獲取的大量模糊的數(shù)據(jù)中提取一些不明顯的規(guī)律,在這一基礎(chǔ)上得出更多有效的知識(shí)內(nèi)容。異常指不一般的數(shù)據(jù),推動(dòng)人們認(rèn)識(shí)到這些數(shù)據(jù)不屬于原本系統(tǒng)的隨機(jī)偏差,多數(shù)情況下是在不同機(jī)制的支持下實(shí)現(xiàn)的,異常本質(zhì)和正常數(shù)據(jù)之間差異明顯,個(gè)數(shù)和正常數(shù)據(jù)相對(duì)比具有對(duì)象數(shù)量比較少的特點(diǎn),通常情況下,異常數(shù)據(jù)的來(lái)源主要有相異的類(lèi)和自然變異及數(shù)據(jù)收集誤差等。

首先,相異的類(lèi)屬于數(shù)據(jù)對(duì)象的異常,其可能來(lái)源于不同的對(duì)象,在審計(jì)處理的時(shí)候,需要分析異常變動(dòng)數(shù)據(jù),例如資金流量異常變化和異常的交易情況等,這些異常多數(shù)情況下存在著代表性特點(diǎn),是關(guān)注的重要對(duì)象。

其次,自然變異則屬于多數(shù)數(shù)據(jù)在正態(tài)規(guī)律分布的基礎(chǔ)上實(shí)現(xiàn)的,通常這些數(shù)據(jù)都比較接近數(shù)據(jù)的中心,而兩邊的數(shù)據(jù)相對(duì)較少,例如在營(yíng)業(yè)收入分析的時(shí)候,主營(yíng)業(yè)務(wù)是正常的計(jì)算對(duì)象,而偶然一次性營(yíng)業(yè)收入是對(duì)象類(lèi)中的異常情況[3]。

最后,數(shù)據(jù)測(cè)量收集誤差的異常是在設(shè)備測(cè)量問(wèn)題比較突出所得出的不正確記錄問(wèn)題,這些數(shù)據(jù)本身不會(huì)提供被審計(jì)對(duì)象認(rèn)可的有價(jià)值信息支撐,相關(guān)數(shù)據(jù)資料不會(huì)為去除這些異常,同時(shí)注重提高數(shù)據(jù)及數(shù)據(jù)分析的質(zhì)量。

三、異常數(shù)據(jù)挖掘算法

1.基于統(tǒng)計(jì)方法的數(shù)據(jù)挖掘算法

數(shù)據(jù)挖掘算法產(chǎn)生之前,多數(shù)情況下處于異常數(shù)據(jù)的時(shí)候是利用剔除法,近些年是基于不同分布的異常檢驗(yàn)方式進(jìn)行異常數(shù)據(jù)處理,通常是在不同分布的異常檢驗(yàn)方式基礎(chǔ)上實(shí)現(xiàn)的,在概率分布模型支持下,隨后在某一個(gè)顯著性水平上明確得出具體的拒絕域和接受域,如果數(shù)據(jù)落在拒絕域范圍中,將其確定為異常數(shù)據(jù),基于統(tǒng)計(jì)的算法受到廣泛關(guān)注,實(shí)際操作的時(shí)候,具有兩種比較簡(jiǎn)單快速的異常檢測(cè)方式,也就是3σ異常檢測(cè)方法和Z統(tǒng)計(jì)量法。統(tǒng)計(jì)方法本身具有較為堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),如果給定相關(guān)模型,其本身存在著比較大的指導(dǎo)意義,但是這一方式多數(shù)是在明確單個(gè)屬性的情況下實(shí)現(xiàn)的,無(wú)法有效處理多維空間的異常數(shù)據(jù)。

2.基于距離方式的數(shù)據(jù)挖掘算法

基于距離方式的數(shù)據(jù)挖掘算法是基于數(shù)據(jù)點(diǎn)距離進(jìn)行計(jì)算的,其本身具有明顯的幾何解釋?zhuān)夷軌虮苊饨y(tǒng)計(jì)方式的局限性特點(diǎn),其也能夠有效應(yīng)用到多維數(shù)據(jù)樣本中,而統(tǒng)計(jì)方法則不行。基于距離的算法中應(yīng)用比較多的包含著DB(p,d)方法和k-近鄰方法。DB(p,d)方法的基于距離的異常是沒(méi)有充足的另?yè)?jù)的對(duì)象。k-近鄰方法的主要思想是為每個(gè)對(duì)象找到其k個(gè)最近的鄰居,在有效對(duì)其對(duì)象到這k個(gè)鄰居的最大的距離分析的情況下,進(jìn)行對(duì)象距離排序處理,得出排序比較靠前的對(duì)象作為異常點(diǎn)。

3.基于密度的數(shù)據(jù)挖掘算法

基于統(tǒng)計(jì)學(xué)和距離的異常數(shù)據(jù)方式主要是在給定的數(shù)據(jù)集合的全局分布基礎(chǔ)上實(shí)現(xiàn)的,隨后,也要能夠結(jié)合明確數(shù)據(jù)分布情況得出當(dāng)前基于密度的方法是局部離群范圍是遠(yuǎn)離的,則可以成為局部離群點(diǎn),其不將離群點(diǎn)作為二元性質(zhì)的對(duì)象,而僅僅是評(píng)估一個(gè)對(duì)象為離群點(diǎn)的程度[4]。

四、審計(jì)信息系統(tǒng)的異常數(shù)據(jù)挖掘算法的選擇和應(yīng)用

在審計(jì)數(shù)據(jù)的時(shí)候,要求能夠盡快發(fā)現(xiàn)其中的異常數(shù)據(jù),從而達(dá)到預(yù)警和減少損失的效果,被審計(jì)的信息通常情況下都會(huì)被儲(chǔ)存到ERP等信息系統(tǒng)中,審計(jì)人員也要能夠?qū)?shù)據(jù)導(dǎo)入到計(jì)算機(jī)分析數(shù)據(jù)表內(nèi),隨后挖掘其所包含著的異常數(shù)據(jù),但是,在企業(yè)信息化更大范圍推廣和數(shù)據(jù)庫(kù)并行應(yīng)用的基礎(chǔ)上,單一的異常數(shù)據(jù)挖掘算法當(dāng)前無(wú)法滿(mǎn)足被審計(jì)對(duì)象數(shù)據(jù)異常的及時(shí)發(fā)展過(guò)程中,需要加強(qiáng)對(duì)算法的改進(jìn)和完善[5]。

1.基本算法

首先,測(cè)量距離的量度相對(duì)較為常用的包含著絕對(duì)距離和歐式距離,絕對(duì)距離的定義為:

最后,描述算法,如果數(shù)據(jù)集合S中所涉及到的P部分和對(duì)象O距離明顯要大于d,對(duì)象O也為帶參數(shù)的P和d的給定距離方面具有的異常點(diǎn)。R[k]表示在第一屬性值記錄情況下,假設(shè)O(1,2,…,n)按照順序排列,則具體算法如下:第一步選擇中心點(diǎn),第二步設(shè)置初始值和權(quán)重向量,第三步WHILE(不滿(mǎn)足結(jié)束條件)。

2.基于單元的異常數(shù)據(jù)算法

基于單元的孤立點(diǎn)是充分將數(shù)據(jù)劃分為相似的單元格,根據(jù)單元格的坐標(biāo)及數(shù)據(jù)對(duì)象關(guān)系有效推動(dòng)數(shù)據(jù)對(duì)象能夠更好地映射到單元格中,從而對(duì)其異常點(diǎn)深入檢查和有效確定,對(duì)于無(wú)法利用單元格的算法也能夠根據(jù)其所具有的距離算法加以解決,首先假設(shè)數(shù)據(jù)為二維數(shù)據(jù),隨后向多維數(shù)據(jù)推導(dǎo)[6]。

(1)經(jīng)典的基于單元的異常點(diǎn)算法

最早得出基于單元的異常數(shù)據(jù)的算法是可以檢測(cè)儲(chǔ)存于內(nèi)部的存儲(chǔ)數(shù)據(jù)信息,這一算法能夠檢測(cè)所有的DB(p,d)異常點(diǎn),其也存在著一定不足,也就是閾值和距離值屬于常量,并不是動(dòng)態(tài)調(diào)整的,其中閾值首先是不會(huì)隨著單元格的位置不同而產(chǎn)生差異,可以在相關(guān)分析中得出,如果邊界單元格的第一層鄰居主要為三個(gè)或者五個(gè),而其他的單元格顯示為八個(gè),如果是結(jié)合單一的閾值,就可以使得邊界處的異常點(diǎn)出現(xiàn)誤判。另外距離值也屬于固定值,在程序給定這一固定值后,對(duì)距離值進(jìn)行計(jì)算,在不同的用戶(hù)需求分析的時(shí)候,也要能夠明確尺度差異,需要存在著不同的距離值,且對(duì)比不同的距離值之后產(chǎn)生結(jié)果的時(shí)候,也會(huì)促使問(wèn)題掌握更加透徹。

(2)算法的實(shí)際調(diào)整

固定閾值對(duì)判斷會(huì)造成一定影響,而造成這些影響的主要原因是邊界單元格和非邊界單元格之間的差異,因此,對(duì)閾值調(diào)整的時(shí)候,較為有效的方式是判斷單元格是否為邊界單元格,這一問(wèn)題解決的時(shí)候,主要是利用以下公式解決:

(3)經(jīng)典單元異常挖掘算法的完善擴(kuò)展

多維度數(shù)據(jù)始終是沒(méi)有問(wèn)題的。

五、具體實(shí)踐及效果

為了對(duì)算法實(shí)際應(yīng)用效果有效改善,需要在實(shí)驗(yàn)的方式基礎(chǔ)上開(kāi)展實(shí)際驗(yàn)證,實(shí)際數(shù)據(jù)主要是基于電力企業(yè)的2017年~2019年的財(cái)務(wù)信息和業(yè)務(wù)數(shù)據(jù)等收集分析處理,數(shù)據(jù)屬性中主要有52項(xiàng),其具體的實(shí)驗(yàn)?zāi)繕?biāo)是監(jiān)測(cè)異常數(shù)據(jù)。硬件環(huán)境Pentium雙核2.1GHz,3.2G內(nèi)存,硬盤(pán)為160G,數(shù)據(jù)庫(kù)利主要是利用DB2,程序則實(shí)驗(yàn)net架構(gòu)編寫(xiě)。實(shí)驗(yàn)的過(guò)程也要清理相關(guān)數(shù)據(jù),將中文和字幕等充分轉(zhuǎn)換為統(tǒng)一編碼數(shù)值數(shù)據(jù),在這一環(huán)境下確定相關(guān)的目標(biāo)數(shù)據(jù)庫(kù),隨后利用算法挖掘的方式得出具有的實(shí)驗(yàn)結(jié)果。

在和原本算法相對(duì)比的基礎(chǔ)上,可以得出新的算法對(duì)不同數(shù)據(jù)操作時(shí)間相對(duì)減少,平均的節(jié)約量主要為3%,新的算法也會(huì)得到比較多異常數(shù)據(jù)點(diǎn),在實(shí)際實(shí)施的時(shí)候存在著顯著的指導(dǎo)作用,利用電力企業(yè)的實(shí)際應(yīng)用情況分析,為企業(yè)提供更多舞弊行為的審計(jì)證據(jù)。

六、結(jié)語(yǔ)

在基于距離的經(jīng)典算法擴(kuò)展的基礎(chǔ)上,能夠?qū)徲?jì)對(duì)象多類(lèi)數(shù)據(jù)應(yīng)用的要求有效滿(mǎn)足,明確得出滿(mǎn)足審計(jì)系統(tǒng)的異常數(shù)據(jù)挖掘算法,這一算法也就能夠充分發(fā)現(xiàn)異常數(shù)據(jù),從而減少損失,同時(shí)也能夠廣泛在相關(guān)商務(wù)實(shí)踐活動(dòng)異常數(shù)據(jù)挖掘中具體實(shí)施。

參考文獻(xiàn):

[1]潘東陽(yáng),劉靜瑞.基于數(shù)理統(tǒng)計(jì)的網(wǎng)絡(luò)運(yùn)行異常數(shù)據(jù)挖掘模型構(gòu)建[J].信息通信,2019,(07):21~22.

[2]張波,李舸.基于改進(jìn)聚類(lèi)算法的Web異常數(shù)據(jù)挖掘軟件設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019,42(08):73~76+81.[3]張凱斐,劉繼華,張菊芳.大規(guī)模高維數(shù)據(jù)集中局部異常數(shù)據(jù)挖掘算法[J].微電子學(xué)與計(jì)算機(jī),2018,35(03):116~119+124.

[4]向楨,向守兵.基于模糊遺傳算法的數(shù)據(jù)庫(kù)異常數(shù)據(jù)挖掘[J].控制工程,2017,24(05):947~951.[5]馬寧,廖慧惠.云計(jì)算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,33(03):31~32.

[6]王樂(lè),王芳.數(shù)據(jù)庫(kù)異常數(shù)據(jù)的檢測(cè)仿真研究[J].計(jì)算機(jī)仿真,2016,33(01):430~433.

作者簡(jiǎn)介:

毛玲玥,供職于浙江浙能富興燃料有限公司,中級(jí)審計(jì)師。

猜你喜歡
應(yīng)用
配網(wǎng)自動(dòng)化技術(shù)的應(yīng)用探討
帶壓堵漏技術(shù)在檢修中的應(yīng)用
行列式的性質(zhì)及若干應(yīng)用
癌癥擴(kuò)散和治療研究中的微分方程模型
紅外線(xiàn)測(cè)溫儀在汽車(chē)診斷中的應(yīng)用
多媒體技術(shù)在小學(xué)語(yǔ)文教學(xué)中的應(yīng)用研究
微課的翻轉(zhuǎn)課堂在英語(yǔ)教學(xué)中的應(yīng)用研究
分析膜技術(shù)及其在電廠(chǎng)水處理中的應(yīng)用
GM(1,1)白化微分優(yōu)化方程預(yù)測(cè)模型建模過(guò)程應(yīng)用分析
煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
察雅县| 治多县| 青浦区| 康平县| 嘉峪关市| 枝江市| 瑞安市| 广汉市| 乌拉特前旗| 托克托县| 崇阳县| 读书| 乌兰察布市| 乐昌市| 盐津县| 曲靖市| 鄯善县| 都兰县| 外汇| 巴马| 莱西市| 云霄县| 汪清县| 大厂| 雷州市| 定州市| 花垣县| 常熟市| 陵川县| 阳朔县| 定边县| 滨海县| 广元市| 讷河市| 望城县| 普格县| 临夏市| 吉林市| 吉安县| 上饶县| 平顺县|