摘要:該文闡述了提高管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量的方法技術,并從數(shù)據(jù)質量的角度科學分類了管理信息系統(tǒng)內(nèi)的數(shù)據(jù)。
關鍵詞:管理信息系統(tǒng);數(shù)據(jù)質量;數(shù)據(jù)預處理;數(shù)據(jù)挖掘;決策樹;多維關聯(lián)規(guī)則
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)04-0776-03
The Methods of Enhancing Data Quality in Management Information System
LI Ming
(Troop NO. 63908 of PLA, Shijiazhuang 050000, China)
Abstract: This paper introduces the methods of enhancing the data quality in management information system and scientifically classify the data of management information system from data quality angle.
Key words: management information system;data quality;data preprocessing;data mining;decision tree;multidimensional association rule
目前,管理信息系統(tǒng)被應用于各個領域,這些大大的加速了各行各業(yè)的現(xiàn)代化進程,但是,由于各種原因,使得管理信息系統(tǒng)內(nèi)的數(shù)據(jù)質量無法得到保障,低劣的數(shù)據(jù)質量給精確化的管理和正確的決策帶來了極大的危害,損失了社會效益和經(jīng)濟效益。該文就是為提高管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量,提出了相應應當采用的方法技術。
1 數(shù)據(jù)質量內(nèi)涵
從數(shù)據(jù)質量對管理信息系統(tǒng)內(nèi)數(shù)據(jù)分類如下:
圖1
2 研究內(nèi)容
管理信息系統(tǒng)內(nèi)提高數(shù)據(jù)質量的研究內(nèi)容包括:數(shù)據(jù)質量定量化評估、獲取診斷規(guī)則、查找異常及錯誤數(shù)據(jù)、修正錯誤數(shù)據(jù)、填補不完整數(shù)據(jù)和剔除冗余信息等。
2.1 數(shù)據(jù)質量定量化評估
數(shù)據(jù)質量評估是提高數(shù)據(jù)質量的基礎和必要前提,它能對管理信息系統(tǒng)的整體或部分數(shù)據(jù)的質量狀況給出一個合理的評估,從而可以幫助數(shù)據(jù)用戶了解應用系統(tǒng)的數(shù)據(jù)質量水平,并采取相應的處理過程來提高數(shù)據(jù)質量。
定量化評估數(shù)據(jù)質量,是掌握管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量的有效途徑,只有定量化的評估指標才能讓數(shù)據(jù)用戶做到對數(shù)據(jù)質量心中有數(shù)。
2.2 獲取診斷規(guī)則
對于管理信息系統(tǒng)中的異常及錯誤數(shù)據(jù),查找它們是一個比較困難的工作。這就要求建立有效可行的診斷規(guī)則,按照診斷規(guī)則高效準確地查找數(shù)據(jù)中的異常和錯誤。
有很多獲取診斷規(guī)則的方法技術,這些方法技術涉及數(shù)據(jù)挖掘、數(shù)理統(tǒng)計等。
2.3 查找異常及錯誤數(shù)據(jù)
在診斷規(guī)則基礎上,按照一定的策略,查找異常及錯誤數(shù)據(jù)。查找時,要求對異常及錯誤數(shù)據(jù)的定位要準確,減少連帶正確數(shù)據(jù)的幾率,對于大數(shù)據(jù)量的信息,必須高效率查找。
查找異常及錯誤數(shù)據(jù)涉及查找策略的制定、高效算法的生成等。
2.4 修正錯誤數(shù)據(jù)
精確地修正錯誤數(shù)據(jù)是一項復雜而有難度的工作,采用的軟件算法應當恰當而適用,如此,修正過的錯誤數(shù)據(jù)才能準確率高,整體提高管理信息系統(tǒng)內(nèi)的數(shù)據(jù)質量。修正錯誤數(shù)據(jù)涉及軟件算法的選擇等。
2.5 填補不完整數(shù)據(jù)
對于管理信息系統(tǒng)內(nèi)存在的不完整信息,首先,分析判斷出其是否為不完整信息,由于對于某些特定的數(shù)據(jù)字段,其并沒有必須填寫的內(nèi)容,所以,對此不能判定為不完整信息;其次,與修正錯誤數(shù)據(jù)相同,也應當采用相應的軟件算法。
填補不完整信息涉及制定規(guī)則、設計算法等。
2.6 剔除冗余信息
冗余信息的產(chǎn)生是由于重復錄入數(shù)據(jù)、多個數(shù)據(jù)源等原因造成的,在剔除冗余信息時,首先要分清兩條記錄信息是否是重復(冗余)的數(shù)據(jù),其次剔除冗余信息。
剔除冗余信息涉及建立判別模型等。
3 方法技術
目前,有較多研究提高管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量的方法技術,在此,加以闡述。
3.1 分塊多維關聯(lián)規(guī)則算法
由于從不同屬性對數(shù)據(jù)庫進行分塊,各分塊中蘊含知識的可信度是不同的。因此,將不同可信度的數(shù)據(jù)混在一起進行挖掘,得到的知識效果不令人滿意,為此,提出基于分塊的多維關聯(lián)規(guī)則挖掘方法。
數(shù)據(jù)分塊的原則如下:
定義:[?A(A是數(shù)據(jù)立方體),?Ai,Aj,]使得[Ai]∩[Aj]=Φ且[Ai?A,Aj?A,] (i≠j,且 i,j=1,2,…,n),則稱[Ai,Aj]是數(shù)據(jù)立方體A的分塊。
應用多維關聯(lián)規(guī)則挖掘Apriori_Cube算法對不同分塊的數(shù)據(jù)集分別挖掘,得出相應的知識。
采用分塊多維關聯(lián)規(guī)則,可以獲取診斷規(guī)則知識庫。
3.2 決策樹
形成決策樹的算法:
1)以空缺或錯誤字段選擇分類字段,以分類字段生成測試字段集合;
2)以測試字段集合,生成當前二維關系表(以此表中的字段值生成決策樹),并將其設為當前決策樹節(jié)點;
3)計算當前決策樹節(jié)點各測試字段的信息增益;
4)選定當前決策樹節(jié)點信息增益值最大的測試字段;
5)若當前決策樹節(jié)點滿足條件t之一,則將堆棧中的決策樹節(jié)點彈出一個,并將此決策樹節(jié)點設為當前節(jié)點,轉3)。不滿足條件,轉下一步。如果堆棧空,轉7);
條件t:
.分類字段值單一;
.選定的測試字段值單一;
.選定的測試字段最大信息增益是0;
6)生成當前決策樹節(jié)點的子決策樹,將子決策樹內(nèi)除最右節(jié)點外的其它節(jié)點壓進堆棧,將子決策樹最右節(jié)點設為當前節(jié)點,轉3);
7)結束。
結束后,得到一棵以測試字段為節(jié)點的決策樹,樹的分支為相應節(jié)點測試字段的各種取值。
使用決策樹,可以填補不完整數(shù)據(jù)、修正錯誤數(shù)據(jù)。
3.3 關鍵詞段相似度計算模型
定義:對于任意的數(shù)據(jù)集,我們用S=(D,Z,W,V)來表示兩條數(shù)據(jù)記錄之間相似度,其中D為數(shù)據(jù)集,Z表示數(shù)據(jù)集上的關鍵詞段集,W表示關鍵詞段集中每個關鍵詞段的權重,V表示每個關鍵詞段值相似度,該值在0和1之間,如果完全相等,用1表示,完全不等,用0表示。[S=i=1nWi×Vii=1nWi],n表示關鍵詞段集Z中有n個關鍵詞段。
如果兩條記錄關鍵詞段相等,設定V=1,如果關鍵詞段不相等,設定V=0,如果關鍵詞段相同字符位上有相等的字符,設定V=0.5;設定兩條記錄相似度下限為98%,即如果兩條記錄相似度S≥98%,則認為兩條記錄重復,如果相似度<98%,則認為不重復。
在判別重復記錄前,應當將數(shù)據(jù)按關鍵詞段排序。
3.4 神經(jīng)網(wǎng)絡與遺傳算法
主要是采用前饋神經(jīng)網(wǎng)絡,一個神經(jīng)網(wǎng)絡輸入賦予第一層(也稱輸入層),這些單元的輸出結合相應的權重,同時饋給第二層(也稱隱藏層)單元,隱藏層的帶權輸出又作為輸入再饋給另一隱藏層,最后的隱藏層節(jié)點帶權輸出饋給輸出單元,該層單元最終給出相應樣本的預測輸出。
在此,采用遺傳算法訓練神經(jīng)網(wǎng)絡,算法如下:
1)將網(wǎng)絡各節(jié)點的權值、閾值排成一串,形成染色體。
2)取出一條染色體j,把其中的基因恢復成網(wǎng)絡的權值等,把訓練樣本一一輸入,計算出總誤差E,由此計算出該染色體的適應度fj。
3)輸入網(wǎng)絡的結構:x-y-z。使用[-m,m]上均勻分布隨機十進制小數(shù)初始化種群。給種群中的染色體設定選擇概率。
4)將當前染色體恢復至網(wǎng)絡模型中,輸入訓練樣本,計算該染色體的總誤差E、適應度fj,判別網(wǎng)絡誤差是否達到預定值或達到預定迭代次數(shù),是則結束,否則繼續(xù)。
5)對每個染色體,計算其累積概率,采用輪盤賭算法,產(chǎn)生一個[0,1]上均勻分布的隨機數(shù),若該隨機數(shù)在前一輪累積概率和本輪累積概率之間,則選中該染色體作父染色體。
6)交叉:使用t次輪盤賭算法,獲得t個父代染色體X1,X2,…,Xt,把它們組成對。
7)變異:以變異概率確定n個變異位置。將這些位置上的基因做變異操作,給原基因值加上[-1,1]間均勻分布的隨機十進制小數(shù),從而得到兩個新子代染色體。
8)迭代使用5)-7)中選擇、交叉、變異,不斷產(chǎn)生新子代,直至新子代規(guī)模與父代相同,則獲得新子代,轉4)處。
使用遺傳算法訓練神經(jīng)網(wǎng)絡,可以修正試驗數(shù)據(jù)中的異常數(shù)據(jù)。
3.5 對比分析
應用對比分析,將當年上報的商品信息,與上年上報的進行對比分析,從中查找可疑、錯誤數(shù)據(jù)。如:某年某成品倉庫上報的信息中有數(shù)據(jù)如表1:
表1
[商品名稱\&生產(chǎn)序\&生產(chǎn)年\&生產(chǎn)廠\&質量等級\&數(shù)量\&…\&…\&…\&…\&…\&…\&商品01\&2\&2002\&A\&新品\&200\&…\&…\&…\&…\&…\&…\&]
該成品倉庫,上年上報的數(shù)據(jù)如表2:
表2
[商品名稱\&生產(chǎn)序\&生產(chǎn)年\&生產(chǎn)廠\&質量等級\&數(shù)量\&…\&…\&…\&…\&…\&…\&商品01\&2\&2002\&A\&新品\&2000\&…\&…\&…\&…\&…\&…\&]
根據(jù)對比分析,商品01庫存數(shù)量變化率是(2000-200)/2000×100%=90%,根據(jù)知識與經(jīng)驗,近些年,此類商品庫存數(shù)量的變化率一般在10~20%,顯而易見,其數(shù)量變化率明顯異常,因此,這條數(shù)據(jù)記錄作為可疑信息,要求驗證核查。
3.6 分類覆蓋優(yōu)化規(guī)則查詢
采用分類覆蓋優(yōu)化規(guī)則查詢技術,該技術內(nèi)涵如下:
診斷規(guī)則庫中的每條規(guī)則所涵蓋的范圍不同,每條規(guī)則覆蓋范圍之間存在著不相交、相交和包含三種關系,如圖2所示。
圖2
在查找算法中,利用此三種關系可減少比較判斷次數(shù),提高算法效率,同時,亦可提高診斷規(guī)則定位錯誤的準確性。
1)不相交關系。此屬規(guī)則關系中最簡單的一種,不需進行任何轉換。
2)相交關系。是指兩條規(guī)則覆蓋范圍有交叉的內(nèi)容。如果在任何條件下相交,可將規(guī)則進行轉換,將兩條規(guī)則交叉部分用第三條規(guī)則替代,轉換對于錯誤定位是準確的,但由于增加了規(guī)則數(shù)量,在查找時將增加比較判斷次數(shù);如果在某些條件下相交,則應當在診斷時完成各種條件的分析判斷。
3)包含關系。是指一條規(guī)則覆蓋的范圍完全包含了另一條規(guī)則的。如果在任何條件下成立,可用前一條規(guī)則代替后一條,以減少規(guī)則數(shù)量;如果在某些條件下成立,則在查找時分析判斷各種條件,以判別是否用前條規(guī)則代替后條。該關系對提高診斷算法效率尤為重要。
4 結束語
本文探討了管理信息系統(tǒng)內(nèi)如何提高數(shù)據(jù)質量的方法技術,這些方法技術對于提高數(shù)據(jù)質量是行之有效的,已經(jīng)在有關的實踐中應用,有效地提高了相關管理信息系統(tǒng)內(nèi)的數(shù)據(jù)質量,為開發(fā)精準的管理信息系統(tǒng),并采用管理信息系統(tǒng)內(nèi)高質量數(shù)據(jù)為決策等提供科學、有效的支持方案奠定了基礎。
參考文獻:
[1] 方幼林,楊冬青,唐世渭,等.數(shù)據(jù)倉庫中數(shù)據(jù)質量控制研究[J].計算機工程與應用,2003(13):1-4.
[2] 楊輔祥,劉云超,段智華.數(shù)據(jù)清理綜述[J].計算機應用,2002(3):3-5.
[3] 郭志懋,周傲英.數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述[J].軟件學報,2002,13(11):2076-2082.
[4] 李明,鄭波.基于數(shù)據(jù)立方體分塊的多維關聯(lián)規(guī)則挖掘[J].計算機與現(xiàn)代化,2007(3):67-68.
[5] 李明,鄭波.基于多維關聯(lián)規(guī)則的決策樹分類法[J].大眾科技,2008(11):37-38.