管理信息系統(tǒng)中提高數(shù)據(jù)質量方法技術

2013-12-29 00:00:00李明

電腦知識與技術 2013年4期

摘要：該文闡述了提高管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量的方法技術，并從數(shù)據(jù)質量的角度科學分類了管理信息系統(tǒng)內(nèi)的數(shù)據(jù)。

關鍵詞：管理信息系統(tǒng)；數(shù)據(jù)質量；數(shù)據(jù)預處理；數(shù)據(jù)挖掘；決策樹；多維關聯(lián)規(guī)則

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2013）04-0776-03

The Methods of Enhancing Data Quality in Management Information System

LI Ming

（Troop NO. 63908 of PLA， Shijiazhuang 050000， China）

Abstract： This paper introduces the methods of enhancing the data quality in management information system and scientifically classify the data of management information system from data quality angle.

Key words： management information system；data quality；data preprocessing；data mining；decision tree；multidimensional association rule

目前，管理信息系統(tǒng)被應用于各個領域，這些大大的加速了各行各業(yè)的現(xiàn)代化進程，但是，由于各種原因，使得管理信息系統(tǒng)內(nèi)的數(shù)據(jù)質量無法得到保障，低劣的數(shù)據(jù)質量給精確化的管理和正確的決策帶來了極大的危害，損失了社會效益和經(jīng)濟效益。該文就是為提高管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量，提出了相應應當采用的方法技術。

1 數(shù)據(jù)質量內(nèi)涵

從數(shù)據(jù)質量對管理信息系統(tǒng)內(nèi)數(shù)據(jù)分類如下：

圖1

2 研究內(nèi)容

管理信息系統(tǒng)內(nèi)提高數(shù)據(jù)質量的研究內(nèi)容包括：數(shù)據(jù)質量定量化評估、獲取診斷規(guī)則、查找異常及錯誤數(shù)據(jù)、修正錯誤數(shù)據(jù)、填補不完整數(shù)據(jù)和剔除冗余信息等。

2.1 數(shù)據(jù)質量定量化評估

數(shù)據(jù)質量評估是提高數(shù)據(jù)質量的基礎和必要前提，它能對管理信息系統(tǒng)的整體或部分數(shù)據(jù)的質量狀況給出一個合理的評估，從而可以幫助數(shù)據(jù)用戶了解應用系統(tǒng)的數(shù)據(jù)質量水平，并采取相應的處理過程來提高數(shù)據(jù)質量。

定量化評估數(shù)據(jù)質量，是掌握管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量的有效途徑，只有定量化的評估指標才能讓數(shù)據(jù)用戶做到對數(shù)據(jù)質量心中有數(shù)。

2.2 獲取診斷規(guī)則

對于管理信息系統(tǒng)中的異常及錯誤數(shù)據(jù)，查找它們是一個比較困難的工作。這就要求建立有效可行的診斷規(guī)則，按照診斷規(guī)則高效準確地查找數(shù)據(jù)中的異常和錯誤。

有很多獲取診斷規(guī)則的方法技術，這些方法技術涉及數(shù)據(jù)挖掘、數(shù)理統(tǒng)計等。

2.3 查找異常及錯誤數(shù)據(jù)

在診斷規(guī)則基礎上，按照一定的策略，查找異常及錯誤數(shù)據(jù)。查找時，要求對異常及錯誤數(shù)據(jù)的定位要準確，減少連帶正確數(shù)據(jù)的幾率，對于大數(shù)據(jù)量的信息，必須高效率查找。

查找異常及錯誤數(shù)據(jù)涉及查找策略的制定、高效算法的生成等。

2.4 修正錯誤數(shù)據(jù)

精確地修正錯誤數(shù)據(jù)是一項復雜而有難度的工作，采用的軟件算法應當恰當而適用，如此，修正過的錯誤數(shù)據(jù)才能準確率高，整體提高管理信息系統(tǒng)內(nèi)的數(shù)據(jù)質量。修正錯誤數(shù)據(jù)涉及軟件算法的選擇等。

2.5 填補不完整數(shù)據(jù)

對于管理信息系統(tǒng)內(nèi)存在的不完整信息，首先，分析判斷出其是否為不完整信息，由于對于某些特定的數(shù)據(jù)字段，其并沒有必須填寫的內(nèi)容，所以，對此不能判定為不完整信息；其次，與修正錯誤數(shù)據(jù)相同，也應當采用相應的軟件算法。

填補不完整信息涉及制定規(guī)則、設計算法等。

2.6 剔除冗余信息

冗余信息的產(chǎn)生是由于重復錄入數(shù)據(jù)、多個數(shù)據(jù)源等原因造成的，在剔除冗余信息時，首先要分清兩條記錄信息是否是重復（冗余）的數(shù)據(jù)，其次剔除冗余信息。

剔除冗余信息涉及建立判別模型等。

3 方法技術

目前，有較多研究提高管理信息系統(tǒng)內(nèi)數(shù)據(jù)質量的方法技術，在此，加以闡述。

3.1 分塊多維關聯(lián)規(guī)則算法

由于從不同屬性對數(shù)據(jù)庫進行分塊，各分塊中蘊含知識的可信度是不同的。因此，將不同可信度的數(shù)據(jù)混在一起進行挖掘，得到的知識效果不令人滿意，為此，提出基于分塊的多維關聯(lián)規(guī)則挖掘方法。

數(shù)據(jù)分塊的原則如下：

定義：[?A（A是數(shù)據(jù)立方體），?Ai，Aj，]使得[Ai]∩[Aj]=Φ且[Ai?A，Aj?A，] （i≠j，且 i，j=1，2，…，n），則稱[Ai，Aj]是數(shù)據(jù)立方體A的分塊。

應用多維關聯(lián)規(guī)則挖掘Apriori_Cube算法對不同分塊的數(shù)據(jù)集分別挖掘，得出相應的知識。

采用分塊多維關聯(lián)規(guī)則，可以獲取診斷規(guī)則知識庫。

3.2 決策樹

形成決策樹的算法：

1）以空缺或錯誤字段選擇分類字段，以分類字段生成測試字段集合；

2）以測試字段集合，生成當前二維關系表（以此表中的字段值生成決策樹），并將其設為當前決策樹節(jié)點；

3）計算當前決策樹節(jié)點各測試字段的信息增益；

4）選定當前決策樹節(jié)點信息增益值最大的測試字段；

5）若當前決策樹節(jié)點滿足條件t之一，則將堆棧中的決策樹節(jié)點彈出一個，并將此決策樹節(jié)點設為當前節(jié)點，轉3）。不滿足條件，轉下一步。如果堆棧空，轉7）；

條件t：

.分類字段值單一；

.選定的測試字段值單一；

.選定的測試字段最大信息增益是0；

6）生成當前決策樹節(jié)點的子決策樹，將子決策樹內(nèi)除最右節(jié)點外的其它節(jié)點壓進堆棧，將子決策樹最右節(jié)點設為當前節(jié)點，轉3）；

7）結束。

結束后，得到一棵以測試字段為節(jié)點的決策樹，樹的分支為相應節(jié)點測試字段的各種取值。

使用決策樹，可以填補不完整數(shù)據(jù)、修正錯誤數(shù)據(jù)。

3.3 關鍵詞段相似度計算模型

定義：對于任意的數(shù)據(jù)集，我們用S=（D，Z，W，V）來表示兩條數(shù)據(jù)記錄之間相似度，其中D為數(shù)據(jù)集，Z表示數(shù)據(jù)集上的關鍵詞段集，W表示關鍵詞段集中每個關鍵詞段的權重，V表示每個關鍵詞段值相似度，該值在0和1之間，如果完全相等，用1表示，完全不等，用0表示。[S=i=1nWi×Vii=1nWi]，n表示關鍵詞段集Z中有n個關鍵詞段。

如果兩條記錄關鍵詞段相等，設定V=1，如果關鍵詞段不相等，設定V=0，如果關鍵詞段相同字符位上有相等的字符，設定V=0.5；設定兩條記錄相似度下限為98%，即如果兩條記錄相似度S≥98%，則認為兩條記錄重復，如果相似度<98%，則認為不重復。

在判別重復記錄前，應當將數(shù)據(jù)按關鍵詞段排序。

3.4 神經(jīng)網(wǎng)絡與遺傳算法

主要是采用前饋神經(jīng)網(wǎng)絡，一個神經(jīng)網(wǎng)絡輸入賦予第一層（也稱輸入層），這些單元的輸出結合相應的權重，同時饋給第二層（也稱隱藏層）單元，隱藏層的帶權輸出又作為輸入再饋給另一隱藏層，最后的隱藏層節(jié)點帶權輸出饋給輸出單元，該層單元最終給出相應樣本的預測輸出。

在此，采用遺傳算法訓練神經(jīng)網(wǎng)絡，算法如下：

1）將網(wǎng)絡各節(jié)點的權值、閾值排成一串，形成染色體。

2）取出一條染色體j，把其中的基因恢復成網(wǎng)絡的權值等，把訓練樣本一一輸入，計算出總誤差E，由此計算出該染色體的適應度fj。

3）輸入網(wǎng)絡的結構：x-y-z。使用[-m，m]上均勻分布隨機十進制小數(shù)初始化種群。給種群中的染色體設定選擇概率。

4）將當前染色體恢復至網(wǎng)絡模型中，輸入訓練樣本，計算該染色體的總誤差E、適應度fj，判別網(wǎng)絡誤差是否達到預定值或達到預定迭代次數(shù)，是則結束，否則繼續(xù)。

5）對每個染色體，計算其累積概率，采用輪盤賭算法，產(chǎn)生一個[0，1]上均勻分布的隨機數(shù)，若該隨機數(shù)在前一輪累積概率和本輪累積概率之間，則選中該染色體作父染色體。

6）交叉：使用t次輪盤賭算法，獲得t個父代染色體X1，X2，…，Xt，把它們組成對。

7）變異：以變異概率確定n個變異位置。將這些位置上的基因做變異操作，給原基因值加上[-1，1]間均勻分布的隨機十進制小數(shù)，從而得到兩個新子代染色體。

8）迭代使用5）-7）中選擇、交叉、變異，不斷產(chǎn)生新子代，直至新子代規(guī)模與父代相同，則獲得新子代，轉4）處。

使用遺傳算法訓練神經(jīng)網(wǎng)絡，可以修正試驗數(shù)據(jù)中的異常數(shù)據(jù)。

3.5 對比分析

應用對比分析，將當年上報的商品信息，與上年上報的進行對比分析，從中查找可疑、錯誤數(shù)據(jù)。如：某年某成品倉庫上報的信息中有數(shù)據(jù)如表1：

表1

[商品名稱＼&生產(chǎn)序＼&生產(chǎn)年＼&生產(chǎn)廠＼&質量等級＼&數(shù)量＼&…＼&…＼&…＼&…＼&…＼&…＼&商品01＼&2＼&2002＼&A＼&新品＼&200＼&…＼&…＼&…＼&…＼&…＼&…＼&]

該成品倉庫，上年上報的數(shù)據(jù)如表2：

表2

[商品名稱＼&生產(chǎn)序＼&生產(chǎn)年＼&生產(chǎn)廠＼&質量等級＼&數(shù)量＼&…＼&…＼&…＼&…＼&…＼&…＼&商品01＼&2＼&2002＼&A＼&新品＼&2000＼&…＼&…＼&…＼&…＼&…＼&…＼&]

根據(jù)對比分析，商品01庫存數(shù)量變化率是（2000-200）/2000×100%=90%，根據(jù)知識與經(jīng)驗，近些年，此類商品庫存數(shù)量的變化率一般在10～20%，顯而易見，其數(shù)量變化率明顯異常，因此，這條數(shù)據(jù)記錄作為可疑信息，要求驗證核查。

3.6 分類覆蓋優(yōu)化規(guī)則查詢

采用分類覆蓋優(yōu)化規(guī)則查詢技術，該技術內(nèi)涵如下：

診斷規(guī)則庫中的每條規(guī)則所涵蓋的范圍不同，每條規(guī)則覆蓋范圍之間存在著不相交、相交和包含三種關系，如圖2所示。

圖2

在查找算法中，利用此三種關系可減少比較判斷次數(shù)，提高算法效率，同時，亦可提高診斷規(guī)則定位錯誤的準確性。

1）不相交關系。此屬規(guī)則關系中最簡單的一種，不需進行任何轉換。

2）相交關系。是指兩條規(guī)則覆蓋范圍有交叉的內(nèi)容。如果在任何條件下相交，可將規(guī)則進行轉換，將兩條規(guī)則交叉部分用第三條規(guī)則替代，轉換對于錯誤定位是準確的，但由于增加了規(guī)則數(shù)量，在查找時將增加比較判斷次數(shù)；如果在某些條件下相交，則應當在診斷時完成各種條件的分析判斷。

3）包含關系。是指一條規(guī)則覆蓋的范圍完全包含了另一條規(guī)則的。如果在任何條件下成立，可用前一條規(guī)則代替后一條，以減少規(guī)則數(shù)量；如果在某些條件下成立，則在查找時分析判斷各種條件，以判別是否用前條規(guī)則代替后條。該關系對提高診斷算法效率尤為重要。

4 結束語

本文探討了管理信息系統(tǒng)內(nèi)如何提高數(shù)據(jù)質量的方法技術，這些方法技術對于提高數(shù)據(jù)質量是行之有效的，已經(jīng)在有關的實踐中應用，有效地提高了相關管理信息系統(tǒng)內(nèi)的數(shù)據(jù)質量，為開發(fā)精準的管理信息系統(tǒng)，并采用管理信息系統(tǒng)內(nèi)高質量數(shù)據(jù)為決策等提供科學、有效的支持方案奠定了基礎。

參考文獻：

[1] 方幼林，楊冬青，唐世渭，等.數(shù)據(jù)倉庫中數(shù)據(jù)質量控制研究[J].計算機工程與應用，2003（13）：1-4.

[2] 楊輔祥，劉云超，段智華.數(shù)據(jù)清理綜述[J].計算機應用，2002（3）：3-5.

[3] 郭志懋，周傲英.數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述[J].軟件學報，2002，13（11）：2076-2082.

[4] 李明，鄭波.基于數(shù)據(jù)立方體分塊的多維關聯(lián)規(guī)則挖掘[J].計算機與現(xiàn)代化，2007（3）：67-68.

[5] 李明，鄭波.基于多維關聯(lián)規(guī)則的決策樹分類法[J].大眾科技，2008（11）：37-38.

電腦知識與技術2013年4期

電腦知識與技術的其它文章: 論電子政務協(xié)同辦公系統(tǒng)的需求管理和范圍管理; 安徽省建設用地數(shù)據(jù)備案及跟蹤管理信息系統(tǒng)的研究與實現(xiàn); 縣區(qū)級電子政務平臺需求分析與建設要求; 手機二維碼支付應用技術和發(fā)展概述; 飛行器三維軌跡動態(tài)顯示系統(tǒng)的設計; 計算機漏洞檢測與修復系統(tǒng)的設計與實現(xiàn)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

管理信息系統(tǒng)中提高數(shù)據(jù)質量方法技術