朱巧玉
(中國礦業(yè)大學 環(huán)境與測繪學院,江蘇 徐州 221116)
基于質(zhì)量規(guī)則礦政屬性數(shù)據(jù)評價
朱巧玉
(中國礦業(yè)大學 環(huán)境與測繪學院,江蘇 徐州 221116)
礦政屬性數(shù)據(jù)質(zhì)量直接關(guān)系到礦政總體數(shù)據(jù)質(zhì)量以及系統(tǒng)功能的發(fā)揮。由于缺乏完整的礦政屬性數(shù)據(jù)定量評價過程,選擇準確性、完整性、一致性、現(xiàn)勢性4個維度作為數(shù)據(jù)質(zhì)量維度指標體系,并針對每個維度指標給出相應(yīng)的規(guī)則約束來定量化描述質(zhì)量問題,然后利用加權(quán)平均分和缺陷扣分法相結(jié)合的評價方法,結(jié)合某個礦區(qū)的儲量管理屬性數(shù)據(jù)進行實例分析,分析結(jié)果表明該礦區(qū)儲量數(shù)據(jù)質(zhì)量有待提高。
礦政管理;數(shù)據(jù)質(zhì)量;規(guī)則約束;灰色評價法
在過去的10 a里,國家開展“金土工程”、全國二次土地調(diào)查、土地規(guī)劃修編、礦業(yè)權(quán)實地核查等工作,目的在于掌握真實的土地基礎(chǔ)數(shù)據(jù),建立“一張圖”為基礎(chǔ)的核心數(shù)據(jù)庫,實現(xiàn)國土資源信息化、網(wǎng)絡(luò)化管理,建立覆蓋國家、省、市、縣級國土資源政務(wù)管理信息化系統(tǒng)。在這個過程中,一方面由于GPS、傳感器、終端等實時產(chǎn)生的數(shù)據(jù)導(dǎo)致礦政數(shù)據(jù)的激增,產(chǎn)生巨量性、快變性、不確定性、不一致性的數(shù)據(jù);另一方面由于國土資源信息化過程中存在數(shù)據(jù)來源分散、數(shù)據(jù)邏輯錯誤、數(shù)據(jù)冗余、保存方法落后以及數(shù)據(jù)存儲方式不同的現(xiàn)象,這些都會影響數(shù)據(jù)質(zhì)量,降低數(shù)據(jù)庫的質(zhì)量、可信度和可使用性,影響礦政管理核心數(shù)據(jù)庫的建設(shè),繼而影響礦政管理系統(tǒng)功能的發(fā)揮以及決策的正確性。
數(shù)據(jù)質(zhì)量沒有一個絕對明確的概念,在不同領(lǐng)域、不同需求分析、不同的時期,其內(nèi)涵和標準是不同的。傳統(tǒng)的數(shù)據(jù)質(zhì)量要素包括完整性、準確性、一致性等維度,這些維度指標太抽象,無法進行定量化的度量。文獻[1]基于簡單隨機抽樣和分層抽樣的屬性數(shù)據(jù)缺陷率度量數(shù)學模型,對土地利用屬性數(shù)據(jù)進行抽樣檢查,側(cè)重于抽樣方法的研究,沒有給出具體的數(shù)據(jù)質(zhì)量維度。文獻[2]對空間數(shù)據(jù)質(zhì)量問題的研究現(xiàn)狀作了簡要介紹,提出數(shù)據(jù)質(zhì)量控制策略。文獻[3]定義了基于七項指標的十五類數(shù)據(jù)質(zhì)量約束規(guī)則,沒有給出具體的評價過程以及評價結(jié)果。文獻[4]基于知識與規(guī)則庫開發(fā)地籍數(shù)據(jù)質(zhì)量檢查系統(tǒng),僅對地籍數(shù)據(jù)的完整性進行檢查。文獻[5]基于用戶期望和業(yè)務(wù)規(guī)則對數(shù)據(jù)質(zhì)量進行驗證,沒有對數(shù)據(jù)質(zhì)量進行評價。文獻[6]從用戶的角度給出數(shù)據(jù)質(zhì)量維度指標以及數(shù)據(jù)質(zhì)量評價模型,并利用通信系統(tǒng)驗證數(shù)據(jù)質(zhì)量。文獻[7]在分析通常的土地數(shù)據(jù)錯誤類型的基礎(chǔ)上,提出建立元數(shù)據(jù)庫和質(zhì)量規(guī)則實施數(shù)據(jù)檢查的方法,沒有從數(shù)據(jù)質(zhì)量包含的定量元素進行考慮。可見針對不同的領(lǐng)域,從不同角度出發(fā),數(shù)據(jù)質(zhì)量維度指標和質(zhì)量規(guī)則取舍與制定是不同的。本文選擇準確性、完整性、一致性、現(xiàn)勢性等4個維度作為數(shù)據(jù)質(zhì)量維度指標體系,針對每個維度指標給出相應(yīng)的規(guī)則約束定量化描述質(zhì)量問題,然后采用加權(quán)平均和缺陷扣分法相結(jié)合的評價方法,并給出具體的應(yīng)用實例。
數(shù)據(jù)質(zhì)量被認為是獨立于數(shù)據(jù)生產(chǎn)和使用環(huán)節(jié)的數(shù)據(jù)本身的概念,可以從數(shù)據(jù)生產(chǎn)者、管理者、用戶的滿意度或從系統(tǒng)結(jié)構(gòu)的角度對其進行闡述,目前還沒有一個統(tǒng)一的定義。數(shù)據(jù)質(zhì)量元素包括定量元素和非定量元素。其中,定量元素包括完整性、準確性、一致性、現(xiàn)勢性等[8]。
數(shù)據(jù)質(zhì)量的好壞直接影響到利用該數(shù)據(jù)得到的決策,因此,對數(shù)據(jù)質(zhì)量進行評價是十分必要的。數(shù)據(jù)質(zhì)量評價是一個復(fù)雜的過程,如圖1所示。
1)首先確定待評估數(shù)據(jù)的一個可行范圍。
2)分析數(shù)據(jù),選擇數(shù)據(jù)質(zhì)量維度。通過考察數(shù)據(jù)模式以及數(shù)據(jù)表達形式,對數(shù)據(jù)有一個完整的理解,然后選擇待評估的維度指標。
3)根據(jù)需求分析以及期望得到的評估結(jié)果,制定維度指標的評估規(guī)則。對于每一個維度指標來說,可以用一條或多條約束規(guī)則對其進行量化。
4)利用定量化的方法對數(shù)據(jù)質(zhì)量進行評價。
5)對評價結(jié)果進行分析。
圖1 數(shù)據(jù)質(zhì)量評價過程
由于鄂爾多斯市礦政數(shù)據(jù)庫中數(shù)據(jù)量非常大,包括儲量管理數(shù)據(jù)、礦產(chǎn)資源開發(fā)利用現(xiàn)狀調(diào)查數(shù)據(jù)、地質(zhì)環(huán)境質(zhì)量數(shù)據(jù)、單礦業(yè)權(quán)數(shù)據(jù)、基礎(chǔ)地理數(shù)據(jù)、采礦權(quán)數(shù)據(jù)、探礦權(quán)數(shù)據(jù)等多個類別。每個類別在數(shù)據(jù)庫中所占比例不一樣,要對礦政總體數(shù)據(jù)進行質(zhì)量評價,可以分別對每一類數(shù)據(jù)進行質(zhì)量評價,然后將各類數(shù)據(jù)質(zhì)量得分情況加權(quán),最終得到礦政總體數(shù)據(jù)的質(zhì)量情況。本文以該市的萬利川煤礦的儲量管理屬性數(shù)據(jù)為例進行質(zhì)量評估。
2.1 確定數(shù)據(jù)集
該礦區(qū)儲量管理數(shù)據(jù)包括Access數(shù)據(jù)庫、儲量核查報告,其中Acess數(shù)據(jù)庫包含探礦權(quán)、礦體、采空區(qū)、核查塊段、核查塊段儲量、儲量利用、采礦權(quán)三率等21個表,儲量核查報告包括采礦權(quán)屬性表、核查礦區(qū)屬性表、煤層儲量分割估算統(tǒng)計表等8張附表和備案證明、編制單位承諾書、采礦證等7個附件。
2.2 確定維度
傳統(tǒng)的數(shù)據(jù)文獻都是把數(shù)據(jù)質(zhì)量定量元素作為評價指標,例如文獻[9]把完整性、邏輯一致性、位置準確性、時間準確性、屬性準確度、附件質(zhì)量作為數(shù)據(jù)質(zhì)量維度指標;文獻[10]從精度、邏輯一致性、數(shù)據(jù)完整性進行數(shù)據(jù)評價;文獻[11]把完整性、邏輯一致性、位置精度、時間精度、專題屬性精度作為數(shù)據(jù)質(zhì)量維度指標。針對數(shù)據(jù)來源多樣、表現(xiàn)形式多樣以及比例尺多樣化的問題,根據(jù)維度指標選擇的原則,如指標數(shù)據(jù)量不宜過大、層次不宜過多,本文選取準確性、完整性、一致性和現(xiàn)勢性作為數(shù)據(jù)質(zhì)量維度指標,如圖2所示。準確性描述真實值與實際錄入值之間的偏離程度,數(shù)據(jù)的準確性表現(xiàn)在數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式上,即數(shù)據(jù)的值域范圍以及格式,如儲量報表中不同礦種的開采量、損失量是否符合其實際的真值,其值域范圍是否恰當。完整性描述要素數(shù)據(jù)、數(shù)據(jù)屬性以及數(shù)據(jù)關(guān)系是否存在多余或缺失,如礦產(chǎn)資源開發(fā)利用現(xiàn)狀中數(shù)據(jù)表、數(shù)據(jù)類型、注記及文檔的多余或缺失。一致性描述數(shù)據(jù)對規(guī)定的數(shù)據(jù)結(jié)構(gòu)、屬性及邏輯關(guān)系規(guī)則的符合程度,包括概念一致性、值域一致性、格式一致性等,如不同來源的探礦權(quán)中的要素代碼、許可證號、項目類型等的編碼、類型和長度要一致,否則就會違反數(shù)據(jù)的唯一性?,F(xiàn)勢性是指數(shù)據(jù)的時間精度,即所有的數(shù)據(jù)要滿足一定時間期限,否則數(shù)據(jù)是無效的。如搜集來的礦產(chǎn)資源開發(fā)利用現(xiàn)狀調(diào)查數(shù)據(jù)必須在[2008,2014]范圍內(nèi),不在這個范圍內(nèi)的數(shù)據(jù)是沒有意義的。
圖2 數(shù)據(jù)質(zhì)量維度指標體系
2.3 制定評估規(guī)則
根據(jù)數(shù)據(jù)質(zhì)量規(guī)則的內(nèi)涵以及儲量管理數(shù)據(jù)的特點,制定4個維度指標對應(yīng)的質(zhì)量評估規(guī)則,如表1所示。
表1 維度指標規(guī)則化
2.4 數(shù)據(jù)質(zhì)量評價方法
加權(quán)平均法和缺陷扣分法相結(jié)合的評價方法能夠體現(xiàn)不同要素層或者同一要素層錯誤數(shù)據(jù)對數(shù)據(jù)總體質(zhì)量結(jié)果產(chǎn)生的影響程度不同,比較符合實際情況。評價結(jié)果引用《陜西省第二次土地調(diào)查城鎮(zhèn)地籍數(shù)據(jù)庫質(zhì)量評價研究》,公式表示為
式中:DQ表示數(shù)據(jù)質(zhì)量結(jié)果,Wi為第i中指標的權(quán)重,n為評價指標的總數(shù),x為各項指標單位產(chǎn)品中嚴重缺陷的分值(嚴重缺陷指待評價對象及重要質(zhì)量指標不符合規(guī)則要求,導(dǎo)致用戶無法使用,缺陷值為42分),y為各項指標單位產(chǎn)品中重缺陷的分值(重缺陷指待評價對象的重要質(zhì)量指標不符合要求,對用戶使用產(chǎn)生重大影響,缺陷值為12分),Z為各項指標單位產(chǎn)品中輕缺陷的分值(輕缺陷指評價對象的一般質(zhì)量指標不符合要求,對用戶使用產(chǎn)生輕微影響,缺陷值為1分),j為各項指標單位產(chǎn)品中嚴重缺陷的個數(shù),k為各項指標單位產(chǎn)品中重缺陷的個數(shù),l為各項指標單位產(chǎn)品中輕缺陷的個數(shù)[12-14]。
根據(jù)表1中的數(shù)據(jù)質(zhì)量規(guī)則對萬利川煤礦的儲量管理屬性數(shù)據(jù)的21張表格、8個附表以及7個附件進行檢查,得到該煤礦儲量管理屬性數(shù)據(jù)的缺陷情況。其權(quán)重采用專家定權(quán)的方法,由有經(jīng)驗的專家給出數(shù)據(jù)評價指標權(quán)重,如表2所示。
表2 萬利川煤礦的儲量管理屬性數(shù)據(jù)質(zhì)量評分
2.5 結(jié)果分析
由式(1)計算可得萬利川煤礦的儲量管理屬性數(shù)據(jù)質(zhì)量得分值為72.6分。根據(jù)質(zhì)量評分等級90~100分,數(shù)據(jù)質(zhì)量等級為優(yōu);80~89分,數(shù)據(jù)質(zhì)量等級為良;70~79分,數(shù)據(jù)質(zhì)量等級為中;60~69分,數(shù)據(jù)質(zhì)量等級為合格;小于60分,數(shù)據(jù)質(zhì)量等級為不合格。可知,萬利川煤礦的儲量管理屬性數(shù)據(jù)質(zhì)量為72.6分,質(zhì)量等級為中。所屬等級還沒達到良,這說明該數(shù)據(jù)質(zhì)量有待提高,否則會影響礦政管理中的核心數(shù)據(jù)庫的質(zhì)量,繼而影響整個礦政管理系統(tǒng)的功能發(fā)揮。在數(shù)據(jù)收集、錄入的過程中,應(yīng)該從數(shù)據(jù)清洗、檢測重復(fù)對象、缺失數(shù)據(jù)處理等幾個方面對數(shù)據(jù)進行預(yù)處理,提高數(shù)據(jù)質(zhì)量。
1)基于領(lǐng)域知識和規(guī)則對礦政屬性數(shù)據(jù)進行定量化描述,細化評價的規(guī)則,有利于數(shù)據(jù)質(zhì)量評價的實施。
2)礦政屬性數(shù)據(jù)量大,由很多不同類別的數(shù)據(jù)組成。對礦政總體數(shù)據(jù)進行質(zhì)量評價,可以對不同的數(shù)據(jù)類別分別進行數(shù)據(jù)質(zhì)量評價,然后根據(jù)不同類別數(shù)據(jù)的權(quán)重進行加權(quán)計算,得到總體數(shù)據(jù)的質(zhì)量評價結(jié)果。
3)采用基于質(zhì)量規(guī)則和灰色理論的方法對礦政數(shù)據(jù)進行質(zhì)量評價,有助于數(shù)據(jù)入庫人員知道數(shù)據(jù)質(zhì)量的高低,進而找出數(shù)據(jù)質(zhì)量存在問題的原因,采取相應(yīng)的措施提高礦政數(shù)據(jù)質(zhì)量,這將有利于提高礦政管理系統(tǒng)的信息化水平,增強系統(tǒng)決策的正確性。
[1]劉春,史文中,劉大杰.數(shù)字土地信息中屬性數(shù)據(jù)的質(zhì)量控制[J].武漢大學學報:信息科學版,2004(1):244-248.
[2]劉大杰,劉春.GIS空間數(shù)據(jù)不確定性與質(zhì)量控制的研究現(xiàn)狀[J].測繪工程,2001(1):6-10.
[3]袁滿,張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評價模型[J].計算機技術(shù)與發(fā)展,2013(3):81-84.
[4]吳長彬,閭國年,舒飛躍.基于知識與規(guī)則的地籍數(shù)據(jù)質(zhì)量檢查方法[J].地理與地理信息科學,2007(5):22-25.
[5]DAVID LOSHIN.Rule-Based Data Quality[A].In CIKM ’02: Proceedings of the eleventh international conference on Information and knowledge management,2002:614-616.
[6]趙軍喜,孫慶輝,張亞軍.地理空間元數(shù)據(jù)理論體系研究[J].測繪工程,2014,23(4):10-13.
[7]方利,劉生權(quán),鐘耳順.基于元數(shù)據(jù)和質(zhì)量規(guī)則的土地數(shù)據(jù)檢查[J].地球信息科學,2004(3):19-23.
[8]王超暉.城市基礎(chǔ)地理信息系統(tǒng)的數(shù)據(jù)質(zhì)量控制研究[D].江西:江西理工大學,2009.
[9]胡小靜.空間數(shù)據(jù)質(zhì)量控制與評價方法研究[D].昆明:昆明理工大學,2011.
[10]關(guān)海鷹.屬性數(shù)據(jù)的質(zhì)量問題探討[D].山東:山東科技大學,2004.
[11]鐘赟.國土詳查內(nèi)外業(yè)一體化數(shù)據(jù)質(zhì)量控制體系研究[D].成都:西南交通大學,2010.
[12]周炤,肖強,趙國成,等.基礎(chǔ)地理空間數(shù)據(jù)持續(xù)更新模式分析[J].測繪工程,2014,23(1):12-16.
[13]徐少坤,宋國民,王海葳,等.地理空間元數(shù)據(jù)可視化設(shè)計及關(guān)鍵技術(shù)研究[J].測繪工程,2014,23(4):45-50.
[14]曹佳.陜西省第二次土地調(diào)查城鎮(zhèn)地籍數(shù)據(jù)庫質(zhì)量評價研究[D].西安:長安大學,2011.
Evaluation of mining property data based on quality rules
ZHU Qiao-yu
(School of Environment Science and Spatial Informatics,China University of Mining and Technology,Xuzhou 221116,China)
The quality of the source data in mining administration influnces directly the whole and the systematic fumction.Four dimensions: accuracy,completeness,consistency,timeliness are regarded as the index system.The weighted average point method and defect evaluation method are proposed with examples to get the quality evaluation value of basic geological data.The evaluation results indicate that the data quality of rating is not reached,and the quality of data based on geological data needs to be improved.
mining administration; data quality; rules constraint; grey evaluation
2014-05-04
朱巧玉(1988-),女,碩士研究生,研究方向:地理信息系統(tǒng)開發(fā)與應(yīng)用;空間分析及空間數(shù)據(jù)質(zhì)量.
P208
A
1671-4679(2014)06-0013-04
郝麗英]