張文婷
(華北電力大學(xué),北京102200)
隨著互聯(lián)網(wǎng)技術(shù)的普及,進(jìn)入信息化時(shí)代,數(shù)據(jù)越來(lái)越成為公認(rèn)的最有價(jià)值的資產(chǎn),對(duì)于數(shù)據(jù)質(zhì)量高低的研究也越來(lái)越成為人們孜孜不倦討論的課題。數(shù)據(jù)質(zhì)量的提升對(duì)于公司決策有著重大的作用,但是,由于數(shù)據(jù)的復(fù)雜性,影響因素太多,它們處于不同的層次,同時(shí)也具有不同的重要性權(quán)重,很難客觀地評(píng)估數(shù)據(jù)質(zhì)量。目前,針對(duì)數(shù)據(jù)采集信息系統(tǒng)中數(shù)據(jù)質(zhì)量評(píng)估的方法大多是從主觀層面得出,主觀評(píng)價(jià)依賴(lài)性過(guò)強(qiáng)[1]。因此,針對(duì)質(zhì)量評(píng)價(jià)體系的評(píng)價(jià)指標(biāo)的構(gòu)建、評(píng)價(jià)方法的研究等各個(gè)方面的不足,本文采用基于AHP- 信息熵的數(shù)據(jù)挖掘方法,通過(guò)挖掘隱藏在指標(biāo)隸屬度中的客觀分類(lèi)知識(shí)信息來(lái)定義權(quán)重[2]。按照數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)在總評(píng)選指標(biāo)中的重要性的不同,分離出決定性的指標(biāo)維度,并且通過(guò)熵權(quán)法客觀分析數(shù)據(jù)中隱藏的權(quán)重信息,本文通過(guò)實(shí)驗(yàn)驗(yàn)證了所提出模型的有效性,實(shí)現(xiàn)了采集的數(shù)據(jù)質(zhì)量的精準(zhǔn)有效評(píng)估。
在如今的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量十分龐大,數(shù)據(jù)包含的維度也較為復(fù)雜, 如果不能及時(shí)地采集到的數(shù)據(jù)進(jìn)行實(shí)時(shí)有效的評(píng)估,在后續(xù)的工作中,依舊讓臟數(shù)據(jù)參與工作,這對(duì)于領(lǐng)導(dǎo)決策、有著非常大的危害作用[2]。數(shù)據(jù)質(zhì)量評(píng)估是一項(xiàng)很重要的事情,因?yàn)樗鼘?duì)于發(fā)揮數(shù)據(jù)的商業(yè)價(jià)值有著非常重大的意義。目前,數(shù)據(jù)質(zhì)量評(píng)價(jià)方法的實(shí)現(xiàn)主要有兩類(lèi),一類(lèi)是通過(guò)人工評(píng)價(jià)的方式,組成評(píng)價(jià)小組直接對(duì)其進(jìn)行打分,但是,這種人工的方式僅僅適用于人數(shù)較少情況,若是人數(shù)較多,統(tǒng)計(jì)起來(lái)也同樣費(fèi)時(shí)費(fèi)力、結(jié)果也有可能并不準(zhǔn)確;另一種便是基于傳統(tǒng)統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法的評(píng)估,主要包括灰色理論、神經(jīng)網(wǎng)絡(luò)等,具有一定的表達(dá)能力和學(xué)習(xí)能力,但是考慮的因素過(guò)于簡(jiǎn)單,對(duì)于評(píng)估結(jié)果的精確性有一定的影響[3]。因此,受這些想法的啟發(fā),在傳統(tǒng)統(tǒng)計(jì)學(xué)的基礎(chǔ)上,本文對(duì)于這些方法做出了改進(jìn),基于層次分析法和客觀熵權(quán)法對(duì)數(shù)據(jù)質(zhì)量評(píng)估模型進(jìn)行了深入的研究。
層次分析法是一種定性與定量結(jié)合的方法,它能夠?qū)⑽覀兯芯康膯?wèn)題拆分成許多組成因素,并對(duì)于這些組成因素賦予不同程度的重要性比較值,根據(jù)相關(guān)關(guān)系及隸屬關(guān)系分成不同的層次,轉(zhuǎn)化為多層次決策型問(wèn)題[4]。根據(jù)各影響因素的重要程度構(gòu)造重要性矩陣,通過(guò)一致性檢驗(yàn)便可使用其最終的權(quán)重結(jié)果。
而熵權(quán)法中的熵值本是評(píng)估系統(tǒng)無(wú)序程度的一個(gè)重要指標(biāo)。在多指標(biāo)權(quán)重的確定過(guò)程中,熵權(quán)法的思路是通過(guò)各個(gè)指標(biāo)間的差異大小來(lái)求得權(quán)重值。若計(jì)算出的信息熵值較小,表明該指標(biāo)的差異程度越大,在綜合評(píng)價(jià)中起的作用也就越大,提供的信息越多,所偶得到的該指標(biāo)的權(quán)重值也就越大[5]。在電力質(zhì)量評(píng)價(jià)、醫(yī)療評(píng)估各方面熵權(quán)法都表現(xiàn)出了良好性能。
由于層次分析法(AHP)是根據(jù)專(zhuān)家經(jīng)驗(yàn)構(gòu)造重要性比較矩陣,經(jīng)過(guò)逐層檢驗(yàn)得到的主觀權(quán)重值,受到主觀想法影響較多,因此在此基礎(chǔ)上,我們結(jié)合基本不受主觀因素影響僅僅通過(guò)數(shù)據(jù)來(lái)判斷的熵權(quán)法得到的客觀權(quán)重值,將二者進(jìn)行結(jié)合,能使各指標(biāo)的權(quán)重值配比更加合理,對(duì)于數(shù)據(jù)質(zhì)量的評(píng)估也更精確,同時(shí)也減少了人工的復(fù)雜性與干預(yù)程度。
為建立合適的數(shù)據(jù)質(zhì)量評(píng)估模型,我們首先需要選定合適的指標(biāo),我們從準(zhǔn)確性、完整性、依賴(lài)性三個(gè)角度出發(fā),選取合適的指標(biāo)。準(zhǔn)確性(T1):數(shù)據(jù)語(yǔ)義是否準(zhǔn)確(T11)、數(shù)據(jù)的表達(dá)語(yǔ)法是否準(zhǔn)確(T12)、數(shù)據(jù)值是否準(zhǔn)確(T13);完整性(T2):數(shù)據(jù)屬性是否完整(T21)、數(shù)據(jù)值域是否完整(T22)、數(shù)據(jù)量規(guī)模是否充足(T23);依賴(lài)性(T3):數(shù)據(jù)值依賴(lài)性(T31)、數(shù)據(jù)格式依賴(lài)性(T32)、數(shù)據(jù)格式依賴(lài)性(T33)。
對(duì)于不同的信息系統(tǒng),指標(biāo)的貢獻(xiàn)程度也有所差異。例如,各行各業(yè)對(duì)于數(shù)據(jù)的準(zhǔn)確性要求是必然的,因此針對(duì)此屬性我們需要進(jìn)行詳細(xì)的檢測(cè),必要時(shí)需預(yù)先設(shè)置好可參照庫(kù),但某些領(lǐng)域?qū)τ跀?shù)據(jù)值之間的依賴(lài)性并沒(méi)有提出過(guò)高的要求。因此,我們的模型首先采用(1)層次分析法計(jì)算權(quán)重值,對(duì)各層中的因素進(jìn)行兩兩比較,構(gòu)造出判斷矩陣,我們計(jì)劃選取有經(jīng)驗(yàn)的專(zhuān)家構(gòu)造重要性矩陣,使得我們的主觀權(quán)重更加精確,得到權(quán)重值Wij;(2)熵權(quán)法。
(1)本模型對(duì)數(shù)據(jù)三個(gè)維度的情況進(jìn)行統(tǒng)計(jì),針對(duì)各層次各指標(biāo)得到打分值Xij(表示i 層次j 指標(biāo)的打分結(jié)果);
表1 多層次判斷矩陣
表2 AHP 求得各指標(biāo)權(quán)重結(jié)果表
(2)根據(jù)公式(1)(2)分別計(jì)算指標(biāo)信息熵Ei,信息冗余度Di
(3)計(jì)算指標(biāo)權(quán)重值
(4)計(jì)算組合權(quán)重值
(5)根據(jù)(2)中統(tǒng)計(jì)得的各層次各指標(biāo)分?jǐn)?shù)與組合權(quán)重值計(jì)算最終得分。
以某地交通信息采集系統(tǒng)中的電能質(zhì)量數(shù)據(jù)為實(shí)驗(yàn)對(duì)象,對(duì)其傳輸?shù)臄?shù)據(jù)進(jìn)行評(píng)估,驗(yàn)證本文所提出模型的有效性。
我們首先構(gòu)造多層次的判斷矩陣如表1。
經(jīng)過(guò)一致性檢驗(yàn),其CR<0.1,因此通過(guò)了一致性檢驗(yàn),我們得到各指標(biāo)的AHP 權(quán)重值如表2 所示。
本文根據(jù)所設(shè)定的模型將主觀權(quán)重和客觀權(quán)重分別通過(guò)層次分析法和熵權(quán)法算出,并求得了綜合權(quán)重與初始分?jǐn)?shù)相乘,得到了各項(xiàng)指標(biāo)的最終結(jié)果。從結(jié)果可以看出,我們的得分,并不完全依靠主觀評(píng)判,也同時(shí)擺脫了過(guò)于依賴(lài)數(shù)據(jù)的客觀結(jié)果,證明了本模型的有效性。
本文通過(guò)主客觀賦權(quán)的方法提出了數(shù)據(jù)質(zhì)量評(píng)估模型,該模型適用于大多數(shù)的信息采集系統(tǒng),本文以交通數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)為例,多層次地對(duì)采集到的數(shù)據(jù)進(jìn)行了評(píng)估,以便于及時(shí)匯報(bào)其中的差錯(cuò)數(shù)據(jù)與臟數(shù)據(jù),為后續(xù)數(shù)據(jù)的應(yīng)用提供強(qiáng)有力的保證。同時(shí)本文所提出的維度尚有不足,希望隨著時(shí)代的進(jìn)步能夠提出更精確有效的應(yīng)用范圍更為廣泛的數(shù)據(jù)質(zhì)量評(píng)估模型。