黃俊超HUANG Jun-chao
(空軍勤務(wù)學(xué)院研究生大隊(duì),徐州 221000)
管理信息系統(tǒng)是以人為核心因素,由計(jì)算機(jī)技術(shù)、設(shè)施及其他信息手段組成,并用于管理信息的系統(tǒng)[1],其運(yùn)行需要充足、全方位、高質(zhì)量的數(shù)據(jù)作為保障。然而,伴隨著管理信息系統(tǒng)的廣泛使用,所產(chǎn)生的數(shù)據(jù)愈來(lái)愈多,許多數(shù)據(jù)已經(jīng)超出了管理與控制的范圍?!皵?shù)據(jù)豐富,信息貧乏”問(wèn)題時(shí)常發(fā)生,原因之一就是數(shù)據(jù)質(zhì)量差,導(dǎo)致數(shù)據(jù)不能有效地被運(yùn)用,進(jìn)而降低管理信息系統(tǒng)的效率,甚至造成嚴(yán)重決策失誤。
當(dāng)前對(duì)數(shù)據(jù)質(zhì)量的研究中,數(shù)據(jù)清洗、數(shù)據(jù)修復(fù)、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量控制等方面都取得了長(zhǎng)足的進(jìn)展,然而許多學(xué)者都認(rèn)為數(shù)據(jù)質(zhì)量評(píng)價(jià)是基礎(chǔ),是對(duì)數(shù)據(jù)質(zhì)量現(xiàn)狀的準(zhǔn)確反映。近些年來(lái)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系、評(píng)價(jià)模型等方面的研究不斷增加。本文對(duì)管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的定義與維度、數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)、評(píng)價(jià)方法進(jìn)行全面梳理,以期能夠?yàn)楣芾硇畔⑾到y(tǒng)數(shù)據(jù)質(zhì)量相關(guān)研究的學(xué)者提供一定的借鑒。
理清數(shù)據(jù)質(zhì)量的定義與維度是評(píng)價(jià)指標(biāo)體系的建立的基礎(chǔ)。數(shù)據(jù)質(zhì)量的研究起源于1980 年初,稍滯后于信息系統(tǒng)發(fā)展[2]。起初人們將數(shù)據(jù)質(zhì)量理解為數(shù)據(jù)準(zhǔn)確性,隨著信息技術(shù)的發(fā)展,準(zhǔn)確性這一概念已不足以清晰完整描述數(shù)據(jù)質(zhì)量。1999 年,Kuan-Tsae Huang 等人對(duì)數(shù)據(jù)質(zhì)量作了較簡(jiǎn)單的定義:滿足用戶需求和期望的程度[3]。同樣的,盧本新[4]對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)質(zhì)量定義為能夠滿足客戶需求的數(shù)據(jù)占比。齊藝蘭[23]給出了ERP 系統(tǒng)的數(shù)據(jù)質(zhì)量定義:ERP 系統(tǒng)中的數(shù)據(jù)滿足最終需求的程度。
信息系統(tǒng)的使用者通過(guò)對(duì)數(shù)量大、種類多、屬性不同的數(shù)據(jù)進(jìn)行分析處理從而獲得信息,進(jìn)而用于輔助決策,因此在信息系統(tǒng)中,數(shù)據(jù)質(zhì)量的定義偏向于“滿足程度”的概念的同時(shí)更強(qiáng)調(diào)多維化。盡管因?yàn)閿?shù)據(jù)質(zhì)量針對(duì)對(duì)象不同,不同對(duì)象要求不同,研究者們?nèi)詻](méi)有對(duì)數(shù)據(jù)質(zhì)量有精準(zhǔn)的、恰當(dāng)?shù)亩x,但一般認(rèn)為,數(shù)據(jù)質(zhì)量通常分解為具體的數(shù)據(jù)質(zhì)量維度[5-6]。數(shù)據(jù)質(zhì)量維度為度量和管理數(shù)據(jù)的質(zhì)量提供了一種途徑和標(biāo)準(zhǔn)[7]。陳遠(yuǎn)[8]認(rèn)為對(duì)數(shù)據(jù)質(zhì)量定義的把握不應(yīng)僅僅局限于輸入端的正確與否,而是對(duì)信息系統(tǒng)在開發(fā)、使用過(guò)程中數(shù)據(jù)的正確性、準(zhǔn)確性、不矛盾性、一致性、完整性、集成性六個(gè)方面的描述。趙宇[9]通過(guò)對(duì)多篇文獻(xiàn)的整理認(rèn)為信息系統(tǒng)中的準(zhǔn)確性、時(shí)效性、完整性和一致性被滿足的程度是當(dāng)下學(xué)者對(duì)數(shù)據(jù)質(zhì)量定義較為一致的觀點(diǎn)。劉向民[10]認(rèn)為信息系統(tǒng)數(shù)據(jù)內(nèi)在質(zhì)量反映在數(shù)據(jù)真實(shí)性、數(shù)據(jù)完整性、數(shù)據(jù)精確性、數(shù)據(jù)時(shí)效性、數(shù)據(jù)可用性、數(shù)據(jù)可信性、數(shù)據(jù)邏輯一致性上。
綜上所述,目前對(duì)數(shù)據(jù)質(zhì)量定義主要是面向使用方的,強(qiáng)調(diào)“適合使用”的程度。管理信息系統(tǒng)中數(shù)據(jù)具有數(shù)據(jù)量大、時(shí)效性強(qiáng)、數(shù)據(jù)關(guān)系復(fù)雜、多源化、系統(tǒng)安全系數(shù)要求高的特點(diǎn),數(shù)據(jù)的應(yīng)用又格外強(qiáng)調(diào)數(shù)據(jù)的準(zhǔn)確性、時(shí)效性、一致性、完整性和安全性。因此結(jié)合研究者們對(duì)據(jù)質(zhì)量定義以及管理信息系統(tǒng)的特點(diǎn),可以給出如下定義:管理信息系統(tǒng)數(shù)據(jù)質(zhì)量是指數(shù)據(jù)在準(zhǔn)確性、時(shí)效性、一致性、完整性和安全性等各個(gè)維度中,數(shù)據(jù)實(shí)例能夠滿足最終需求的程度。
要想進(jìn)行評(píng)價(jià)首先要理清楚評(píng)價(jià)的方面,數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系的建立遵循科學(xué)性原則、系統(tǒng)性原則、可擴(kuò)充性原則[11],并以數(shù)據(jù)質(zhì)量的定義與維度為基礎(chǔ),是進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)并做出正確判斷的實(shí)踐依據(jù)。各個(gè)領(lǐng)域中由于評(píng)價(jià)目標(biāo)和評(píng)價(jià)方法各不相同,研究者所建立的評(píng)價(jià)指標(biāo)體系也不盡相同。表1 展示了21 世紀(jì)以來(lái)不同學(xué)者對(duì)于信息系統(tǒng)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)的界定。
表1 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
通過(guò)對(duì)以往文獻(xiàn)研究發(fā)現(xiàn),數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)能夠進(jìn)行分類,可劃分為數(shù)據(jù)的基礎(chǔ)要求、數(shù)據(jù)內(nèi)容、效能作用三個(gè)維度。每個(gè)維度包含評(píng)價(jià)指標(biāo)如圖1 所示。
圖1 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)維度劃分
數(shù)據(jù)基礎(chǔ)要求維度中的評(píng)價(jià)指標(biāo)是指系統(tǒng)在設(shè)計(jì)之初對(duì)數(shù)據(jù)的精度、形式等進(jìn)行的約束,是最基礎(chǔ)、最廣泛使用的指標(biāo)。主要評(píng)價(jià)指標(biāo)有規(guī)范性、完整性、表達(dá)形式合理性等。規(guī)范性是指數(shù)據(jù)符合格式要求、值域約束等強(qiáng)制性標(biāo)準(zhǔn)的程度;完整性是字段數(shù)、記錄數(shù)等滿足要求的程度;表達(dá)形式合理性用于評(píng)價(jià)數(shù)據(jù)的各項(xiàng)特征、表達(dá)方式符合要求的程度。
數(shù)據(jù)內(nèi)容維度中的評(píng)價(jià)指標(biāo)是對(duì)現(xiàn)有數(shù)據(jù)本身具體內(nèi)容的評(píng)價(jià)。主要評(píng)價(jià)指標(biāo)有準(zhǔn)確性、正確性、真實(shí)性、邏輯一致性等。準(zhǔn)確性是指數(shù)據(jù)反映真實(shí)值的程度;正確性與準(zhǔn)確性概念有所區(qū)分,是指數(shù)據(jù)在所界定的范圍之內(nèi),有些數(shù)據(jù)雖然是準(zhǔn)確的,但并不一定能夠準(zhǔn)確反映現(xiàn)實(shí)情況;真實(shí)性為數(shù)據(jù)反映真實(shí)情況的程度;邏輯一致性指字段與表映射是否異常、同一字段上下文表述是否一致。
數(shù)據(jù)效能作用維度中的評(píng)價(jià)指標(biāo)是對(duì)已有數(shù)據(jù)能夠發(fā)揮作用的評(píng)價(jià)。由于數(shù)據(jù)質(zhì)量的定義是指數(shù)據(jù)實(shí)例能夠滿足最終需求的程度,所以該維度的評(píng)價(jià)指標(biāo)較多。主要評(píng)價(jià)指標(biāo)有時(shí)效性、可訪問(wèn)性、可維護(hù)性、全面性、安全性等。時(shí)效性為數(shù)據(jù)在預(yù)期時(shí)間內(nèi)能夠被正確使用的程度;可訪問(wèn)性是指數(shù)據(jù)可用的程度以及檢索速度的高低;可維護(hù)性為數(shù)據(jù)能夠按照管理者目標(biāo)進(jìn)行更新、修改的程度;全面性是指相對(duì)于數(shù)據(jù)總體或全體相關(guān)對(duì)象的數(shù)據(jù)覆蓋程度;安全性是指數(shù)據(jù)在使用維護(hù)過(guò)程中是否存在丟失、被盜的可能。
數(shù)據(jù)質(zhì)量評(píng)價(jià)方法是數(shù)據(jù)質(zhì)量評(píng)價(jià)的核心部分,合適的評(píng)價(jià)方法能夠快速、準(zhǔn)確反映出所存在的數(shù)據(jù)質(zhì)量問(wèn)題,得出可靠的結(jié)果。國(guó)內(nèi)外關(guān)于數(shù)據(jù)質(zhì)量評(píng)價(jià)方法的研究層出不窮,通過(guò)整理歸納,可將常見的評(píng)價(jià)方法歸納為以下5 類。
第一類是國(guó)外較為典型的評(píng)價(jià)模型[23]。一是國(guó)際貨幣基金組織提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)通用模型(DQAF)是對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量進(jìn)行定性評(píng)價(jià)的一種方法,為數(shù)據(jù)質(zhì)量評(píng)價(jià)提供了一個(gè)通用的框架,囊括了數(shù)據(jù)質(zhì)量評(píng)價(jià)的絕大多數(shù)維度[24];二是麻省理工學(xué)院TDQM 項(xiàng)目組所研究的信息管理質(zhì)量評(píng)價(jià)(AIMQ)方法[25],提出了信息質(zhì)量評(píng)價(jià)以及差別分析判斷方法,并且能夠進(jìn)行數(shù)據(jù)質(zhì)量提升,實(shí)用性較強(qiáng)。
這類方法較為經(jīng)典,但僅適用于部分領(lǐng)域。DQAF 模型面向統(tǒng)計(jì)數(shù)據(jù),操作簡(jiǎn)便,實(shí)用性強(qiáng),但尚未有國(guó)內(nèi)學(xué)者將其引進(jìn)應(yīng)用,AIMQ 強(qiáng)調(diào)將數(shù)據(jù)看作產(chǎn)品,更側(cè)重于管理方向。
第二類是傳統(tǒng)直接評(píng)價(jià)法,將現(xiàn)有數(shù)據(jù)與各項(xiàng)評(píng)價(jià)指標(biāo)進(jìn)行比對(duì),運(yùn)用簡(jiǎn)單數(shù)理統(tǒng)計(jì)計(jì)算來(lái)進(jìn)行,如簡(jiǎn)單比率法、缺陷扣分法、加權(quán)平均法、最小或最大運(yùn)算方法。
劉偉[26]根據(jù)簡(jiǎn)單比率法,基于質(zhì)量約束規(guī)則,構(gòu)建了對(duì)完整性、一致性、時(shí)效性、準(zhǔn)確性評(píng)價(jià)的元數(shù)據(jù)算法模型。荀挺[27]基于統(tǒng)計(jì)學(xué)原理,從多個(gè)角度提取數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)對(duì)數(shù)據(jù)質(zhì)量綜合分析與評(píng)價(jià)。王軍玲[15]依據(jù)數(shù)據(jù)質(zhì)量評(píng)價(jià)定量指標(biāo),給出了數(shù)據(jù)質(zhì)量缺陷等級(jí),以逐層遞進(jìn)的方式,采用線性內(nèi)插法、算術(shù)平均法、加權(quán)平均法等算法,分別計(jì)算目標(biāo)數(shù)據(jù)集的一級(jí)、二級(jí)質(zhì)量指標(biāo),最終得到數(shù)據(jù)集整體質(zhì)量的評(píng)分。
這類方法以數(shù)據(jù)質(zhì)量問(wèn)題作為切入點(diǎn)進(jìn)行評(píng)價(jià),對(duì)質(zhì)量問(wèn)題的反應(yīng)較為靈敏,并且易于量化,運(yùn)算簡(jiǎn)易,并且加入加權(quán)統(tǒng)計(jì)的思想后,其使用起來(lái)更加靈活,所以應(yīng)用較為廣泛。但不足之處在于由于缺陷的定義本身具有模糊性,對(duì)缺陷與非缺陷之間的灰色地帶無(wú)法進(jìn)行準(zhǔn)確評(píng)價(jià),并且這種剛性的量化方法會(huì)導(dǎo)致結(jié)果偏于嚴(yán)重化。同時(shí),其對(duì)指標(biāo)體系的依賴性強(qiáng),若指標(biāo)體系存在缺陷,得出的評(píng)價(jià)結(jié)果將不盡人意。
第三類是不確定理論評(píng)價(jià)法。鑒于上述缺點(diǎn),研究者們使用不確定性理論來(lái)進(jìn)行數(shù)據(jù)質(zhì)量的評(píng)價(jià),主要包括粗糙集理論、模糊綜合評(píng)判法等。
宋俊典[28]提出了一種面向多維度數(shù)據(jù)質(zhì)量的模糊綜合評(píng)價(jià)方法,采用德爾菲法和層次分析法對(duì)各指標(biāo)賦予權(quán)重,確定隸屬度函數(shù)和特征向量,并進(jìn)行模糊轉(zhuǎn)換和模糊計(jì)算,最終根據(jù)最大隸屬度原則得到質(zhì)量評(píng)級(jí)。Davod[29]使用模糊AHP 方法評(píng)價(jià)數(shù)據(jù)質(zhì)量各個(gè)維度。胡小靜[30]對(duì)空間數(shù)據(jù)進(jìn)行評(píng)價(jià),針對(duì)其不確定性的特點(diǎn),提出了多層次模糊綜合評(píng)判的方法。
該類方法的基本思想是假定對(duì)事物的狀態(tài)以及狀態(tài)的變化方式缺少準(zhǔn)確的判斷[31],將評(píng)價(jià)指標(biāo)量化、客觀化。所以在面對(duì)不確定、復(fù)雜、綜合性強(qiáng)的問(wèn)題時(shí),該類方法具有較為明顯的優(yōu)勢(shì)。
第四類方法是組合模型評(píng)價(jià)方法。所有評(píng)價(jià)方法都有可能存在局限之處,采用具有互補(bǔ)性的方法建立組合模型來(lái)進(jìn)行數(shù)據(jù)質(zhì)量的評(píng)價(jià),能夠彌補(bǔ)各種方法的缺陷,突出各類方法的優(yōu)點(diǎn),使評(píng)價(jià)的結(jié)論更加精確可靠。
王帆飛[32]在確定質(zhì)量等級(jí)后,利用加權(quán)平均的缺陷扣分法得到數(shù)據(jù)的質(zhì)量得分,最后評(píng)價(jià)出數(shù)據(jù)集的質(zhì)量等級(jí)。莊廣新[33]提出了基于層次分析法與灰色聚類分析的道路交通流數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,確定權(quán)重后,采用灰色系統(tǒng)理論白化權(quán)函數(shù)建立各指標(biāo)關(guān)聯(lián)度矩陣模型。楊棟樞[34]通過(guò)構(gòu)建基于熵權(quán)與層次分析法的電力企業(yè)運(yùn)營(yíng)監(jiān)控中心數(shù)據(jù)質(zhì)量組合權(quán)重評(píng)價(jià)模型,并通過(guò)實(shí)際數(shù)據(jù)驗(yàn)證了評(píng)價(jià)模型的有效性。
第五類是基于元數(shù)據(jù)的評(píng)價(jià)方法。元數(shù)據(jù)是包含數(shù)據(jù)基本信息的數(shù)據(jù),是對(duì)數(shù)據(jù)各個(gè)方面進(jìn)行最基本描述。元數(shù)據(jù)的應(yīng)用使得數(shù)據(jù)更易被查找、管理和使用,因此很多學(xué)者如劉偉[26]、李天陽(yáng)[35]、黃剛[36]、張董強(qiáng)[37]都提出通過(guò)建立元數(shù)據(jù)模型進(jìn)行數(shù)據(jù)質(zhì)量的評(píng)價(jià)。
該類方法首先建立各評(píng)價(jià)指標(biāo)的數(shù)據(jù)質(zhì)量約束規(guī)則,再設(shè)計(jì)各個(gè)實(shí)體的約束規(guī)則元模型,然后建立評(píng)價(jià)算法元模型進(jìn)行評(píng)價(jià),利用元數(shù)據(jù)的基本特性進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià),體現(xiàn)了靈活性、通用性的特點(diǎn)。在使用中只需簡(jiǎn)單維護(hù)元數(shù)據(jù),便可以實(shí)現(xiàn)任何數(shù)據(jù)庫(kù)及任意數(shù)據(jù)質(zhì)量評(píng)價(jià)約束的數(shù)據(jù)質(zhì)量評(píng)價(jià)。但在評(píng)價(jià)算法的選擇上較為簡(jiǎn)單,劉偉提出了兩種評(píng)價(jià)算法,一種是簡(jiǎn)單比對(duì)法,從數(shù)據(jù)質(zhì)量的幾類關(guān)鍵特性出發(fā),計(jì)算出每類關(guān)鍵特性的錯(cuò)誤數(shù)據(jù)個(gè)數(shù),與數(shù)據(jù)總數(shù)的比值,最后得出問(wèn)題發(fā)生率;另外一種就是屬性加權(quán)法,考慮到每個(gè)關(guān)鍵特性對(duì)于數(shù)據(jù)的重要性可能不同,為了區(qū)分不同關(guān)鍵特性所占的比重,使用加權(quán)算法進(jìn)行評(píng)價(jià)。上述學(xué)者在研究中普遍使用一些定性指標(biāo)進(jìn)行人工打分評(píng)價(jià),在數(shù)據(jù)量大、數(shù)據(jù)關(guān)系復(fù)雜的情況下,人工打分評(píng)價(jià)可能導(dǎo)致評(píng)估結(jié)果不盡人意。
基于所掌握的相關(guān)文獻(xiàn),對(duì)管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的研究進(jìn)展進(jìn)行梳理歸納。首先對(duì)數(shù)據(jù)質(zhì)量的定義與維度進(jìn)行梳理,其次從數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)、評(píng)價(jià)方法兩個(gè)方面對(duì)管理信息系統(tǒng)數(shù)據(jù)質(zhì)量評(píng)價(jià)的研究?jī)?nèi)容進(jìn)行整合。研究發(fā)現(xiàn),當(dāng)前針對(duì)管理信息系統(tǒng)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)、評(píng)價(jià)方法的研究取得了一定成果,但仍存在一定不足:①數(shù)據(jù)質(zhì)量的定義是研究數(shù)據(jù)質(zhì)量的基礎(chǔ),但當(dāng)前對(duì)于管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的定義仍然較為模糊,不同學(xué)者有不同的看法,尤其是針對(duì)管理信息系統(tǒng)領(lǐng)域,還未有統(tǒng)一的標(biāo)準(zhǔn);②由于研究領(lǐng)域不同,對(duì)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)的認(rèn)識(shí)存在較大差異,不同評(píng)價(jià)指標(biāo)雖然字面不同,但意義差別并不大,且繁雜的評(píng)價(jià)指標(biāo)體系不利于進(jìn)一步的評(píng)價(jià),可能會(huì)造成評(píng)價(jià)結(jié)果失真;③基于元數(shù)據(jù)能夠更加準(zhǔn)確、快速地進(jìn)行評(píng)價(jià),但評(píng)價(jià)算法方面還較為單一,所評(píng)價(jià)的內(nèi)容層面較淺。
立足于現(xiàn)有研究的不足,今后的研究可側(cè)重于以下幾個(gè)方面:①深入分析各領(lǐng)域數(shù)據(jù)應(yīng)用現(xiàn)狀,進(jìn)一步理清管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的定義與維度,為評(píng)價(jià)指標(biāo)體系建立打好基礎(chǔ);②完善數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系。針對(duì)不同研究領(lǐng)域建立概括性強(qiáng)、簡(jiǎn)潔明了、層次分明的評(píng)價(jià)指標(biāo)體系,避免評(píng)價(jià)指標(biāo)繁雜對(duì)評(píng)價(jià)結(jié)果的影響;③豐富基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,可采用組合方法、深度學(xué)習(xí)等算法進(jìn)行評(píng)價(jià),達(dá)到更準(zhǔn)確的評(píng)價(jià)效果。