劉喜文 鄭昌興,2 王文龍 湯剛強
(1.南京大學(xué)信息管理學(xué)院 江蘇南京 210093)(2.南京政治學(xué)院基礎(chǔ)部 江蘇南京 210003)
隨著計算機信息系統(tǒng)在各行各業(yè)的普及,產(chǎn)生了大量的數(shù)據(jù),怎樣對這些數(shù)據(jù)進行有效的組織是當(dāng)前研究的熱點之一。數(shù)據(jù)倉庫作為一種有效的數(shù)據(jù)組織方式,得到了廣泛的應(yīng)用。數(shù)據(jù)倉庫是面向主題的、集成的、隨時間變化的、非易失的數(shù)據(jù)集合,用于支持管理層的決策過程。數(shù)據(jù)倉庫不僅是一種語義一致的數(shù)據(jù)存儲,充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實現(xiàn),并存放企業(yè)戰(zhàn)略決策所需要的信息,也是一種體系結(jié)構(gòu),將異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)建,為企業(yè)的決策者提供知識支持。
利用數(shù)據(jù)倉庫對大量數(shù)據(jù)進行有效的組織,避免出現(xiàn)”garbage in,garbage out”的情況,則必須保證數(shù)據(jù)倉庫中的數(shù)據(jù)的準(zhǔn)確性、一致性、完整性、時效性、可靠性和可解釋性,即數(shù)據(jù)是高質(zhì)量的數(shù)據(jù),才能使OLAP分析或挖掘的結(jié)果具有較高的精確性和可信度。但由于種種原因,現(xiàn)實中的數(shù)據(jù)都是臟數(shù)據(jù),要提高數(shù)據(jù)的質(zhì)量,不僅要在事前對數(shù)據(jù)進行嚴(yán)格定義與約束,而且還要在事后使用特定算法對數(shù)據(jù)進行檢測與處理。
國外對數(shù)據(jù)清洗的研究起源于上世紀(jì)50年代的美國,是從糾正全美社會保險號開始,主要是處理西文數(shù)據(jù),其研究主要集中以下幾個方面:(1)異常數(shù)據(jù)的檢測與處理;(2)數(shù)據(jù)重復(fù)的檢測與處理;(3)面向特定領(lǐng)域的數(shù)據(jù)清洗;(4)與領(lǐng)域無關(guān)的數(shù)據(jù)清洗;(5)數(shù)據(jù)的集成。數(shù)據(jù)清洗也必須考慮數(shù)據(jù)集成問題,即將數(shù)據(jù)源中的結(jié)構(gòu)和數(shù)據(jù)映射到目標(biāo)結(jié)構(gòu)與域中,而數(shù)據(jù)的多義性和結(jié)構(gòu)對數(shù)據(jù)集成提出了巨大的挑戰(zhàn),數(shù)據(jù)集成包括:實體識別、冗余與相關(guān)分析、元組重組和數(shù)據(jù)值沖突的檢測與處理。國外關(guān)于中文的數(shù)據(jù)清洗的研究較少,且由于語種的差異性,能夠適應(yīng)英文數(shù)據(jù)清洗的方法不一定能適合中文數(shù)據(jù)清洗。比較成熟的方案有IBM公司提出的基于InfoSphere Quality Stage 的中文數(shù)據(jù)清洗。
國內(nèi)對于數(shù)據(jù)清洗的研究較晚,并且針對中文的數(shù)據(jù)清洗研究的成果也不多。當(dāng)前國內(nèi)對數(shù)據(jù)清洗的研究主要集中在改進西文算法應(yīng)用到中文領(lǐng)域,取得了一些成果。復(fù)旦大學(xué)的周傲英教授團隊、沈陽航空工業(yè)學(xué)院的夏秀峰教授、李蜀瑜博士、東南大學(xué)的董逸生教授的團隊均對數(shù)據(jù)重復(fù)問題進行了研究;北京大學(xué)的楊冬青教授的團隊、武漢理工大學(xué)的袁景凌副教授、東南大學(xué)的董逸生教授團隊、復(fù)旦大學(xué)的周傲英教授團隊等對數(shù)據(jù)的集成問題進行了研究;中科院的劉清、山東理工大學(xué)的王曉原教授、西安理工大學(xué)張璟教授、上海寶鋼公司的王永紅、東北大學(xué)的于戈教授團隊、西北大學(xué)的李戰(zhàn)懷教授團隊、遼寧大學(xué)的宋寶燕教授團隊、貴州大學(xué)的李少波教授團隊、沈陽航空航天大學(xué)的夏秀峰教授團隊均對面向特定領(lǐng)域的數(shù)據(jù)清洗進行了研究。
本文將對臟數(shù)據(jù)的類型與出現(xiàn)原因進行總結(jié),對數(shù)據(jù)清洗的國內(nèi)外研究現(xiàn)狀進行分析,提出數(shù)據(jù)清洗的定義與對象,重點闡述屬性級異常數(shù)據(jù)的檢測與處理的算法、記錄級重復(fù)數(shù)據(jù)的檢測與處理的算法,并對算法的優(yōu)缺點及適用范圍做簡要說明,并指出當(dāng)前數(shù)據(jù)清洗技術(shù)的研究不足以及未來研究的方向。
臟數(shù)據(jù)的類型有許多種類,且每種臟數(shù)據(jù)出現(xiàn)的原因也不一樣,本文從單數(shù)據(jù)源的臟數(shù)據(jù)類型與出現(xiàn)原因和多數(shù)據(jù)源的臟數(shù)據(jù)類型與出現(xiàn)原因進行描述,根據(jù)復(fù)旦大學(xué)周傲英教授對臟數(shù)據(jù)的分類,將臟數(shù)據(jù)分為單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實例層問題、多數(shù)據(jù)源模式層問題和多數(shù)據(jù)源實例層問題四種類型,表1列出了“臟數(shù)據(jù)”類型、實例與出現(xiàn)原因。
表1 “臟數(shù)據(jù)”類型、實例與出現(xiàn)原因
如表1所示,“臟數(shù)據(jù)”的類型有很多種,在實例層來說,單數(shù)據(jù)源的“臟數(shù)據(jù)”就是不完整數(shù)據(jù)、不正確數(shù)據(jù)、不可理解數(shù)據(jù)、過時數(shù)據(jù)、數(shù)據(jù)重復(fù)等,單數(shù)據(jù)源的數(shù)據(jù)清洗主要是指在屬性上對數(shù)據(jù)進行檢測與處理;多數(shù)據(jù)源的“臟數(shù)據(jù)”更為復(fù)雜,主要指大量的重復(fù)數(shù)據(jù)、數(shù)據(jù)沖突,多數(shù)據(jù)源的數(shù)據(jù)清洗主要指是對重復(fù)數(shù)據(jù)的檢測與處理、解決數(shù)據(jù)冗余和數(shù)據(jù)沖突問題。
數(shù)據(jù)清洗不僅應(yīng)用在數(shù)據(jù)倉庫中,也應(yīng)用在數(shù)據(jù)挖掘和全面數(shù)據(jù)質(zhì)量管理領(lǐng)域,不同的領(lǐng)域中數(shù)據(jù)清洗的定義也不相同,數(shù)據(jù)清洗沒有統(tǒng)一的定義。本文借用南京理工大學(xué)的王曰芬教授對數(shù)據(jù)清洗的定義:
數(shù)據(jù)清洗為清除錯誤和不一致數(shù)據(jù)的過程,并需要解決孤立點和元組重復(fù)問題。數(shù)據(jù)清洗并不是簡單地對臟數(shù)據(jù)進行檢測和修正,還涉及在屬性級上維度的整合與分解,及數(shù)據(jù)的整合與分解。
借鑒復(fù)旦大學(xué)周傲英教授和南京理工大學(xué)王曰芬教授對數(shù)據(jù)清洗對象的分類,按照數(shù)據(jù)清洗對象的來源領(lǐng)域與產(chǎn)生原因?qū)?shù)據(jù)清洗對象進行分類,對象的來源領(lǐng)域因素屬于宏觀層面劃分,而產(chǎn)生原因?qū)儆谖⒂^層面劃分。
(1)來源領(lǐng)域:很多領(lǐng)域涉及到數(shù)據(jù)清洗,包括數(shù)字化文獻服務(wù)、圖書借閱、搜索引擎、金融領(lǐng)域、政府機構(gòu)、商品零售、射頻識別領(lǐng)域等,數(shù)據(jù)清洗的目的是為信息系統(tǒng)提供準(zhǔn)確而有效的數(shù)據(jù)?,F(xiàn)在研究比較多的領(lǐng)域有:
①射頻識別(Radio Frequency Identification,RFID)領(lǐng)域的數(shù)據(jù)清洗研究:由于RFID硬件設(shè)備固有的限制和環(huán)境噪聲的影響,RFID閱讀器存在漏讀、多讀和臟讀等現(xiàn)象,降低了RFID數(shù)據(jù)的可用性,如何識別部分信息丟失的數(shù)據(jù)、重復(fù)閱讀的數(shù)據(jù)、未正確閱讀的數(shù)據(jù)以及模糊的數(shù)據(jù)是研究人員關(guān)注的,對于這些臟數(shù)據(jù)需要經(jīng)過數(shù)據(jù)清洗的方法進行檢測及糾正是必要的。國內(nèi)外已經(jīng)有很多學(xué)者對射頻識別領(lǐng)域的數(shù)據(jù)清洗問題展開了研究,并已經(jīng)取得了一些成果。
②Web領(lǐng)域的數(shù)據(jù)清洗研究:搜索引擎為人們在Web上查找信息提供了方便,返回網(wǎng)頁與用戶查詢主題的貼切程度并不讓人滿意,這是因為對網(wǎng)頁索引的效果比較差,需要在索引時對網(wǎng)頁的內(nèi)容進行清洗。按照網(wǎng)絡(luò)數(shù)據(jù)清理的粒度不同,現(xiàn)有的解決思路大致分為兩類,Web頁面級別的數(shù)據(jù)清理和基于頁面內(nèi)部元素級別的數(shù)據(jù)清理,前者以Google公司提出的PageRank算法和IBM公司Clever系統(tǒng)的基石HITS算法為代表;而后面一個思路則集中體現(xiàn)在作為MSN搜索引擎核心技術(shù)之一的 VIPS 算法上。
③面向特定領(lǐng)域的數(shù)據(jù)清洗:主要是金融領(lǐng)域、保險領(lǐng)域、零售領(lǐng)域、政府機構(gòu)、交通領(lǐng)域等,這些領(lǐng)域的臟數(shù)據(jù)包括錯誤數(shù)據(jù)、不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)以及業(yè)務(wù)邏輯錯誤的數(shù)據(jù)。
④數(shù)字化文獻服務(wù)領(lǐng)域,在進行數(shù)字化文獻資源加工時,OCR軟件有時會造成字符識別錯誤,或由于標(biāo)引人員的疏忽而導(dǎo)致標(biāo)引詞的錯誤等,解決這些問題是數(shù)據(jù)清洗需要完成的任務(wù)。
(2)產(chǎn)生原因:在微觀方面,數(shù)據(jù)清洗對象分為模式層和實例層數(shù)據(jù)清洗。數(shù)據(jù)清洗的任務(wù)是過濾或者修改那些不符合要求的數(shù)據(jù),主要包括不完整數(shù)據(jù)、不正確數(shù)據(jù)、不可理解數(shù)據(jù)、不一致數(shù)據(jù)和重復(fù)數(shù)據(jù)等幾類。
對于數(shù)據(jù)清洗算法,一些研究機構(gòu)提出了數(shù)據(jù)預(yù)處理、排序鄰居方法、多次遍歷數(shù)據(jù)清洗方法、采用領(lǐng)域知識進行清洗、采用數(shù)據(jù)庫管理系統(tǒng)的集成數(shù)據(jù)清洗等算法?;谥形臄?shù)據(jù)和西文數(shù)據(jù)的差異性,中文數(shù)據(jù)清洗除了移植西文數(shù)據(jù)的清洗方法外,也有自己特有的清洗方法。
無論西文數(shù)據(jù)還是中文數(shù)據(jù)的屬性級異常情況都有空白值、噪音數(shù)據(jù)、不一致數(shù)據(jù)等,異常數(shù)據(jù)的檢測方法與處理方法如圖1所示。
圖1 屬性級異常數(shù)據(jù)的檢測與處理方法
如圖1所示,人工檢測的方法,需要花費大量的人力、物力和時間,而且這個過程本身很容易出錯,所以需要利用更高效的方法自動檢測數(shù)據(jù)集中的屬性錯誤,這些方法包括統(tǒng)計學(xué)方法、模式識別方法、聚類方法,、基于鄰近性的方法、基于分類的方法、基于關(guān)聯(lián)規(guī)則的方法等。這些方法的主要思想、優(yōu)點、缺點的比較如表2所示。
如表2所示,西文數(shù)據(jù)的自動檢測屬性級錯誤數(shù)據(jù)的方法主要有6種方法,我們可以把這些方法分成監(jiān)督方法、半監(jiān)督方法和無監(jiān)督方法。研究比較多的是統(tǒng)計學(xué)方法、聚類方法、基于鄰近性(距離)的方法和基于關(guān)聯(lián)規(guī)則的方法,統(tǒng)計學(xué)方法包括參數(shù)方法(基于正態(tài)分布的一元離群點檢測、多元離群點檢測和使用混合參數(shù)分布)和非參數(shù)方法(盒圖、直方圖),基于鄰近性(距離)的方法包括基于距離的異常值檢測與嵌套循環(huán)方法、基于網(wǎng)格的方法和基于密度的方法。
我們處理的屬性級錯誤主要是實例層的錯誤數(shù)據(jù),包括空缺值的處理方法、噪音值的處理方法和不一致值的處理方法。
⑴空缺值的清洗方法主要有:忽略元組;人工填寫空缺值;使用一個全局變量填充空缺值;使用屬性的中心度量(均值、中位數(shù)等);使用與給定數(shù)據(jù)集屬同一類的所有樣本的屬性均值、中位數(shù)、最大值、最小值、從數(shù)等;使用最可能的值;或更為復(fù)雜的概率統(tǒng)計函數(shù)值填充空缺值。
(2)噪音值的清洗方法主要有:分箱(Binning),通過考察屬性值的周圍值來平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值、中值、從數(shù)、邊緣值等來替換 “箱”中的屬性值;回歸(regression),用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù);計算機和人工檢查相結(jié)合,計算機檢測可疑數(shù)據(jù),然后對它們進行人工判斷;使用簡單規(guī)則庫檢測和修正錯誤;使用不同屬性間的約束檢測和修正錯誤;使用外部數(shù)據(jù)源檢測和修正錯誤。
(3)不一致數(shù)據(jù)的清洗方法。對于有些事務(wù),所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致,可以使用其他材料人工加以更正。例如,數(shù)據(jù)輸入時的錯誤可以使用紙上的記錄加以更正。知識工程工具也可以用來檢測違反限制的數(shù)據(jù)。知道屬性間的函數(shù)依賴,可以查找違反函數(shù)依賴的值。此外,數(shù)據(jù)集成也可能產(chǎn)生數(shù)據(jù)不一致。表3給出屬性級錯誤數(shù)據(jù)清洗的方法比較情況。
上述檢測與處理的算法對中文屬性級異常數(shù)據(jù)也適用,但需要對算法進行改進,因為中文是雙字節(jié)編碼,并且沒有明顯分隔符,存在大量同音字,對屬性級上數(shù)據(jù)清洗帶來一定的困難,也是研究中文數(shù)據(jù)清洗的重點與難點之一。中文屬性級異常數(shù)據(jù)清洗研究主要集中在數(shù)據(jù)重復(fù)檢測方面。中文數(shù)據(jù)重復(fù)檢測的方法有:(1)字符串匹配方法,又有5種不同的方法:單個字符的匹配方法、漢語自動分詞方法、特征詞匹配方法、詞法分析得到的字符串匹配方法和中文縮寫的回歸字段匹配方法;(2)拼音匹配方法,中文經(jīng)常會出現(xiàn)同音字的現(xiàn)象,為了增大匹配的幾率,有些時候需要用匹配單位的字符拼音進行匹配,目的是解決漢語中一音多字的問題,拼音匹配方法可作為字符串匹配方法的一種輔助方法,提高匹配精確度;(3)字段的相似度匹配方法,通過相似度計算公式進行相似度計算,從而判斷相似性,主要有編輯距離方法。
表2 自動檢測屬性級錯誤數(shù)據(jù)的方法的主要思想及方法比較
記錄級異常數(shù)據(jù)主要指記錄數(shù)據(jù)的重復(fù),對重復(fù)記錄數(shù)據(jù)的處理包括重復(fù)記錄檢測和重復(fù)記錄數(shù)據(jù)的處理。對重復(fù)數(shù)據(jù)的檢測的算法主要有基本的字段匹配算法,遞歸的字段匹配算法,Smith-Waterman 算 法,編輯距 離、Cosine 相 似 度函 數(shù),表4給出了各種算法的比較。
對記錄級的數(shù)據(jù)處理的思想是“排序和合并”,先將數(shù)據(jù)庫中的記錄排序,然后通過比較鄰近記錄是否相似來檢測記錄是否重復(fù)。消除重復(fù)記錄的算法主要有:優(yōu)先隊列算法、 近鄰排序 算 法 (Sorted-Neighborhood Method,SNM)、 多 趟 近 鄰 排 序 (Multi-Pass Sorted-Neigh bor2hood,MPN)。 表 5 給出了重復(fù)記錄清洗算法的比較情況。
上述記錄級數(shù)據(jù)重復(fù)的檢測與處理方法不僅適用于西文數(shù)據(jù),也適用于中文數(shù)據(jù),而且中文數(shù)據(jù)也有自己的獨特的方法,是上述各種算法的變異,包括:①有序鄰接點算法,其思想是:首先對整個數(shù)據(jù)集按照用戶定義的鍵進行排序,然后將可能匹配的記錄相鄰排列在一起,從而檢測出疑似重復(fù)記錄,此算法的缺陷主要表現(xiàn)在兩個方面,第一,對于關(guān)鍵字的依賴過大,關(guān)鍵字選取的好壞直接影響到匹配的效率和精度;第二,對于固定窗口的選取不當(dāng),可能會造成匹配精度的下降和匹配時間的增加;②Fuzzy Match/merge算法,其主要思想是對各個屬性數(shù)據(jù)進行規(guī)范化處理之后,對于所有記錄兩兩進行比較,比較時采取一些模糊的策略,最后將比較結(jié)果合并,此算法的缺陷主要是所需的時間較長,以及對于計算機空間的要求較高。
表3 屬性級錯誤數(shù)據(jù)的方法比較
表4 重復(fù)記錄檢測的算法比較
表5 重復(fù)記錄清洗的算法比較
國外對西文數(shù)據(jù)清洗的研究比較成熟,對中文數(shù)據(jù)的研究比較少;國內(nèi)對中文數(shù)據(jù)清洗的研究主要集中在對算法的改進,原創(chuàng)性算法還比較少,取得的成果也不多。因此,對于中文數(shù)據(jù)清洗的研究還存在很大的發(fā)展空間,具有很好的應(yīng)用前景和理論價值。
無論是對西文數(shù)據(jù)清洗的研究還是對中文數(shù)據(jù)清洗的研究都存在著很多不足之處,主要表現(xiàn)在以下幾個方面:(1)數(shù)據(jù)清理研究主要集中在西文數(shù)據(jù)上,中文數(shù)據(jù)清理與西文數(shù)據(jù)清理有較大的不同,中文數(shù)據(jù)清理還沒有引起重視;(2)現(xiàn)今對于中文數(shù)據(jù)清洗的研究主要針對的是實例層的數(shù)據(jù),比如在數(shù)值型、字符串型字段中的研究,而對于模式層的數(shù)據(jù)清洗研究比較少;(3)對重復(fù)數(shù)據(jù)的識別效率與識別精度問題的解決并不令人滿意,特別是在記錄數(shù)據(jù)非常多時,耗時太多;(4)以前數(shù)據(jù)清理主要集中在結(jié)構(gòu)化的數(shù)據(jù)上,而現(xiàn)在清洗的對象主要是非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化的數(shù)據(jù);(5)數(shù)據(jù)清洗工具或系統(tǒng)都提供了描述性語言,但基本上都是經(jīng)過某種已有語言根據(jù)自己需要經(jīng)過擴展實現(xiàn)的,不能很好地滿足數(shù)據(jù)清理中大致匹配的需要,不具有互操作性,需要加強數(shù)據(jù)清洗工具之間的互操作性研究;(6)現(xiàn)今的數(shù)據(jù)清洗大多數(shù)是面向特定領(lǐng)域。
依據(jù)現(xiàn)今數(shù)據(jù)清洗的研究的不足,數(shù)據(jù)清洗未來主要的研究方向有:(1)中文數(shù)據(jù)清理工具的研究和開發(fā);(2)數(shù)據(jù)挖掘方法在數(shù)據(jù)清理領(lǐng)域應(yīng)用做深入研究;(3)重復(fù)記錄識別的效率需要進一步提高;(4)非結(jié)構(gòu)化數(shù)據(jù)的清洗;(5)數(shù)據(jù)清洗工具之間的互操作性;(6)數(shù)據(jù)清理方案的通用性。后續(xù)將對中文數(shù)據(jù)清洗技術(shù)的改進和優(yōu)化做進一步的研究。
[1]William H.Inmon.王志海,等譯.數(shù)據(jù)倉庫(第 4 版)[M].北京:機械工業(yè)出版社,2006:20.
[2]Lee M,Lu H,Ling T W,etal.Cleansing data for mining and warehousing[A].Proceedings of the 10th International Conference on Database and Expert Systems Applica tions[C].1999:751-760.
[3]Jiawei Han,Micheline Kamber,Jian Pei.DATA MINING Concepts and Techniques[M].北京:機械工業(yè)出版社出版社(第三版),2012:84,92-99,543-572.
[4]Dasu T,Johnson T.Exploratory data mining and data cleaning[M].John wiley,2003.
[5]Galhardas H,Florescu D.An Extensible Framework for Data Cleaning[A].Proceedings of the 16 th IEEE Inter national Conference on Data Engineering.San Diego[C].California,2000:312-312.
[7]俞榮華,田增平,周傲英.一種檢測多語言文本相似重復(fù)記錄的綜合方法[J].計算機科學(xué),2002,29(1):118-121.
[8]邱越峰,田增平,李文 等.一種高效的檢測相似重復(fù)記錄的方法[J].計算機學(xué)報,2001,24(1):69-77.
[9]劉哲,夏秀峰,宋曉燕等.一種中文地址類相似重復(fù)信息的檢測方法[J].小型微型計算機系統(tǒng),2008,29(4):726-729.
[10]石彥華,李蜀瑜.聚類反饋學(xué)習(xí)的數(shù)據(jù)清洗研究[J].計算機工程與應(yīng)用,2011,47(30):127-131.
[11]韓京宇,徐立臻,董逸生.一種大數(shù)據(jù)量的相似記錄檢測方法[J].計算機研究與發(fā)展,2005,42(12):2206-2212.
[12]方幼林,楊冬青,唐世渭等.數(shù)據(jù)轉(zhuǎn)換過程的串行化方法[J].計算機工程與應(yīng)用,2003,39(17):184-187.
[13]袁景凌,徐麗麗,苗連超.基于XML的虛擬法異構(gòu)數(shù)據(jù)集成方法研究 [J].計算機應(yīng)用研究,2009,26(1):172-174.
[14]韓京宇,胡孔法,徐立臻等.一種在線數(shù)據(jù)清洗方法[J].應(yīng)用科學(xué)學(xué)報,2005,(3):292-296.
[15]郭志懋,俞榮華,田增平等.一個可擴展的數(shù)據(jù)清洗系統(tǒng)[J].計算機工程,2003,(3):95-96,183.
[16]張晉輝,劉清.基于推理機的 SCI地址字段數(shù)據(jù)清洗方法設(shè)計[J].情報科學(xué),2010,28(5):741-746.
[17]王曉原,張敬磊,吳芳.交通流數(shù)據(jù)清洗規(guī)則研究[J].計算機工程,2011,37(20):191-193.
[19]王永紅.定量專利分析的樣本選取與數(shù)據(jù)清洗[J].情報理論與實踐,2007,30(1):93-96.
[20]馬茜,谷峪,張?zhí)斐傻?一種基于多閱讀器數(shù)據(jù)冗余的高效RFID數(shù)據(jù)清洗策略[J].小型微型計算機系統(tǒng),2012,33(10):2158-2163.
[21]谷峪,于戈,胡小龍等.基于監(jiān)控對象動態(tài)聚簇的高效RFID數(shù)據(jù)清洗模型[J].軟件學(xué)報,2010,21(4):632-643.
[22]谷峪,李曉靜,呂雁飛等.基于RFID應(yīng)用的綜合性數(shù)據(jù)清洗策略[J].東北大學(xué)學(xué)報(自然科學(xué)版),2009,30(1):34-37.
[23]潘巍,李戰(zhàn)懷,聶艷明等.一種有效的多數(shù)據(jù)源RFID冗余數(shù)據(jù)清洗技術(shù)[J].西北工業(yè)大學(xué)學(xué)報,2011,29(3):435-442.
[24]王妍,宋寶燕,付菡等.引入卡爾曼濾波的RFID數(shù)據(jù)清洗方法[J].小型微型計算機系統(tǒng),2011,32(9):1794-1799.
[25]潘偉杰,李少波,許吉斌.自適應(yīng)時間閾值的RFID數(shù)據(jù)清洗算法[J].制造自動化,2012,34(7 上):24-27,36.
[26]夏秀峰,玄麗娟,李曉明.分流機制下的RFID不確定數(shù)據(jù)清洗策略[J].計算機科學(xué),2011,38(10A):22-25.
[27]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報,2002,13(11):2076-2082.
[28]王曰芬,章成志,張蓓蓓等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書情報技術(shù),2007,(12):50-56.
[29]Sullivan L.RFID implementation challenges persist,all this time later[J].Information Week,2005,1059:34-40.
[30]Jeffery S R,Garofalakis M N,F(xiàn)ranklin M J.Adaptive cleaning for RFID data streams[A].Proceedings of Vary Large Data Bases Seoul,Korea,2006:163-174.
[31]Derakhshan R,Orlowska M E,Li X.RFID data man agement:challenges and opportunities[A].Proceedings of 2007 IEEE International Conference on RFID [C].Gaylord Texan,USA,2007:175-182.
[32]Song Baoyan,Qin Pengfei,Wang Hao,et al.bSpace:a data cleaning approach for RFID data streams based on virtual spatial granularity[A].20099th International Conference on Hybrid Intelligent System.IEEE Com puter Society[C].2009,252-256.
[33]Ziekow H,Ivantysynova L.A probabilistic approach for cleaning RFID data[A].ICDE Workshop[C].2008.
[34]劉奕群,張群,馬少平.面向信息檢索需要的網(wǎng)絡(luò)數(shù)據(jù)清理研究[J].中文信息學(xué)報,2006,20(3):70-77.
[35]Sergey Brin and Lawrence Page,The anatomy of a large-scale hypertextual Web search engine[J].Com puter Networks and ISDN Systems,1998,30(7)107-117.
[36]JonM.Kleinberg,Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.
[37]Deng Cai,Shipeng Yu,Ji RongWen and Wei YingMa.VIPS:a Vision based Page Segmentation Algorithm[R].Microsoft Technical Report(MSR2TR22003-79),2003.
[38]周奕辛.數(shù)據(jù)清洗算法的研究與應(yīng)用[D].青島:青島大學(xué),2005.
[39]唐懿芳,鐘達夫,嚴(yán)小衛(wèi).基于聚類模式的數(shù)據(jù)清洗技術(shù)[J].計算機應(yīng)用,2004,24(5):116-19.
[40]Masek W,Paterson M A.Faster Algorithm Computing String Edit Distance[J].Journal of Computer System Science,1980,(20):18-31.
[41]周芝芬.基于數(shù)據(jù)倉庫的數(shù)據(jù)清洗方法研究[D].上海:東華大學(xué),2004.
[42]Salon G,McgillM J.Introduction to Modern Information Retrieval[M].NewYork:McGraw-Hill Book Co,1983.
[43]Monge A,Elkan C.The Field Matching Problem:Algo rithms andApp lications[A].Proceedings of the 2nd In ternational Conference of Knowledge Discovery and Data Mining[C].Portland,Oregon,1996.
[44]Hernandez M,Stolfo S.Real World Data is Dirty:Data Cleansing and theMerge/Purge Problem[J].DataMin ing and Knowledge Discovery,1998,2(1):9-37.
[45]Hon D B,Dewi V J.Duplicate record elimination in large data files[J].ACM Transactions on Database Sys tem,1995.