顧 晴 董永權(quán) 胡 楊
(江蘇師范大學(xué)智慧教育學(xué)院 江蘇 徐州 221116)
隨著信息技術(shù)的快速發(fā)展和信息化管理的不斷推進(jìn),數(shù)據(jù)庫(kù)中的記錄數(shù)量呈指數(shù)上升,引發(fā)了大數(shù)據(jù)環(huán)境下相似重復(fù)記錄檢測(cè)的需求,是近年來(lái)數(shù)據(jù)挖掘領(lǐng)域的研究重點(diǎn)。大量相似重復(fù)數(shù)據(jù)在整合時(shí)降低了數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)庫(kù)的利用率帶來(lái)直接影響。因此,如何高效率地檢測(cè)出相似重復(fù)記錄是數(shù)據(jù)清洗的關(guān)鍵點(diǎn)和提高數(shù)據(jù)質(zhì)量的首要任務(wù)。
相似重復(fù)記錄檢測(cè)是識(shí)別出多個(gè)數(shù)據(jù)庫(kù)中的同一實(shí)體,在不同研究領(lǐng)域中有多種名稱(chēng)表示,如duplicate record detection、entity resolution和 record linkage等,相應(yīng)中文名稱(chēng)有相似重復(fù)記錄檢測(cè)、實(shí)體識(shí)別和記錄鏈接等。Newcombe等[1]提出這個(gè)概念后,國(guó)內(nèi)外研究者在各個(gè)領(lǐng)域進(jìn)行深入的研究,提出大量的檢測(cè)方法,檢測(cè)精度也不斷提升。Elmagarmid等[2]總結(jié)了當(dāng)時(shí)國(guó)外的相似重復(fù)記錄檢測(cè)技術(shù),從字符、標(biāo)記、語(yǔ)音和數(shù)字四個(gè)方面分析相似性度量方法,從機(jī)器學(xué)習(xí)和概率推理兩類(lèi)技術(shù)進(jìn)行歸納,提出減少記錄比較數(shù)量和提高單記錄比較速率兩種提升相似重復(fù)記錄檢測(cè)效率的方法。自發(fā)表至今,一共被引用672次,是目前為止分析最全面、被引次數(shù)最多的相似重復(fù)記錄檢測(cè)綜述。經(jīng)過(guò)之后十多年的積累, 國(guó)內(nèi)外相似重復(fù)記錄檢測(cè)方法又涌現(xiàn)出相當(dāng)多的高水平成果,迫切需要對(duì)新的文獻(xiàn)加以歸納整理??紤]到簡(jiǎn)單的文獻(xiàn)回顧難以客觀分析該領(lǐng)域的作者合作關(guān)系、研究熱點(diǎn)及發(fā)展趨勢(shì),有必要通過(guò)文獻(xiàn)計(jì)量和可視化的方式進(jìn)行探究。
文獻(xiàn)計(jì)量方法可以對(duì)海量文獻(xiàn)進(jìn)行可視化分析,得到特定領(lǐng)域的文獻(xiàn)特征,能夠全面分析某一領(lǐng)域的熱點(diǎn)及發(fā)展趨勢(shì)[3]。社會(huì)網(wǎng)絡(luò)是指行動(dòng)者 (個(gè)體、群體或組織等) 及其關(guān)系的集合[4]。社會(huì)網(wǎng)絡(luò)分析則是對(duì)這些關(guān)系數(shù)據(jù)的分析與研究??茖W(xué)知識(shí)圖譜是結(jié)合文獻(xiàn)計(jì)量法及信息可視化原理,以科學(xué)知識(shí)為對(duì)象,展示科學(xué)知識(shí)的演進(jìn)過(guò)程與結(jié)構(gòu)關(guān)系的一種圖形表示方法。
本文收集了2008—2019年間國(guó)內(nèi)外對(duì)相似重復(fù)記錄檢測(cè)的相關(guān)文獻(xiàn),分析了發(fā)文量的時(shí)間分布以及發(fā)文核心機(jī)構(gòu)分布。通過(guò)社會(huì)網(wǎng)絡(luò)分析軟件Ucinet對(duì)這些論文的作者建立合作網(wǎng)絡(luò)圖譜,分析了核心作者群。使用數(shù)據(jù)可視化軟件CiteSpace對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行聚類(lèi),并根據(jù)時(shí)間脈絡(luò)進(jìn)行分析,呈現(xiàn)出近十年在相似重復(fù)記錄檢測(cè)問(wèn)題的知識(shí)圖譜,并對(duì)其研究熱點(diǎn)和趨勢(shì)進(jìn)行了探究,提出面臨的挑戰(zhàn),指明今后的研究方向。
(1) 社會(huì)網(wǎng)絡(luò)分析。社會(huì)網(wǎng)絡(luò)分析采用Ucinet(University of California at Irvine NETwork)軟件。Ucinet內(nèi)置大量的網(wǎng)絡(luò)指標(biāo)計(jì)算模塊,是一款功能強(qiáng)大的社會(huì)網(wǎng)絡(luò)分析軟件[4]。最初由社會(huì)網(wǎng)絡(luò)研究的開(kāi)創(chuàng)者Linton等網(wǎng)絡(luò)分析者編寫(xiě),之后由美國(guó)波士頓大學(xué)的Steve和英國(guó)威斯敏斯特大學(xué)的Martin共同維護(hù)。它可以生成多種可視化圖譜,反映分析對(duì)象的結(jié)構(gòu)和關(guān)系。
本文將EndNote格式的中文文獻(xiàn)題錄和.txt格式的外文文獻(xiàn)題錄分別導(dǎo)入Bicomb,通過(guò)格式轉(zhuǎn)換后分別創(chuàng)建.txt格式的作者共現(xiàn)矩陣,之后將矩陣導(dǎo)入U(xiǎn)cinet生成.##h文本矩陣,通過(guò)對(duì)Netdraw的調(diào)用產(chǎn)生可視化圖譜,并對(duì)社會(huì)網(wǎng)絡(luò)參數(shù)進(jìn)行中心度等計(jì)算。
(2) 知識(shí)圖譜分析。知識(shí)圖譜采用CiteSpace(5.5.R2)軟件,CiteSpace是由美國(guó)德雷塞爾大學(xué)的陳超美博士開(kāi)發(fā)的文獻(xiàn)數(shù)據(jù)可視化軟件[5]。該軟件主要運(yùn)用共引分析理論對(duì)某領(lǐng)域的文獻(xiàn)信息進(jìn)行計(jì)量,通過(guò)尋徑網(wǎng)絡(luò)算法等方法找出關(guān)鍵節(jié)點(diǎn),繪制出相關(guān)的科學(xué)知識(shí)圖譜,實(shí)現(xiàn)信息可視化分析[6]。通過(guò)它展現(xiàn)的知識(shí)圖譜,可以較直觀地顯示該研究學(xué)科過(guò)往的演化歷程、當(dāng)今的研究熱點(diǎn)、日后的研究趨勢(shì)。迄今為止,CiteSpace被廣泛運(yùn)用于對(duì)文獻(xiàn)的可視化分析。
本文在CiteSpace中將時(shí)間閾值設(shè)置為“2008”到“2019”, 連線閾值數(shù)據(jù)對(duì)象(Links)強(qiáng)度設(shè)為‘cosine’類(lèi)型,節(jié)點(diǎn)閾值(Selection Criteria)中三個(gè)時(shí)間切片的最低被引次數(shù)(citation)、本切片內(nèi)的共引次數(shù)(cocitation)和共被引率(Cocitation cosine coefficient)分別為1、1、20;1、1、20;2、2、20。剪枝(pruning)采用尋徑網(wǎng)絡(luò)算法(Pathfinder),filter為1。主要應(yīng)用CiteSpace的聚類(lèi)分析(Cluster)、文本主題共現(xiàn)(Term、Keyword),對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行分析,進(jìn)而總結(jié)出相似重復(fù)記錄檢測(cè)的研究熱點(diǎn)及發(fā)展趨勢(shì)。
本文采集2008—2019年國(guó)內(nèi)外有關(guān)相似重復(fù)記錄檢測(cè)的相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析。采用的外文文獻(xiàn)來(lái)源于World of Science(WOS)的核心數(shù)據(jù)庫(kù),以“duplicate record”“entity resolution”“record linkage”“ record ma-tching”“entity matching”和“record merge”為標(biāo)題分別進(jìn)行檢索。中文文獻(xiàn)來(lái)源于中國(guó)知網(wǎng)(CNKI),以“重復(fù)記錄”“記錄匹配”“實(shí)體匹配”“記錄鏈接”和“記錄合并”為篇名分別進(jìn)行檢索。經(jīng)過(guò)相關(guān)內(nèi)容篩選后共獲得153條有效國(guó)外文獻(xiàn)記錄和149條有效國(guó)內(nèi)文獻(xiàn)記錄。
文獻(xiàn)的發(fā)表數(shù)量及其在時(shí)間上的分布,可以反映出該研究?jī)?nèi)容在研究歷史上的被關(guān)注程度以及發(fā)展情況。將國(guó)內(nèi)外關(guān)于相似重復(fù)記錄檢測(cè)的文獻(xiàn)按照年份繪成發(fā)文量年度分布圖(見(jiàn)圖1)。
圖1 國(guó)內(nèi)外文獻(xiàn)發(fā)文量年度分布
相似重復(fù)記錄檢測(cè)最早起源于國(guó)外,從每年度文獻(xiàn)發(fā)表的數(shù)量上來(lái)看,近10年內(nèi)國(guó)內(nèi)外相關(guān)的文獻(xiàn)發(fā)表量總體上逐步上升,這表明近10年國(guó)內(nèi)外在相似重復(fù)記錄檢測(cè)研究上的關(guān)注度呈增長(zhǎng)趨勢(shì)。從圖1可以看出,2008年到2012年,國(guó)外研究經(jīng)歷了一個(gè)低潮期,發(fā)文量較少。隨著相似重復(fù)記錄檢測(cè)應(yīng)用領(lǐng)域的擴(kuò)大和檢測(cè)技術(shù)的發(fā)展,自2012年起發(fā)文量開(kāi)始逐步增長(zhǎng),2018年高達(dá)27篇文獻(xiàn)。國(guó)內(nèi)近10年一直持續(xù)著對(duì)相似重復(fù)記錄檢測(cè)的研究熱情,發(fā)文量整體上波動(dòng)幅度不大,每年穩(wěn)定在15篇左右。2015年和2016年出現(xiàn)一個(gè)明顯的低潮期,但從2017年起,由于深度學(xué)習(xí)等技術(shù)被重新關(guān)注研究和發(fā)展,以及其在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,相似重復(fù)記錄檢測(cè)這一研究又吸引了眾多學(xué)者的目光,發(fā)文量呈現(xiàn)穩(wěn)步回升。從整體數(shù)量上看,國(guó)內(nèi)外文獻(xiàn)近10年文獻(xiàn)發(fā)表量相差不大,但是自2015年起國(guó)外文獻(xiàn)數(shù)量均高于國(guó)內(nèi)文獻(xiàn)數(shù)量。
通過(guò)對(duì)發(fā)文作者所在機(jī)構(gòu)的統(tǒng)計(jì),可以了解相似重復(fù)記錄檢測(cè)領(lǐng)域研究的核心機(jī)構(gòu)。根據(jù)World of Science和CNKI的文獻(xiàn)分析,獲得相似重復(fù)記錄檢測(cè)文獻(xiàn)發(fā)文量排名前五的國(guó)內(nèi)外高產(chǎn)機(jī)構(gòu)如表1和表2所示。
表1 國(guó)外文獻(xiàn)高產(chǎn)機(jī)構(gòu)
表2 國(guó)內(nèi)文獻(xiàn)高產(chǎn)機(jī)構(gòu)
2008年以來(lái),發(fā)文量并列排名第一的研究機(jī)構(gòu)是澳大利亞國(guó)立大學(xué)(Australian National University)、谷歌公司(Google Incorporated)和哈爾濱工業(yè)大學(xué)(Harbin Institute of Technolog)。澳大利亞國(guó)立大學(xué)偏向于隱私保護(hù)的相似重復(fù)記錄檢測(cè)技術(shù),通過(guò)分析各種不泄露隱私信息的方式進(jìn)行相似重復(fù)記錄檢測(cè)[7]。谷歌公司發(fā)表的8篇文獻(xiàn)中有6篇與斯坦福大學(xué)(Stanford University)合作,總被引用次數(shù)為341次,提出基于否定規(guī)則、web、多個(gè)數(shù)據(jù)集和主動(dòng)抽樣等一系列通用實(shí)體識(shí)別模型。哈爾濱工業(yè)大學(xué)在外文期刊上同樣發(fā)表了8篇文獻(xiàn)。希臘開(kāi)放大學(xué)(Hellenic Open University)共發(fā)表6篇文獻(xiàn)。
國(guó)內(nèi)在相似重復(fù)記錄檢測(cè)方面發(fā)表文獻(xiàn)最多的是東北大學(xué),發(fā)表數(shù)量達(dá)18篇,對(duì)關(guān)系數(shù)據(jù)對(duì)象識(shí)別、復(fù)雜數(shù)據(jù)空間中的數(shù)據(jù)對(duì)象識(shí)別、具有時(shí)間特性的數(shù)據(jù)對(duì)象識(shí)別、隱私保護(hù)下數(shù)據(jù)對(duì)象識(shí)別和Deep Web環(huán)境下的實(shí)體識(shí)別研究等方面進(jìn)行了深入研究。哈爾濱工業(yè)大學(xué)在國(guó)內(nèi)期刊上發(fā)表了15篇文獻(xiàn),總產(chǎn)量屬于國(guó)內(nèi)外第一位。高紅、李建中、李玲麗和王洪志等相繼做了記錄匹配的動(dòng)態(tài)約束、基于規(guī)則的實(shí)體解析方法等相關(guān)研究。
White博士[8]認(rèn)為,作者共現(xiàn)頻率越高,則作者在這一研究領(lǐng)域的學(xué)術(shù)相關(guān)性越強(qiáng)。因此,通過(guò)圖譜和網(wǎng)絡(luò)結(jié)構(gòu)分析,可以了解相似重復(fù)記錄檢測(cè)領(lǐng)域的核心作者群。為了更明顯地展示出主要合作團(tuán)隊(duì),將閾值設(shè)為2,使用Bicomb生成作者共現(xiàn)矩陣。共現(xiàn)矩陣導(dǎo)入U(xiǎn)cinet社會(huì)網(wǎng)絡(luò)分析軟件,生成.##h文件,再進(jìn)一步借助Netdraw,經(jīng)過(guò)中心性度計(jì)算,去掉沒(méi)有合作的單節(jié)點(diǎn),生成作者共現(xiàn)社會(huì)網(wǎng)絡(luò)圖譜(見(jiàn)圖2和圖3)。
圖2 國(guó)外文獻(xiàn)作者合作社會(huì)網(wǎng)絡(luò)圖譜
圖3 國(guó)內(nèi)文獻(xiàn)作者合作社會(huì)網(wǎng)絡(luò)圖譜
根據(jù)Ucinet統(tǒng)計(jì)以及圖2和圖3中的信息,在發(fā)表兩篇及以上的作者中有合作關(guān)系的外文文獻(xiàn)作者共57位,中文文獻(xiàn)作者共24位,國(guó)外形成合作團(tuán)體共16個(gè),國(guó)內(nèi)共6個(gè),無(wú)論是作者數(shù)量還是合作團(tuán)隊(duì)數(shù)量都明顯多于國(guó)內(nèi)。網(wǎng)絡(luò)密度的數(shù)值越大則表示網(wǎng)絡(luò)中成員聯(lián)系越緊密,國(guó)外文獻(xiàn)作者合作網(wǎng)絡(luò)的密度為0.071 6,國(guó)內(nèi)為0.284, 國(guó)外研究學(xué)者主要是多個(gè)小團(tuán)體的合作,總體合作情況要優(yōu)于國(guó)內(nèi),而國(guó)內(nèi)除了幾個(gè)大團(tuán)體的合作,其他作者之間的合作關(guān)系不明顯。整體上看,國(guó)內(nèi)外的作者合作結(jié)構(gòu)都比較松散,作者之間聯(lián)系不多。
根據(jù)發(fā)文量排名前十的作者 (見(jiàn)表3),并結(jié)合圖2、圖3的信息可以得出,發(fā)文量高的作者擅長(zhǎng)團(tuán)隊(duì)合作,因此可以從團(tuán)隊(duì)角度分析其研究?jī)?nèi)容。
表3 作者發(fā)文篇數(shù)前十位
國(guó)外文獻(xiàn)作者影響力較大的有四個(gè)合作團(tuán)隊(duì)。第一個(gè)是科廷大學(xué)(Curtin University) 的Ferrante、Randall、Semmens和Boyd等組成的團(tuán)隊(duì), 在2016年和2017年互相合作4篇文獻(xiàn),主要研究在大型醫(yī)療數(shù)據(jù)集上,確保隱私的相似重復(fù)記錄檢測(cè)方法。提出的PPRL(Privacy-Preserving Record Linkage)模型,在不影響隱私和質(zhì)量的情況下擴(kuò)展了記錄鏈接[9]。第二個(gè)是雅典大學(xué)(University of Athens)的Palpanas 、 Papadakis和George等組成的團(tuán)隊(duì), 從2013年起共合作4篇文獻(xiàn),注重研究分塊技術(shù),希望通過(guò)元分塊對(duì)生成的塊進(jìn)行重組以提高精度。第三個(gè)是哈爾濱工業(yè)大學(xué)的李建中、高宏和王宏志等組成的團(tuán)隊(duì),共合作發(fā)表5篇外文文獻(xiàn),同時(shí),這個(gè)團(tuán)隊(duì)在國(guó)內(nèi)期刊上也合作發(fā)表5篇文獻(xiàn)。研究主題包括基于規(guī)則的實(shí)體識(shí)別、異構(gòu)數(shù)據(jù)庫(kù)中的實(shí)體識(shí)別、基于Map-Reduce的大數(shù)據(jù)實(shí)體識(shí)別、基于二分圖的最優(yōu)匹配的記錄相似度計(jì)算、基于并行機(jī)群的大數(shù)據(jù)實(shí)體識(shí)別等。研究范圍十分廣泛,可以看出這個(gè)團(tuán)隊(duì)在國(guó)內(nèi)外相似重復(fù)記錄檢測(cè)領(lǐng)域都具有影響力。第四個(gè)是斯坦福大學(xué)(Stanford University)的Garcia-Molina 和Whang等組成的團(tuán)隊(duì),共發(fā)表4篇合作文獻(xiàn)。結(jié)合無(wú)監(jiān)督學(xué)習(xí)中的聚類(lèi),研究基于規(guī)則的相似重復(fù)記錄檢測(cè)技術(shù)。高產(chǎn)作者中,Verykios、Vassilios和Christen也產(chǎn)生過(guò)合作關(guān)系,但是合作頻次不大,僅有兩篇合作文獻(xiàn)。
國(guó)內(nèi)文獻(xiàn)作者合作中除哈爾濱工業(yè)大學(xué)的團(tuán)隊(duì)外,還有一個(gè)來(lái)自東北大學(xué)的申德榮、聶鐵錚、寇月、于戈、孫琛琛、韓姝敏和楊丹組成的團(tuán)隊(duì),2008年至今,圍繞Deep Web、機(jī)器學(xué)習(xí)、異構(gòu)網(wǎng)絡(luò)、隱私保護(hù)幾個(gè)主題,共發(fā)表13篇相關(guān)文獻(xiàn)。其中,寇月、申德榮等發(fā)表的《一種基于語(yǔ)義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制》是2008年起國(guó)內(nèi)的第一篇有關(guān)相似重復(fù)記錄檢測(cè)的文獻(xiàn),被引用次數(shù)高達(dá)72次。該文獻(xiàn)針對(duì)Deep Web數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題進(jìn)行了深入的研究, 提出一種基于語(yǔ)義及統(tǒng)計(jì)分析的實(shí)體識(shí)別機(jī)制, 能夠有效解決Deep Web數(shù)據(jù)集成中的數(shù)據(jù)消重及表象整合等問(wèn)題[10]。除了這兩個(gè)團(tuán)隊(duì),還有郭文龍和殷秀葉兩人,更擅長(zhǎng)獨(dú)立探索,分別對(duì)異構(gòu)數(shù)據(jù)庫(kù)和大數(shù)據(jù)環(huán)境下的相似重復(fù)記錄檢測(cè)技術(shù)有一定的研究。
關(guān)鍵詞是學(xué)術(shù)論文研究?jī)?nèi)容的高度概括,它的關(guān)聯(lián)性在一定程度上可以體現(xiàn)出學(xué)科領(lǐng)域中的研究熱點(diǎn)[11]。為了保證分析的全面性, 本次圖譜構(gòu)建沒(méi)有限制主題詞來(lái)源,將主題詞類(lèi)型設(shè)置為名詞短語(yǔ)(noun phrases)及突現(xiàn)詞(burst terms), 節(jié)點(diǎn)類(lèi)型設(shè)置為關(guān)鍵詞(keyword),得出國(guó)內(nèi)外文獻(xiàn)關(guān)鍵詞共現(xiàn)圖譜。之后在其基礎(chǔ)上進(jìn)行聚類(lèi),并使用對(duì)數(shù)似然率算法(LLR)抽取關(guān)鍵詞對(duì)每個(gè)聚類(lèi)進(jìn)行自動(dòng)標(biāo)識(shí),由此得到國(guó)內(nèi)外相似重復(fù)記錄檢測(cè)研究的關(guān)鍵詞聚類(lèi)如圖4和圖5所示。模塊值(ModularityQ)和平均輪廓值(Mean Silhouette)是反映聚類(lèi)邊界清晰度和聚類(lèi)規(guī)模的兩個(gè)指標(biāo)。國(guó)外文獻(xiàn)關(guān)鍵詞共現(xiàn)圖譜共有511個(gè)節(jié)點(diǎn),1 394條連線, 網(wǎng)絡(luò)密度為0.010 7,Q值為0.847 3(>0.3),Mean Silhouette值為0.543 8(>0.4); 國(guó)內(nèi)文獻(xiàn)關(guān)鍵詞共現(xiàn)圖譜共有371個(gè)節(jié)點(diǎn), 760條連線, 網(wǎng)絡(luò)密度為0.011 1,Q值為0.875 6(>0.3), Mean Silhouette值為0.932 4(>0.4), 這表明該共現(xiàn)圖譜聚類(lèi)結(jié)構(gòu)顯著, 各聚類(lèi)同質(zhì)性較好。對(duì)聚類(lèi)結(jié)果進(jìn)行統(tǒng)計(jì)后,得到國(guó)內(nèi)外頻數(shù)前十的關(guān)鍵詞匯如表4所示。
圖4 國(guó)外文獻(xiàn)關(guān)鍵詞聚類(lèi)圖譜
圖5 國(guó)內(nèi)文獻(xiàn)關(guān)鍵詞聚類(lèi)圖譜
表4 國(guó)內(nèi)外高頻關(guān)鍵詞
由圖4可知外文文獻(xiàn)包括13個(gè)主要聚類(lèi),分別是實(shí)體匹配(聚類(lèi)#0 entity matching)、元分塊(聚類(lèi)#1 meta-blocking)、重復(fù)數(shù)據(jù)刪除(聚類(lèi)#2 deduplication)、醫(yī)療記錄聯(lián)動(dòng)(聚類(lèi)#3 medical record linkage)、關(guān)聯(lián)數(shù)據(jù)(聚類(lèi)#4 linked data)、數(shù)據(jù)清洗(聚類(lèi)#5 data cleaning)、近似串匹配(聚類(lèi)#6 approximate string matching)、重復(fù)捕獲(聚類(lèi)#7 capture-recapture)、fellegi-sunter模型(聚類(lèi)#8 fellegi-sunter model)、數(shù)據(jù)庫(kù)管理系統(tǒng)(聚類(lèi)#9 database management system)、數(shù)據(jù)鏈接(聚類(lèi)#10 data linkage)、知識(shí)表示(聚類(lèi)#14knowledge representation)、不確定屬性(聚類(lèi)#28 uncertain attribute)。由圖5可知中文文獻(xiàn)包括13個(gè)主要聚類(lèi),分別是實(shí)體識(shí)別(聚類(lèi)#0)、實(shí)體匹配(聚類(lèi)#1)、重復(fù)記錄(聚類(lèi)#2)、智能檢測(cè)(聚類(lèi)#3)、deep web(聚類(lèi)#4)、數(shù)據(jù)質(zhì)量(聚類(lèi)#5)、信息集成(聚類(lèi)#6)、大數(shù)據(jù)(聚類(lèi)#8)、記錄匹配(聚類(lèi)#9)、編輯距離(聚類(lèi)#10)、重復(fù)記錄識(shí)別(聚類(lèi)#11)、SNM(sorted-neighborhood method,基本鄰近排序)算法(聚類(lèi)#12)、mapreduce(聚類(lèi)#13)。國(guó)內(nèi)外的主要聚類(lèi)出現(xiàn)實(shí)體匹配、數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量等類(lèi)似聚類(lèi),具有高度的相似性,總體說(shuō)明在相似重復(fù)記錄檢測(cè)的研究主題上國(guó)內(nèi)外的關(guān)注點(diǎn)是基本一致的。但是國(guó)外文獻(xiàn)在醫(yī)療數(shù)據(jù)鏈接上產(chǎn)生較大聚類(lèi),顯示出國(guó)外研究學(xué)者將相似重復(fù)記錄檢測(cè)應(yīng)用在醫(yī)療數(shù)據(jù)中的程度較高,而國(guó)內(nèi)文獻(xiàn)大多將其運(yùn)用在智能檢測(cè)中。同時(shí)國(guó)內(nèi)文獻(xiàn)關(guān)于Deep Web和大數(shù)據(jù)形成兩個(gè)較大的主要聚類(lèi),表明在2008年以來(lái),國(guó)內(nèi)對(duì)于有關(guān)deep web以及大數(shù)據(jù)的相似重復(fù)記錄研究關(guān)注度要高于國(guó)外。
從表3中可以看出國(guó)內(nèi)外相似重復(fù)記錄檢測(cè)研究的熱點(diǎn)關(guān)鍵詞主要可以分為兩類(lèi)。一類(lèi)是應(yīng)用環(huán)境與領(lǐng)域類(lèi),包括相似重復(fù)記錄、實(shí)體識(shí)別、數(shù)據(jù)清洗、多源異構(gòu)數(shù)據(jù)、大數(shù)據(jù)、deep web、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成、隱私和醫(yī)療記錄鏈接。另一類(lèi)屬于檢測(cè)方法類(lèi),包括知識(shí)庫(kù)、SNM算法、神經(jīng)網(wǎng)絡(luò)、聚類(lèi)、分塊和算法。
SNM算法和CURE算法屬于相似重復(fù)記錄檢測(cè)中兩種比較主流的算法,近幾年,有較多學(xué)者對(duì)這兩種基本算法進(jìn)行了改進(jìn)。SNM算法最早由Hemandez等提出。針對(duì)其在數(shù)據(jù)量過(guò)大時(shí),傳統(tǒng)排序需要大量的時(shí)間和空間的缺點(diǎn),郭文龍[12]提出一種基于長(zhǎng)度過(guò)濾和有效權(quán)值的SNM改進(jìn)算法,將不可能構(gòu)成相似重復(fù)記錄的數(shù)據(jù)排除在外,減少記錄比較的次數(shù),提高檢測(cè)效率。Wang等[13]提出將SNM和迭代相結(jié)合的機(jī)制(SIER),兼顧了檢測(cè)效率與準(zhǔn)確率。之后劉雅思等[14]針對(duì)屬性值缺失時(shí)容易造成誤判的情況,提出基于長(zhǎng)度過(guò)濾和動(dòng)態(tài)容錯(cuò)的改進(jìn)基本鄰近排序(SNM based on length filtering and dynamic fault-tolerance,LF-SNM)算法,根據(jù)記錄其他字段的相似度情況,動(dòng)態(tài)調(diào)整記錄中屬性缺失字段的相似度結(jié)果,提高檢測(cè)精度。CURE算法對(duì)相似重復(fù)記錄進(jìn)行分層聚類(lèi),可以針對(duì)任意分布、類(lèi)型的數(shù)據(jù)進(jìn)行聚類(lèi),效率較快,因此被人們廣泛地應(yīng)用。王民等[15]針對(duì)CURE算法在隨機(jī)抽樣階段存在的隨機(jī)性問(wèn)題,采用Binary-Positive算法進(jìn)行改進(jìn),以獲取數(shù)據(jù)集中更有用的樣例進(jìn)行層次聚類(lèi)。伍恒等[16]在CURE算法的基礎(chǔ)上引入了信息熵,利用信息熵計(jì)算樣本的相似度,根據(jù)樣本間的相似度量與不同簇之間的關(guān)系,將數(shù)據(jù)集分為高低兩個(gè)階段,對(duì)不同階段的樣本采用不同的選取策略。孫元元等[17]提出一種新的原型選擇算法PSCURE(improved prototype selection algorithm based on CURE algorithm),針對(duì)CURE噪聲點(diǎn)不易確定及代表點(diǎn)分散性差的特點(diǎn),利用共享鄰居密度度量的去噪方法和最大最小距離選取代表點(diǎn)方法進(jìn)行改進(jìn),獲得較高的檢測(cè)準(zhǔn)確率。
國(guó)內(nèi)外研究學(xué)者在相似重復(fù)記錄檢測(cè)的應(yīng)用領(lǐng)域及技術(shù)提升上有很高的關(guān)注度,提出了種類(lèi)繁多的檢測(cè)算法,應(yīng)用范圍也越來(lái)越廣。根據(jù)有關(guān)國(guó)內(nèi)外關(guān)鍵詞知識(shí)圖譜以及關(guān)鍵詞聚類(lèi)匯總結(jié)果表的分析可以得出結(jié)論,相似重復(fù)記錄檢測(cè)一直是數(shù)據(jù)清洗領(lǐng)域的熱門(mén)話題,大量的國(guó)內(nèi)外研究學(xué)者不斷在擴(kuò)展相似重復(fù)記錄檢測(cè)的應(yīng)用領(lǐng)域、調(diào)整檢測(cè)相似重復(fù)記錄的角度、優(yōu)化相似重復(fù)記錄檢測(cè)的算法、尋求更加高效的相似重復(fù)記錄檢測(cè)方案,提升檢測(cè)效果。
時(shí)區(qū)演化圖譜能夠直觀地反映研究領(lǐng)域文獻(xiàn)的更新和關(guān)聯(lián)程度,從而反映出研究的演進(jìn)趨勢(shì)和特點(diǎn),以此預(yù)測(cè)未來(lái)研究的發(fā)展方向[5]。Citespace的時(shí)區(qū)演化圖譜根據(jù)產(chǎn)生年份,使用節(jié)點(diǎn)大小和線條色彩來(lái)繪制研究熱點(diǎn)發(fā)展全貌,可以清晰表征研究熱點(diǎn)的發(fā)展軌跡。利用Citespace對(duì)國(guó)內(nèi)文獻(xiàn)和國(guó)外文獻(xiàn)的關(guān)鍵詞進(jìn)行timezone操作,生成時(shí)區(qū)演化圖譜,并且標(biāo)記出每個(gè)年度的重點(diǎn)關(guān)鍵詞 (見(jiàn)圖6和圖7)。各研究熱點(diǎn)顏色差異表征該熱點(diǎn)詞首次出現(xiàn)的時(shí)間差異,由深到淺、由紫向黃的分布代表出現(xiàn)時(shí)間從先到后,呈現(xiàn)出相似重復(fù)記錄檢測(cè)領(lǐng)域研究主題的變遷。這兩幅圖側(cè)重于在時(shí)間維度上表示研究熱點(diǎn)的變化,能夠更好地表達(dá)出研究主題的發(fā)展趨勢(shì)。
圖6 國(guó)外文獻(xiàn)的關(guān)鍵詞時(shí)區(qū)演化圖譜
圖7 國(guó)內(nèi)文獻(xiàn)的關(guān)鍵詞時(shí)區(qū)演化圖譜
2008年以來(lái),國(guó)內(nèi)外對(duì)相似重復(fù)記錄檢測(cè)技術(shù)的研究主要分為三個(gè)階段。
第一個(gè)階段處于2010年之前,國(guó)內(nèi)外研究方向集中在對(duì)相似重復(fù)記錄檢測(cè)的不同應(yīng)用領(lǐng)域的探索。在異構(gòu)數(shù)據(jù)庫(kù)上,Efthymiou等[18]提出一種并行執(zhí)行方法,減少在異構(gòu)數(shù)據(jù)上的數(shù)據(jù)交換消耗。在人口普查上,國(guó)外將相似重復(fù)記錄檢測(cè)應(yīng)用于人口普查中,解決大規(guī)模人口普查問(wèn)題,有效地對(duì)人口數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗,提高了數(shù)據(jù)質(zhì)量。在隱私保護(hù)上,國(guó)外掀起了在缺少值的情況下對(duì)隱私保護(hù)記錄鏈接的研究[19]。國(guó)內(nèi)在保持?jǐn)?shù)據(jù)間相對(duì)距離的基礎(chǔ)上進(jìn)行記錄鏈接,在保證鏈接效果的同時(shí)實(shí)現(xiàn)隱私保護(hù)。此外,韓普等[20]以多源大數(shù)據(jù)為數(shù)據(jù)源,建立出面向醫(yī)療領(lǐng)域?qū)嶓w識(shí)別知識(shí)圖譜框架。
第二個(gè)階段由2010年到2017年,研究方向集中在對(duì)相似重復(fù)記錄檢測(cè)方法的研究。機(jī)器學(xué)習(xí)方法研究熱度久居不下,在監(jiān)督學(xué)習(xí)中,支持向量機(jī)由于在相似重復(fù)記錄識(shí)別上的良好表現(xiàn),被國(guó)內(nèi)外學(xué)者重點(diǎn)研究;在無(wú)監(jiān)督學(xué)習(xí)中,孫琛琛等[21]就面向?qū)嶓w識(shí)別設(shè)計(jì)出一種聚類(lèi)算法,來(lái)彌補(bǔ)匹配問(wèn)題的缺失。由于2010年Hinton在Nature上發(fā)表的深度學(xué)習(xí)論文,研究學(xué)者也開(kāi)始結(jié)合其他研究方法,將深度學(xué)習(xí)應(yīng)用到相似重復(fù)記錄識(shí)別領(lǐng)域。徐紅艷等[22]針對(duì)Deep Web提出一種基于BP神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法,該方法在提高實(shí)體識(shí)別的效率和準(zhǔn)確率的同時(shí)能夠減少實(shí)體識(shí)別中的人工干預(yù)。吳慶輝等[23]結(jié)合神經(jīng)網(wǎng)絡(luò)的非線性映射以及遺傳算法的優(yōu)化特性,獲得了更佳的模型參數(shù)來(lái)解決大數(shù)據(jù)量情況下的相似重復(fù)記錄檢測(cè)問(wèn)題。陳芬[24]提出的量子粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,大幅度減少相似重復(fù)記錄檢測(cè)時(shí)間,在數(shù)據(jù)整合方面有了很大的進(jìn)步。除此之外,用于解決大數(shù)據(jù)量的相似重復(fù)記錄檢測(cè)問(wèn)題的分塊技術(shù)也有進(jìn)一步發(fā)展。Papadakis等[25]通過(guò)分塊擴(kuò)展到大型數(shù)據(jù)集合。佟丹妮等[26]利用局部敏感哈希結(jié)合后綴分塊的二次分塊方法,設(shè)計(jì)適用于大型數(shù)據(jù)的基于安全多方計(jì)算的匹配算法。同一時(shí)段,國(guó)外在眾包上做了深度探索,用人群的智慧和力量來(lái)提高實(shí)體解析的效率和質(zhì)量,Chai等[27]搭建出具有成本效益的眾包實(shí)體解決方案框架,在保證質(zhì)量的前提下,將成本降低至現(xiàn)有方法的1.25%。國(guó)內(nèi)也開(kāi)始考慮到維度的增加會(huì)提升識(shí)別的難度,使用R-樹(shù)構(gòu)建索引保留記錄的高維特性,避免了高維數(shù)據(jù)稀疏性的影響。
第三個(gè)階段是2018年至今,國(guó)外開(kāi)始更注重自動(dòng)數(shù)據(jù)處理,以此減少人類(lèi)的工作量,并且將關(guān)注點(diǎn)移動(dòng)至特征選擇,借助更典型的特征提升檢測(cè)精度。國(guó)內(nèi)在更多類(lèi)型的數(shù)據(jù)上開(kāi)始進(jìn)行相似重復(fù)記錄識(shí)別研究,包括工業(yè)大數(shù)據(jù)、文本大數(shù)據(jù)等。為了提升深度學(xué)習(xí)的學(xué)習(xí)速率,國(guó)外開(kāi)始使用多GPU進(jìn)行計(jì)算,Boratto等同時(shí)利用多核和多GPU架構(gòu)來(lái)執(zhí)行數(shù)據(jù)庫(kù)的概率鏈接,同時(shí)提高了精度和性能[28]。國(guó)內(nèi)更注重安全實(shí)體識(shí)別以及在大規(guī)模記錄上的相似重復(fù)記錄識(shí)別,并且在神經(jīng)網(wǎng)絡(luò)中添加了自注意力機(jī)制。
如今信息系統(tǒng)中數(shù)據(jù)量成指數(shù)增長(zhǎng),對(duì)相似重復(fù)記錄檢測(cè)方法要求的穩(wěn)定性、準(zhǔn)確性及檢測(cè)速度提出巨大的挑戰(zhàn),國(guó)內(nèi)外學(xué)者開(kāi)始尋求各種檢測(cè)方法的集成,希望能夠借助各種方法的優(yōu)勢(shì),達(dá)到更好的效果。
相似重復(fù)記錄檢測(cè)目前面臨的挑戰(zhàn)可以總結(jié)為3點(diǎn)。(1) 對(duì)數(shù)據(jù)缺失值的處理,數(shù)據(jù)缺失會(huì)對(duì)相似重復(fù)記錄的檢測(cè)制造出困難,需要根據(jù)具體數(shù)據(jù)的缺失類(lèi)型,調(diào)整現(xiàn)有的相似度算法等。(2) 對(duì)多數(shù)據(jù)源的識(shí)別,在實(shí)際應(yīng)用中,來(lái)自多個(gè)數(shù)據(jù)源的相同記錄由于組織結(jié)構(gòu)、格式等的不同導(dǎo)致表示形式差異較大,提升檢測(cè)難度。(3) 分布式實(shí)體識(shí)別,在當(dāng)今大數(shù)據(jù)時(shí)代,面向高級(jí)別數(shù)據(jù)量的相似重復(fù)記錄檢測(cè)一直是研究學(xué)者關(guān)注的熱點(diǎn),如何設(shè)計(jì)有效的分塊技術(shù),解決在大數(shù)據(jù)量環(huán)境下碰到的數(shù)據(jù)分布不均的問(wèn)題也是相似重復(fù)記錄檢測(cè)如今面臨的挑戰(zhàn)之一。
本文運(yùn)用可視化信息分析軟件CiteSpace和社會(huì)網(wǎng)絡(luò)分析軟件Ucinet,結(jié)合World of Science和CNKI的數(shù)據(jù)分析,呈現(xiàn)了2008年以來(lái)在相似重復(fù)記錄檢測(cè)領(lǐng)域國(guó)內(nèi)外相關(guān)文獻(xiàn)的關(guān)鍵詞演化圖譜和作者合作網(wǎng)絡(luò),主要分析了相似重復(fù)記錄檢測(cè)領(lǐng)域文獻(xiàn)發(fā)文量的年度分布、發(fā)文核心機(jī)構(gòu)、作者合作群、研究熱點(diǎn)和研究趨勢(shì),為今后探索相似重復(fù)記錄檢測(cè)方法提供了文獻(xiàn)參考及研究方向。