楊 杉
(32683部隊,沈陽,110000)
信息融合和信息主導(dǎo)已成為現(xiàn)代戰(zhàn)爭體系作戰(zhàn)能力生成與發(fā)揮的重要機(jī)理[1],隨著裝備信息化建設(shè)的不斷深入,如何將多源異構(gòu)的裝備數(shù)據(jù)進(jìn)行有效的融合集成已經(jīng)成為不可回避的問題[2]。裝備數(shù)據(jù)聚合的主要矛盾是異源數(shù)據(jù)裝備命名不唯一,該問題導(dǎo)致數(shù)據(jù)匯聚后難以直接使用,后期整編、維護(hù)、管理成本巨大,亟需尋找一種行之有效的裝備名稱匹配聚合方法。當(dāng)前數(shù)據(jù)聚類、聚合的算法模型眾多,在不同應(yīng)用中效果迥異[3],但在裝備數(shù)據(jù)聚合問題上尚無典型的研究案例和行之有效的實(shí)施方法。因此,本文針對裝備數(shù)據(jù)聚合進(jìn)行研究,根據(jù)裝備名稱的特點(diǎn)設(shè)計了裝備數(shù)據(jù)的聚合模型和聚合流程,并嘗試為該模型提供一個適用性較強(qiáng)的相似度計算方法。
“裝備數(shù)據(jù)”沒有明確的定義,其內(nèi)涵和外延存在較多解讀,有學(xué)者將“裝備數(shù)據(jù)”定義為“用于描述裝備自身特性和狀態(tài)的數(shù)據(jù)以及裝備全系統(tǒng)全壽命管理活動所涉及的數(shù)據(jù)的統(tǒng)稱”[4]。裝備數(shù)據(jù)涵蓋范圍寬泛,包含裝備屬性數(shù)據(jù)、裝備標(biāo)準(zhǔn)數(shù)據(jù)、裝備衍生數(shù)據(jù)、裝備數(shù)質(zhì)量數(shù)據(jù)等。作為裝備數(shù)據(jù)的主體,這些數(shù)據(jù)都含有大量的裝備名稱,由于裝備迭代更新加快、信息系統(tǒng)不相兼容、采集任務(wù)標(biāo)準(zhǔn)不一、人工采報內(nèi)容格式不規(guī)范等原因,當(dāng)前裝備數(shù)據(jù)中存在大量裝備名稱不一致的情況,這為裝備數(shù)據(jù)融合帶來了困難,使裝備數(shù)據(jù)難以形成統(tǒng)一的數(shù)據(jù)資源。
裝備名稱不一致是指同一裝備因數(shù)據(jù)來源不同存在多種命名方式的現(xiàn)象,該現(xiàn)象會嚴(yán)重影響數(shù)據(jù)質(zhì)量,導(dǎo)致融合后數(shù)據(jù)失準(zhǔn),造成數(shù)據(jù)分析偏差,甚至影響指揮決策。例如裝備A可能有A1、A2、A3等多個名稱,如果直接歸集使用,A的統(tǒng)計數(shù)量會有缺漏,A1等非標(biāo)準(zhǔn)名稱也將無法完成有效的信息關(guān)聯(lián),引發(fā)后期數(shù)據(jù)應(yīng)用結(jié)果的混亂。所以在數(shù)據(jù)融合過程中必須識別出相同型號的裝備并將其聚合。裝備名稱不一致問題產(chǎn)生原因多、發(fā)生頻率高,情況也較為復(fù)雜,當(dāng)前主要通過人工整編的方式進(jìn)行解決,但因數(shù)據(jù)體量巨大,匹配工作效率低、容易出錯。
數(shù)據(jù)聚合的本質(zhì)是數(shù)據(jù)匹配和對齊,是判斷隸屬2個不同數(shù)據(jù)集合中的2個實(shí)體是否屬于同一個實(shí)體的過程[5]。對裝備數(shù)據(jù)聚合而言,其核心是對裝備名稱文本數(shù)據(jù)的聚合,目標(biāo)是通過匹配對齊,消除數(shù)據(jù)的不一致性,提升數(shù)據(jù)的穩(wěn)定性和準(zhǔn)確性。為了有針對性地解決裝備數(shù)據(jù)的聚合問題,本文對當(dāng)前的主流方法進(jìn)行了研究分析。
數(shù)據(jù)聚合研究因數(shù)據(jù)時代的到來而備受關(guān)注[6-8],當(dāng)前數(shù)據(jù)聚合的主流方法可分為3類:
1)基于概率的統(tǒng)計聚合模型。該模型是通過概率和權(quán)重的計算實(shí)現(xiàn)數(shù)據(jù)與主題詞的聚合;
2)監(jiān)督聚合模型。此模型是依托構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)數(shù)據(jù)聚合;
3)無監(jiān)督聚合模型。該模型針對數(shù)據(jù)本身進(jìn)行研究,主要通過文本相似度計算實(shí)現(xiàn)信息的聚類。
前2類模型針對的是長文本的數(shù)據(jù)聚類,主要應(yīng)用于網(wǎng)絡(luò)信息的檢索,重點(diǎn)是對數(shù)據(jù)的數(shù)量和特征進(jìn)行聚合。裝備數(shù)據(jù)聚合因裝備名稱較短,難以統(tǒng)計詞頻和提取特征,統(tǒng)計模型和機(jī)器學(xué)習(xí)模型并不適用。故本文首先鎖定無監(jiān)督聚合模型作為解決方向。
無監(jiān)督聚合模型又分為“計算字符距離”和“計算語義相似度”2類。前者是將文本數(shù)據(jù)作為字符序列進(jìn)行量化分析,利用一些距離來衡量二者的相似度;后者一般需要依賴外部語義詞典進(jìn)行知識匹配來完成相似度計算[9-10]。裝備的命名主要由阿拉伯?dāng)?shù)字、英文字母、漢字及少量羅馬字母組成,構(gòu)成復(fù)雜、不易分詞且缺少專用的外部詞典;同時,裝備名稱特征具有稀疏性,容易對語義相似度計算的準(zhǔn)確性造成較大的負(fù)面影響,所以不建議使用語義相似度進(jìn)行聚合。綜上所述,本文在無監(jiān)督聚合模型的基礎(chǔ)上,進(jìn)一步確定采用基于字符距離計算相似度的方法解決裝備數(shù)據(jù)聚合問題。
裝備數(shù)據(jù)聚合是指依據(jù)一定的規(guī)則將同一個裝備對象的多個名稱進(jìn)行匹配對齊,根據(jù)匹配結(jié)果對待聚合數(shù)據(jù)集進(jìn)行整合的過程。假定裝備數(shù)據(jù)集DB中的2條數(shù)據(jù)D1和D2,則D1和D2匹配可定義為:
(1)
式中:n為裝備實(shí)體名稱;Sim表示2條數(shù)據(jù)中裝備名稱的聚合相似程度,Sim值越大,n1和n2越相似??筛鶕?jù)聚合要求設(shè)定閾值δ,如果Sim>δ,則對2條數(shù)據(jù)進(jìn)行聚合處理。
裝備名稱具有規(guī)范性,在聚合過程中應(yīng)向標(biāo)準(zhǔn)名稱看齊,規(guī)范的裝備名稱來源于裝備字典,所以如果聚合任務(wù)明確了裝備字典DD,可先將DB中的具體裝備名稱ni與DD進(jìn)行匹配,選取DD中與ni相似度最高的名稱作為匹配成功項,記為ADDi,即Sim(Di,ADDi)=SimMax。因該匹配結(jié)果僅取最大值,本文稱其為唯一性匹配。此時聚合的匹配定義由閾值判斷轉(zhuǎn)化為唯一性判別:
(2)
裝備數(shù)據(jù)聚合流程因裝備數(shù)據(jù)種類不同而略有差異,但核心思想一致,本文將裝備數(shù)據(jù)聚合流程分為3個階段:
Step1裝備名稱的提取和預(yù)處理。將裝備名稱從所有需要聚合裝備數(shù)據(jù)集中全部提取出來,形成文本數(shù)據(jù)集,再對裝備名稱文本集進(jìn)行剔重和清洗等預(yù)處理,以提升聚合的質(zhì)量和效率;
Step2裝備名稱的匹配對齊。采用合適的相似度算法對裝備的名稱進(jìn)行匹配計算,如果有明確裝備字典,應(yīng)將裝備數(shù)據(jù)中的名稱嚴(yán)格與裝備字典進(jìn)行唯一性匹配,否則通過設(shè)定相似度閾值δ完成匹配對齊;
Step3裝備數(shù)據(jù)整合。裝備名稱匹配對齊后,首先應(yīng)按標(biāo)準(zhǔn)統(tǒng)一裝備名稱,使裝備名稱具備唯一性,如果在聚合任務(wù)中沒有明確的裝備字典,建議選取信息較為完整的裝備名稱作為聚類后統(tǒng)一的標(biāo)準(zhǔn)。然后根據(jù)裝備數(shù)據(jù)結(jié)構(gòu)確定組合主鍵(一般包含裝備名稱,隸屬部門,裝備狀態(tài)等),對數(shù)據(jù)進(jìn)行刪除重復(fù)項、整合同類數(shù)據(jù)等操作,進(jìn)而得到最終聚合后的數(shù)據(jù)集合。
整個過程如圖1所示。
圖1 裝備數(shù)據(jù)的聚合流程
分析裝備數(shù)據(jù)聚合過程可知,其核心任務(wù)是對裝備名稱的匹配對齊,所以本文研究的重點(diǎn)是匹配所需的相似度算法。
基于字符距離的相似度算法有較為豐富的研究成果,當(dāng)前的主流算法有歐氏距離、余弦距離[11]、最小編輯距離[12]、Jaro-Winkler距離[13]等。這些相似度算法各有特點(diǎn),沒有明顯優(yōu)劣。其中,最小編輯距離算法、余弦相似度等算法比較適合以分詞為單位的計算,Jaro-Winkler算法更適合以字符為單位的計算[14]。裝備名稱當(dāng)前缺少專用“詞袋”難以分詞,故Jaro-Winkler算法相對更適用于裝備名稱的相似度計算,但其加強(qiáng)對相同前綴評估的權(quán)重不符合裝備名稱的特點(diǎn)需求,因此本文嘗試在該算法的基礎(chǔ)上進(jìn)行改進(jìn)。
裝備型號命名一般用字母、數(shù)字和文字的組合表示該裝備的基本性能、規(guī)格和產(chǎn)品種類。分析裝備數(shù)據(jù)名稱不一致現(xiàn)象,多數(shù)是由品牌、年代、型號、計量單位的不同寫法造成的。雖然這些具體標(biāo)識不完全一致,但內(nèi)容本質(zhì)上是相同的,所構(gòu)成的裝備名稱文本也分散存在大量共有子域,例如“1954年式7.62毫米手槍”“54式手槍”和“54式7.62 mm手槍”就擁有“54”“7.62”和“手槍”等相同子字符串。據(jù)此,本文在Jaro-Winkler的基礎(chǔ)上增加對最長公共子序列的度量,具體算法如下:
首先引入配窗口概念,對于字符串s1和s2,二者之間的匹配窗口記為MW(matching window):
(3)
式中:|s1|和|s2|表示2字符串的長度,當(dāng)2個相同字符的距離不大于MW時認(rèn)定該2個字符是匹配的,因此通過MW可過濾掉距離相對較遠(yuǎn)的相同字符。過濾后得到新的字符串sn1和sn2,因匹配字符個數(shù)相同,將新字符串長度記為m:
m=|sn1|=|sn2|
(4)
此時sn1和sn2具有相同的字符集合,但部分字符位置不同。通過交換字符的方式將sn1轉(zhuǎn)變?yōu)閟n2,將交換次數(shù)記為ts,則換位數(shù)目是發(fā)生換位次數(shù)的一半,記為t:
(5)
通過m和t可以計算得到Jaro距離dj:
(6)
Winkler在Jaro的基礎(chǔ)上,對算法進(jìn)行了補(bǔ)充,增加了對2個字符串前綴相同部分的考量,相似度算法改進(jìn)如下:
dw=dj+(lp(1-dj))
(7)
式中:p為常量,范圍為(0~0.25),根據(jù)實(shí)際情況進(jìn)行調(diào)整,默認(rèn)值通常設(shè)置為0.1;l為2個字符串的起始部分存在的相同字符個數(shù),即相同最大前綴長度。
定義:對2個字符串A和B在不改變字符順序的基礎(chǔ)上進(jìn)行字符刪減操作,將得到的長度最長的相同字符序列定義為A和B的最長公共子序列LCS(A,B),序列長度(字符個數(shù))為LLCS,定義A和B公共子序列相似度系數(shù)為:
(8)
由LLCS≤Min(|SA|,|SB|)可知PLCS≤1,所以可以用PLCS代替式(7)中的l和p2個變量,將Jaro-Winkler 算法改進(jìn)得到新的dAB:
dAB=dj+PLCS(1-dj)
(9)
考慮到2個系數(shù)疊加后相似度數(shù)值較大,比值結(jié)果差距較小,為了在應(yīng)用中更容易設(shè)定相似度閾值,對結(jié)果進(jìn)行差異放大處理,得到:
Sim(A,B)=2(dj+PLCS(1-dj))-1
(10)
如果Sim(A,B)<0,則認(rèn)定A和B不具備匹配條件;如果Sim(A,B)= 1,則認(rèn)定A和B相同。綜合公式(6)和(10),改進(jìn)后A和B的相似度計算公式為:
(11)
改進(jìn)后的算法與Jaro-Winkle算法相比,在規(guī)避前綴錯誤度量的同時,增強(qiáng)了對共有部分的評估的權(quán)重,更符合裝備名稱特性,理論上可以提高聚合匹配的準(zhǔn)確度。
為了驗(yàn)證本文設(shè)計的算法在裝備名稱聚合上的匹配效果,實(shí)驗(yàn)分別在典型數(shù)據(jù)集和較大規(guī)模數(shù)據(jù)集中應(yīng)用了該算法,并與常用的字符距離相似度算法進(jìn)行了比對分析。
在單樣本比對實(shí)驗(yàn)中,本文盡量選取有代表性的典型情況進(jìn)行計算分析。數(shù)據(jù)集以字典中“1954年式7.62毫米手槍”為基礎(chǔ)進(jìn)行擴(kuò)展獲取,在裝備數(shù)據(jù)聚合過程中常見的裝備名稱不一致的情況有以下3種:
1)年代、口徑、型號等標(biāo)識簡寫。擴(kuò)展數(shù)據(jù)為“①54年式7.62毫米手槍”和“②54年式7.62手槍”;
2)計量單位標(biāo)準(zhǔn)不同。擴(kuò)展數(shù)據(jù)為“③1954年式7.62 mm手槍”;
3)缺少部分前后綴標(biāo)識。擴(kuò)展數(shù)據(jù)為“④1954年式手槍”和“⑤7.62毫米手槍”。嚴(yán)格意義上缺少前后綴標(biāo)識的裝備名稱很有可能產(chǎn)生歧義,例如“7.62毫米手槍”可能存在多個年代型號與之匹配,在數(shù)據(jù)量較大時,為了提升數(shù)據(jù)質(zhì)量應(yīng)修正補(bǔ)全這些數(shù)據(jù),在典型數(shù)據(jù)集中因樣本數(shù)量較少,暫不考慮名稱歧義。
以上同一裝備的不同名稱,統(tǒng)稱為該裝備的正例。在裝備名稱匹配過程中,除了正例,裝備數(shù)據(jù)往往更多的是非同一裝備的名稱反例,為了實(shí)現(xiàn)裝備名稱的自動匹配,算法應(yīng)能夠區(qū)分正例和反例,為了全面分析算法,在典型數(shù)據(jù)集中添加2個與正例相似的反例:“⑥1959年式9毫米手槍”和“⑦1954年式12.7毫米穿甲燃燒彈”,用于測試算法的反向匹配?,F(xiàn)將7條數(shù)據(jù)分別與裝備字典中的對應(yīng)的標(biāo)準(zhǔn)名稱進(jìn)行比對,應(yīng)用本文算法結(jié)果如圖2所示。
圖2 不同名稱相似度對比結(jié)果
從2個維度對圖2的實(shí)驗(yàn)結(jié)果進(jìn)行分析。維度1是匹配分析,將7個數(shù)據(jù)樣本分為3組,正例①~⑤為一組,該組數(shù)據(jù)與正例字典名稱的相似度明顯高于2個反例字典名稱,采用唯一性匹配原則,正例可以匹配到正例字典名稱;同樣⑥和⑦各為一組,與自身對應(yīng)的字典名稱相似度最高,也能夠完成正確匹配。維度2是正反例區(qū)分情況分析,比較7個樣本與正例字典名稱相似度計算結(jié)果,正例均高于反例,但反例的相似度與正例⑤和④較為接近,反觀7個樣本與2個反例字典名稱,則明顯能夠進(jìn)行正反例區(qū)分。綜合分析結(jié)果,在典型情況的數(shù)據(jù)樣本中,本文提出的算法可以實(shí)現(xiàn)將不一致的裝備名稱匹配到裝備字典中對應(yīng)的標(biāo)準(zhǔn)名稱,也能夠一定程度區(qū)分正反例,但遇到過于簡單的正例和極易混淆的反例(如⑤和⑥),區(qū)分界限不明顯。
為了橫向?qū)Ρ缺疚乃惴ㄅc各主流算法,現(xiàn)采用不同算法對典型情況數(shù)據(jù)集進(jìn)行計算,實(shí)驗(yàn)結(jié)果如表1所示。
表1 6種相似度算法對比結(jié)果
對表1進(jìn)行分析,因?yàn)闅W氏距離和余弦距離主要考慮字符出現(xiàn)的頻率,所以這兩個算法對缺少標(biāo)識的情況較為敏感,正例匹配的相似度范圍大,無裝備字典聚合時相似度閾值設(shè)定較為困難,而且二者不考慮字符的位序,簡化的正例和相近的反例相似度接近,容易錯誤匹配;最小編輯距離算法對字符串的長度和位序都較為敏感,正向匹配較為困難,甚至出現(xiàn)反例⑥的相似度高于正例⑤的相似度,也不符合裝備名稱聚合要求;Jaro相似度相比前3個算法較穩(wěn)定,但對連續(xù)相同字符不敏感導(dǎo)致正例相似度區(qū)間偏大,Jaro-Winkle過于看重相同前綴導(dǎo)致⑦高于⑤,也不適用與裝備名稱的聚合;綜合比較,在典型數(shù)據(jù)集中本文算法較其他算法更為穩(wěn)定,匹配準(zhǔn)確率相對較高。
為了驗(yàn)證本文算法的匹配準(zhǔn)確率和魯棒性,將算法應(yīng)用于較大規(guī)模的裝備數(shù)據(jù)集,數(shù)據(jù)集約30 000條裝備數(shù)據(jù),提取裝備名稱實(shí)例1 221個。為了對算法的有效性進(jìn)行分析,將匹配結(jié)果進(jìn)行二元分類,建立混淆矩陣:
True Positive(真正,TP):同一裝備且名稱符合匹配;
True Negative(真負(fù),TN):不是同一裝備且不符合匹配;
False Positive(假正,FP):不是同一裝備但符合匹配;
False Negative(假負(fù),FN):是同一裝備但不符合匹配。
通過混淆矩陣可以得到算法的準(zhǔn)確率ACC:
(12)
算法的精確率P和召回率R分別為:
(13)
其中精確率和召回率是2個不同角度對算法的分析,理想情況下,P和R同時越高越好,但現(xiàn)實(shí)情況中,準(zhǔn)確率與召回率往往呈反比,根據(jù)裝備聚合的要求應(yīng)保證盡量不錯漏正例,實(shí)驗(yàn)的閾值確定原則為在保證召回率的前提下精確率最大化。同時為了全面分析算法的有效性,實(shí)驗(yàn)中引用更為綜合的評價指標(biāo)F-Measure[15],其定義為:
(14)
下面,針對裝備數(shù)據(jù)集中的裝備名稱實(shí)例分別采用Jaro-Winkle、最小編輯距離、余弦距離等相似度算法和本文算法進(jìn)行計算,得到的準(zhǔn)確率、精確率、召回率和F1(β=1)結(jié)果如圖3所示。
圖3 4種算法評價指標(biāo)綜合對比
1)4種算法的ACC值較為接近,主要原因是數(shù)據(jù)集中的反例遠(yuǎn)多于正例,所以ACC值參考意義不大;
2)各算法的P值都相對較低,表明符合匹配條件的反例較多,分析主要原因是部分裝備名稱相似度極高,橫向比較,本文算法的TP和FP相對較少;
3)通過對結(jié)果的綜合比較分析,本文算法的精確率、召回率、F1值相較其它3種算法都有較好的表現(xiàn)。
對匹配成功和失敗的數(shù)據(jù)樣本進(jìn)一步觀察,可以總結(jié)出3點(diǎn)規(guī)律:一是裝備名稱包含的前后綴標(biāo)識越多,本文算法的準(zhǔn)確率越高,相較其它算法優(yōu)勢越明顯;二是算法的有效性與數(shù)據(jù)質(zhì)量有較大關(guān)聯(lián)性,裝備名稱過于簡單或存在歧義的數(shù)據(jù)樣本無論在那種算法中都難以匹配成功;三是文中的所有基于字符的相似度算法都是純文本分析,難以剔除極度相似的裝備名稱反例。
本文在分析當(dāng)前的主流的文本聚合算法的基礎(chǔ)上,針對裝備數(shù)據(jù)的特點(diǎn),構(gòu)建了裝備數(shù)據(jù)的聚合模型并提供了相應(yīng)的相似度算法,經(jīng)過實(shí)驗(yàn)分析,該算法對裝備數(shù)據(jù)適配性較高,能夠一定程度上解決裝備名稱不一致帶來的數(shù)據(jù)聚合難題,但如果想從源頭上消除裝備名稱不一致現(xiàn)象仍需要在系統(tǒng)研發(fā)、數(shù)據(jù)采報等各個環(huán)節(jié)的工作中嚴(yán)格落實(shí)制度標(biāo)準(zhǔn),確保裝備字典的統(tǒng)一。本文是對裝備數(shù)據(jù)聚合工作的初步探索,在未來的工作中可在以下2個方面做進(jìn)一步研究:針對裝備名稱命名規(guī)范進(jìn)行分析,尋求合適的分詞方法以進(jìn)一步提升聚合效率;構(gòu)建專用的外部詞典,嘗試將字符距離相似度計算與語義相似計算相結(jié)合,以剔除極度相似的反例,進(jìn)一步提升匹配的精確率。