王 鑫,趙 龍,張淑娟,汪 玉,秦丹丹,孫 偉
(1.國網(wǎng)安徽省電力有限公司 電力科學(xué)研究院,安徽 合肥 230022; 2.國網(wǎng)安徽省電力有限公司,安徽 合肥 230061)
Web 3.0與大數(shù)據(jù)時(shí)代的到來證實(shí)了多種前期技術(shù)理論的實(shí)踐與應(yīng)用的可行性,谷歌公司在2012年提出的知識(shí)圖譜為其代表性實(shí)例之一[1]。知識(shí)圖譜通過結(jié)合不同個(gè)體的關(guān)系、屬性可視化模型與語義網(wǎng)(Semantic Web)技術(shù),使復(fù)雜現(xiàn)代應(yīng)用系統(tǒng)實(shí)現(xiàn)便捷、高效的人機(jī)信息交互。知識(shí)圖譜是多種現(xiàn)代科技的結(jié)合技術(shù),包含智能語義[2]、知識(shí)提取[3]、知識(shí)關(guān)聯(lián)[4]、知識(shí)融合[5]、知識(shí)加工[6]等。其中,知識(shí)融合通過利用機(jī)器學(xué)習(xí)方法,從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)集中,提取近義個(gè)體的關(guān)系及屬性并生成關(guān)聯(lián),實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的信息交互及協(xié)作應(yīng)用。
知識(shí)融合是知識(shí)圖譜的關(guān)鍵環(huán)節(jié),也是支撐知識(shí)圖譜可用性的重要因素,其核心為實(shí)體的消歧(disambiguation)[7]與解析(resolution)[8]。實(shí)體的消歧指大量數(shù)據(jù)中同義實(shí)體的抽取及分類,一般用于海量異構(gòu)數(shù)據(jù)的實(shí)體融合;實(shí)體的解析指實(shí)體間或?qū)嶓w與屬性間相互關(guān)系的分析,一般用于異構(gòu)、同義實(shí)體的屬性融合。實(shí)現(xiàn)實(shí)體的消歧與解析通常需要結(jié)合自然語言處理及機(jī)器學(xué)習(xí)技術(shù),前者將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),后者從結(jié)構(gòu)化數(shù)據(jù)中分析、提取、融合實(shí)體的關(guān)聯(lián)。機(jī)器學(xué)習(xí)中,監(jiān)督式學(xué)習(xí)(樸素貝葉斯、支持向量機(jī)等)利用大量訓(xùn)練數(shù)據(jù)樣本建立實(shí)體、屬性、關(guān)系的分析模型并用于后續(xù)的知識(shí)融合,具有較高的實(shí)時(shí)性但需要一定的數(shù)據(jù)成本;無監(jiān)督式學(xué)習(xí)(主成分分析、孤立森林等)無需訓(xùn)練成本,但其復(fù)雜度較高,尤其在大數(shù)據(jù)環(huán)境中較難滿足知識(shí)融合的實(shí)時(shí)性。
本文提出一種基于自組織映射(self-organizing map,SOM)神經(jīng)網(wǎng)絡(luò)的低復(fù)雜度、無監(jiān)督式知識(shí)融合算法。該算法面向多維、異構(gòu)的配電網(wǎng)半結(jié)構(gòu)化異構(gòu)數(shù)據(jù)源,通過同構(gòu)數(shù)據(jù)間的知識(shí)聚類及異構(gòu)數(shù)據(jù)間的自組織迭代,有效降低分析復(fù)雜度,從而保障知識(shí)融合的實(shí)時(shí)性。本文提出的算法被用于國網(wǎng)安徽省配電網(wǎng)知識(shí)圖譜系統(tǒng)的構(gòu)建,并利用全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證了知識(shí)融合的效率及應(yīng)用可行性。
目前,隨著知識(shí)圖譜在各行各業(yè)的迅速普及,跨業(yè)、跨界數(shù)據(jù)的知識(shí)融合技術(shù)已經(jīng)引起學(xué)術(shù)界的廣泛關(guān)注。
國內(nèi)方面,文獻(xiàn)[9]在知識(shí)圖譜構(gòu)建技術(shù)的綜述中,具體解釋了知識(shí)融合的概念、意義及知識(shí)融合在知識(shí)圖譜應(yīng)用中的重要性;文獻(xiàn)[10]具體分析了現(xiàn)代知識(shí)融合的支撐理論架構(gòu),在知識(shí)融合的各階段列舉了多種知識(shí)融合理論模型;文獻(xiàn)[11]分析了先網(wǎng)絡(luò)環(huán)境的碎片化知識(shí)特征,提出了一種結(jié)合非線性融合模型的知識(shí)超網(wǎng)絡(luò)的融合框架;文獻(xiàn)[12]針對解決推薦服務(wù)的信息爆炸問題,通過推薦服務(wù)提出了一種基于貝葉斯網(wǎng)絡(luò)模型的知識(shí)圖譜融合技術(shù);文獻(xiàn)[13]面向用戶行為數(shù)據(jù)的采集與共享應(yīng)用,在科研數(shù)據(jù)管理系統(tǒng)中通過知識(shí)融合技術(shù)分析了科研工作者的行為數(shù)據(jù)共享機(jī)制,并通過開發(fā)、應(yīng)用移動(dòng)行為數(shù)據(jù)采集APP開展了實(shí)證研究。
國外方面,文獻(xiàn)[14]針對車載自組織網(wǎng)絡(luò)的上下文信息共享問題,提出了一種基于非標(biāo)準(zhǔn)、非單調(diào)推理服務(wù)的知識(shí)融合算法,實(shí)現(xiàn)了車載網(wǎng)絡(luò)節(jié)點(diǎn)不一致上下文注釋的自動(dòng)協(xié)調(diào)及合并;文獻(xiàn)[15]針對多源區(qū)間值(interval-valued)數(shù)據(jù)的動(dòng)態(tài)融合,提出了一種將多源區(qū)間值數(shù)據(jù)轉(zhuǎn)換為梯形模糊顆粒的模糊信息融合方法及增量分析算法;文獻(xiàn)[16]面向基于社交行為提示的生物識(shí)別應(yīng)用,通過融合個(gè)人知識(shí)、社交行為知識(shí)和獨(dú)有生物特征,增強(qiáng)了傳統(tǒng)生物識(shí)別系統(tǒng)的性能;文獻(xiàn)[17]分析了基于知識(shí)圖譜的專家系統(tǒng)、搜索引擎及知識(shí)問答系統(tǒng)在害蟲及作物病害的應(yīng)用,介紹了知識(shí)圖譜的知識(shí)融合技術(shù)在智慧農(nóng)業(yè)的應(yīng)用現(xiàn)狀;文獻(xiàn)[18]針對電力設(shè)備電源質(zhì)量問題的多樣性及復(fù)雜性,提出了一種基于知識(shí)-數(shù)據(jù)融合的神經(jīng)網(wǎng)絡(luò)模型,在常規(guī)信息、質(zhì)量信息、過程信息等異構(gòu)數(shù)據(jù)中有效提高了電源質(zhì)量問題的分析效率;文獻(xiàn)[19]面向異構(gòu)知識(shí)圖譜的融合應(yīng)用,提出了一種基于圖結(jié)構(gòu)數(shù)據(jù)、圖神經(jīng)網(wǎng)絡(luò),用于融合知識(shí)圖譜實(shí)體子圖結(jié)構(gòu)的知識(shí)融合機(jī)制,實(shí)現(xiàn)了知識(shí)圖譜中實(shí)體的融合嵌入。
本文提出的算法針對配電網(wǎng)大數(shù)據(jù)環(huán)境中異構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)融合,而高效準(zhǔn)確的信息融合離不開良好的本體模型的構(gòu)建。本體(ontology)在信息學(xué)科中是一種對于數(shù)據(jù)的抽象概念模型,本體模型為知識(shí)融合提供了模板和依據(jù)。本體模型由實(shí)體、關(guān)系、屬性等三元組組成,定義為:
O=(E,R,P)
(1)
其中:O為本體;E為實(shí)體(entity);R為關(guān)系(relation);P為屬性(property)。實(shí)體、關(guān)系為結(jié)構(gòu)化數(shù)據(jù),而關(guān)系是一類數(shù)據(jù)的集合,包含實(shí)體所對應(yīng)的所有屬性的關(guān)聯(lián)規(guī)則。實(shí)體、關(guān)系在同構(gòu)數(shù)據(jù)集中具有同等的定義,但在異構(gòu)數(shù)據(jù)集間需通過實(shí)體消歧進(jìn)行實(shí)體融合。屬性為非結(jié)構(gòu)化數(shù)據(jù)的集合,包含實(shí)體所對應(yīng)的事件等自然語言文本數(shù)據(jù)。
本文提出的知識(shí)融合是對同義、近義本體的實(shí)體及屬性映射,因而需進(jìn)行本體間的匹配度計(jì)算。本體匹配度的計(jì)算過程為:
MMatch(OA,OB)=αSsim(EA,EB)+
(1-α)Ssim(pA,pB)Ssim(R←pA,R←pB)
(2)
p=argmaxSsim(i∈P,i′∈P′)
(3)
其中:MMatch為匹配度;Ssim為0~1之間的相似度;α為匹配度權(quán)重系數(shù),與同構(gòu)數(shù)據(jù)集的大小相關(guān)。(2)式、(3)式中,2個(gè)本體間的匹配度由實(shí)體相似度、最大屬性相似度p及其所對應(yīng)屬性的關(guān)系相似度而計(jì)算得出。
根據(jù)上述的本體模型,本文提出一種基于自組織映射神經(jīng)網(wǎng)絡(luò)的異構(gòu)本體知識(shí)融合算法(SOM-based knowledge fusion algorithm for heterogeneous ontologies,SOM-KFH)。
自組織映射神經(jīng)網(wǎng)絡(luò)是一種競爭型、無監(jiān)督式神經(jīng)網(wǎng)絡(luò),常用于數(shù)據(jù)聚類[20]、協(xié)同控制[21]等。該神經(jīng)網(wǎng)絡(luò)中,各神經(jīng)元通過競爭、聚類、加權(quán)過程的多次迭代,實(shí)現(xiàn)復(fù)雜的信息處理。
通用的自組織映射神經(jīng)網(wǎng)絡(luò)模型如圖1所示。該模型中,SOM-KFH的輸出神經(jīng)元對應(yīng)異構(gòu)數(shù)據(jù)庫的所有本體,輸入神經(jīng)元對應(yīng)待匹配本體,而競爭過程則對應(yīng)匹配度的比較過程。
圖1 自組織映射神經(jīng)網(wǎng)絡(luò)模型
SOM-KFH通過下述方式實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的本體映射。首次迭代中,根據(jù)輸入層輸入的待匹配本體在競爭層進(jìn)行本體的匹配競爭,在第1個(gè)異構(gòu)數(shù)據(jù)庫中選擇最高匹配度本體為獲勝神經(jīng)元;然后根據(jù)SOM領(lǐng)域函數(shù),以獲勝神經(jīng)元為中心聚類匹配度較高的其他神經(jīng)元,并根據(jù)領(lǐng)域函數(shù)值賦值下輪迭代的匹配權(quán)值,到此首次迭代結(jié)束。二輪迭代中,輸入上一次聚類的神經(jīng)元及對應(yīng)的匹配權(quán)值,在第2個(gè)異構(gòu)數(shù)據(jù)庫中選擇與聚類神經(jīng)元中任意一個(gè)神經(jīng)元匹配度最高的神經(jīng)元,選為該輪的獲勝神經(jīng)元;繼續(xù)迭代聚類與匹配權(quán)值更新過程,在后續(xù)數(shù)據(jù)庫中持續(xù)進(jìn)行匹配競爭。最后選擇所有數(shù)據(jù)庫的獲勝神經(jīng)元,映射相關(guān)本體并進(jìn)行后續(xù)的屬性融合。
下面舉例介紹SOM-KFH算法的具體運(yùn)作及應(yīng)用過程,該過程假設(shè)從A、B、C、D 4個(gè)異構(gòu)數(shù)據(jù)庫中,選擇與待匹配本體最為相近的4個(gè)本體,進(jìn)行屬性融合。
(1) 首次匹配。以首個(gè)數(shù)據(jù)庫D的所有本體為輸入神經(jīng)元,待匹配本體為輸出神經(jīng)元,根據(jù)(2)式、(3)式進(jìn)行匹配度比較,選擇獲勝神經(jīng)元,如圖2所示。
圖2 SOM-KFH首次迭代
匹配度比較過程如下:
(4)
其中:Wwinner為獲勝神經(jīng)元;i為輸入神經(jīng)元編號(hào);N為輸入神經(jīng)元集合;Iin為輸入神經(jīng)元;Oout為輸出神經(jīng)元。
(2) 本體聚類。以上一次獲勝神經(jīng)元為中心,計(jì)算SOM領(lǐng)域函數(shù)如下:
(5)
其中:j為輸入神經(jīng)元編號(hào);δ為0~1的常數(shù),根據(jù)數(shù)據(jù)庫間的相關(guān)性設(shè)定;k為迭代次數(shù);g為最高匹配值;λ為領(lǐng)域半徑。
因此下一輪迭代的輸出神經(jīng)元為獲勝神經(jīng)元的領(lǐng)域半徑λ內(nèi)的所有本體,輸入神經(jīng)元為數(shù)據(jù)庫C的所有本體,而領(lǐng)域值f則決定各輸出神經(jīng)元的匹配權(quán)值,獲勝神經(jīng)元獲得最高權(quán)值,其他神經(jīng)元與獲勝神經(jīng)元越近,則獲取更高的權(quán)值。至此,首次迭代結(jié)束。
(3) 權(quán)值更新及迭代競爭。再次進(jìn)行迭代競爭,與首次迭代不同,此時(shí)存在多個(gè)輸出神經(jīng)元,而各輸出神經(jīng)元具備不同的匹配權(quán)值。因此,匹配度比較公式更新如下:
(6)
其中:j為輸出神經(jīng)元編號(hào);K為輸出神經(jīng)元集合;f為匹配權(quán)值。
選擇該輪迭代的獲勝神經(jīng)元如圖3所示。圖3中,上輪的獲勝神經(jīng)元具備最高的匹配優(yōu)先度,但在數(shù)據(jù)庫C所有本體中得出最高匹配度的神經(jīng)元是領(lǐng)域內(nèi)其他神經(jīng)元。因而,本輪獲勝神經(jīng)元為數(shù)據(jù)庫C中與該最高匹配度神經(jīng)元對應(yīng)的神經(jīng)元。
圖3 SOM-KFH二次迭代
持續(xù)迭代該過程,直到在所有數(shù)據(jù)庫中選出獲勝神經(jīng)元,如圖4、圖5所示。
(4) 本體映射。迭代結(jié)束后,提取所有迭代過程的獲勝神經(jīng)元,映射對應(yīng)本體,進(jìn)行屬性融合,如圖6所示。
SOM-KFH是一種無監(jiān)督式神經(jīng)網(wǎng)絡(luò)算法,無需在數(shù)據(jù)庫中獲取基于機(jī)器學(xué)習(xí)的先驗(yàn)知識(shí)。
圖4 SOM-KFH三次迭代
圖5 SOM-KFH最終迭代
相比常規(guī)的無監(jiān)督式神經(jīng)網(wǎng)絡(luò)算法,該算法在每輪迭代過程中,僅在獲勝神經(jīng)元領(lǐng)域半徑內(nèi)進(jìn)行匹配度比較,從而大幅度降低了神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)復(fù)雜度,并保證了算法的收斂性。因此,該算法在基于異構(gòu)本體映射的知識(shí)融合中具備良好的實(shí)時(shí)性。
圖6 SOM-KFH本體映射
本文算法的性能測試使用國網(wǎng)安徽省電力數(shù)據(jù)。數(shù)據(jù)庫包括營銷業(yè)務(wù)應(yīng)用系統(tǒng)、生產(chǎn)管理系統(tǒng)以及地理信息系統(tǒng)。本實(shí)驗(yàn)通過文字篩選及替換,將3類系統(tǒng)數(shù)據(jù)擴(kuò)展為9類異構(gòu)數(shù)據(jù)庫,進(jìn)行增量分析。9類數(shù)據(jù)量庫按隨機(jī)順序進(jìn)行本體映射,3類原始數(shù)據(jù)庫維持相同的數(shù)據(jù)庫相關(guān)度,即(5)式中δ,而增加的數(shù)據(jù)庫與原始數(shù)據(jù)庫間則設(shè)定了較小的數(shù)據(jù)庫相關(guān)度。對比算法選擇同為無監(jiān)督方式的極大似然估計(jì)(maximum likelihood estimate,MLE)及K近鄰(K-nearest neighbor,KNN)算法,其中KNN算法的K值為10。實(shí)驗(yàn)方法如下:
(1) 根據(jù)預(yù)定義的語料庫,對所有異構(gòu)數(shù)據(jù)庫進(jìn)行本體關(guān)聯(lián),定義融合指標(biāo)。例如,異構(gòu)數(shù)據(jù)中實(shí)體為“電纜”“纜線”,關(guān)系為“故障”“停役”等本體屬于互映射本體,其屬性為實(shí)體及關(guān)系所對應(yīng)的事件(如發(fā)生***區(qū)域大規(guī)模停電、安排***維修員進(jìn)行現(xiàn)場搶修等)。
(2) 在一個(gè)數(shù)據(jù)庫中隨機(jī)提取一個(gè)本體,使用融合算法在其余8個(gè)數(shù)據(jù)庫中分別選擇8個(gè)融合本體,各本體包含1個(gè)實(shí)體、5類包含的關(guān)系及3種各關(guān)系所對應(yīng)的屬性。
(3) 根據(jù)融合指標(biāo)提取各融合算法的TP(true positive)、FP(false positive)及FN(false negative)指標(biāo),通過計(jì)算準(zhǔn)確率(precision)與召回率(recall),比較分析F1分?jǐn)?shù),計(jì)算公式為:
Pprecision=TTP/(TTP+FFP)
(7)
Rrecall=TTP/(FFP+FFN)
(8)
F1=2(PprecisionRrecall)/(Pprecision+Rrecall)
(9)
F1分?jǐn)?shù)的實(shí)驗(yàn)結(jié)果比較如圖7所示。從圖7可以看出,相比KNN,SOM-KFH和MLE得出較高的F1分?jǐn)?shù)。KNN中,根據(jù)輸入屬性,在全局?jǐn)?shù)據(jù)庫間進(jìn)行本體的聚類,選擇數(shù)據(jù)庫間離聚類中心最為接近的本體。這種方式在低維數(shù)據(jù)中可得出較好的融合效果,但在高緯度異構(gòu)數(shù)據(jù)中,因持續(xù)累積的匹配誤差,最終得出較差的F1分?jǐn)?shù)。MLE采用比較所有實(shí)體→屬性→關(guān)系似然值的全局搜索方式,得出較高的F1分?jǐn)?shù),但這種方式需要較高的時(shí)間復(fù)雜度。
圖7 F1分?jǐn)?shù)的比較分析
本文對不同算法本體映射所消耗的時(shí)間進(jìn)行比較,如圖8所示。
從圖8可以看出,MLE的運(yùn)行時(shí)間指數(shù)級增長,因而較難應(yīng)用于高緯度數(shù)據(jù)集。SOM-KFH與KNN的運(yùn)行時(shí)間線性增長,但KNN的單次聚類的時(shí)間復(fù)雜度相對較低,消耗了較少的運(yùn)行時(shí)間,因此具有更小的時(shí)間復(fù)雜度。
本文提出的SOM-KFH算法在F1分?jǐn)?shù)和運(yùn)行時(shí)間上均有較好的結(jié)果。相比KNN算法,消耗了略長的運(yùn)行時(shí)間,但F1分?jǐn)?shù)顯著提高;相比MLE算法,得出類似的F1分?jǐn)?shù),但大幅度降低了多維數(shù)據(jù)庫的本體映射所消耗的時(shí)間。上述實(shí)驗(yàn)證明本文提出的SOM-KFH算法在多維、異構(gòu)的復(fù)雜數(shù)據(jù)集中,可通過有效映射同義、近義本體,保障知識(shí)融合的可行性。
圖8 算法運(yùn)行時(shí)間的比較分析
本文面向大數(shù)據(jù)環(huán)境的復(fù)雜信息融合應(yīng)用,提出一種基于自組織映射神經(jīng)網(wǎng)絡(luò)的知識(shí)融合算法。該算法通過引入由實(shí)體、屬性、關(guān)系組成的異構(gòu)數(shù)據(jù)本體模型至自組織映射神經(jīng)元的聚類及迭代競爭,有效實(shí)現(xiàn)了異構(gòu)本體的相互關(guān)聯(lián)及知識(shí)融合,同時(shí)該算法繼承了自組織映射神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)特點(diǎn),一定程度上保障了算法的收斂性。將本文算法應(yīng)用于國網(wǎng)安徽省電力有限公司知識(shí)圖譜系統(tǒng)的構(gòu)建,研究發(fā)現(xiàn),相較于MLE和KNN算法等傳統(tǒng)無監(jiān)督學(xué)習(xí)算法,本文算法在準(zhǔn)確率、召回率和時(shí)間復(fù)雜度方面具有明顯的優(yōu)勢,表明該算法具備較高的知識(shí)融合效率及運(yùn)行性能。未來將進(jìn)一步探索本文算法在非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)源中的應(yīng)用有效性和可行性。