陳富強(qiáng) 肖明明 韓凱南 任 毅 王文文 李 克
(*北京聯(lián)合大學(xué)智慧城市學(xué)院 北京100101)
(**中鐵物貿(mào)集團(tuán)有限公司 北京102308)
(***魯班(北京)電子商務(wù)科技有限公司 北京102308)
隨著電子商務(wù)的興起,電子商務(wù)開始替代傳統(tǒng)貿(mào)易模式,在各個(gè)領(lǐng)域內(nèi)快速發(fā)展。作為一種新型的商業(yè)運(yùn)營(yíng)模式,電商在交易領(lǐng)域生產(chǎn)、供貨和物流等方面經(jīng)常面臨著不同客戶數(shù)據(jù)的多源異構(gòu)問題。在鐵路建設(shè)領(lǐng)域內(nèi)大宗商品的交易過程也面臨著同樣的問題,數(shù)據(jù)的多源異構(gòu)性使得交易過程中數(shù)據(jù)流轉(zhuǎn)不方便、使用困難[1],對(duì)數(shù)據(jù)使用的效率產(chǎn)生了極大影響。傳統(tǒng)數(shù)據(jù)管理方式已經(jīng)不能滿足發(fā)展的需要,而基于圖數(shù)據(jù)庫(kù)的知識(shí)圖譜在數(shù)據(jù)存儲(chǔ)和管理上更為靈活。知識(shí)圖譜通過節(jié)點(diǎn)存儲(chǔ)現(xiàn)實(shí)世界中的實(shí)體,通過邊存儲(chǔ)實(shí)體間的關(guān)系,同時(shí)在知識(shí)圖譜里可以存儲(chǔ)不同類型的數(shù)據(jù)以及復(fù)雜的實(shí)體關(guān)系,提升了數(shù)據(jù)流動(dòng)的速度和使用的效率。一些消費(fèi)類電商已將知識(shí)圖譜技術(shù)應(yīng)用到實(shí)際生產(chǎn)交易中,以激發(fā)行業(yè)活力,帶動(dòng)行業(yè)發(fā)展,如阿里巴巴建設(shè)的電商認(rèn)知圖譜“AliCoCo”可認(rèn)知用戶需求實(shí)現(xiàn)更加智能的搜索和精準(zhǔn)推薦[2],美團(tuán)構(gòu)建的餐飲娛樂知識(shí)圖譜“美團(tuán)大腦”可充分挖掘關(guān)聯(lián)的各個(gè)場(chǎng)景數(shù)據(jù)實(shí)現(xiàn)智能搜索和商圈美食的個(gè)性化推薦[3],京東建立了基于商品知識(shí)圖譜的興趣召回等。
隨著知識(shí)圖譜廣泛的應(yīng)用,各個(gè)領(lǐng)域都開始建設(shè)屬于自己領(lǐng)域的知識(shí)圖譜,統(tǒng)稱為領(lǐng)域知識(shí)圖譜。不同領(lǐng)域的知識(shí)圖譜因?yàn)闃I(yè)務(wù)的不同使得其從本體到實(shí)體都存在較大的差異,而同一領(lǐng)域的知識(shí)圖譜也因?yàn)橐?guī)范不統(tǒng)一存在一定差異,不同來源的知識(shí)圖譜無法直接建立起聯(lián)系[4]。因此,需要通過知識(shí)融合將不同來源的知識(shí)圖譜融合在一起,實(shí)體對(duì)齊作為知識(shí)融合的一部分,可以有效地對(duì)不同來源的實(shí)體進(jìn)行匹配,在實(shí)體層面建立起聯(lián)系。
中鐵物貿(mào)集團(tuán)供應(yīng)鏈協(xié)同平臺(tái)(簡(jiǎn)稱協(xié)同平臺(tái))是其大宗鐵路建設(shè)物資采購(gòu)的核心電商交易平臺(tái),本文將以該平臺(tái)為具體場(chǎng)景,嘗試構(gòu)建行業(yè)電商知識(shí)圖譜替代傳統(tǒng)的數(shù)據(jù)系統(tǒng),通過知識(shí)推理來滿足該電商平臺(tái)中跨系統(tǒng)的大宗物資數(shù)據(jù)的匹配等業(yè)務(wù)需求。前文所提消費(fèi)類電商平臺(tái)主要是面向普通用戶,為用戶提供搜索和推薦服務(wù)、滿足用戶的消費(fèi)需求;而行業(yè)電商平臺(tái)所面向的客戶大多為公司或企業(yè),是一個(gè)為特定用戶提供信息流通和交易的平臺(tái),具有行業(yè)特殊性。
考慮到鋼材類物資是協(xié)同平臺(tái)的主要交易品類(占總交易額的80%以上),本文以鋼材類物資數(shù)據(jù)為例。具體來說,基于領(lǐng)域知識(shí)圖譜構(gòu)建框架,研究如何從各類結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中,基于已抽取的各類實(shí)體和屬性,結(jié)合領(lǐng)域知識(shí)建立各類實(shí)體尤其是中鐵物資實(shí)體與鋼廠產(chǎn)品實(shí)體間的匹配關(guān)系。本文基于行業(yè)內(nèi)的領(lǐng)域知識(shí)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)轉(zhuǎn)換、去噪、規(guī)范性校驗(yàn)等,還包括根據(jù)領(lǐng)域知識(shí)建立領(lǐng)域字典,以提高數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)處理的效率和準(zhǔn)確性。結(jié)合鋼材領(lǐng)域知識(shí),過濾非配對(duì)實(shí)體,縮小實(shí)體對(duì)齊計(jì)算空間,生成高質(zhì)量候選集。將集合相似度的思想應(yīng)用到實(shí)體對(duì)齊的過程中,綜合實(shí)體名稱、屬性和行業(yè)領(lǐng)域信息,定義實(shí)體相似度評(píng)估函數(shù),有效評(píng)估實(shí)體對(duì)的匹配概率,形成了一種基于領(lǐng)域知識(shí)的集合相似度實(shí)體對(duì)齊算法。應(yīng)用不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文提出的基于領(lǐng)域知識(shí)的集合相似度實(shí)體對(duì)齊算法對(duì)不同鋼廠產(chǎn)品實(shí)體和中鐵物資實(shí)體間的匹配具有較高的準(zhǔn)確率。
知識(shí)圖譜的構(gòu)建方法可以分為自頂向下構(gòu)建和自底向上構(gòu)建2 種。自頂向下的構(gòu)建方法通常由領(lǐng)域?qū)<以O(shè)計(jì)好本體模型或者由行業(yè)內(nèi)固定的知識(shí)體系轉(zhuǎn)化成為本體模型,然后依照本體模型從不同來源的數(shù)據(jù)中抽取實(shí)體和關(guān)系融入到知識(shí)圖譜中;自底向上的構(gòu)建方法先進(jìn)行實(shí)體和關(guān)系挖掘然后從實(shí)體中抽象出概念和本體模型。自頂向下和自底向上的方法的最大的不同就是本體的由來,自頂向下的方法是先人工提供本體再導(dǎo)入數(shù)據(jù),自底向上的方法是先導(dǎo)入數(shù)據(jù)再?gòu)臄?shù)據(jù)中抽象出本體。因此,這2 種不同方法的適用對(duì)象也是不同的,自頂向下的方法面向的是知識(shí)體系比較成熟的領(lǐng)域,而自底向上的方法更多面向的是知識(shí)體系欠完備的領(lǐng)域,使用基于數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行構(gòu)建[5]。以自底向上的方法為例,其過程主要包括知識(shí)抽取、知識(shí)融合和知識(shí)加工[6]。知識(shí)抽取從各種類型的數(shù)據(jù)源中進(jìn)行實(shí)體、屬性和關(guān)系的抽取;知識(shí)融合通過融合實(shí)體消除矛盾和歧義,通過知識(shí)合并融合外部數(shù)據(jù)源;知識(shí)加工主要進(jìn)行本體構(gòu)建、知識(shí)推理。通過實(shí)體的聚合生成上層的概念,逐層抽象形成本體模型。通過知識(shí)推理挖掘語(yǔ)義層次的關(guān)聯(lián)信息,發(fā)現(xiàn)新的知識(shí)。
因?yàn)閰f(xié)同平臺(tái)所涉及的鋼材類物資信息具有比較確定的上下文結(jié)構(gòu),其知識(shí)圖譜可采用自頂向下的方式構(gòu)建。先確定知識(shí)圖譜的數(shù)據(jù)模型,再根據(jù)模型去填充具體數(shù)據(jù),最終形成知識(shí)圖譜,本文稱之為行業(yè)電商知識(shí)圖譜。
其構(gòu)建框架如圖1 所示。該平臺(tái)現(xiàn)有物資數(shù)據(jù)以結(jié)構(gòu)化形式管理存儲(chǔ),第三方系統(tǒng)(主要指各鋼廠的信息系統(tǒng))則形式比較多樣化,部分鋼廠為結(jié)構(gòu)化數(shù)據(jù),但部分屬性字段為半結(jié)構(gòu)化和非結(jié)構(gòu)化描述。實(shí)體對(duì)齊是構(gòu)建該圖譜的核心,是實(shí)現(xiàn)行業(yè)電商平臺(tái)與外部系統(tǒng)之間數(shù)據(jù)柔性對(duì)接和順暢流轉(zhuǎn)的基礎(chǔ),可為平臺(tái)物資采購(gòu)交易和交付等業(yè)務(wù)提供底層數(shù)據(jù)支撐。
圖1 領(lǐng)域知識(shí)圖譜構(gòu)建框架
實(shí)體對(duì)齊是挖掘不同數(shù)據(jù)源中指向現(xiàn)實(shí)世界中同一對(duì)象的關(guān)鍵技術(shù)[7],其思想最早可追溯至1946年Dunn[8]所提的記錄鏈接,記錄鏈接可以判斷相同或者不同數(shù)據(jù)集中的2 個(gè)實(shí)體是否指向真實(shí)世界中的同一個(gè)對(duì)象。實(shí)體對(duì)齊又可以被稱為實(shí)體匹配、鏈接預(yù)測(cè)、對(duì)象識(shí)別等,能夠高質(zhì)量鏈接多個(gè)現(xiàn)有知識(shí)庫(kù),將多來源數(shù)據(jù)建立聯(lián)系,并構(gòu)建一個(gè)大規(guī)模統(tǒng)一的知識(shí)庫(kù),從而幫助機(jī)器理解底層數(shù)據(jù),實(shí)現(xiàn)底層數(shù)據(jù)的有效融合。因此,實(shí)體對(duì)齊具有廣泛的應(yīng)用,如在電商平臺(tái)中進(jìn)行相似商品的推薦,在社交平臺(tái)中進(jìn)行好友的推薦,在搜索引擎中進(jìn)行數(shù)據(jù)的搜索等。
實(shí)體對(duì)齊的常見方法可以分為2 類,一類是基于實(shí)體表示學(xué)習(xí)的實(shí)體對(duì)齊方法,另一類是基于屬性信息的實(shí)體對(duì)齊方法。基于實(shí)體表示學(xué)習(xí)的實(shí)體對(duì)齊方法通常先將實(shí)體抽象為向量表示,然后在向量空間中學(xué)習(xí)實(shí)體的對(duì)齊關(guān)系[9]。基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法在進(jìn)行大規(guī)模實(shí)體和關(guān)系的學(xué)習(xí)中進(jìn)行了充分探索,TransE[10]作為一種有效的實(shí)體表示方法得到了廣泛使用并衍生出多個(gè)模型(如STransH、TransD、NTransGH 等)以實(shí)現(xiàn)復(fù)雜的實(shí)體和關(guān)系映射,一些基于圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)的方法[11]已被嘗試應(yīng)用于實(shí)體對(duì)齊以加強(qiáng)實(shí)體表示學(xué)習(xí)能力?;趯傩孕畔⒌膶?shí)體對(duì)齊方法通過屬性的字符串相似性或者值的相似性判斷2 個(gè)實(shí)體是否可以對(duì)齊。基于字符串的Jaccard 相似度和基于編輯距離的方法在實(shí)體對(duì)齊中得到了很好的應(yīng)用。
基于表示學(xué)習(xí)的實(shí)體對(duì)齊方法通常需要一定的標(biāo)注數(shù)據(jù),但是由于在多個(gè)來源的知識(shí)圖譜間進(jìn)行標(biāo)注需要較強(qiáng)的專業(yè)性,而這類方法對(duì)于標(biāo)注數(shù)據(jù)又有很強(qiáng)的依賴性,在多源異構(gòu)數(shù)據(jù)中學(xué)習(xí)的模型往往不能發(fā)揮很好的效果。在知識(shí)融合初期缺乏標(biāo)注數(shù)據(jù)的情況下基于屬性信息的實(shí)體對(duì)齊方法則具有更強(qiáng)的通用性。
基于Jaccard 相似度的方法由于其效果顯著、簡(jiǎn)單而被廣泛應(yīng)用。該方法已經(jīng)在多種不同知識(shí)圖譜的任務(wù)中進(jìn)行了實(shí)驗(yàn),其適用性、效率、性能得到了驗(yàn)證。文獻(xiàn)[12]基于Jaccard 和余弦相似度進(jìn)行相似度的度量,在電影推薦系統(tǒng)中起到了較好效果,同時(shí)通過實(shí)驗(yàn)證明了基于余弦相似度的方法具有較強(qiáng)的魯棒性。文獻(xiàn)[13]基于Jaccard 相似度和混合優(yōu)化模型進(jìn)行了跨領(lǐng)域的本體構(gòu)建,提出的算法具有較高性能。文獻(xiàn)[14]基于Jaccard 相似度在大規(guī)模知識(shí)庫(kù)中根據(jù)實(shí)體屬性信息進(jìn)行實(shí)體對(duì)齊,并用實(shí)驗(yàn)證明了該方法具有較高的精確度和效率,但是其算法依賴于鄰域信息,而本文面向的物貿(mào)領(lǐng)域缺乏有效鄰域信息,因而此方法不適用。文獻(xiàn)[15]基于詞頻比改進(jìn)Jaccard 相似度,按照詞頻比確定交集中詞的權(quán)重,在對(duì)文本分詞后使用該方法計(jì)算文本的相似度,在本文中也使用了該方法進(jìn)行測(cè)試。相關(guān)研究已經(jīng)證明了Jaccard 相似度具有較強(qiáng)的適用性,本文針對(duì)電商領(lǐng)域相關(guān)數(shù)據(jù)多源異構(gòu)的問題提出了一種新的基于Jaccard 方法,接下來對(duì)具體問題和所設(shè)計(jì)方法進(jìn)行描述。
行業(yè)電商領(lǐng)域涉及業(yè)務(wù)部門多、上下游產(chǎn)業(yè)規(guī)模大,其智能化電商平臺(tái)底層數(shù)據(jù)往往來源廣泛、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、質(zhì)量參差不齊。如圖2 所示,在訂單流轉(zhuǎn)的過程中行業(yè)電商經(jīng)常面臨著數(shù)據(jù)對(duì)接的問題,不同供貨方提供的數(shù)據(jù)存在較大的差異,甚至同一供貨方數(shù)據(jù)也存在異構(gòu),電商平臺(tái)的數(shù)據(jù)描述規(guī)范和供貨方的數(shù)據(jù)規(guī)范也有很大區(qū)別,現(xiàn)有的方法通常需要人工進(jìn)行數(shù)據(jù)匹配,從而在不同數(shù)據(jù)源間建立映射。如表1 所示,某鋼廠的原始數(shù)據(jù)存在著大量的異構(gòu)問題,如包含屬性字段中復(fù)合字段造成的異構(gòu)、單位描述規(guī)范不統(tǒng)一造成的異構(gòu)、屬性字段冗余造成的異構(gòu)等。人工進(jìn)行數(shù)據(jù)的處理往往需要具備大量專業(yè)背景知識(shí),同時(shí)人工處理大批量數(shù)據(jù)的效率較低,并且數(shù)據(jù)處理的準(zhǔn)確性難以把控。
圖2 訂單生成過程中數(shù)據(jù)流轉(zhuǎn)示意圖
表1 某鋼廠產(chǎn)品數(shù)據(jù)
基于知識(shí)圖譜的方法對(duì)數(shù)據(jù)進(jìn)行處理和存儲(chǔ),把上述訂單流轉(zhuǎn)過程中的數(shù)據(jù)匹配問題轉(zhuǎn)化成行業(yè)電商知識(shí)圖譜中供貨方和電商平臺(tái)的實(shí)體匹配任務(wù),也即實(shí)體對(duì)齊。本文以中鐵物貿(mào)集團(tuán)供應(yīng)鏈協(xié)同平臺(tái)為具體場(chǎng)景,完成協(xié)同平臺(tái)中跨系統(tǒng)的大宗物資數(shù)據(jù)的匹配。
本文實(shí)體對(duì)齊旨在供應(yīng)商提供的產(chǎn)品實(shí)體和電商交易平臺(tái)的物資實(shí)體中找出指向同一個(gè)對(duì)象的實(shí)體對(duì)。算法的工作流程如圖3 所示。
圖3 算法工作流程圖
實(shí)體對(duì)齊方法主要包括以下3 個(gè)步驟。
(1)數(shù)據(jù)預(yù)處理。針對(duì)多源異構(gòu)知識(shí)庫(kù)實(shí)體屬性數(shù)據(jù)存在的問題進(jìn)行統(tǒng)一處理,根據(jù)領(lǐng)域知識(shí)進(jìn)行實(shí)體屬性值的原子化分割、統(tǒng)一單位、規(guī)范表示及去除冗余,得到處理后的知識(shí)庫(kù)。
(2)生成實(shí)體對(duì)。在供應(yīng)商產(chǎn)品知識(shí)庫(kù)的實(shí)體和電商交易平臺(tái)物資知識(shí)庫(kù)中的實(shí)體間計(jì)算笛卡爾積,得到實(shí)體對(duì)集合。
(3)實(shí)體匹配。遍歷實(shí)體對(duì)集合,基于領(lǐng)域知識(shí)過濾不存在匹配關(guān)系的實(shí)體對(duì);計(jì)算實(shí)體對(duì)相似度,根據(jù)不同的實(shí)體對(duì)之間的相似度進(jìn)行排序,得到與供應(yīng)商產(chǎn)品實(shí)體EF= {key_F1:value_F1,key_F2:value_F2,…,key_Fn:value_Fn} 最為匹配的電商平臺(tái)物資實(shí)體EM= {key_M1:value_M1,key_M2:value_M2,…,key_Mm:value_Mm},輸出存在匹配關(guān)系的實(shí)體對(duì)(EF,EM)。
行業(yè)電商領(lǐng)域涉及業(yè)務(wù)部門多、上下游產(chǎn)業(yè)模大,信息存在不對(duì)稱性,并且各行業(yè)術(shù)語(yǔ)存在特殊性,這些導(dǎo)致行業(yè)電商平臺(tái)底層數(shù)據(jù)來源廣泛且異構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、質(zhì)量參差不齊,因此無法直接進(jìn)行實(shí)體對(duì)齊,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。以中鐵物貿(mào)集團(tuán)供應(yīng)鏈協(xié)同平臺(tái)為例,其數(shù)據(jù)來源有昆明鋼鐵廠鋼產(chǎn)品數(shù)據(jù)、陜西鋼鐵廠鋼產(chǎn)品數(shù)據(jù)、中鐵鋼材物資數(shù)據(jù)等。不同鋼廠有各自對(duì)鋼鐵產(chǎn)品數(shù)據(jù)的描述規(guī)范,中鐵也有其對(duì)鋼材物資的描述規(guī)范,這必然導(dǎo)致協(xié)同平臺(tái)底層數(shù)據(jù)的多源異構(gòu)性,其存在的主要問題有:數(shù)據(jù)的量綱不統(tǒng)一、數(shù)據(jù)中含有的單位描述不規(guī)范以及屬性字段重復(fù)造成冗余。針對(duì)上述問題,本文在數(shù)據(jù)預(yù)處理階段,根據(jù)領(lǐng)域知識(shí)建立領(lǐng)域字典(產(chǎn)品名稱字典nameDicList、分詞詞典dicList、停用詞典stopDicList、替換詞典replaceDicList和刪除詞典deleteDicList)對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,包括屬性值原子化、統(tǒng)一單位、規(guī)范表示、去除冗余等,以提高實(shí)體對(duì)齊的準(zhǔn)確率。具體方法如下。
(1)屬性值原子化
知識(shí)庫(kù)S={S1,S2,…,SN},SN表示電商平臺(tái)知識(shí)庫(kù),S1,S2,…,SN-1為供應(yīng)商知識(shí)庫(kù),每個(gè)知識(shí)庫(kù)包含多個(gè)鋼產(chǎn)品實(shí)體,知識(shí)庫(kù)中對(duì)鋼產(chǎn)品屬性的劃分不統(tǒng)一,不同知識(shí)庫(kù)實(shí)體屬性的描述存在較大差異。如表1 所示,鋼廠的物料描述字段內(nèi)包含多個(gè)關(guān)鍵參數(shù),字段內(nèi)包含的參數(shù)直接影響和這個(gè)鋼產(chǎn)品匹配的中鐵物資,如果不對(duì)其處理,實(shí)體屬性值無法直接進(jìn)行字符串比較,從而導(dǎo)致實(shí)體對(duì)齊失敗。對(duì)于一個(gè)屬性融合多類屬性值的屬性值融合異構(gòu)現(xiàn)象,使用自然語(yǔ)言處理中基于規(guī)則的正向最大匹配分詞技術(shù)對(duì)不同類別屬性值進(jìn)行劃分,雖然處理的不是自然語(yǔ)言,但是對(duì)于這類半結(jié)構(gòu)化數(shù)據(jù)可以通過引入分詞詞典dicList和停用詞典stopDicList進(jìn)行分詞,將屬性值原子化。然后使用替換詞典replaceDicList將表示相同含義的字符進(jìn)行統(tǒng)一替換,對(duì)類似表1 中規(guī)格字段的值進(jìn)行拆分,最后刪除多余的字符。經(jīng)過處理的數(shù)據(jù)如圖4 所示。
圖4 經(jīng)過分詞處理之后的數(shù)據(jù)
(2)統(tǒng)一規(guī)范
知識(shí)庫(kù)S={S1,S2,…,SN} 中數(shù)值型屬性值的單位描述和書寫規(guī)范均不統(tǒng)一。單位描述的不統(tǒng)一將導(dǎo)致數(shù)值型屬性值存在較大差異,單位書寫的不統(tǒng)一將會(huì)影響字符串的匹配結(jié)果,因此,直接進(jìn)行屬性匹配將會(huì)導(dǎo)致屬性匹配的失敗。對(duì)于單位不統(tǒng)一的數(shù)據(jù),統(tǒng)一使用量綱較大的單位,長(zhǎng)度的單位使用米、質(zhì)量的單位使用千克。然后,統(tǒng)一去除所有屬性值value中含有的單位,確保相同的數(shù)據(jù)可以進(jìn)行精確匹配。
(3)去除冗余
知識(shí)庫(kù)S={S1,S2,…,SN} 中原始屬性字段中存在冗余,實(shí)體屬性值經(jīng)過拆分后變成了一個(gè)個(gè)獨(dú)立的屬性值,從而出現(xiàn)了屬性重復(fù)的現(xiàn)象;同時(shí)屬性字段存在多個(gè)索引列,冗余的索引值在實(shí)體匹配過程中也會(huì)被作為一個(gè)重要的屬性值。在實(shí)體對(duì)齊的過程中,冗余的屬性會(huì)作為重要的屬性參與屬性值的匹配,從而影響了最終匹配結(jié)果。算法通過比較列的相似性去除具有相似內(nèi)容的列,通過判斷列內(nèi)容的唯一性去除冗余索引列。
數(shù)據(jù)預(yù)處理具體流程為對(duì)屬性值進(jìn)行原子化操作,去除冗余索引列,根據(jù)鋼產(chǎn)品實(shí)體名稱將知識(shí)庫(kù)進(jìn)行劃分,在劃分之后的知識(shí)庫(kù)中進(jìn)行實(shí)體屬性度量單位的轉(zhuǎn)換,刪除重復(fù)屬性和冗余列,相應(yīng)算法偽代碼如算法1 所示。
在知識(shí)庫(kù)間進(jìn)行笛卡爾積得到實(shí)體對(duì)集合entitySet1(entitySet1= {(EF,EM)| EF∈{?S1,?S2,…,?SN-1},EM∈?SN})。基于集合相似度的實(shí)體匹配旨在從entitySet1 中找出指向同一對(duì)象的實(shí)體對(duì),主要包括3 個(gè)步驟,即實(shí)體對(duì)過濾、匹配度計(jì)算以及實(shí)體對(duì)排序。通過實(shí)體對(duì)過濾實(shí)現(xiàn)實(shí)體對(duì)篩選,縮小實(shí)體對(duì)齊規(guī)模,提高實(shí)體匹配效率。然后計(jì)算實(shí)體相似度,以此衡量不同知識(shí)庫(kù)的2 個(gè)實(shí)體是否指向了同一個(gè)對(duì)象。最后,基于實(shí)體對(duì)的實(shí)體相似度排序輸出最匹配的實(shí)體對(duì)。如圖5 所示,在得到匹配的實(shí)體對(duì)之后,就可以在實(shí)體之間建立匹配關(guān)系,表示2 個(gè)實(shí)體指向了真實(shí)世界中的同一個(gè)對(duì)象。
圖5 實(shí)體匹配示意圖
(1)實(shí)體對(duì)過濾
為了提高實(shí)體對(duì)齊效率,可根據(jù)實(shí)體關(guān)鍵屬性對(duì)實(shí)體進(jìn)行劃分,減少無效匹配,以提升匹配效率。在鋼材交易領(lǐng)域,鋼產(chǎn)品名稱和鋼號(hào)可以作為判斷2 個(gè)實(shí)體是否指向同一個(gè)對(duì)象的關(guān)鍵屬性。因此,通過鋼產(chǎn)品名稱字典找出實(shí)體名稱value_name,根據(jù)實(shí)體名稱的Jaccard 相似度進(jìn)行排序,過濾掉名稱相似度低于閾值的實(shí)體對(duì)。如果2 個(gè)實(shí)體EF和EM滿足匹配條件則記為EF?EM。如果所有的實(shí)體對(duì)中沒有名稱相似的實(shí)體對(duì),則進(jìn)行全局實(shí)體對(duì)齊。為提高全局匹配效率,使用領(lǐng)域字典抽取出材質(zhì)或鋼號(hào)字段value_grade,根據(jù)value_grade進(jìn)行實(shí)體對(duì)過濾,得出新的實(shí)體對(duì)集合entitySet2(entitySet2=。
(2)匹配度計(jì)算
匹配度計(jì)算旨在量化實(shí)體對(duì)(EF,EM) 的相似度(記為sim(EF,EM)),通過匹配度的值sim(EF,EM) 可以對(duì)不同實(shí)體對(duì)進(jìn)行比較找出存在匹配關(guān)系的實(shí)體對(duì)。鋼廠鋼產(chǎn)品實(shí)體和中鐵物資實(shí)體的屬性字段具有天然的集合結(jié)構(gòu),屬性的先后順序不影響實(shí)體的匹配結(jié)果,因此可用Jaccard 相似度(式(1))來度量2 個(gè)實(shí)體的匹配度。
其中A和B是2 個(gè)實(shí)體屬性集合。由于傳統(tǒng)Jaccard 相似度的計(jì)算中分母會(huì)隨著實(shí)體屬性數(shù)量的變化而變化,算法不能直接利用Jaccard 相似度值進(jìn)行比較。因此,本文在實(shí)體匹配方法設(shè)計(jì)中,首先統(tǒng)計(jì)鋼廠產(chǎn)品實(shí)體屬性值與中鐵物資實(shí)體屬性值相同的屬性個(gè)數(shù),即,其中f(value_Fk) 表示EF的屬性值value_Fk是否出現(xiàn)在EM的屬性值集合Ω 中,其取值如式(3)所示,出現(xiàn)時(shí)取值為1、否則為0;然后將相同的屬性個(gè)數(shù)除以鋼廠鋼產(chǎn)品屬性個(gè)數(shù)(n) 得到實(shí)體對(duì)匹配度sim(EF,EM)。計(jì)算公式如式(2)所示,sim(EF,EM) 表示實(shí)體EF和EM的相似度。本算法中對(duì)相似度計(jì)算的優(yōu)化可保證不同實(shí)體對(duì)評(píng)判標(biāo)準(zhǔn)的統(tǒng)一性,使得相似度計(jì)算變得更加合理。
(3)實(shí)體對(duì)排序
由于中鐵物資實(shí)體和實(shí)體屬性值具有多樣性,2個(gè)實(shí)體對(duì)的匹配度相同不代表這2 個(gè)實(shí)體對(duì)同時(shí)匹配。因此,本算法在獲得實(shí)體對(duì)匹配度之后,針對(duì)性設(shè)計(jì)有效實(shí)體對(duì)排序規(guī)則對(duì)實(shí)體對(duì)進(jìn)行排序,對(duì)供應(yīng)商任意產(chǎn)品實(shí)體EF取排名第一的實(shí)體對(duì)(EF,EM) 作為最佳匹配,然后將其保存至實(shí)體匹配集合entitySet3(entitySet3= {(EF,EM)| EF=EM,EF∈?;陬I(lǐng)域知識(shí)的實(shí)體對(duì)排序規(guī)則具體為:首先計(jì)算實(shí)體EF的匹配閾值表示實(shí)體EF的屬性個(gè)數(shù);然后選擇與實(shí)體EF匹配時(shí)sim(EF,EM) 大于或等于閾值的實(shí)體對(duì)(EF,EM),通過該閾值的設(shè)定可排除明顯不匹配實(shí)體對(duì);最后對(duì)所選實(shí)體對(duì)(EF,EM) 按sim(EF,EM) 值從大到小規(guī)則進(jìn)行排序,當(dāng)sim(EF,EM) 值相同時(shí),按匹配對(duì)象EM的屬性字段長(zhǎng)度‖EM‖從小到大排序;當(dāng)‖EM‖值相同時(shí),考慮中鐵物資實(shí)體EM屬性值越豐富匹配越可靠,按實(shí)體EM不同屬性值個(gè)數(shù)從大到小排序。
基于集合相似度實(shí)體匹配的具體算法如算法2所示,基于算法可找出存在匹配關(guān)系的實(shí)體對(duì),然后在實(shí)體對(duì)間建立聯(lián)系,建立聯(lián)系后的實(shí)體匹配示意圖如圖5 所示。
在本節(jié)中使用了上文提出的基于領(lǐng)域知識(shí)的集合相似度實(shí)體對(duì)齊算法,在5個(gè)不同的鋼鐵廠的鋼材數(shù)據(jù)和中鐵物資數(shù)據(jù)上進(jìn)行了測(cè)試。本實(shí)驗(yàn)使用的服務(wù)器的處理器為Intel(R) Xeon(R) CPU E5-2680 v4@ 2.40 GHz,內(nèi)存為256 GB,操作系統(tǒng)為CentOS 7,使用Python 語(yǔ)言進(jìn)行模型的搭建和實(shí)驗(yàn)。
實(shí)驗(yàn)使用協(xié)同平臺(tái)的中鐵鋼材類物資數(shù)據(jù)和昆鋼、南鋼等5 個(gè)鋼廠的鋼產(chǎn)品數(shù)據(jù),數(shù)據(jù)類別和實(shí)體數(shù)量如表2 所示。
表2 實(shí)驗(yàn)數(shù)據(jù)匯總
每個(gè)鋼鐵產(chǎn)品有多種不同的屬性,不同數(shù)據(jù)源中描述屬性的名稱和屬性字段長(zhǎng)度存在較大差異。如昆鋼鋼產(chǎn)品的屬性字段中存在著屬性值融合的字段,同時(shí)還存在著冗余的數(shù)據(jù)。由于各個(gè)數(shù)據(jù)源的數(shù)據(jù)表述標(biāo)準(zhǔn)不統(tǒng)一,因此同一鋼產(chǎn)品的描述存在較大差異。數(shù)據(jù)中還存在著一些自定義的標(biāo)識(shí)數(shù)據(jù),從而影響了數(shù)據(jù)的質(zhì)量。
Hits@k 表示實(shí)體對(duì)齊的前k個(gè)實(shí)體中對(duì)齊到正確的實(shí)體的比例。平均倒數(shù)排名(mean reciprocal rank,MRR)為匹配到正確實(shí)體的排名的倒數(shù)的平均值,計(jì)算公式如式(4)所示,其中ranki表示在對(duì)齊到正確的實(shí)體的排名,N為實(shí)體的總數(shù)。
一個(gè)鋼產(chǎn)品實(shí)體如果存在對(duì)應(yīng)的物資實(shí)體則說明這個(gè)鋼產(chǎn)品實(shí)體是一個(gè)正例,如果不存在對(duì)應(yīng)的物資實(shí)體說明這個(gè)鋼產(chǎn)品實(shí)體是一個(gè)負(fù)例。在最大相似度準(zhǔn)則下,如果一個(gè)鋼產(chǎn)品的相似度最高的實(shí)體對(duì)的相似度值超過指定閾值并且準(zhǔn)確匹配到了對(duì)應(yīng)的物資實(shí)體則說明這個(gè)鋼產(chǎn)品的預(yù)測(cè)結(jié)果是正例。為了驗(yàn)證閾值的影響,設(shè)定不同的閾值,比較不同閾值下的各項(xiàng)指標(biāo)的變化,得出最佳的參數(shù)。根據(jù)真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽可以計(jì)算出查全率(recall,簡(jiǎn)稱R)、查準(zhǔn)率(precision,簡(jiǎn)稱P)和F1 度量。
為驗(yàn)證本文算法的正確性和有效性,利用5 個(gè)不同鋼廠數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。對(duì)比算法包括基礎(chǔ)算法(對(duì)數(shù)據(jù)采用屬性值原子化處理后直接用Jaccard 相似度計(jì)算實(shí)體匹配度)、Jaccard 算法(使用3.2 節(jié)所述數(shù)據(jù)預(yù)處理方法處理數(shù)據(jù),采用Jaccard 相似度計(jì)算實(shí)體匹配度)、詞頻比算法(文獻(xiàn)[15]中使用的算法)和本文所提算法,對(duì)比指標(biāo)為Hits@1 和MRR。4 個(gè)對(duì)比算法中均包含實(shí)體屬性值原子化處理,旨在解決實(shí)際數(shù)據(jù)中實(shí)體單個(gè)屬性融合多類屬性值(如表1 所示)而導(dǎo)致的字符串無法直接匹配問題。
如表3 所示,本文所提算法總體實(shí)體對(duì)齊的Hits@1 值達(dá)到96.4%,明顯高于其他2 種算法。在表4 中,本文所提算法的MRR 值也均高于其他算法,說明本文算法可以更有效地識(shí)別出存在匹配關(guān)系的實(shí)體對(duì)。文獻(xiàn)[15]提出的基于詞頻比的算法在計(jì)算中考慮到了不同詞出現(xiàn)的頻率,但是在相似度計(jì)算公式中仍然使用了并集,影響了不同實(shí)體間匹配的準(zhǔn)確率,因此也驗(yàn)證了本文方法的有效性。進(jìn)一步看,對(duì)于本文所提算法,南鋼、攀鋼、韶鋼3 個(gè)鋼廠實(shí)體對(duì)齊的Hits@1 均已達(dá)到了100%,由于昆鋼和陜鋼異構(gòu)數(shù)據(jù)較多、數(shù)據(jù)描述復(fù)雜,Hits@1 為93.3%和96.3%,該結(jié)果同樣高于其他2 個(gè)算法。此外,從韶鋼的數(shù)據(jù)可以看出,使用僅含普通數(shù)據(jù)預(yù)處理方法的基礎(chǔ)算法,Hits@1 只有49.3%,這也說明了本文所設(shè)計(jì)數(shù)據(jù)預(yù)處理算法的有效性。
表3 不同鋼廠的實(shí)體匹配Hits@1 對(duì)比
表4 不同鋼廠的實(shí)體匹配MRR 對(duì)比
表3 列出了實(shí)體匹配的Hits@1 值。如果放寬查找范圍,在相似度最大的前k個(gè)候選實(shí)體中如果存在對(duì)應(yīng)的物資實(shí)體,則視為匹配成功,由此可以得出在不同k值下的實(shí)體匹配的Hits@k 值。從圖6可以看出,隨著k值的逐漸增大,實(shí)體匹配的準(zhǔn)確率逐漸升高,陜鋼實(shí)體匹配的Hits@ 5 已經(jīng)達(dá)到了100%,昆鋼實(shí)體匹配的Hits@5 已經(jīng)超過了98%,這個(gè)結(jié)果也再次驗(yàn)證了本文算法的有效性。
圖6 不同尺度下實(shí)體對(duì)齊查全率
進(jìn)一步地,為驗(yàn)證使用匹配度閾值對(duì)實(shí)體對(duì)齊準(zhǔn)確性的影響,本文比較了不同閾值下模型的各項(xiàng)性能指標(biāo)。以下實(shí)驗(yàn)將針對(duì)昆鋼和陜鋼的數(shù)據(jù)進(jìn)行分析。
根據(jù)實(shí)驗(yàn)的結(jié)果可得出閾值為0.35 時(shí)本文算法在昆鋼數(shù)據(jù)中表現(xiàn)出色,閾值為0.28 時(shí)本文算法在陜鋼的數(shù)據(jù)上表現(xiàn)良好。
本文實(shí)驗(yàn)從不同角度對(duì)模型的有效性進(jìn)行了驗(yàn)證。首先比較了最大相似度準(zhǔn)則下的實(shí)體對(duì)齊Hits@1和MRR,然后在Hits@1 偏低的鋼廠數(shù)據(jù)中又再次比較了不同k值下的Hits@k,通過不同算法對(duì)比可以看出本文所提算法達(dá)到了較高的準(zhǔn)確率。然后從相似度值的角度進(jìn)行衡量,探索閾值對(duì)于實(shí)驗(yàn)結(jié)果的影響。結(jié)果表明,算法的性能有所下降,原因是鋼廠不同鋼產(chǎn)品屬性描述存在差異,直接使用統(tǒng)一的閾值進(jìn)行實(shí)體對(duì)齊的衡量導(dǎo)致部分?jǐn)?shù)據(jù)無法有效進(jìn)行匹配。圖7、圖8 為鋼廠數(shù)據(jù)在設(shè)定不同閾值時(shí)評(píng)價(jià)指標(biāo)的變化趨勢(shì)圖。圖7 中的查準(zhǔn)率折線隨著閾值的升高出現(xiàn)了明顯的波動(dòng),這也反映出基于閾值的實(shí)體對(duì)齊存在一定問題,后期將會(huì)探索更科學(xué)的實(shí)體對(duì)齊的衡量尺度,從多角度科學(xué)地衡量實(shí)體對(duì)的匹配關(guān)系,進(jìn)一步提高實(shí)體對(duì)齊的準(zhǔn)確度。
圖7 不同閾值下昆鋼的實(shí)驗(yàn)結(jié)果
圖8 不同閾值下陜鋼的實(shí)驗(yàn)結(jié)果
本文面向行業(yè)電商知識(shí)圖譜應(yīng)用,將電商平臺(tái)底層多源異構(gòu)數(shù)據(jù)中同一對(duì)象的匹配問題轉(zhuǎn)化為知識(shí)圖譜領(lǐng)域中實(shí)體對(duì)齊問題,并提出一種基于領(lǐng)域知識(shí)的集合相似度實(shí)體對(duì)齊算法,實(shí)現(xiàn)數(shù)據(jù)融合。在算法設(shè)計(jì)中,基于領(lǐng)域知識(shí)針對(duì)性設(shè)計(jì)數(shù)據(jù)預(yù)處理技術(shù),以規(guī)范化電商底層多源異構(gòu)數(shù)據(jù)、提升數(shù)據(jù)處理效率和準(zhǔn)確性;結(jié)合鋼材領(lǐng)域知識(shí),過濾非配對(duì)實(shí)體,縮小實(shí)體對(duì)齊計(jì)算空間,生成高質(zhì)量候選集;應(yīng)用集合相似度思想,綜合實(shí)體名稱、屬性和行業(yè)領(lǐng)域信息,定義實(shí)體相似度評(píng)估函數(shù),有效評(píng)估實(shí)體對(duì)的匹配概率。實(shí)驗(yàn)結(jié)果表明,本文算法可有效提高實(shí)體匹配準(zhǔn)確率,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的高效融合。本文進(jìn)一步從基于相似度值排序的度量和基于閾值的度量2 個(gè)方面比較了實(shí)體對(duì)齊的匹配標(biāo)準(zhǔn),探索了不同閾值對(duì)實(shí)體對(duì)齊的影響。
在未來研究中,將會(huì)融合不同標(biāo)準(zhǔn)進(jìn)行實(shí)體對(duì)齊的度量,同時(shí)也會(huì)從知識(shí)圖譜的拓?fù)浣Y(jié)構(gòu)出發(fā),探索基于圖神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行實(shí)體對(duì)齊,進(jìn)一步提高實(shí)體對(duì)齊的準(zhǔn)確度,減少人工干預(yù),提高行業(yè)效率。