国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種引入元路徑相似性度量的材料實體檢索方法

2024-11-04 00:00黃華澤胡紫璇游進國黃星瑞陶靜梅易健宏
計算機應(yīng)用研究 2024年9期

摘 要:近年來,隨著材料數(shù)據(jù)的積累以及“材料基因組計劃”的普及,面對大量需要處理和管理的材料數(shù)據(jù),快速準(zhǔn)確地檢索并獲取相應(yīng)信息已成為一個重要問題。傳統(tǒng)的檢索方法由于僅能查詢某一材料的相關(guān)信息,并且存在檢索結(jié)果不全面、無法處理復(fù)雜語義關(guān)系等問題,難以獲取相似程度較高的材料。為了快速、準(zhǔn)確地找到與某種材料相似的材料,提出可度量不同節(jié)點的加權(quán)材料相似度計算模型WM-PathSim。首先,使用metapath2vec學(xué)習(xí)材料節(jié)點的嵌入表示;其次,引入TFIDF-CBOW模型學(xué)習(xí)材料路徑實例的存在概率,進而計算不同元路徑的權(quán)重;最后,加權(quán)求和符合條件的元路徑得到最后的相似性度量,來預(yù)測不同材料之間的相似程度。在真實數(shù)據(jù)集上的結(jié)果表明,在不同的路徑關(guān)系中,所提模型相比于基線方法在性能上有較大提升,其AUC和precision指標(biāo)分別提升了0.37~5.02百分點和1%~7.33百分點,說明所提模型得到材料間的相似程度更加準(zhǔn)確和有效,從而能夠獲得相似材料。

關(guān)鍵詞:材料相似度;metapath2vec;TFIDF-CBOW;元路徑權(quán)重

中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1001-3695(2024)09-030-2781-06

doi:10.19734/j.issn.1001-3695.2023.12.0630

Material entity retrieval method introducing similarity measure based on meta-path

Huang Huaze1,Hu Zixuan1,You Jinguo1,2,Huang Xingrui1,Tao Jingmei3,Yi Jianhong3

(1.Faculty of Information Engineering & Automation,Kunming University of Science & Technology,Kunming 650500,China;2.Yunnan Key Laboratory of Artificial Intelligence,Kunming 650500,China;3.Faculty of Material Science & Engineering,Kunming University of Science & Technology,Kunming 650093,China)

Abstract:In recent years,with the accumulation of material data and the popularization of the“material genome project”,it has become an important issue to retrieve and obtain the corresponding information quickly and accurately in the face of a large amount of material data that needs to be processed and managed.However,traditional retrieval methods can only query information related to a certain material,and there are problems such as incomplete retrieval results and inability to handle complex semantic relations,making it difficult to obtain materials with a high degree of similarity.In order to find materials similar to a certain material quickly and accurately,this paper proposed a weighted material similLPrcCDPw0Ff7cewjxTdHvA==arity calculation model WM-PathSim that could measure different nodes.Firstly,it learned the embedding representation of material nodes by using metapath2vec.Secondly,it introduced the TFIDF-CBOW model to learn the existence probability of material path instances,and then calculated the weights of different meta-paths.Finally,it obtained the weighted summation of eligible meta-paths as the final similarity measure to predict the similarity between different materials.The results on the real datasets show that the proposed model has a greater performance improvement compared with the baseline method in different path relations,and its AUC and precision metrics are improved by 0.37~5.02percentage and 1~7.33points,respectively,It indicates that this model is more accurate and effective in obtaining the degree of similarity between materials,and thus enabling the acquisition of similar materials.

Key words:material similarity;metapath2vec;TFIDF-CDOW;meta-path weight

0 引言

材料科學(xué)是一個涉及多學(xué)科交叉的領(lǐng)域,涵蓋了物理學(xué)、化學(xué)、材料工程等多個領(lǐng)域,它的研究對象是各種材料及其性質(zhì)、結(jié)構(gòu)、制備、加工、應(yīng)用等方面。隨著材料基因組計劃以及材料基因工程[1]的推廣,有大量的實驗數(shù)據(jù)、文獻、專利等信息需要進行處理和管理,如何快速、準(zhǔn)確地檢索和獲取相關(guān)數(shù)據(jù)[2]成為了一個重要的問題。

傳統(tǒng)的關(guān)鍵詞匹配檢索方法是將用戶輸入的意圖與文本中的關(guān)鍵詞進行匹配以達到檢索所需目標(biāo)的效果。但這種方法往往存在著一些局限性,如檢索結(jié)果不全面、無法處理多義詞和同義詞、難以處理復(fù)雜的語義關(guān)系等,進而導(dǎo)致搜索結(jié)果的準(zhǔn)確性和全面性受到限制。為了克服傳統(tǒng)檢索方法的不足以及快速、準(zhǔn)確地獲取材料知識,研究人員提出了許多知識檢索技術(shù),其中基于元路徑相似度計算的知識檢索是一種比較有效的方法,其利用元路徑的相似性度量可以幫助用戶發(fā)現(xiàn)材料潛在的關(guān)聯(lián)性和相關(guān)性。

元路徑[3]是異質(zhì)信息網(wǎng)絡(luò)中的一種重要概念。異質(zhì)信息網(wǎng)絡(luò)[4]是一種由不同類型的節(jié)點和邊組成的網(wǎng)絡(luò),其中節(jié)點和邊都具有不同的屬性和類型。目前異質(zhì)信息網(wǎng)絡(luò)在材料科學(xué)相似性度量方面還沒有被系統(tǒng)地研究,而傳統(tǒng)的異質(zhì)信息網(wǎng)絡(luò)的相似性度量方法主要基于元路徑。元路徑指的是由多個不同類型的節(jié)點和邊組成的路徑,比如在社交網(wǎng)絡(luò)中,一個由用戶、社交關(guān)系和興趣愛好節(jié)點組成的路徑就是一個元路徑。元路徑的相似性度量可以用于許多任務(wù),在挖掘豐富語義信息方面具有廣泛的應(yīng)用前景,其中包括分類[5]、聚類[6]、相似性搜索[7~12]。通過定義不同的元路徑,可以捕捉異質(zhì)信息網(wǎng)絡(luò)中不同類型節(jié)點之間的關(guān)系。

1 相關(guān)工作

對于給定元路徑p的對象間相似性問題,一些測量方法已被提出。PathCount度量的是兩個實體在網(wǎng)絡(luò)中連接路徑的數(shù)量,可以用來衡量它們之間的相關(guān)性和相似性。PathSim[7]是一種基于路徑的相似性度量方法,用于衡量異質(zhì)圖中兩個相同類型實體之間的相似度。與PathCount不同,PathSim不僅考慮了元路徑的路徑實例數(shù)量,還考慮了實例之間的相似性。Lao等人[8]在2010年提出了一種帶有路徑約束的隨機漫步(path-constrained random walk,PCRW)模型,用于衡量豐富的科學(xué)文獻元數(shù)據(jù)所構(gòu)造有向圖的實體接近性。盡管可以用PCRW模型來衡量不同種類對象之間的相關(guān)性,但是PCRW具有非對稱性質(zhì),使其無法作為相關(guān)性測量的工具。SimRank[9]是一種對稱相似性度量算法,通過兩個對象的相鄰對象相似度來評估兩個對象的相似度。HeteSim[10]是最近提出的基于元路徑的SimRank的擴展,它能夠根據(jù)所給元路徑來度量任何一類節(jié)點對間的相似性。Yang等人[11]在2018年提出了一種加權(quán)異構(gòu)信息網(wǎng)絡(luò)(weighted heterogeneous information network,WHIN)及加權(quán)元路徑的方法,并針對WHIN提出一種基于語義路徑的相似性度量模型WgtSim。隨著加權(quán)異構(gòu)信息網(wǎng)絡(luò)的出現(xiàn),如何度量這種新型網(wǎng)絡(luò)中對象之間的相似度仍有待研究。

Yuan等人[13]提出了一種基于網(wǎng)絡(luò)架構(gòu)搜索的異構(gòu)信息網(wǎng)絡(luò)元路徑搜索方法,可搜索到更適合不同異構(gòu)信息網(wǎng)絡(luò)和推薦任務(wù)的元路徑。SAHE[14]衡量每個元路徑在其自身語義空間上的相對相似度關(guān)系,聚合相似度關(guān)系以獲得節(jié)點相似度并計算嵌入。Zhang等人[15]提出了一種用于top-k相似度搜索的雙通道CNN,以根據(jù)不同的元路徑為節(jié)點生成結(jié)構(gòu)和內(nèi)容嵌入。Zhou等人[16]將元路徑的實例抽象為語義單元,并考慮它們之間的交互以發(fā)現(xiàn)更深層次的語義信息。Zhai等人[17]提取了描述原始異構(gòu)信息網(wǎng)絡(luò)基本連接模式的異構(gòu)信息原子,有助于獲得主要的元路徑或元結(jié)構(gòu)。GoT[18]由元路徑構(gòu)建、元路徑內(nèi)融合、元路徑間融合和語義注釋推薦四部分組成,可充分利用結(jié)構(gòu)和語義信息,有效提升了推薦準(zhǔn)確性。

在材料領(lǐng)域,材料相似性度量可以應(yīng)用于相似材料搜索,幫助科學(xué)家快速找到與他們研究的材料相似的某些材料,并獲取相關(guān)信息。同時能夠用于推薦材料,根據(jù)用戶輸入的材料性質(zhì)或需求,檢索與其相似的某些材料,并進行推薦。

基于元路徑相似度計算的材料實體檢索方法將材料領(lǐng)域的知識和信息以網(wǎng)絡(luò)的形式進行結(jié)構(gòu)化和表示,通過計算查詢節(jié)點與網(wǎng)絡(luò)中其他節(jié)點之間的元路徑相似度來判斷它們之間的相關(guān)性。相比于傳統(tǒng)基于關(guān)鍵詞的檢索方法,基于元路徑相似度計算的材料實體檢索方法可以更全面、準(zhǔn)確地表達查詢信息,并且可以將分散在不同文獻、數(shù)據(jù)庫等的信息進行整合和融合,提供更為精準(zhǔn)的查詢結(jié)果。

因此,基于元路徑相似度計算的材料實體檢索方法具有廣闊的應(yīng)用前景,可以為材料科學(xué)家、工程師和決策者提供更為便捷、快速、準(zhǔn)確的材料實體和信息,促進材料科學(xué)領(lǐng)域的進步和發(fā)展。

2 材料異質(zhì)信息網(wǎng)絡(luò)模型的建立

2.1 材料異質(zhì)信息網(wǎng)絡(luò)的建模

本文采用材料名、性能名、性能值、文獻來源作為不同的節(jié)點類型,因此采用材料異質(zhì)信息網(wǎng)絡(luò)進行建模。利用網(wǎng)絡(luò)中的元路徑描述節(jié)點之間的復(fù)雜語義關(guān)系,既可通過不同的元路徑得到不同的語義信息,也可根據(jù)元路徑相似度進行材料實體相似搜索。該模型可細粒度地挖掘不同對象之間的聯(lián)系,并且找到不同材料的特征表示,進而統(tǒng)一刻畫材料特征,有助于進行相似材料的檢索。

如圖1所示,S表示文獻來源、C表示材料、P表示性能、V表示性能值,其中s1c1表示從文獻來源s1抽取出的材料c1、c1p1v1表示材料c1具有性能p1且性能值為v1,通過整合“文獻來源-材料”“材料-性能-性能值”等多種材料知識及關(guān)系,對異質(zhì)信息網(wǎng)絡(luò)進行挖掘。

定義1 材料異質(zhì)信息網(wǎng)絡(luò)。用MN=(C,P,V,S,E)表示,其中:

a)C={c1,c2,…,cn}為材料節(jié)點集合。

b)P={p1,p2,…,pn}為性能節(jié)點集合。

c)V={v1,v2,…,vn}為性能值節(jié)點集合。

d)S={s1,s2,…,sn}為文獻來源節(jié)點集合。

e)E={Esc∪Ecp∪Epv∪Ecv}是模型中所有邊的集合。其中描述材料與文獻之間的語義關(guān)系為Esc={e(s,c)|s∈S,c∈C},即該材料是從某篇文獻中抽取出來的;Ecp={e(c,p)|c∈C,p∈P},其蘊涵了材料與不同性能之間的語義聯(lián)系,即該材料所抽取出的性能;Epv={e(p,v)|p∈P,v∈V}描述了性能和性能值之間的語義關(guān)系,即某性能對應(yīng)的性能值;為保證某材料能夠?qū)?yīng)準(zhǔn)確的性能值,建立Ecv={e(c,v)|c∈C,v∈V}關(guān)系,表明某材料抽取出的性能值。

2.2 材料元路徑的描述

元路徑定義作為一種有效利用異構(gòu)信息和挖掘語義的工具,將網(wǎng)絡(luò)模型中的兩類對象連接起來,廣泛應(yīng)用于異構(gòu)信息網(wǎng)絡(luò)分析。元路徑可以描述節(jié)點間的語義信息,下面以圖2為例描述材料異質(zhì)網(wǎng)絡(luò)的元路徑。

這些路徑包含不同的語義,如SCS路徑是指不同來源文獻下的同一種材料,而SCPCS路徑表示不同來源文獻下?lián)碛型环N屬性(性能)的材料。

定義2 材料關(guān)系。根據(jù)材料異質(zhì)信息網(wǎng)絡(luò)模型中的節(jié)點類型,節(jié)點間具有四類關(guān)系R={R1,R2,R3,R4}:R1為面向材料文獻抽取出的材料,定義為來源關(guān)系;R2為材料所包含的性能,定義為擁有關(guān)系;R3為某性能所對應(yīng)的性能值,定義為性能數(shù)值關(guān)系;R4為某材料對應(yīng)的性能值,定義為材料數(shù)值關(guān)系。

定義3 材料元路徑。在材料異質(zhì)信息網(wǎng)絡(luò)模型MN=(C,P,V,S,E)中,材料元路徑描述為

P=SR1C,CR2P,PR3V,CR4V

其中:R={R1,R2,R3,R4}為節(jié)點間的關(guān)系。

定義4 材料路徑實例。對于材料元路徑P,如果存在真實路徑p={vi,vi+1∈S∪C∪P∪V|viRjvi+1},其中對于任意i,模型節(jié)點vi與vi+1之間關(guān)系為Rj,故路徑p是材料元路徑中的一條路徑實例。對于滿足條件p的集合稱為元路徑的實例集合。

材料異質(zhì)信息網(wǎng)絡(luò)模型具有的元路徑如圖3所示。

具體元路徑語義信息如表1所示。

3 基于元路徑相似性度量的材料實體檢索

本文提出基于可度量任意節(jié)點的加權(quán)求和材料相似度計算模型WM-PathSim框架,如圖4所示。首先,使用metapath2vec[19]學(xué)習(xí)節(jié)點的嵌入表示;其次,設(shè)計了一種TFIDF-CBOW模型學(xué)習(xí)元路徑對語義表達的貢獻程度,對符合條件的元路徑的權(quán)重進行計算;最后,加權(quán)求和多條元路徑并通過PathSim進行相似度度量,來預(yù)測不同材料之間的相似程度。接下來,將詳細介紹上述每個步驟。

3.1 基于metapath2vec的路徑表示

為了獲得隱藏在不同網(wǎng)絡(luò)中的不同語義特征,本文使用metapath2vec,一種異構(gòu)嵌入表示學(xué)習(xí)方法,學(xué)習(xí)材料、性能、性能值節(jié)點的表示。通過考慮節(jié)點類型,獲得了材料異質(zhì)信息網(wǎng)絡(luò)中的嵌入向量,以促進材料預(yù)測。

metapath2vec算法用于引導(dǎo)隨機游走僅在特定類型節(jié)點之間的游動,以獲得包含節(jié)點語義信息的嵌入向量。

為了將不同類型的節(jié)點投影到相同的特征空間中,將元路徑合并到隨機游走生成器中,以對節(jié)點的鄰居進行采樣。材料元路徑P定義為

P=V1R1V2R2V3R3…VtRtVt+1…R4Vl

其描述了V1和Vl之間的潛在語義關(guān)系(假設(shè)路徑的長度為l)。例如,考慮材料異質(zhì)網(wǎng)絡(luò),元路徑“材料-性能-性能值-性能-材料”表明兩種材料可能對同一性能具有類似的性能值。因此,這兩種材料應(yīng)該在低維特征空間中保持接近,節(jié)點vt的轉(zhuǎn)移概率公式如下:

p(vi+1|vit,P)=1|Nt+1(vit)|(vi+1,vit)∈E,vi+1∈Nt+1(vit)0(vi+1,vit)∈E,vi+1Nt+1(vit)0(vi+1,vit)E(1)

其中:Nt+1(vit)表示節(jié)點vit的Vt+1類型鄰居。

在異構(gòu)網(wǎng)絡(luò)上通過metapath2vec遍歷所有的元路徑,得到所有元路徑的路徑實例集合,可為每個節(jié)點導(dǎo)出一個維數(shù)為r的低維表示。

3.2 基于TFIDF-CBOW模型的元路徑權(quán)重計算

CBOW[20]模型通過詞向量間的空間相似度來衡量文本語義上的相似度,為豐富了詞向量對詞之間關(guān)系以及詞本身的意義表示,本文提出了一種TFIDF-CBOW模型以體現(xiàn)當(dāng)前詞匯在全文信息中的重要程度和詞匯位置在分類能力中的作用:

Xw(i)=TFIDF×CBOW(w(i))(2)

通過遍歷元路徑,獲取所有路徑實例,并將其作為語料庫輸入改進模型。通過學(xué)習(xí)與訓(xùn)練,獲得中心節(jié)點與其他節(jié)點同時存在的可能性。元路徑存在的概率是通過節(jié)點出現(xiàn)概率來確定的。它表達了路徑對語義表達式的貢獻,概率將被用作路徑的權(quán)重。

輸入層的輸入節(jié)點初始化向量由隱藏層進行累加和,得到輸出層的Huffman樹。Huffman樹上,每個葉節(jié)點表示一個目標(biāo)詞,每一目標(biāo)詞還具有指示編碼規(guī)則的通路。采用邏輯回歸的方法,沿著左子樹游走,對Huffman樹進行1編碼;沿著右子樹走,Huffman樹編碼是0。同時各非葉節(jié)點都表示二分類問題。使用各葉節(jié)點所對應(yīng)Huffman代碼,并進行二分類處理,計算所述任意兩節(jié)點同時發(fā)生的可能性。通過兩個節(jié)點出現(xiàn)的概率確定元路徑實例存在的可能性。最后,判斷當(dāng)前元路徑是否存在概率。

對一條路徑實例的存在概率計算:

pk=∏mi=1pl,j=∏mi=1euj∑Vj′=1euj′(3)

其中:pk表示目前這一條路徑實例存在的可能性;m為元路徑長度;V為材料異質(zhì)網(wǎng)絡(luò)中的節(jié)點數(shù);pl,j為輸出層中節(jié)點j和窗口內(nèi)任一節(jié)點數(shù)的概率值;uj表示通過TFIDF-CBOW得到的輸出。

最后,得到該元路徑的存在概率。公式為

Pt=∑ni=1(Pt)in(4)

其中:n是路徑實例數(shù)量;Pt表示目前這條元路徑存在的可能性。

經(jīng)由元路徑的存在概率,計算出不同的符合條件的元路徑的權(quán)重后,加權(quán)求和計算得到最后的相似性度量。元路徑權(quán)重計算公式為

Wt=Pt∑kt=1Pt(5)

其中:t是目前的元路徑;k代表符合條件的元路徑的條數(shù)。

3.3 基于PathSim的元路徑融合相似性度量

PathSim算法僅考慮了元路徑中相同類型節(jié)點之間的關(guān)系,而忽略了不同類型節(jié)點之間的關(guān)聯(lián)程度,同時亦未考慮同一節(jié)點間可能存在的相似語義所帶來的影響。但是材料異質(zhì)信息網(wǎng)絡(luò)包含了許多不同種類的節(jié)點與邊,為此提出一種可以測度任意種類節(jié)點與邊之間相似性的建模方法,通過分析不同種類節(jié)點之間及與邊在拓撲上的關(guān)系來描述材料信息資源。材料相似性度量計算公式如下:

s(mi,mj)=2×|{pmi→mj:pmi→mj∈P}||{pmi→mi:pmi→mi∈P}|+|{pmj→mj:pmj→mj∈P}|Tmi=Tmj|{pmi→mj:pmi→mj∈P}|+|{pmj→mi:pmj→mi∈P}||{pmi→mi:pmi→mi∈P}|+|{pmj→mj:pmj→mj∈P}|Tmi≠Tmj(6)

其中:pmi→mj表示mi和mj間的路徑實例數(shù);pmi→mi表示mi和mi間的路徑實例數(shù);pmj→mj表示mj和mj間的路徑實例數(shù);s(mi,mj)表示mi和mj的材料相似性;Tmi=Tmj表示節(jié)點類型相同;Tmi≠Tmj表示節(jié)點類型不同。

利用線性融合方法,通過式(5)(6)實現(xiàn)了元路徑的加權(quán)求和,獲得了一種基于PathSim的元路徑融合相似性度量算法:

s=∑kt=1Wtst(mi,mj)(7)

該計算模型通過引入權(quán)重,細化了不同元路徑對相似性度量的影響,解決PathSim算法在節(jié)點類型及元路徑的局限性,從而利用網(wǎng)絡(luò)的異構(gòu)性來預(yù)測不同材料之間的相似程度。

4 實驗結(jié)果與分析

4.1 數(shù)據(jù)來源

本文選取的數(shù)據(jù)集為AMiner[21]和CMC。a)AMiner數(shù)據(jù)集。包括論文、作者、引用文獻和概念四種類型的節(jié)點,論文-作者、論文-引用文獻和論文-概念三種類型的邊。b)CMC數(shù)據(jù)集。通過使用Elsevier Scopus API方式抓取的2011—2022年有關(guān)銅基復(fù)合材料的文獻作為原始數(shù)據(jù),并采用基于規(guī)則匹配的正則化方式抽取相應(yīng)的實體、關(guān)系信息,最終由抽取出的實體、關(guān)系數(shù)據(jù)構(gòu)成CMC材料數(shù)據(jù)集。其包括復(fù)合材料、性能名、性能值以及文獻來源四種類型的節(jié)點,四種類型的邊包括復(fù)合材料-性能名、復(fù)合材料-性能值、性能名-性能值和復(fù)合材料-文獻來源。數(shù)據(jù)集的統(tǒng)計信息如表2所示。

其中數(shù)字代表對應(yīng)節(jié)點和邊的數(shù)目。在AMiner數(shù)據(jù)集中,p1a1p2元路徑表示論文p1和p2都由作者a1撰寫,CMC數(shù)據(jù)集元路徑語義信息可見表1。此外,圖5是從材料異質(zhì)信息網(wǎng)絡(luò)中構(gòu)建而成的最小生成樹,其說明了CMC數(shù)據(jù)集中不同實體之間的相互作用。

4.2 評價指標(biāo)

為了對算法進行有效性和準(zhǔn)確性評估,在實驗中,分別用AUC和precision對整體和局部的元路徑相似性算法進行測度[12]。AUC指標(biāo)是從全局出發(fā)度量算法精確度的指標(biāo),定義如下:

AUC=n′+0.5n″n(8)

其中:n為所有的組合比較次數(shù);n′表示正樣本的得分大于負樣本的得分的組數(shù),本文實驗將隨機抽取測試集邊的數(shù)目設(shè)置為正樣本得分,不存在的邊的數(shù)目設(shè)置為負樣本得分;n″代表二元組中正負樣本的得分相等的組數(shù)。

m表示預(yù)測標(biāo)簽和實際標(biāo)簽相同的數(shù)量,若在前K個預(yù)測結(jié)果中有m個結(jié)果是準(zhǔn)確的,那么準(zhǔn)確率precision值則被定義為

precision=mK(9)

4.3 實驗結(jié)果

本文使用目前常用的一些元路徑相似性度量算法來比較基于PathSim的加權(quán)求和材料相似度計算方法WM-PathSim。

a)PathSim[7]。其用于計算異質(zhì)信息網(wǎng)絡(luò)中不同節(jié)點之間的相似度。它考慮了網(wǎng)絡(luò)中節(jié)點之間的路徑以及路徑的長度,利用路徑相似性來計算節(jié)點之間的相似度。

b)HeteSim[10]。與PathSim不同,HeteSim能夠更好地處理不同類型節(jié)點之間的相似性計算問題。HeteSim使用了一個基于矩陣的方法來計算相似性,同時還考慮了節(jié)點在不同路徑中的重要性以及路徑之間的權(quán)重。

c)AvgSim[22]。其為一種基于平均相似度的相似性計算方法。它通過正向隨機游走和反向隨機游走在兩個節(jié)點之上的概率取算術(shù)平均值。

d)WgtSim[11]。其為一種基于加權(quán)路徑相似性的節(jié)點相似度計算方法。通過比較兩個用戶對項目的偏好,使其能夠準(zhǔn)確地度量屬于同一類型的對象的相似度。

為了說明基于PathSim的加權(quán)元路徑相似度計算方法能夠?qū)崿F(xiàn)任何節(jié)點的相似性度量,實驗分別在對稱元路徑和非對稱元路徑上進行。

首先利用不同路徑關(guān)系,在對稱元路徑中分別對算法準(zhǔn)確率進行了驗證。對于AMiner數(shù)據(jù)集,作者關(guān)系的元路徑是APLPA,引用關(guān)系的是LPAPL,論文關(guān)系的元路徑采用PAPLPAP。就全局相似度的測度結(jié)果而言,通過與PathSim、HeteSim、AvgSim、WgtSim算法作比較,如圖6、7所示,該研究模型AUC值分別平均增加5.02百分點、4.3百分點、3.34百分點、0.37百分點;從局部精度的計算結(jié)果來看,本文模型精度值分別比其他算法高7.33百分點、3.33百分點、3.33百分點、1百分點,說明本文算法對相似度的測量具有較高的精度,測量效果較好,結(jié)果如圖6、7所示。

然后驗證非對稱元路徑相似性度量準(zhǔn)確率。由于PathSim只能度量同種類型節(jié)點,所以后面的實驗是通過HeteSim、AvgSim、WgtSim算法與本文WM-PathSim算法作對比,如圖8、9。針對AMiner數(shù)據(jù)集,論文-作者關(guān)系的元路徑為APLPCP,論文-引用關(guān)系的元路徑為APCPL。對比實驗結(jié)果發(fā)現(xiàn),WM-PathSim比其他三種算法具有更高的性能,AUC分別提升了4.99百分點、4.48百分點和1.47百分點;對比precision值,WM-PathSim較HeteSim有2百分點的提升,較AvgSim來說降低了1百分點的準(zhǔn)確率,與WgtSim相比并無改進。這是因為precision通常只從局部考慮算法的準(zhǔn)確率,而AUC是對算法準(zhǔn)確性的總體測度。因此,WM-PathSim對非對稱元路徑具有較好的整體度量結(jié)果,實驗結(jié)果如圖8、9所示。

通過在不同路徑關(guān)系下對模型的性能進行對比分析后,將基準(zhǔn)模型與WM-PathSim應(yīng)用于CMC數(shù)據(jù)集進行AUC和precision對比,結(jié)果如表3所示。

可以看出,相比于基準(zhǔn)模型,WM-PathSim準(zhǔn)確度有所提升,其AUC和precision值分別提高6.4百分點和4.5百分點,說明該模型適用于材料數(shù)據(jù)集,對之后相似材料查詢有所幫助。

分別使用PathSim和WM-PathSim計算與某種復(fù)合材料相似的復(fù)合材料top-10,以CNTs/Cu為例,表4展示在CMC數(shù)據(jù)集中與CNTs/Cu最為相似的前十種復(fù)合材料。如表4所示,通過WM-PathSim計算得出的材料相似度略高于由PathSim計算得出的結(jié)果,說明本文模型的有效性。對于結(jié)果的分析比較,在下節(jié)案例分析中展開。

4.4 材料實體檢索實驗結(jié)果分析

本文以Al-Si-Cu為例,使用WM-PathSim計算得到的與Al-Si-Cu相似的材料top-10排名如表5所示。

在抽取出的材料數(shù)據(jù)中,Al-Si-Cu的屈服強度和拉伸強度在100~400 MPa,硬度在85~95HV。通過WM-PathSim進行相似材料檢索時,能夠找到與Al-Si-Cu最為接近的元素,并進行相似度排序。其中排名第一的Al-Si-Cu與自身最為相似,其相似度值為1。根據(jù)實驗結(jié)果,進一步對比排名第二至第十的材料機械性能。Al-Mg-Si-Cu的屈服強度在130~200 MPa,硬度為59.5 HV;Al-11.3Si-2Cu的屈服強度和拉伸強度在125~160 MPa;Al7Si0.5Cu的屈服強度為261 MPa,拉伸強度為282 MPa;Cu-1.5CNTs-0.5Al2O3的屈服強度和拉伸強度在324~345 MPa;CNT/Al-Cu的屈服強度和拉伸強度在110~384 MPa;10vol.% CNT/Cu的拉伸強度區(qū)間為68~296 MPa,硬度在68~135 HV之間;1.5wt%Mg2Si/Al-5Cu的拉伸強度為315 MPa;Al-Cu-Li的屈服強度和拉伸強度分別為125~632 MPa、253~632 MPa;10Ti2AlC/Cu的拉伸強度為103 MPa。

可以看出,這九種銅基復(fù)合材料的屈服強度、拉伸強度以及硬度均與Al-Si-Cu相似,但也存在一定的誤差,例如Al-Mg-Si-Cu的硬度為59.5 HV,10Ti2AlC/Cu的拉伸強度為103 MPa,都與上述Al-Si-Cu的機械性能對應(yīng)的性能值范圍不符。這種誤差存在的原因主要是本文抓取的文獻數(shù)據(jù)僅來源于通過Elsevier Scopus API的網(wǎng)頁抓取,對于如今已經(jīng)構(gòu)建完成的材料數(shù)據(jù)庫以及國內(nèi)外材料科學(xué)網(wǎng)站中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)研究薄弱,故構(gòu)建的CMC數(shù)據(jù)集數(shù)據(jù)量不大,致使通過元路徑進行材料相似度檢索的結(jié)果存在偏頗。雖然如此,但通過WM-PathSim抽取出的結(jié)果基本合乎實際發(fā)展規(guī)律,并未得到與Al-Si-Cu不相似的復(fù)合材料,并且結(jié)果與PathSim相比有了進一步的提升。同時,對于有些復(fù)合材料缺失性能數(shù)據(jù),如Al7Si0.5Cu、Cu-1.5CNTs-0.5Al2O3等沒有有關(guān)硬度的性能值,由于這些復(fù)合材料與Al-Si-Cu相似,所以可以判斷它們的硬度在85~95 HV。

總的來說,本文算法能夠發(fā)現(xiàn)與某種材料相似的一些材料,可以幫助研究人員快速了解材料的性質(zhì)、特點和應(yīng)用范圍,為材料的選擇、設(shè)計和改進提供依據(jù)。

5 結(jié)束語

針對材料異質(zhì)信息網(wǎng)絡(luò)的元路徑進行數(shù)據(jù)分析和挖掘,提出了一種基于PathSim的可度量任意節(jié)點的加權(quán)材料相似度計算模型WM-PathSim,能夠?qū)Σ牧线M行相似性比較。首先,需要將材料數(shù)據(jù)表示為異質(zhì)信息網(wǎng)絡(luò)。通過實體關(guān)系抽取得到的材料、性能、性能值以及文獻來源可以看做圖中的節(jié)點,而它們之間的關(guān)系可以看做圖中的邊。接下來,定義一組元路徑作為圖的特征。元路徑是一種從一個節(jié)點到另一個節(jié)點的序列,其中每個節(jié)點都具有特定的標(biāo)簽。例如,可以定義元路徑材料-性能-性能值表示某一材料所具備性能的性能值。然后,利用metapath2vec獲得異質(zhì)信息網(wǎng)絡(luò)的路徑實例,并通過TFIDF-CBOW計算符合條件的元路徑的權(quán)重。最后,可以將多條元路徑加權(quán)求和的相似度作為材料實體檢索的相似性度量。對于給定的查詢材料,可以計算它與網(wǎng)絡(luò)中所有材料之間的相似度,并返回相似度最高的材料作為檢索結(jié)果。實驗結(jié)果表明,該方法比其他元路徑相似性度量算法更加準(zhǔn)確和有效。在接下來的研究工作當(dāng)中,將探索更加精準(zhǔn)的相似性度量方法,包括異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法、結(jié)合自然語言處理技術(shù)的材料實體檢索等,以及利用已有的材料相似性計算方法指導(dǎo)材料的預(yù)測和設(shè)計。

參考文獻:

[1]宿彥京,付華棟,白洋,等.中國材料基因工程研究進展[J].金屬學(xué)報,2020,56(10):1313-1323.(Su Yanjing,F(xiàn)u Huadong,Bai Yang,et al.Progress in materials genome engineering in China[J].Acta Metallurgica Sinica,2020,56(10):1313-1323.)

[2]Haug A.Acquiring materials knowledge in design education[J].International Journal of Technology and Design Education,2019,29(2):405-420.

[3]石川,王睿嘉,王嘯.異質(zhì)信息網(wǎng)絡(luò)分析與應(yīng)用綜述[J].軟件學(xué)報,2022,33(2):598-621.(Shi Chuan,Wang Ruijia,Wang Xiao.Survey on heterogeneous information networks analysis and application[J].Journal of Software,2022,33(2):598-621.)

[4]Sun Yizhou,Han Jiawei.Mining heterogeneous information networks:a structural analysis approach[J].ACM SIGKDD Explorations Newsletter,2013,14(2):20-28.

[5]Ming Ji,Han Jiawei,Danilevsky M.Ranking-based classification of heterogeneous information networks[C]//Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2011:1298-1306.

[6]Sun Yizhou,Norick B,Han Jiawei,et al.Pathselclus:integrating meta-path selection with user-guided object clustering in heterogeneous information networks[J].ACM Trans on Knowledge Discovery from Data,2013,7(3):1-23.

[7]Sun Yizhou,Han Jiawei,Yan Xiefeng,et al.PathSim:meta path-based top-k similarity search in heterogeneous information networks[J].Proceedings of the VLDB Endowment,2011,4(11):992-1003.

[8]Lao Ni,Cohen W W.Fast query execution for retrieval models based on path-constrained random walks[C]//Proc of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2010:881-888.

[9]Glen J,Widom J.SimRank:a measure of structural-context similarity[C]//Proc of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:538-543.

[10]Shi Chuan,Kong Xiangnan,Huang Yue,et al.HeteSim:a general framework for relevance measure in heterogeneous networks[J].IEEE Trans on Knowledge and Data Engineering,2014,26(10):2479-2492.

[11]Yang Chunxue,Zhao Chenfei,Wang Hengliang,et al.A semantic path-based similarity measure for weighted heterogeneous information networks[C]//Proc of International Conference on Knowledge Science,Engineering and Management.Cham:Springer,2018:311-323.

[12]趙宇紅,薛維佳.基于元路徑加權(quán)融合的異構(gòu)網(wǎng)絡(luò)相似性度量[J].計算機工程與設(shè)計,2021,42(2):309-315.(Zhao Yuhong,Xue Weijia.Similarity measurement of heterogeneous networks based on meta-path-weighted fusion[J].Computer Engineering and Design,2021,42(2):309-315.)

[13]Yuan Peisen,Sun Yi,Wang Hengliang.Heterogeneous information network-based recommendation with metapath search and memory network architecture search[J].Mathematics,2022,10(16):2895.

[14]Zheng Susu,Guan Donghai,Yuan Weiwei.Semantic-aware heterogeneous information network embedding with incompatible meta-paths[J].World Wide Web,2022,25(1):1-21.

[15]Zhang Yun,Yu Minghe,Zhang Tiancheng,et al.Semantic enhanced top-k similarity search on weighted HIN[J].Neural Computing and Applications,2022,34(19):16911-16927.

[16]Zhou Wei,Huang Hong,Shi Ruize,et al.Temporal heterogeneous information network embedding via semantic evolution[J].IEEE Trans on Knowledge and Data Engineering,2023,35(12):13031-13042.

[17]Zhai Xuemeng,Tang Zhiwei,Liu Zhiwei,et al.Sparse representation for heterogeneous information networks[J].Neurocomputing,2023,525:111-122.

[18]Xu Yueshen,Zhao Xinyu,Jiang Zhiping,et al.Intelligent semantic annotation for mobile services for IoT computing from heterogeneous data[J].Mobile Networks and Applications,2023,28(1):348-358.

[19]Dong Yuxiao,Chawla N V,Swami A.Metapath2vec:scalable representation learning for heterogeneous networks[C]//Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:135-144.

[20]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proc of the 26th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2013:3111-3119.

[21]Tang Jie.AMiner:toward understanding big scholar data[C]//Proc of the 9th ACM International Conference on Web Search and Data Mi-ning.New York:ACM Press,2016:467-467.

[22]孟曉峰.基于異質(zhì)信息網(wǎng)絡(luò)的相似性度量研究[D].北京:北京郵電大學(xué),2015.(Meng Xiaofeng.Research on relevance measure in heterogeneous information networks[D].Beijing:Beijing University of Posts and Telecommunications,2015.)

收稿日期:2023-12-08

修回日期:2024-03-11

基金項目:國家自然科學(xué)基金資助項目(62062046)

作者簡介:黃華澤(1999—),男(壯族),云南文山人,碩士研究生,CCF會員,主要研究方向為數(shù)據(jù)挖掘;胡紫璇(1998—),女,新疆克拉瑪依人,碩士,主要研究方向為知識圖譜;游進國(1977—),男(通信作者),湖南新化人,教授,碩導(dǎo),博士,主要研究方向為大數(shù)據(jù)分析、數(shù)據(jù)倉庫與數(shù)據(jù)庫等(jgyou@126.com);黃星瑞(1996—),男,云南文山人,碩士,主要研究方向為數(shù)據(jù)挖掘、機器學(xué)習(xí);陶靜梅(1979—),女,云南昆明人,教授,博導(dǎo),博士,主要研究方向為新型金屬基復(fù)合材料、納米結(jié)構(gòu)材料;易健宏(1965—),男,湖南株洲人,教授,博導(dǎo),博士,主要研究方向為粉末冶金材料與技術(shù)、稀貴金屬材料和納米材料與技術(shù).