国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合核函數(shù)與神經(jīng)網(wǎng)絡(luò)的實(shí)體嵌入規(guī)范化

2024-12-31 00:00:00謝晟祎?陳新元?陳慶強(qiáng)
信息系統(tǒng)工程 2024年10期
關(guān)鍵詞:聚類

摘要:開放的知識(shí)庫(kù)缺少本體信息,進(jìn)一步影響服務(wù)下游應(yīng)用的能力,需對(duì)實(shí)體進(jìn)行規(guī)范化。傳統(tǒng)相似性度量方法及現(xiàn)有機(jī)器學(xué)習(xí)/深度學(xué)習(xí)方法泛化能力有待提升。提出結(jié)合核函數(shù)與神經(jīng)網(wǎng)絡(luò)的規(guī)范化表示框架,引入外源輔助信息,與實(shí)體嵌入拼接,增強(qiáng)細(xì)粒度的維度互動(dòng)以改善語(yǔ)義識(shí)別能力,將相似性得分用于實(shí)體聚類。在行業(yè)數(shù)據(jù)集和開放知識(shí)圖數(shù)據(jù)集上驗(yàn)證框架的實(shí)體規(guī)范化能力,并進(jìn)一步開展鏈路預(yù)測(cè)任務(wù),與基準(zhǔn)模型比較以驗(yàn)證性能。

關(guān)鍵詞:知識(shí)圖嵌入;實(shí)體規(guī)范化;實(shí)體消歧;行業(yè)領(lǐng)域;聚類

一、前言

知識(shí)圖是事實(shí)集合,以三元組的形式組織知識(shí),在問答系統(tǒng)等領(lǐng)域應(yīng)用廣泛。三元組可表示為(h,r,t),h,t∈E分別為頭、尾實(shí)體,r∈P表示實(shí)體之間的關(guān)系?,F(xiàn)有知識(shí)圖缺失事實(shí),許多三元組不完整,缺少實(shí)體/關(guān)系。知識(shí)圖嵌入(Knowledge Graph Embedding,KGE)[1]將三元組嵌入低維向量空間中,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)補(bǔ)全知識(shí)圖。實(shí)體表示規(guī)范化有助于正確識(shí)別實(shí)體,是知識(shí)圖補(bǔ)全/更新的重要任務(wù)。

開放知識(shí)圖(OpenKG)缺少本體信息支撐,下游應(yīng)用的性能受到影響,更需要規(guī)范化。以在線求職平臺(tái)LinkedIn為例,平臺(tái)包含大量行業(yè)信息,如公司/機(jī)構(gòu)名稱、崗位和技能等,但絕大部分內(nèi)容為企業(yè)/個(gè)人用戶提供,缺少統(tǒng)一規(guī)范的描述框架,內(nèi)容變化程度高,如華爾街日?qǐng)?bào)的表示包括“Wall Street Journal”“www.wsj.com”“wsj.com”“WSJ”等,既存在語(yǔ)義相同或相近的縮寫或簡(jiǎn)寫,也有“WSJ Online”“WSJ Pro”“WSJ Vacation”等分支下屬機(jī)構(gòu),分支名中可能覆蓋了“WSJ”。此外,正確識(shí)別相關(guān)實(shí)體還涉及“Wall Stret Journal”拼寫錯(cuò)誤及領(lǐng)域特定概念等情況。

傳統(tǒng)統(tǒng)計(jì)學(xué)方法使用靜態(tài)模型,通過人工設(shè)計(jì)規(guī)則/特征模式進(jìn)行實(shí)體規(guī)范化,在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)領(lǐng)域特定概念或近似語(yǔ)義的能力較弱。本文提出結(jié)合核函數(shù)與神經(jīng)網(wǎng)絡(luò)的嵌入表示規(guī)范化框架(An Embedding amp; Canonicalization Framework with Kernel Functions and Neural Network,ECF),將外源輔助信息與實(shí)體的嵌入表示拼接,通過元素積和范式距離等方式增強(qiáng)不同維度上的信息互動(dòng),進(jìn)一步在神經(jīng)網(wǎng)絡(luò)中使用核函數(shù)將數(shù)據(jù)映射到高維特征空間,發(fā)掘細(xì)粒度[2]的語(yǔ)義相似性用于聚類相同實(shí)體,在行業(yè)數(shù)據(jù)集和開放知識(shí)圖上驗(yàn)證框架的相似性識(shí)別能力,并進(jìn)一步執(zhí)行鏈路預(yù)測(cè)任務(wù),與基準(zhǔn)模型進(jìn)行比較。

二、相關(guān)研究

KGE將實(shí)體/關(guān)系表示嵌入低維向量空間[3],可分為基于平移/旋轉(zhuǎn)的模型和基于語(yǔ)義的模型,前者如TransE[1],認(rèn)為若三元組成立,則頭實(shí)體經(jīng)關(guān)系平移后靠近尾實(shí)體,即vh+vr≈vt,vh,vr,vt分別表示頭/尾實(shí)體和關(guān)系。后續(xù)模型如TransH(用超平面wr取代關(guān)系向量),TransR(使用投影矩陣Wr替換超平面wr)以及TransD、STransE和TranSparse等[4]。語(yǔ)義模型關(guān)注實(shí)體間的語(yǔ)義相似性,經(jīng)典模型如RESCAL、DistMult和ComplEx等。近年,神經(jīng)網(wǎng)絡(luò)模型在KGE中得到廣泛應(yīng)用。

傳統(tǒng)規(guī)范化方法借助人工定義的特征空間,對(duì)于相似性的識(shí)別能力有限。Han等[5]和Vashishth等[6]結(jié)合嵌入模型的思路,借助外部輔助信息對(duì)實(shí)體和關(guān)系進(jìn)行聯(lián)合處理,但受稀疏性、噪聲和領(lǐng)域特定上下文信息缺失等因素影響,圖模型在對(duì)實(shí)體進(jìn)行無監(jiān)督聚類時(shí)性能欠佳。因此,本文利用Wikidata和必應(yīng)搜索接口補(bǔ)充領(lǐng)域特定的上下文信息。

Yan等[7]設(shè)計(jì)了基于二分法的公司名稱規(guī)范化方法,將公司的完整文本介紹作為輔助信息,在LinkedIn社交圖數(shù)據(jù)集上驗(yàn)證,但對(duì)于缺少信息的新公司實(shí)體學(xué)習(xí)能力較弱。上述研究未能徹底解決模型泛化能力較弱的問題。ECF框架嘗試將文本描述與實(shí)體嵌入拼接,通過元素積、范式距離等方式增強(qiáng)向量在不同緯度上的互動(dòng),從而提取細(xì)粒度的語(yǔ)義信息。

此外,基于核函數(shù)的模型將數(shù)據(jù)映射到高維特征空間,從而實(shí)現(xiàn)非線性數(shù)據(jù)的線性可分,在身份檢測(cè)、遷移學(xué)習(xí)和分類等任務(wù)中應(yīng)用廣泛。本文利用核函數(shù)計(jì)算開銷低,學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn),將其與神經(jīng)網(wǎng)絡(luò)結(jié)合,進(jìn)一步捕捉潛在語(yǔ)義關(guān)系。聚合層次聚類(Hierarchical Agglomerative Clustering,HAC)被廣泛應(yīng)用于規(guī)范化任務(wù),本文參考這一思路,并應(yīng)用嵌入拼接、增強(qiáng)互動(dòng)和引入核函數(shù)等方法提升自動(dòng)聚類的準(zhǔn)確性。

三、ECF

本文核心任務(wù)是利用外部輔助信息判定實(shí)體間相似性,即對(duì)于實(shí)體的嵌入表示e1,e2∈E,其輔助信息分別為s1,s2∈S,目標(biāo)是找到fsimilarity(e1,e2,s1,s2),進(jìn)一步在此基礎(chǔ)上為所有實(shí)體對(duì)生成相似性矩陣,并應(yīng)用聚類算法找到特定實(shí)體所對(duì)應(yīng)的向量簇,實(shí)現(xiàn)規(guī)范化。

本文框架如圖1所示,生成實(shí)體嵌入表示和外源輔助信息的嵌入表示后,拼接作為核函數(shù)神經(jīng)網(wǎng)絡(luò)的輸入,獲得實(shí)體對(duì)的相似度得分,進(jìn)一步用于后續(xù)聚類。

CaRe使用GloVE[8]的預(yù)訓(xùn)練嵌入表示,但未能解決實(shí)體類型兼容性問題。Jain等[9]和Xie等[10]分別引入多向量關(guān)系映射和層次類型結(jié)構(gòu)進(jìn)行改進(jìn),但都依賴知識(shí)庫(kù)的本體信息??紤]到在開放知識(shí)圖上的應(yīng)用,ECF框架采用distilled S-BERT模型的預(yù)訓(xùn)練結(jié)果以保證類型兼容性。為每一對(duì)候選實(shí)體(e1,e2)生成m維向量的上下文嵌入表示。

借助Wikidata和必應(yīng)(Bing.com)檢索接口獲取外源輔助信息。Wiki信息可分為企業(yè)簇(C)、機(jī)構(gòu)簇(I)、技能簇(S)和職位簇(D)。必應(yīng)接口用于獲取實(shí)體的文本描述,公司描述包括性質(zhì)、位置、類型、董事等,如“Jeff Bezos founded Amazon from his garage in Bellevue, Washington, on July 5, 1994. It started as an online marketplace for books but expanded to sell ... ”,同樣使用預(yù)訓(xùn)練的distilled S-BERT模型為每個(gè)實(shí)體生成n維向量s,與對(duì)應(yīng)實(shí)體嵌入拼接,表示為ir=s⊙e,其中⊙為向量/矩陣拼接,ir為m+n維向量。進(jìn)一步處理得到Inp=|ir1-ir2 |p⊙(ir1·ir2),其中p=1或p=2,|ir1-ir2 |p表示實(shí)體對(duì)拼接表示的向量距離,·表示元素積(element-wise product)。Inp為2×(m+n)維向量,作為神經(jīng)網(wǎng)絡(luò)的輸入單位,維度根據(jù)輪廓系數(shù)(silhouette index)[11]確定。神經(jīng)網(wǎng)絡(luò)中包括多項(xiàng)式核和高斯徑向基核,逐維度處理向量的元素積和向量L1/L2距離,在細(xì)粒度級(jí)別上學(xué)習(xí)實(shí)體對(duì)間的非線性關(guān)系和對(duì)稱表示,從而提升泛化能力。神經(jīng)網(wǎng)絡(luò)使用ReLU函數(shù)輸出,設(shè)置正則懲罰避免梯度消失,采用隨機(jī)失活策略。設(shè)定核數(shù)為Inp維度的整數(shù)倍。近似性可被視作實(shí)體對(duì)屬于同一概念的概率。在得到所有實(shí)體對(duì)概率得分和近似性矩陣的基礎(chǔ)上應(yīng)用聚合層次聚類,將單一概念映射為矩陣。

四、實(shí)驗(yàn)與分析

(一)實(shí)體相似性識(shí)別

行業(yè)數(shù)據(jù)集來源為L(zhǎng)inkedIn,包括2864個(gè)企業(yè)簇(C)、2259個(gè)機(jī)構(gòu)簇(I)、165個(gè)技能簇(S)和762個(gè)職位簇(D),人工標(biāo)定,指標(biāo)一致性系數(shù)0.87。樣本中去除非ASCII字符。為平衡樣本分布,以實(shí)體對(duì)為單位生成負(fù)樣本。開放知識(shí)圖數(shù)據(jù)集包括ESCO和DBpedia,ESCO(S)和ESCO(D)分別表示技能和職位,前者包括2644個(gè)實(shí)體簇和35554個(gè)實(shí)體對(duì),后者包括2903個(gè)實(shí)體簇和62969個(gè)實(shí)體對(duì)。DBpedia(C)通過檢索公司名稱提取,包括2949個(gè)實(shí)體簇和182511個(gè)實(shí)體對(duì)。訓(xùn)練集/測(cè)試集劃分為80%-20%。使用準(zhǔn)確率(Precision)和F1得分衡量模型表現(xiàn)。

將本文模型與Distilled S-BERT+cosine、CharBiLSTM+A、WordBiLSTM+A以及CharBiLSTM+A+Word+A進(jìn)行比較。Distilled S-BERT+cosine使用相同的預(yù)訓(xùn)練模型進(jìn)行嵌入表示,但計(jì)算余弦相似度,且沒有外源輔助信息支持。CharBiLSTM+A使用字符嵌入作為雙向LSTM網(wǎng)絡(luò)的輸入,結(jié)合注意力機(jī)制。WordBiLSTM+A使用詞級(jí)輸入,其他設(shè)置相同。CharBiLSTM+A+Word+A綜合了上述2種模型的架構(gòu)。

使用Adam優(yōu)化器和交叉熵?fù)p失函數(shù),模型失活率dropout rate設(shè)為0.2,learning rate l∈{0.001,0.005,0.01,0.05},dimensionality m,n∈{128,256,512,1024},batch size s∈{512,1024,2048},使用Grid Search網(wǎng)格搜索發(fā)現(xiàn)最優(yōu)組合,在行業(yè)數(shù)據(jù)集上為{l=0.005,m=n=256,s=1024},在ESCO上{l=0.01,m=n=256,s=1024},在DBpedia上{l=0.001,m=n=512,s=1024}。最大迭代訓(xùn)練輪數(shù)epochs設(shè)置為3000,但10輪MRR提升lt;0.01時(shí)停止。其他模型盡可能尊重原研究的最優(yōu)參數(shù)設(shè)置。

近似性識(shí)別結(jié)果見表1,可見ECF框架在所有指標(biāo)上相比主流模型都有一定提升。Distilled S-BERT + cosine模型的得分普遍偏低,應(yīng)為缺少外源輔助信息導(dǎo)致部分實(shí)體變化識(shí)別能力較弱,如“Wall Street Journal”和“WSJ”的相似性得分僅為0.59,ECF得分為0.93,說明上述文本在語(yǔ)義空間中實(shí)現(xiàn)了有效的非線性映射。對(duì)于“www.wsj.com”和“WSJ”,Distilled S-BERT + cosine得分0.84,說明該模型具備一定的學(xué)習(xí)字符重疊結(jié)構(gòu)信息的能力,ECF得分更高為0.96。所有模型在部分重疊的實(shí)體文本上都表現(xiàn)較好。在開放數(shù)據(jù)集上,Distilled S-BERT + cosine得分相比行業(yè)數(shù)據(jù)集有明顯降低,進(jìn)一步說明了外源輔助信息的重要性。對(duì)于領(lǐng)域特定的概念,如近義詞組“State Protocol Development”和“REST Developer”,在外源輔助信息的支持下,BiLSTM系列模型和ECF表現(xiàn)都較穩(wěn)定(gt;0.85),但是移除外源信息嵌入后,都有一定程度的性能下降,可能是因?yàn)椤癝tate Protocol”的嵌入表示與“REST”存在較大差異。

ECF相比CharBiLSTM + A + Word + A,由于引入核函數(shù)神經(jīng)網(wǎng)絡(luò)加強(qiáng)了實(shí)體互動(dòng),語(yǔ)義提取的能力有所提升。CharBiLSTM + A + Word + A相比僅使用詞級(jí)嵌入或字符級(jí)嵌入表現(xiàn)也較好。詞級(jí)嵌入整體上性能表現(xiàn)優(yōu)于字符級(jí)嵌入(plt;0.01),說明前者能更好地提取語(yǔ)義信息。但是,對(duì)于拼寫錯(cuò)誤,如“Wall Stret Journal”和“WSJ”,詞級(jí)嵌入僅給出了0.67的近似度得分,字符級(jí)嵌入?yún)s達(dá)到了0.91,CharBiLSTM + A + Word + A 0.89,ECF 0.90,說明ECF對(duì)于該類文本的識(shí)別能力接近逐字符匹配的模型,規(guī)范化能力較強(qiáng)。

(二)鏈路預(yù)測(cè)

進(jìn)一步在開放數(shù)據(jù)集ReVerb45K和ReVerb20K上進(jìn)行鏈路預(yù)測(cè),該任務(wù)在給定頭/尾實(shí)體和關(guān)系的前提下預(yù)測(cè)缺失實(shí)體,對(duì)候選集合進(jìn)行排序。上述數(shù)據(jù)集來自開放知識(shí)庫(kù)ReVerb,統(tǒng)計(jì)信息見表2,NP和RP分別表示三元組的實(shí)體和關(guān)系。可見數(shù)據(jù)集的NP/RP分布稀疏,在此類數(shù)據(jù)集上的鏈路預(yù)測(cè)更符合真實(shí)世界的場(chǎng)景設(shè)置。訓(xùn)練集/測(cè)試集劃分、負(fù)例生成與實(shí)驗(yàn)設(shè)置與CaRe[8]相同。使用平均排名(Mean Rank,MR)、平均倒數(shù)排名(Mean Reciprocal Rank, MRR)、排名在第1位的有效實(shí)體的比例(Hits@1)以及Hits@3、Hits@10作為評(píng)估指標(biāo)。

將ECF框架與TransE、ConvE、CaRe(圖卷積網(wǎng)絡(luò)GCN的引入有可能導(dǎo)致性能下滑,故采用ConvE方案)和OKGIT等基準(zhǔn)模型比較,鏈路預(yù)測(cè)結(jié)果見表3。ECF的表現(xiàn)明顯優(yōu)于CaRe,可見ECF的規(guī)范化能力有一定提升。在ReVerb20K數(shù)據(jù)集上,ECF相比CaRe優(yōu)勢(shì)更大,而OKGIT的整體表現(xiàn)略優(yōu)于ECF,說明ECF框架使用的預(yù)訓(xùn)練嵌入能有效保證類型兼容性,而類型映射和隱式類型得分可能有助于進(jìn)一步提升,改進(jìn)模型在開放數(shù)據(jù)集上的表現(xiàn),將其作為未來的工作方向之一?;谄揭频腡ransE模型和基于神經(jīng)網(wǎng)絡(luò)語(yǔ)義提取模型ConvE在稀疏開放數(shù)據(jù)集上表現(xiàn)欠佳。

五、結(jié)語(yǔ)

缺少本體信息的開放數(shù)據(jù)集存在大量噪聲,為實(shí)現(xiàn)實(shí)體規(guī)范化,將實(shí)體嵌入與外源輔助信息結(jié)合,使用結(jié)合核函數(shù)與神經(jīng)網(wǎng)絡(luò)嵌入的方法實(shí)現(xiàn)細(xì)粒度的非線性特征提取和聚合層次聚類,規(guī)范實(shí)體表示并將其應(yīng)用于行業(yè)數(shù)據(jù)集和開放數(shù)據(jù)集上,近似性識(shí)別和鏈路預(yù)測(cè)任務(wù)驗(yàn)證了方案可行性。未來計(jì)劃設(shè)計(jì)關(guān)系規(guī)范化并與ECF框架集成,以及改進(jìn)模型在外源輔助信息較少時(shí)的規(guī)范化能力。

參考文獻(xiàn)

[1]張?zhí)斐桑镅?,孫相會(huì),等.知識(shí)圖譜嵌入技術(shù)研究綜述[J].軟件學(xué)報(bào),2023,34(01):277-311.

[2]Pavlick E, Rastogi P, Ganitkevitch J, et al. PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word embeddings, and style classification[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). 2015: 425-430.

[3]Nickel M, Rosasco L, Poggio T. Holographic embeddings of knowledge graphs[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016, 30(1): 17-25.

[4]金婧,萬懷宇,林友芳.融合實(shí)體類別信息的知識(shí)圖譜表示學(xué)習(xí)[J].計(jì)算機(jī)工程,2021,47(04):77-83.

[5] Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based method[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. 2011: 765-774.

[6] Vashishth S, Jain P, Talukdar P. Cesi: Canonicalizing open knowledge bases using embeddings and side information[C]//Proceedings of the 2018 World Wide Web Conference. 2018: 1317-1327.

[7] Yan B, Bajaj L, Bhasin A. Entity resolution using social graphs for business applications[C]//2011 International Conference on Advances in Social Networks Analysis and Mining. IEEE, 2011: 220-227.

[8] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.

[9] Jain P, Kumar P, Chakrabarti S. Type-sensitive knowledge base inference without explicit type supervision[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018: 75-80.

[10] Xie R, Liu Z, Sun M. Representation Learning of Knowledge Graphs with Hierarchical Types[C]// IJCAI. 2016: 2965-2971.

[11] Starczewski A, Krzy?ak A. Performance evaluation of the silhouette index[C]//International conference on artificial intelligence and soft computing. Springer, Cham, 2015: 49-58.

基金項(xiàng)目:1.福建省教育科學(xué)“十三五”規(guī)劃 2020 年度課題(項(xiàng)目編號(hào):FJJKCG20-402);2.福建省中青年教師科技類教育科研項(xiàng)目(項(xiàng)目編號(hào):JAT210619)

作者單位:謝晟祎,福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院;陳新元,福州工商學(xué)院;陳慶強(qiáng),福建理工大學(xué)

■ 責(zé)任編輯:王穎振、楊惠娟

猜你喜歡
聚類
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
條紋顏色分離與聚類
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
局部子空間聚類
基于加權(quán)模糊聚類的不平衡數(shù)據(jù)分類方法
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
基于熵權(quán)和有序聚類的房地產(chǎn)周期分析
河南科技(2014年23期)2014-02-27 14:19:14
理塘县| 当雄县| 滕州市| 鄂州市| 施甸县| 容城县| 河西区| 苏尼特左旗| 卢氏县| 房产| 潜江市| 台江县| 五家渠市| 察隅县| 阿巴嘎旗| 通江县| 榆社县| 南澳县| 高州市| 乃东县| 苗栗市| 延庆县| 治多县| 新龙县| 噶尔县| 蒙山县| 汤阴县| 和林格尔县| 平谷区| 松桃| 会宁县| 历史| 湖州市| 尼玛县| 淮南市| 吴桥县| 隆安县| 五家渠市| 陈巴尔虎旗| 阳谷县| 桓台县|