寧夢(mèng)飛
對(duì)于構(gòu)建知識(shí)圖譜并加以應(yīng)用來講,圖的分布式表示尤為關(guān)鍵,本文經(jīng)過對(duì)比目前廣泛應(yīng)用的圖示學(xué)習(xí)模型,對(duì)現(xiàn)有模型存在的不合理問題進(jìn)行分析,并提出基于符號(hào)語義映射的神經(jīng)網(wǎng)絡(luò)模型,應(yīng)用于學(xué)習(xí)圖分布式表示。發(fā)現(xiàn)該模型能夠以知識(shí)圖譜內(nèi)存在的實(shí)體類關(guān)系數(shù)據(jù)為依據(jù),運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)完成對(duì)符號(hào)組合的語義編碼,并最終向目標(biāo)符號(hào)完成映射。
1引言
知識(shí)圖譜作為基于資源描述框架所構(gòu)建的語義知識(shí)庫,在表示存儲(chǔ)中用實(shí)體、關(guān)系和尾實(shí)體三元組形式,實(shí)現(xiàn)了關(guān)系聯(lián)結(jié)實(shí)體的網(wǎng)狀知識(shí)結(jié)構(gòu)。本文將用三元組表示事實(shí),head表示頭實(shí)體、rel表示關(guān)系、tail表示尾實(shí)體。目前該領(lǐng)域相關(guān)研究中主要基于不同假設(shè)劃分為兩類模型:矩陣分解模型和隨機(jī)游走模型。盡管這兩類建模思路,應(yīng)用于標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試效果顯著,但是仍然存在較差泛化能力、模型理論基礎(chǔ)不完備等問題。所以開展對(duì)基于符號(hào)語義映射神經(jīng)網(wǎng)絡(luò)模型的知識(shí)圖譜表示學(xué)習(xí)算法研究。
2符號(hào)語義映射模型
2.1符號(hào)系統(tǒng)描述
多關(guān)系知識(shí)圖譜可以視作三維二元張量,建立其中切片對(duì)應(yīng)rel關(guān)系類型的鄰接矩陣,通過運(yùn)用三元組表示事實(shí),頭實(shí)體用head表示,尾實(shí)體用tail表示,實(shí)體集用表示,關(guān)系類型集合內(nèi)存在的某關(guān)系類別用rel表示。
2.2基礎(chǔ)模型概述
本文設(shè)計(jì)的該模型主要為了解決兩方面問題:一是如何基于“導(dǎo)演、戰(zhàn)狼”標(biāo)識(shí),完成合適分類表示的構(gòu)建;二是如何構(gòu)建可靠預(yù)感機(jī)制,區(qū)分答案集內(nèi)與“導(dǎo)演、戰(zhàn)狼”標(biāo)識(shí)易混淆的成員。基于Seq2Seq模型內(nèi)所獲靈感,該模型已被證實(shí)能夠經(jīng)符號(hào)序列生成組合表示可行,所以具備較強(qiáng)解碼能力可以向?qū)?yīng)符號(hào)系統(tǒng)直接映射組合表示。所以本文設(shè)計(jì)了基于SSME的模型能夠?yàn)橹R(shí)圖譜內(nèi)實(shí)體關(guān)系學(xué)習(xí)維實(shí)值向量表示嵌入關(guān)系如圖1所示。
2.3 SSME模型
為了能夠?qū)ν成淇蚣苤械膶?shí)體預(yù)測(cè)及關(guān)系預(yù)測(cè)任務(wù)加以處理,如上建立SSME基礎(chǔ)模型,并引入附加符號(hào)溯源任務(wù)模塊,負(fù)責(zé)學(xué)習(xí)由組合表示目標(biāo)關(guān)系類型的映射模式。本文稱基礎(chǔ)模型為實(shí)體預(yù)測(cè)模塊,此模型為關(guān)系預(yù)測(cè)模塊,基本結(jié)構(gòu)為編碼器結(jié)構(gòu)部位。由于該模塊結(jié)構(gòu)比較接近于基礎(chǔ)模塊,但是該模塊達(dá)到的輸出向量太小,且兩模塊參數(shù)都彼此獨(dú)立存在,所以可以將不同視角完成映射方式構(gòu)造表示,定義模型損失函數(shù)定義公式如下:
式中,等式后的兩個(gè)相加部分分別表示每模塊平均交叉熵?fù)p失,且能夠互相疊加所以解釋交叉熵?fù)p失,作為針對(duì)既定輸入情況下觀察目標(biāo)的概率負(fù)對(duì)數(shù)似然。展開模型訓(xùn)練過程中量模塊參數(shù)能夠根據(jù)如上公式實(shí)現(xiàn)反向傳播更新。
3實(shí)驗(yàn)分析
3.1實(shí)驗(yàn)數(shù)據(jù)
對(duì)SSME完成知識(shí)圖譜擴(kuò)容任務(wù)評(píng)估,通過運(yùn)用基準(zhǔn)數(shù)據(jù)集FB15K及WN18作為基準(zhǔn)數(shù)據(jù)集,形成FB15K-237及WN18RR的擴(kuò)張數(shù)據(jù)集,其中知識(shí)庫子集用FB15K表示,其中大多數(shù)數(shù)據(jù)都與密切相關(guān)電影及體育主題。由Word Net知識(shí)庫內(nèi)采樣所得WN18數(shù)據(jù)集,主要包括了詞匯關(guān)系、語義概念,該類實(shí)體主要用嚴(yán)格等級(jí)方式組織。并且本研究還建立了基于復(fù)雜網(wǎng)絡(luò)研究領(lǐng)域內(nèi)圖的多標(biāo)簽分類(MLC)任務(wù)對(duì)SSME模型有效性進(jìn)行評(píng)估。
3.2實(shí)驗(yàn)設(shè)置
由于篇幅僅說明本次實(shí)驗(yàn)的2個(gè)目的,一是對(duì)SSME模型基于知識(shí)圖譜擴(kuò)容任務(wù)有效性加以驗(yàn)證;二是對(duì)SSME模型基于大型復(fù)雜網(wǎng)絡(luò)內(nèi)嵌入學(xué)習(xí)能力進(jìn)行驗(yàn)證。
3.3知識(shí)圖譜擴(kuò)容任務(wù)
經(jīng)測(cè)試所得數(shù)據(jù)集試驗(yàn)結(jié)果,根據(jù)該結(jié)果能夠發(fā)現(xiàn)4個(gè)數(shù)據(jù)集中,SSME模型較其他模型具備較強(qiáng)指標(biāo)優(yōu)勢(shì),包括1、3、10P@N指標(biāo)。假若考慮FB15K中P@1預(yù)測(cè)精準(zhǔn)度,較ConvE模型、CompIEx模型,SSME模型明顯超出19.10 %、32.33 %,十分明顯模型優(yōu)勢(shì)。表示了SSME訓(xùn)練得到嵌入學(xué)習(xí)能力,能夠有效提升Freebase知識(shí)庫等下游應(yīng)用程序性能。
4結(jié)束語
綜上所述,經(jīng)過本次對(duì)基于符號(hào)語義映射神經(jīng)網(wǎng)絡(luò)模型的知識(shí)圖譜表示學(xué)習(xí)算法的研究。通過建立SSME模型發(fā)現(xiàn)該模型,能夠以知識(shí)圖譜內(nèi)存在的實(shí)體類關(guān)系數(shù)據(jù)為依據(jù),運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)完成對(duì)符號(hào)組合的語義編碼,并最終向目標(biāo)符號(hào)完成映射。