国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

引入外部詞向量的文本信息網(wǎng)絡(luò)表示學(xué)習(xí)

2019-11-09 03:42張瀟鯤劉琰陳靜
智能系統(tǒng)學(xué)報(bào) 2019年5期
關(guān)鍵詞:結(jié)構(gòu)特征信息網(wǎng)絡(luò)語義

張瀟鯤,劉琰,陳靜

(數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450000)

近年來,隨著互聯(lián)網(wǎng)的發(fā)展,以Facebook、twitter、微博等為代表的大型網(wǎng)絡(luò)不斷發(fā)展,產(chǎn)生了海量具有網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù),這些數(shù)據(jù)的特點(diǎn)在于樣本點(diǎn)之間并不完全獨(dú)立,而是具有一定的連接關(guān)系,同時(shí)網(wǎng)絡(luò)節(jié)點(diǎn)自身也包含特定的屬性信息。日常生活中的社交網(wǎng)絡(luò)(微博)、問答社區(qū)(知乎)、生活服務(wù)類網(wǎng)站(大眾點(diǎn)評(píng))、論文引用關(guān)系網(wǎng)絡(luò)等包含了大量文本信息,下文中將此種網(wǎng)絡(luò)簡稱為文本信息網(wǎng)絡(luò)。在文本信息網(wǎng)絡(luò)中,文本信息以標(biāo)簽、正文、描述以及其他元數(shù)據(jù)形式廣泛存在,給網(wǎng)絡(luò)提供了大量可利用的語義信息。例如論文引用關(guān)系網(wǎng)絡(luò)中,論文作為網(wǎng)絡(luò)節(jié)點(diǎn)并以引用關(guān)系作邊,節(jié)點(diǎn)還包含相關(guān)文本信息。網(wǎng)絡(luò)數(shù)據(jù)的這些特性,給大規(guī)?;驈?fù)雜網(wǎng)絡(luò)數(shù)據(jù)研究帶來了挑戰(zhàn)。

網(wǎng)絡(luò)表示學(xué)習(xí)(network embedding或network representation learning)目的是學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的低維空間向量表示,降低存儲(chǔ)、計(jì)算成本,提升并行能力,使傳統(tǒng)機(jī)器學(xué)習(xí)算法能夠在大規(guī)模數(shù)據(jù)中得到應(yīng)用[1]。因此,近年涌現(xiàn)出許多相關(guān)研究,其研究成果在鏈接預(yù)測[2]、社團(tuán)發(fā)現(xiàn)[3]、節(jié)點(diǎn)分類[4]、相似度計(jì)算[5]、網(wǎng)絡(luò)可視化[6]等應(yīng)用場景廣泛應(yīng)用。大部分已有網(wǎng)絡(luò)表示學(xué)習(xí)算法基于網(wǎng)絡(luò)本身特征進(jìn)行表示學(xué)習(xí),例如DeepWalk[7]、Node2Vec[8]、Line[9]等刻畫結(jié)構(gòu)特征的模型;以及針對(duì)文本信息網(wǎng)絡(luò),在DeepWalk[7]基礎(chǔ)上引入文本特征的TADW[10],引入互注意力機(jī)制,并在部分文本信息網(wǎng)絡(luò)公開數(shù)據(jù)集中得到了目前最優(yōu)結(jié)果的CANE[11]。文本信息網(wǎng)絡(luò)表示現(xiàn)有方法從網(wǎng)絡(luò)本身文本特征出發(fā),由于網(wǎng)絡(luò)文本分布與自然語言文本分布差異,會(huì)產(chǎn)生一定程度的語義殘缺或語義漂移,這種情況在數(shù)據(jù)集規(guī)模受限情況下更為明顯。

直覺上,為模型引入越多外部知識(shí),模型的表示容量越高,模型結(jié)果越能夠刻畫更多網(wǎng)絡(luò)特征;而預(yù)訓(xùn)練的分布式詞向量正是針對(duì)文本相關(guān)任務(wù)的外部語義知識(shí)。隨著詞向量應(yīng)用的普及,存在許多以通用語料訓(xùn)練得到的詞向量資源,其中包含了大量語義信息。利用這部分已有語義資源增強(qiáng)文本信息網(wǎng)絡(luò)的表示是本文研究的目標(biāo)。

1 相關(guān)工作

網(wǎng)絡(luò)表示學(xué)習(xí)早期技術(shù)以圖表示(graph embedding)、降維方法為主。包括multidimensional scaling (MDS)[12]、IsoMap[13]、局部線性表示 LLE[1]以及Laplacian Eigenmap[14]。這類算法的計(jì)算復(fù)雜度偏高,不適合在大規(guī)模網(wǎng)絡(luò)中應(yīng)用。

隨著近年網(wǎng)絡(luò)表示學(xué)習(xí)發(fā)展,大量可以應(yīng)用在大規(guī)模網(wǎng)絡(luò)中的算法相繼提出。對(duì)于文本信息網(wǎng)絡(luò),主要分為如下2類:

1)只考慮結(jié)構(gòu)特征的網(wǎng)絡(luò)表示學(xué)習(xí)方法

Deepwalk[7]作為網(wǎng)絡(luò)表示學(xué)習(xí)的經(jīng)典算法,將自然語言處理中利用詞共現(xiàn)信息進(jìn)行建模的算法SkipGram[1]引入到網(wǎng)絡(luò)表示學(xué)習(xí)任務(wù)中,通過隨機(jī)游走構(gòu)建節(jié)點(diǎn)上下文序列,并利用Hierarchical Softmax[2]的樹形結(jié)構(gòu)加速訓(xùn)練過程。LINE[8]主要利用預(yù)先設(shè)計(jì)的概率密度函數(shù)來表征圖的一階、二階相似度,并引入負(fù)采樣[1]、異步隨機(jī)梯度下降(ASGD)[15]降低計(jì)算復(fù)雜度,實(shí)現(xiàn)適用于大規(guī)模網(wǎng)絡(luò)節(jié)點(diǎn)表示的計(jì)算。Node2vec[9]對(duì)Deepwalk的隨機(jī)游走策略進(jìn)行了修改,通過在游走路徑中增加權(quán)重項(xiàng)來控制深度(DFS)以及廣度(BFS)優(yōu)先的游走方式,使算法的圖游走策略更有效率。GraRep[16]將k階相似矩陣進(jìn)行分解,并將得到的特征向量進(jìn)行拼接得到最后的節(jié)點(diǎn)向量,以此來捕捉更高階的相似度特征,但面臨著計(jì)算量巨大的問題。網(wǎng)絡(luò)結(jié)構(gòu)的相似性主要體現(xiàn)在相似度計(jì)算上,其中一階、二階相似度是最普遍使用的特征,一般來說,模型中包含越多的高階相似度特征,模型表現(xiàn)越好,但是相應(yīng)計(jì)算量也會(huì)增大。

2)結(jié)合節(jié)點(diǎn)語義信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法

上述模型只考慮網(wǎng)絡(luò)的結(jié)構(gòu)特征信息,針對(duì)文本信息網(wǎng)絡(luò),Yang等[10]提出了text-associated Deep-Walk (TADW),將文本信息與DeepWalk算法進(jìn)行了結(jié)合。Tu等[17]提出了max-margin DeepWalk(MMDW),利用SVM思想對(duì)DeepWalk在文本信息網(wǎng)絡(luò)中的應(yīng)用進(jìn)行改進(jìn),Tu等[11]提出了上下文相關(guān)的網(wǎng)絡(luò)表示學(xué)習(xí)模型CANE,針對(duì)不同上下文,利用互注意力機(jī)制,學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)在不同上下文中的表示。

使用自身文本特征進(jìn)行建模,受限于任務(wù)本身語料,容易產(chǎn)生語義偏差或殘缺。在論文寫作時(shí)所知,鮮見引入外部詞向量輔助文本信息網(wǎng)絡(luò)建模的研究。

2 語義漂移現(xiàn)象

如表1所示,采用Word2vec[1]對(duì)實(shí)驗(yàn)部分的Zhihu數(shù)據(jù)集[12]訓(xùn)練詞向量,對(duì)由訓(xùn)練得到的詞向量與外部詞向量中的隨機(jī)詞的相似詞進(jìn)行了對(duì)比。在Zhihu數(shù)據(jù)集詞表中隨機(jī)抽取兩個(gè)詞 “電子樂”、“杭州”,根據(jù)余弦相似度分別在Zhihu詞向量與外部詞向量詞表中找到前5個(gè)表示近似的詞??梢钥吹?,受限于數(shù)據(jù)集規(guī)模,Zhihu數(shù)據(jù)集的詞模型表示能力有限,語義漂移明顯。

表1 “電子樂”相似詞對(duì)比Table 1 “Dian Zi Yue” cosine similarity

表2 “杭州”相似詞對(duì)比Table 2 “Hang zhou” cosine similarity

3 問題定義與描述

沿用LINE[9]中的信息網(wǎng)絡(luò)定義,文本信息網(wǎng)絡(luò)定義如下:

定義1 文本信息網(wǎng)絡(luò)

定義2 引入外部詞向量的文本信息網(wǎng)絡(luò)

定義3 節(jié)點(diǎn)特征空間表示

定義4 結(jié)構(gòu)相似度

一階相似度 一階相似度通過當(dāng)前節(jié)點(diǎn)與相鄰節(jié)點(diǎn)間的聯(lián)通關(guān)系,描述了網(wǎng)絡(luò)在一跳范圍內(nèi)的結(jié)構(gòu)特征。對(duì)節(jié)點(diǎn)、,若節(jié)點(diǎn)間沒有邊相連,則一階相似度為0。若存在邊,一階相似度即為邊權(quán)重。

二階相似度 二階相似度衡量了當(dāng)前節(jié)點(diǎn)與相距兩跳的鄰居節(jié)點(diǎn)間的結(jié)構(gòu)相似程度。記為節(jié)點(diǎn)與其他所有點(diǎn)之間的一階相似度。、的二階相似度為、的相似度,該相似度可以通過余弦相似度等相似度度量方式進(jìn)行衡量,若、沒有一跳公共鄰居節(jié)點(diǎn),則二階相似度為0。

基于外部詞向量的文本信息網(wǎng)絡(luò)表示學(xué)習(xí)目的是對(duì)給定文本信息網(wǎng)絡(luò),在融合結(jié)構(gòu)特征與語義特征的特征空間中,學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的低維向量表示,使表示結(jié)果包含網(wǎng)絡(luò)結(jié)構(gòu)特征、網(wǎng)絡(luò)本身文本特征以及外部文本特征。出于計(jì)算復(fù)雜度考慮,本文只使用一階、二階相似度對(duì)結(jié)構(gòu)特征進(jìn)行建模,語義特征使用詞向量信息進(jìn)行建模。

4 基于外部詞向量的文本信息網(wǎng)絡(luò)表示學(xué)習(xí)模型NE-EWV

文本信息網(wǎng)絡(luò)建模過程中涉及到兩個(gè)向量特征空間:語義特征空間、結(jié)構(gòu)特征空間。受限于任務(wù)本身語料規(guī)模與詞分布,文本信息網(wǎng)絡(luò)建模得到的語義特征空間表示與實(shí)際語義會(huì)產(chǎn)生一定程度偏差。本文引入外部詞向量作為先驗(yàn)知識(shí)輔助建模過程,可以擴(kuò)展語義特征空間表示容量,修正部分語義誤差。故NE-EWV主要解決2個(gè)問題,一是引入外部詞向量信息對(duì)語義特征進(jìn)行擴(kuò)充;其次是學(xué)習(xí)融合結(jié)構(gòu)特征、語義特征的表示結(jié)果。

4.1 NE-EWV模型基本架構(gòu)

NE-EWV分為3個(gè)部分,NE-EWV1在語義特征空間中引入結(jié)構(gòu)特征約束,得到語義特征空間中包含部分結(jié)構(gòu)特征約束的節(jié)點(diǎn)表示。NEEWV2在結(jié)構(gòu)特征空間中引入語義特征約束,得到結(jié)構(gòu)特征空間中包含部分語義特征約束的節(jié)點(diǎn)表示。NE-EWV3表示結(jié)果由上述2步得到的節(jié)點(diǎn)表示融合得到,本文采用2種融合方式:1)簡單將2個(gè)向量表示進(jìn)行連接,得到節(jié)點(diǎn)表示,其中代表向量拼接操作;2)基于自編碼器的融合模型。

4.2 結(jié)構(gòu)約束的語義特征空間表示模型NEEWV1

節(jié)點(diǎn)在語義特征空間中的表示受當(dāng)前節(jié)點(diǎn)文本影響,即節(jié)點(diǎn)的語義可以看作是節(jié)點(diǎn)文本中數(shù)個(gè)關(guān)鍵詞的語義組合,本文為簡化起見,對(duì)節(jié)點(diǎn)文本語義表示采用線性加權(quán),得到結(jié)果作為節(jié)點(diǎn)的語義表示。在實(shí)驗(yàn)章節(jié)第5節(jié),對(duì)NE-EWV1的可視化結(jié)果做了分析。

NE-EWV1以節(jié)點(diǎn)文本詞向量的線性加權(quán)作為節(jié)點(diǎn)在語義特征空間中的表示

將表示限制在語義特征空間后,沿用LINE對(duì)于結(jié)構(gòu)特征損失函數(shù)定義引入結(jié)構(gòu)特征約束,將問題轉(zhuǎn)化為最優(yōu)化問題求解。其中,對(duì)于節(jié)點(diǎn)u,v,一階相似度損失函數(shù)定義為

對(duì)于表示結(jié)果,沿用LINE[9]中對(duì)于一階、二階相似度的處理。由于一階相似度只能應(yīng)用于無向圖,對(duì)于有向圖,以二階相似度作為結(jié)構(gòu)特征的約束進(jìn)行計(jì)算。對(duì)于無向圖,由一階相似度損失函數(shù)得到節(jié)點(diǎn)表示記為,二階相似度損失函數(shù)得到節(jié)點(diǎn)表示記為,通過向量拼接得到最后的語義特征空間表示。

4.3 結(jié)構(gòu)約束的語義特征空間表示模型NE-EWV2

為了引入語義約束,將詞看做特殊的網(wǎng)絡(luò)節(jié)點(diǎn),以詞向量相似度做權(quán)重邊,擴(kuò)展原網(wǎng)絡(luò)??紤]到模型計(jì)算量,對(duì)每個(gè)節(jié)點(diǎn)在外部詞向量中的節(jié)點(diǎn)文本,首先通過采樣得到節(jié)點(diǎn)文本的子集,表 示 出現(xiàn)在外部詞向量以及節(jié)點(diǎn)文本中的詞集合;對(duì)每個(gè),依次與V中其余節(jié)點(diǎn)文本的采樣子集中每個(gè)詞做邊,詞向量的余弦相似度作為邊的權(quán)重。對(duì)于有向圖,,

完成擴(kuò)展網(wǎng)絡(luò)后,接下來在結(jié)構(gòu)特征空間中與4.2節(jié)處理相同,沿用LINE[9]中對(duì)損失函數(shù)的定義。將文本中的詞與網(wǎng)絡(luò)中的節(jié)點(diǎn)統(tǒng)一到結(jié)構(gòu)特征空間中進(jìn)行計(jì)算,得到節(jié)點(diǎn)語義約束下的結(jié)構(gòu)特征空間表示。

4.4 表示融合模型NE-EWV3

NE-EWV1、NE-EWV2在不同程度上都包含了語義特征信息以及結(jié)構(gòu)特征信息,但建模過程側(cè)重不同,其表示結(jié)果屬于不同特征空間。總的來說,NE-EWV1、NE-EWV2描述了同一網(wǎng)絡(luò)在不同視角下的網(wǎng)絡(luò)表示,對(duì)其表示結(jié)果做非線性變化映射到同一向量空間中,其表示應(yīng)當(dāng)相對(duì)接近,并可互為補(bǔ)充。因此文本提出NE-EWV3對(duì)NE-EWV1、NE-EWV2表示結(jié)果進(jìn)行融合。

圖1 基于自編碼器的表示融合模型Fig. 1 Feature fusion representation model based on aligned auto-encoder

自編碼器主要包括編碼和解碼2個(gè)過程,編碼過程將輸入映射到目標(biāo)向量空間中,解碼過程將目標(biāo)向量空間中的表示還原到原輸入向量空間中,要使目標(biāo)向量空間的表示有效,需要解碼過程中重建到輸入向量空間中的表示與輸入表示盡可能一致。

NE-EWV3(AutoEncoder)采用了對(duì)稱的自編碼器結(jié)構(gòu),學(xué)習(xí)、在目標(biāo)特征空間中的表示結(jié)果。模型左右計(jì)算流程一致,這里以左側(cè)為例進(jìn)行說明。左側(cè)自編碼器的目的是將節(jié)點(diǎn)在語義特征空間中的表示進(jìn)行非線性變換。模型左側(cè)初始輸入為節(jié)點(diǎn)在語義特征空間中的表示,編碼階段,通過下式得到壓縮表示:

最終NE-EWV3(AutoEncoder)定義損失函數(shù)為,、、為控制損失項(xiàng)權(quán)重的超參數(shù)。最終節(jié)點(diǎn)表示,由2個(gè)壓縮表示拼接得到。

4.5 模型優(yōu)化

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)包括了現(xiàn)實(shí)網(wǎng)絡(luò)中的中文、英文數(shù)據(jù)集。對(duì)于中文測試數(shù)據(jù),外部詞向量使用微信公眾號(hào)中800萬篇文章預(yù)先訓(xùn)練得到的詞向量(https://spaces.ac.cn/archives/4304),詞表大小35萬,維度256維。英文使用了Google發(fā)布的在新聞?wù)Z料中訓(xùn)練得到的詞向量(https://code.google.com/archive/p/word2vec),詞表大小300萬,維度300維。其中,Zhihu為中文數(shù)據(jù)集,Cora、HepTh為英文數(shù)據(jù)集。

HepTh數(shù)據(jù)集:HEP-TH (high energy physics theory)是arXiv發(fā)布的公開論文引用網(wǎng)絡(luò),隨機(jī)抽取其中10 740篇包含概述的論文,以論文概述作為節(jié)點(diǎn)文本信息,以引用關(guān)系對(duì)節(jié)點(diǎn)之間做邊。

Zhihu(知乎)數(shù)據(jù)集:知乎是國內(nèi)的問答社區(qū)網(wǎng)站,本文使用CANE[12]公開的知乎數(shù)據(jù)集,其中包含10 000個(gè)爬取的用戶作為節(jié)點(diǎn),以用戶關(guān)注話題的描述文本作為節(jié)點(diǎn)文本信息。

數(shù)據(jù)集統(tǒng)計(jì)信息列在表3,在外部詞向量的未登錄詞統(tǒng)計(jì)列在表4。

表3 測試數(shù)據(jù)集統(tǒng)計(jì)Table 3 Dataset statics

表4 數(shù)據(jù)集未登錄詞統(tǒng)計(jì)Table 4 OVW statics

實(shí)驗(yàn)首先在數(shù)據(jù)集上對(duì)鏈接預(yù)測任務(wù)進(jìn)行了實(shí)驗(yàn),并在Cora數(shù)據(jù)集上對(duì)節(jié)點(diǎn)分類任務(wù)進(jìn)行了實(shí)驗(yàn)。

5.2 基線方法

DeepWalk[8]是2014年提出的網(wǎng)絡(luò)表示學(xué)習(xí)算法,主要利用隨機(jī)游走構(gòu)造節(jié)點(diǎn)上下文信息,并利用詞向量算法中的SkipGram計(jì)算網(wǎng)絡(luò)表示,Hierarchical Softmax進(jìn)行計(jì)算優(yōu)化,DeepWalk針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的二階相似性進(jìn)行建模。

LINE[9]利用預(yù)定義的概率密度函數(shù)對(duì)一階以及二階相似度進(jìn)行了建模。為了盡可能體現(xiàn)LINE算法的性能,這里采用LINE算法的1st+2st的版本,即包含一階相似度以及二階相似度進(jìn)行建模。

Node2vec[10]主要針對(duì)隨機(jī)游走過程中的寬度優(yōu)先以及深度優(yōu)先做了優(yōu)化,通過控制跳轉(zhuǎn)概率參數(shù)p、q進(jìn)一步擴(kuò)展了DeepWalk算法。

CANE[12]算法主要利用互注意力機(jī)制以及卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行建模,學(xué)習(xí)在不同上下文狀態(tài)下節(jié)點(diǎn)的不同表示。

5.3 測試方法

由于本文模型引入了外部詞向量,為了減少詞向量維度變化可能造成的信息損失,基線模型得到的表示結(jié)果維度與詞向量維度相同,本文模型除向量拼接外,表示維度與詞向量維度相同。

對(duì)基線方法中的參數(shù)設(shè)置,采用grid search[20]進(jìn)行選取。DeepWalk[8]每個(gè)節(jié)點(diǎn)開始的隨機(jī)游走序列為10,游走長度80,skip-gram窗口為10。對(duì)涉及負(fù)采樣的方法,負(fù)樣本個(gè)數(shù)設(shè)置為。沿用CANE中的參數(shù)設(shè)置,對(duì)cora、Zhihu數(shù)據(jù)集設(shè)置、、;HepTh數(shù)據(jù)集設(shè)置、、,epoch個(gè)數(shù)設(shè)置為200。

NE-EWV1 epoch個(gè)數(shù)設(shè)置為50。NE-EWV2中首先采用TF-IDS模型計(jì)算關(guān)鍵詞,保留關(guān)鍵詞個(gè)數(shù)15,對(duì)于Zhihu、Cora數(shù)據(jù)集,設(shè)置、,對(duì)于HepTh數(shù)據(jù)集,設(shè)置、,epoch個(gè)數(shù)設(shè)置為50。NE-EWV3(AutoEncoder)損失函數(shù)中設(shè)置、、,epoch個(gè)數(shù)設(shè)置為200。

對(duì)鏈接預(yù)測問題,即根據(jù)表示結(jié)果還原網(wǎng)絡(luò)的聯(lián)通關(guān)系,采用AUC作為評(píng)價(jià)指標(biāo)[21],AUC衡量了正確判定正樣本與錯(cuò)誤判定負(fù)樣本的概率差異,AUC指標(biāo)越大說明模型在二分類問題上表現(xiàn)越好。對(duì)節(jié)點(diǎn)分類問題,即根據(jù)表示結(jié)果對(duì)節(jié)點(diǎn)分類進(jìn)行預(yù)測,采用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。

5.4 鏈接預(yù)測

在不同的數(shù)據(jù)集上針對(duì)鏈接預(yù)測任務(wù)進(jìn)行了測試,測試方法是選取一定比例的邊和以及這些邊中節(jié)點(diǎn)的文本信息作為測試數(shù)據(jù),以剩余數(shù)據(jù)作為測試集。如表5、6所示。

表5 Zhihu數(shù)據(jù)集的AUC指標(biāo)(256維)Table 5 AUC values on Zhihu (256 dimensions)

表6 HepTh數(shù)據(jù)集的AUC指標(biāo)(300維)Table 6 AUC values on HepTh(256 dimensions)

1)在中文數(shù)據(jù)集中本文模型要優(yōu)于其他基線模型,相比基線算法中AUC指標(biāo)最好的CANE,AUC指標(biāo)提高了5%~12%。在英文數(shù)據(jù)集HepTH中與性能最好的CANE基本相當(dāng)。

2)本文使用了在領(lǐng)域無關(guān)的通用語料中訓(xùn)練得到的詞向量,在Zhihu數(shù)據(jù)集中未登錄詞占比45.0%(Zhihu數(shù)據(jù)集中包含了話題描述,即包含了大量專有名詞),在HepTh數(shù)據(jù)集中未登錄詞占比43.1%。說明本文方法對(duì)通用語料有較好適應(yīng)性,通用文本語料能夠提升某些特定領(lǐng)域的文本信息網(wǎng)絡(luò)表示學(xué)習(xí)的表示能力。

綜上所述,證明了本文模型能夠?qū)W習(xí)到文本信息網(wǎng)絡(luò)中的有效網(wǎng)絡(luò)表示,能夠有效捕捉網(wǎng)絡(luò)本身的結(jié)構(gòu)、語義信息,并在不同數(shù)據(jù)集以及外部詞向量上證明了表示的有效性和魯棒性。

6 結(jié)束語

本文提出了基于外部詞向量的網(wǎng)絡(luò)表示模型,將外部詞向量引入到文本信息網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)過程中。模型包括3個(gè)部分:在語義特征空間中學(xué)習(xí)包含結(jié)構(gòu)特征約束的表示,在結(jié)構(gòu)特征空間學(xué)習(xí)語義特征約束的表示,以及表示融合部分。本文在現(xiàn)實(shí)網(wǎng)絡(luò)數(shù)據(jù)集中,以鏈接預(yù)測實(shí)驗(yàn),證明了本文模型可以學(xué)習(xí)到節(jié)點(diǎn)間鏈接關(guān)系的有效表示,而節(jié)點(diǎn)間的鏈接關(guān)系也構(gòu)成了整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。

在未來的研究工作中,有如下研究方向:未登錄詞的表示,通用詞向量在領(lǐng)域特定任務(wù)中往往面臨著存在大量未登錄詞的問題,利用已知詞對(duì)未登錄詞進(jìn)行有效表示,直觀上可以提升模型表示容量,從而提升網(wǎng)絡(luò)表示能力。

猜你喜歡
結(jié)構(gòu)特征信息網(wǎng)絡(luò)語義
論莫言小說的復(fù)線式結(jié)構(gòu)特征
真實(shí)場景水下語義分割方法及數(shù)據(jù)集
基于異構(gòu)信息網(wǎng)絡(luò)的學(xué)生成績預(yù)測與預(yù)警模型研究
藥物與輔料相互作用差異與結(jié)構(gòu)特征的相關(guān)性研究
本刊啟事
論東巴文對(duì)稱型字組的結(jié)構(gòu)特征及音義功能
語言與語義
賦格段概念界定與結(jié)構(gòu)特征辨析
電力信息網(wǎng)絡(luò)雙通道故障自動(dòng)探測策略探究
河南省交通運(yùn)輸廳信息網(wǎng)絡(luò)監(jiān)測預(yù)警系統(tǒng)
岳普湖县| 黄梅县| 稷山县| 布尔津县| 清徐县| 大方县| 丰城市| 类乌齐县| 屏南县| 岑巩县| 海淀区| 章丘市| 曲松县| 南和县| 沂水县| 平江县| 商城县| 勃利县| 商都县| 讷河市| 南康市| 峡江县| 阿鲁科尔沁旗| 江华| 南郑县| 韩城市| 丹阳市| 唐山市| 沈丘县| 晋中市| 长垣县| 灵武市| 高碑店市| 望城县| 定安县| 台南市| 双城市| 南漳县| 莲花县| 永吉县| 克什克腾旗|