国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞向量的學(xué)術(shù)語義搜索研究

2016-11-05 02:15陳國華許玉贏賀超波肖丹陽
關(guān)鍵詞:關(guān)鍵字分詞文檔

陳國華, 湯 庸, 許玉贏, 賀超波, 肖丹陽

(1.華南師范大學(xué)網(wǎng)絡(luò)中心, 廣州 510631;2.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣州 510631;3. 仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225)

?

基于詞向量的學(xué)術(shù)語義搜索研究

陳國華1, 湯庸2*, 許玉贏2, 賀超波3, 肖丹陽2

(1.華南師范大學(xué)網(wǎng)絡(luò)中心, 廣州 510631;2.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣州 510631;3. 仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225)

基于學(xué)者網(wǎng)提供的計(jì)算機(jī)專業(yè)論文語料庫,利用Glove語義分析工具,給出了多種詞向量訓(xùn)練方案,比較了各自的優(yōu)劣性;提出了利用隨機(jī)映射的方法,在大規(guī)模的向量空間中快速定位向量;最后提出了在單個(gè)詞的語義向量基礎(chǔ)上計(jì)算整篇學(xué)術(shù)文檔的語義向量的方案.通過一系列實(shí)驗(yàn)驗(yàn)證了基于詞向量的學(xué)術(shù)語義搜索方案的有效性,并實(shí)際應(yīng)用于學(xué)者網(wǎng)學(xué)術(shù)搜索中,取得良好的效果.

學(xué)術(shù)語義計(jì)算; 詞向量; 隨機(jī)映射; 學(xué)者網(wǎng)

語義搜索已經(jīng)成為信息檢索和自然語言處理領(lǐng)域的一個(gè)研究熱點(diǎn)問題.目前,實(shí)現(xiàn)語義搜索的方法可分為兩大流派:一類是基于統(tǒng)計(jì)的方法,利用詞和文檔的統(tǒng)計(jì)信息“計(jì)算”出詞語的語義,在此基礎(chǔ)上進(jìn)行語義相似度的計(jì)算和語義搜索;另一類為基于邏輯的方法,首先手工標(biāo)注語義資源,構(gòu)建一個(gè)語義網(wǎng)絡(luò),然后利用邏輯分析的方法進(jìn)行推理.基于統(tǒng)計(jì)的方法可以避免構(gòu)建和維護(hù)語義網(wǎng)所需的巨大人力成本,因此,本文重點(diǎn)關(guān)注基于統(tǒng)計(jì)的語義搜索方法.

統(tǒng)計(jì)搜索技術(shù)發(fā)展的最早階段為80年代提出的經(jīng)典的文檔向量空間模型,解決了全文檢索中的精確匹配問題.90年代提出了潛在語義分析技術(shù)(Latent Semantic Analysis, LSA)[1-3],該方法利用特征值分解方法(Singular Value Decomposition)對詞-文檔矩陣進(jìn)行分解、壓縮,挖掘文檔中隱含的“概念”,從中發(fā)現(xiàn)詞與文檔兩兩間的語義相似度信息.BLEI等[4-5]在此基礎(chǔ)上提出了基于潛在Dirichlet分布的主題模型(Topic Model),該模型允許1個(gè)文檔有多個(gè)主題,1篇文檔是多個(gè)主題的概率分布,而1個(gè)主題是多個(gè)詞語的概率分布.利用主題模型,可以計(jì)算出1篇文檔包含了哪些主題,以及屬于某一主題的概率.

近年來,深度機(jī)器學(xué)習(xí)技術(shù)取得了長足的進(jìn)步[6-7].在此基礎(chǔ)上,出現(xiàn)了新的語義計(jì)算方法,如word2vec[8-10]、GloVe等[11].Word2vec利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)來訓(xùn)練語言模型,提供了2種經(jīng)典的語言模型進(jìn)行訓(xùn)練:n-gram模型和CBOW模型[12],可以很好地抓取文本的局部信息特征.而GloVe在此基礎(chǔ)上提出了全局log-雙線性回歸模型,加入了全局的詞匯統(tǒng)計(jì)信息,可以兼顧全局與局部信息,更好地挖掘詞匯的語義特征.

相較于之前的語義計(jì)算方案,詞向量技術(shù)在兩方面做了巨大的進(jìn)步:(1)相比于LSA挖掘的概念,詞向量技術(shù)計(jì)算出的詞的語義向量包含了線性語義特征,可以捕獲詞的語法及語義的線性相似度[10];(2)Topic Model模型需要計(jì)算大量的概率,模型復(fù)雜度高,無法進(jìn)行大數(shù)量的計(jì)算;而詞向量利用深度機(jī)器學(xué)習(xí)技術(shù),可以在大型的語料庫中進(jìn)行訓(xùn)練,利用的數(shù)據(jù)量越大,得到的模型越精確.

從1個(gè)詞到1個(gè)句子,再到一段話、整篇文檔,它們之間的語義存在著很大的距離,由詞的語義生成文檔的語義并不像直觀地看起來那樣簡單.這與我們經(jīng)常遇到的“雖然每個(gè)詞都認(rèn)識(shí),但連在一起組成1個(gè)句子,怎么也不能理解它的含義”的生活體驗(yàn)類似.這一問題近年來也得到了關(guān)注.1個(gè)簡單的方案是采用簡單的線性相加的方式,將詞的向量加上一定的權(quán)重相加,求均值,即為文檔的語義向量[13].該方法簡單有效,但與Bag of Words模型一樣,丟失了詞語間的上下文信息.SOCHER等[14]提出解析句子的語法結(jié)構(gòu),在此基礎(chǔ)上構(gòu)建1個(gè)矩陣向量模型,計(jì)算句子的語義向量,但該方法無法處理段落或者文檔等更為復(fù)雜的結(jié)構(gòu).文獻(xiàn)[15]提出了Paragraph Vector的概念,除了1個(gè)詞的上下文之外,還保留了段落信息,可以生成1個(gè)段落的語義.

本文提出了基于詞向量的語義搜索模型.利用詞向量化技術(shù),從大量的語料庫中進(jìn)行訓(xùn)練,學(xué)習(xí)每個(gè)詞的向量化表示.之后由詞的向量計(jì)算出文檔的向量,由此就可以計(jì)算出文檔與文檔之間、文檔與查詢詞之間的語義距離,從而實(shí)現(xiàn)精準(zhǔn)的語義搜索.并將本文算法應(yīng)用于學(xué)術(shù)社交網(wǎng)站——學(xué)者網(wǎng).實(shí)驗(yàn)表明,本文算法可以快速、準(zhǔn)確地搜索到語義相關(guān)的學(xué)者及他們發(fā)表的論文 ,可以很好地實(shí)現(xiàn)語義搜索功能.

1 基于詞向量的語義搜索

利用詞向量方法,可以計(jì)算詞匯間的語法和語義的線性相似度.所謂詞匯的語法和語義的線性相似度,是指詞匯的語法相似度和語義相似度可進(jìn)行近似的線性計(jì)算.下面給出語義相似度的示例:

Xking-Xman≈Xqueen-Xwoman,

Xshirt-Xclothing≈Xchair-Xfurniture,

其中,Xking表示詞king的語向量,其余皆同.

由此可以看出,采用詞向量的方法可以很好地描述語義相似度信息,而且語義相似度可以進(jìn)行近似的線性計(jì)算,為進(jìn)行文檔與查詢詞之間、文檔與文檔之間的相似度分析提供基礎(chǔ).

本文的應(yīng)用背景為學(xué)者網(wǎng)中的學(xué)術(shù)搜索.學(xué)者網(wǎng)是一個(gè)面向?qū)W者的學(xué)術(shù)社區(qū),學(xué)術(shù)搜索是其中一項(xiàng)重要的學(xué)術(shù)服務(wù),收錄了近8 000萬條中英文論文,為學(xué)者提供豐富的學(xué)術(shù)文獻(xiàn)資源[16].

本文基于詞向量模型,提出了適用于大型學(xué)術(shù)搜索引擎中的學(xué)術(shù)論文語義搜索算法.首先給出該算法的基本處理流程:

算法1基于詞向量的學(xué)術(shù)論文語義搜索

第1步:對論文數(shù)據(jù)進(jìn)行清理,抽取出論文標(biāo)題及關(guān)鍵字,形成語料庫D;

第2步:將抽取出的關(guān)鍵字加入ansj_seg分詞組件的用戶自定義字典中,對語料庫中的論文數(shù)據(jù)進(jìn)行分詞;

第3步:將分詞后的數(shù)據(jù)調(diào)用GloVe進(jìn)行訓(xùn)練,得到每個(gè)詞的語義向量庫V;

第4步:對用戶輸入的查詢Q進(jìn)行相關(guān)詞擴(kuò)展,選出相似度大于θ的最相近的詞匯,組成新的查詢Q’;

第5步:計(jì)算Q’的向量,在語義向量庫V中查詢與其最相關(guān)的文檔,并返回.

算法1的第1步僅提取出論文的標(biāo)題及關(guān)鍵字信息來計(jì)算論文文檔的語義,而忽略掉論文的摘要信息.這是因?yàn)樵谡写嬖谥^多與論文的主題不相關(guān)的詞匯,在以詞匯的線性組合作為文檔的語義來進(jìn)行計(jì)算時(shí),這些詞匯將對文檔的語義造成相當(dāng)大的干擾.將在下面的實(shí)驗(yàn)部分進(jìn)行分析.

分詞效果的好壞直接決定了對于中文語料進(jìn)行語義分析的效果.本文采用Ansj_seg[17]開源分詞組件進(jìn)行分詞.Ansj_seg采用N-Gram結(jié)合條件隨機(jī)域來實(shí)現(xiàn),分詞效率可達(dá)200萬詞/s,準(zhǔn)確率達(dá)96%.算法1的第2步將關(guān)鍵字作為一個(gè)完整的詞匯,加入到用戶詞典中,后面的實(shí)驗(yàn)證明,該方法可大幅提高語義計(jì)算的準(zhǔn)確度.

算法1的第4步采用了查詢擴(kuò)展的方式,可提高語義搜索返回結(jié)果的召回率,有利于增加結(jié)果的多樣性.

算法的最后一步,根據(jù)查詢向量Q’,在語義向量庫V中查詢與其最相關(guān)的前m個(gè)文檔.假設(shè)V中的向量個(gè)數(shù)為n,向量的維度為d,那么,經(jīng)過簡單的分析可以看到,常規(guī)的算法實(shí)現(xiàn)最相關(guān)文檔查詢的時(shí)間復(fù)雜度為O(mdn2). 在向量維度和向量庫的規(guī)模很大時(shí),常規(guī)算法的時(shí)間復(fù)雜度很高,會(huì)耗費(fèi)較多的時(shí)間.

為提高相關(guān)文檔的查詢效率,使其適用于大規(guī)模的文檔庫中,我們提出了利用隨機(jī)映射的方法,在大規(guī)模向量空間中快速查詢最相關(guān)文檔.在向量空間V中隨機(jī)生成一條分隔線,將V劃分成不同的2個(gè)子空間;如此進(jìn)行多次隨機(jī)分割,空間的劃分方法就生成一顆隨機(jī)樹.隨機(jī)樹的生成過程如圖1所示.

圖1 隨機(jī)樹的劃分

在隨機(jī)樹中定位查詢目標(biāo)向量所在的劃分區(qū)域,然后在這些區(qū)域中查找與其最相關(guān)的文檔.可見,在隨機(jī)樹中查找出的最相關(guān)文檔,是在整個(gè)向量空間中最相關(guān)文檔的一個(gè)子集.

我們提出以下觀察:在向量空間V中相近的點(diǎn)極大可能落在隨機(jī)樹的同一個(gè)劃分區(qū)域中.

基于以上觀察,如果我們進(jìn)行多次隨機(jī)劃分,生成多個(gè)隨機(jī)樹,那么,將多個(gè)隨機(jī)樹的查詢結(jié)果結(jié)合起來,求它們的并集,將會(huì)保證覆蓋到完整的最相關(guān)文檔的絕大部分,甚至是命中全部最相關(guān)文檔.

下面給出該算法的具體流程:

算法2隨機(jī)映射法查詢最相關(guān)文檔

Input: 目標(biāo)向量v, 隨機(jī)樹深度d, 隨機(jī)樹個(gè)數(shù)N

Output: 最相關(guān)向量集合V

Procedure:

(1)V={};

(2)foriin 1…N;

(3)生成隨機(jī)樹Ti;

(4)在Ti中確定v所在的劃分區(qū)域Sj;

(5)在劃分區(qū)域Sj中查找最相關(guān)文檔Vi;

(6)V=V∪Vi;

(7)ReturnV.

2 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文提出的方案,我們在學(xué)者網(wǎng)中抽取了計(jì)算機(jī)方向16個(gè)中文核心期刊的12 727篇論文.這些期刊為:計(jì)算機(jī)學(xué)報(bào)、軟件學(xué)報(bào)、計(jì)算機(jī)研究與發(fā)展、自動(dòng)化學(xué)報(bào)、計(jì)算機(jī)科學(xué)、控制理論與應(yīng)用、計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)、計(jì)算機(jī)工程與應(yīng)用、模式識(shí)別與人工智能、控制與決策、小型微型計(jì)算機(jī)系統(tǒng)、計(jì)算機(jī)工程、計(jì)算機(jī)應(yīng)用、中國圖象圖形學(xué)報(bào)、遙感學(xué)報(bào)和中文信息學(xué)報(bào).

在實(shí)驗(yàn)中,我們將分別考查以下因素對語義搜索帶來的影響:

?利用“題目+關(guān)鍵字”信息與利用“題目+關(guān)鍵字+摘要”信息;

?分詞時(shí)是否將關(guān)鍵字作為一個(gè)完整的詞匯;

?計(jì)算語義時(shí)是否利用TF-IDF作為詞的權(quán)重;

?是否采用語義相關(guān)詞匯,對查詢進(jìn)行擴(kuò)展.

本實(shí)驗(yàn)分別在保證其他條件不變的情況下,改變某一項(xiàng)條件,檢驗(yàn)它對語義搜索的結(jié)果會(huì)造成如何影響.檢驗(yàn)方法為手動(dòng)設(shè)定若干常見的查詢條件,并判斷它們的語義相關(guān)度.

2.1“題目+關(guān)鍵字”與“題目+關(guān)鍵字+摘要”

首先,我們對比在其他條件相同的情況下,是否采用摘要信息對語義帶來的影響.本文給出幾個(gè)常見的查詢,并且比較它們的準(zhǔn)確率.在詞的權(quán)重相等(不加入TF-IDF分?jǐn)?shù)作為權(quán)重)、將關(guān)鍵字作為單獨(dú)詞匯加入分詞中的結(jié)果見表1.可以看出,加入摘要信息后,雖然檢索時(shí)考慮的內(nèi)容更加全面了,但是對檢索的精度帶來了明顯的下降.亦即,在對語義進(jìn)行線性計(jì)算的方案中,摘要中包含的多個(gè)語義上無關(guān)的詞匯,會(huì)對最終生成的論文的語義向量造成干擾.這與數(shù)學(xué)中“1+ (-1) =0”的數(shù)學(xué)原理相一致.

2.2關(guān)鍵字作為單獨(dú)詞匯

分詞是中文語言處理中特有的一個(gè)階段.分詞效果的好壞,對于中文語言分析系統(tǒng)的運(yùn)行有著很大的影響.通常情況下,關(guān)鍵字都是一個(gè)特定的、完整的學(xué)術(shù)詞匯,它們有著特定的含義,例如“機(jī)器學(xué)習(xí)”表示計(jì)算機(jī)領(lǐng)域一個(gè)特有的學(xué)習(xí)技術(shù),如果將它拆分開“機(jī)器”、“學(xué)習(xí)”,將極大地影響語義的準(zhǔn)確度.因此,我們采用將關(guān)鍵字作為一個(gè)單獨(dú)詞匯的方法,保證學(xué)術(shù)詞匯的準(zhǔn)確識(shí)別.本實(shí)驗(yàn)中,驗(yàn)證了該方法對語義搜索帶來的準(zhǔn)確率的提升.

通過表2可以看到,將關(guān)鍵字加入到分詞組件的用戶詞典后,可以顯著提升語義檢索的準(zhǔn)確率.

表1 是否采用摘要信息的查詢結(jié)果對比

表2 是否將關(guān)鍵字作為單獨(dú)詞匯分詞效果對比

2.3計(jì)算詞匯權(quán)重

在普通文本處理中,詞匯對于文檔有著不同的區(qū)分度.例如,1個(gè)語料庫中包含1個(gè)詞匯的文檔數(shù)越多,該詞匯越通用,它對于文檔的區(qū)分度就越低,反之就越高.通常用TF-IDF來描述1個(gè)詞匯的重要程度.本文設(shè)置了2個(gè)方案:(1)利用TF-IDF作為詞匯的權(quán)重,在計(jì)算1篇論文的語義時(shí),將分詞后的各個(gè)語義向量乘以該權(quán)重,然后相加,得到該論文的語義向量;(2)各個(gè)詞的權(quán)重相同,直接相加得到論文的語義向量.表3給出了兩者的結(jié)果對比.通過對比可以發(fā)現(xiàn),采用TF-IDF作為權(quán)重,與同等權(quán)重基本沒有差別,搜索給出的結(jié)果完全相同,僅僅在計(jì)算語義相似度的分?jǐn)?shù)有很小的不同.這與本文實(shí)驗(yàn)所采用的語料是相關(guān)的.我們計(jì)算語義時(shí)重點(diǎn)考慮了文章的關(guān)鍵字信息,而關(guān)鍵字對于論文語義的權(quán)重基本上沒有差別.本文的實(shí)驗(yàn)證明了這一觀點(diǎn).

表3 是否加入權(quán)重的效果對比

2.4語義擴(kuò)展

算法1的第4步對查詢Q進(jìn)行了相關(guān)詞擴(kuò)展,利用在語義上與Q最相近的詞,擴(kuò)展它的語義,以提高查詢的召回率.例如,以“機(jī)器學(xué)習(xí)”為例,首先查詢與其最相近的詞,相關(guān)度閾值θ設(shè)為0.65,得到的相關(guān)詞如表4所示.可以看出,利用該方法可以較準(zhǔn)確地提取出語義上相關(guān)的詞匯.利用這些相關(guān)詞匯去擴(kuò)展該查詢,可以得到覆蓋面更廣的結(jié)果.

利用表4給出的語義相關(guān)詞匯,將它們綜合起來進(jìn)行查詢,并計(jì)算每篇論文與該擴(kuò)展后查詢的語義相關(guān)度.采用上文已證明有效的方案進(jìn)行查詢,即:用“標(biāo)題”+“關(guān)鍵詞”計(jì)算論文的語義、將關(guān)鍵字作為單獨(dú)的詞匯進(jìn)行分詞,以及將TF-IDF作為區(qū)分每個(gè)詞的語義權(quán)重.從表5可知,利用語義相關(guān)詞匯進(jìn)行擴(kuò)展后,查詢到的結(jié)果更加全面,可以覆蓋更多相關(guān)的主題,同時(shí),在整體上也保持了較高的語義相關(guān)度,沒有因?yàn)橐肓祟~外的查詢,而造成查詢結(jié)果語義分散的情況,證明了該查詢方案的有效性.

表4 “機(jī)器學(xué)習(xí)”的相關(guān)詞擴(kuò)展

表5 是否采用擴(kuò)展查詢策略的效果對比

3 小結(jié)與展望

本文提出了一種利用詞向量方法計(jì)算進(jìn)行語義查詢的搜索方案,并將其應(yīng)用于學(xué)者網(wǎng)學(xué)術(shù)搜索中.針對學(xué)術(shù)搜索的實(shí)際情況,提出利用題目+關(guān)鍵詞來訓(xùn)練語義向量,并將關(guān)鍵詞作為完整詞匯加入到分詞組件的用戶自定義詞典中;利用隨機(jī)映射的方法,提高在向量空間中查找最相關(guān)文檔的效率.實(shí)驗(yàn)證明,該方案可以有效地計(jì)算論文的語義信息,并進(jìn)行語義查詢.

本文為避免摘要信息對論文的語義造成干擾,沒有采用摘要信息,保證了論文語義的精確性,但同時(shí)也丟失了一部分有用的信息.在將來的工作中,可以進(jìn)一步討論如何有效的利用摘要信息,進(jìn)一步豐富論文的語義.

[1]DEERWESTER S, DUMAIS S T, FURNAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391.

[2]HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine Learning, 2001, 42(1/2):177-196.

[3]DUMAIS S T. Latent semantic analysis[J]. Annual Review of Information Science and Technology, 2004, 38(1):188-230.

[4]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3:993-1022.

[5]BLEI D M, LAFFERTY J D. A correlated topic model of science[J]. The Annals of Applied Statistics, 2007,1(1):17-35.

[6]SCHMIDHUBER J. Deep learning in neural networks: an overview[J]. Neural Networks, 2015, 61:85-117.

[7]WESTON J, RATLE F, MOBAHI H, et al. Deep learning via semi-supervised embedding[J]. Lecture Notes in Computer Science, 2012, 7700:1168-1175.

[8]MIKOLOV T, CHEN K, CORRADO G,et al. Efficient estimation of word representations in vector space[J/OL]. (2013-09-07)[2016-03-25].Computer Science, http:∥www.oalib.com/paper/4057741#.Vx3Rz_mEAso.[9]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013,26:3111-3119.

[10]MIKOLOV T, YIH W, ZWEIG G. Linguistic regularities in continuous space word representations[C]∥Proceedings of NAACL-HLT. Atlanta:[s.n.], 2013:746-751.

[11]PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha:[s.n.], 2014:1532-1543.

[12]BENGIO Y, SCHWENK H, SENéCAL J S, et al. Neural probabilistic language models[M]∥HOLMES D E, JAIN L C. Innovations in Machine Learning. Berlin:Springer, 2006:137-186.

[13] MITCHELL J, LAPATA M. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8):1388-1429.

[14]SOCHER R, LIN C C, MANNING C, et al. Parsing natural scenes and natural language with recursive neural networks[C]∥Proceedings of the 28th International Conference on Machine Learning. Bellevue:[s.n.],2011:129-136.[15]LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]∥Proceedings of the 31th International Conferences of Machine Learning. Beijing:[s.n.], 2014:1188-1196.

[16]學(xué)者網(wǎng):教學(xué)科研協(xié)作平臺(tái)[Z/OL].[2016-03-25].http:∥www.scholat.com.

[17]NLPChina. Ansj分詞[Z/OL]. [2016-04-10]. https:∥github.com/NLPchina/ansj_seg.

【中文責(zé)編:莊曉瓊英文責(zé)編:肖菁】

Research on Academic Semantic Search Using Word Vector Representations

CHEN Guohua1, TANG Yong2*, XU Yuying2, HE Chaobo3, XIAO Danyang2

(1. Network Center, South China Normal University, Guangzhou 510631, China; 2. School of Computer Science, South China University of Technology, Guangzhou 510631, China; 3. School of Information Science and Technology, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China)

Using the papers in computer science extracted from Scholat as the corpus, multiple word vector training schemes are proposed using the Glove semantic toolkit, and their performances are compared and analyzed. Then, a random projection method is proposed to quickly access vectors in the large vector space. Finally, a semantic vector computing scheme for the whole academic documents is proposed based on the word vector representations. A series of experiments are conducted, and the effectiveness of the proposed scheme “word vector based academic semantic search” is verified. This scheme is applied to the search function of Scholat and it can obtain satisfying performance.

academic semantic computing; word vectors; random projection; Scholat

2016-04-24《華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》網(wǎng)址:http://journal.scnu.edu.cn/n

國家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(863計(jì)劃)(2013AA01A212);國家自然科學(xué)基金項(xiàng)目(61272067,61502180);廣東省科技計(jì)劃項(xiàng)目 (2013B090800024,2015A020209178,2016A030303058);廣東省自然科學(xué)基金項(xiàng)目(2015A030310509,2014A030310238);廣州市科技計(jì)劃項(xiàng)目(2014J4300033)

湯庸,教授,Email: ytang4@qq.com.

TP391.1

A

1000-5463(2016)03-0053-06

猜你喜歡
關(guān)鍵字分詞文檔
淺談Matlab與Word文檔的應(yīng)用接口
履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
有人一聲不吭向你扔了個(gè)文檔
分詞在英語教學(xué)中的妙用
成功避開“關(guān)鍵字”
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
智能垃圾箱