国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種簡(jiǎn)單高效的科研興趣自動(dòng)發(fā)現(xiàn)與多視角檢索方法

2017-03-31 11:39:20趙華張玉強(qiáng)程成左健健
軟件導(dǎo)刊 2016年8期
關(guān)鍵詞:科研人員檢索可視化

趙華+張玉強(qiáng)+程成+左健健

摘 要:發(fā)現(xiàn)科研人員的科研興趣并實(shí)現(xiàn)對(duì)科研興趣的多視角高效檢索在推薦評(píng)審專家、構(gòu)建虛擬科研團(tuán)隊(duì)、指導(dǎo)學(xué)生選擇導(dǎo)師等方面具有重要意義。為了能自動(dòng)發(fā)現(xiàn)科研人員的科研興趣并進(jìn)行多視角的檢索與展示,首先基于網(wǎng)絡(luò)爬蟲爬取了關(guān)于某一學(xué)科的海量文獻(xiàn),抽取元數(shù)據(jù),建立關(guān)鍵詞共現(xiàn)矩陣,然后基于復(fù)雜網(wǎng)絡(luò)GN聚類算法實(shí)現(xiàn)科研興趣的自動(dòng)發(fā)現(xiàn),最后實(shí)現(xiàn)了一個(gè)科研興趣自動(dòng)發(fā)現(xiàn)與多視角檢索原型系統(tǒng),提供科研興趣的多視角檢索。該系統(tǒng)可以滿足不同用戶的多方面檢索需求,以更好地為用戶提供服務(wù)。

關(guān)鍵詞關(guān)鍵詞:科研興趣發(fā)現(xiàn);多視角檢索;可視化;關(guān)鍵詞聚類;關(guān)聯(lián)矩陣

DOIDOI:10.11907/rjdk.161441

中圖分類號(hào):TP319

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)008-0134-03

0 引言

科研工作已經(jīng)成為科研院所、高校等工作人員日常開展的重要工作之一,是高校教師職業(yè)生涯中的一個(gè)重要組成部分。隨著科研工作的逐步深入,學(xué)科分類越來(lái)越細(xì)致,及時(shí)發(fā)現(xiàn)和跟蹤科研人員的科研興趣在推薦評(píng)審專家、構(gòu)建虛擬科研團(tuán)隊(duì)、指導(dǎo)學(xué)生選擇導(dǎo)師等方面都具有重要意義。然而,一方面隨著科學(xué)技術(shù)的不斷發(fā)展,科研人員的研究方向也不斷演化且方向分類更加細(xì)化,這給評(píng)審專家推薦、虛擬團(tuán)隊(duì)構(gòu)建等工作造成了很大困難;另一方面,面對(duì)海量科研信息,如何能夠快速檢索到用戶真正感興趣的內(nèi)容,也是近年來(lái)科研人員關(guān)注的一個(gè)熱點(diǎn)問(wèn)題。目前,雖然大多數(shù)科研期刊數(shù)據(jù)庫(kù)都建立了自己的搜索引擎,以方便用戶檢索相應(yīng)的科研信息,但是目前的檢索結(jié)果大多只是按照文獻(xiàn)發(fā)表的先后順序進(jìn)行排序,結(jié)果比較單一,無(wú)法幫助科研人員從多個(gè)視角對(duì)比分析所需的科研信息。

為此,本文結(jié)合內(nèi)容分析、數(shù)據(jù)挖掘、個(gè)性化檢索等相關(guān)技術(shù),研究如何在科研大數(shù)據(jù)背景下準(zhǔn)確地發(fā)現(xiàn)科研人員的科研興趣并進(jìn)行多視角檢索的方法,并實(shí)現(xiàn)了一個(gè)科研興趣自動(dòng)發(fā)現(xiàn)與多視角展示系統(tǒng)原型。

1 相關(guān)研究工作

發(fā)現(xiàn)用戶興趣是個(gè)性化推薦等研究領(lǐng)域的基礎(chǔ)工作,即根據(jù)用戶的興趣實(shí)現(xiàn)個(gè)性化推薦,所以發(fā)現(xiàn)并對(duì)用戶興趣進(jìn)行建模是個(gè)性化推薦領(lǐng)域的核心問(wèn)題和研究熱點(diǎn),并已經(jīng)取得了一系列相關(guān)的研究成果。鄒博偉等[1]為了識(shí)別出用戶的新興趣,改進(jìn)了TextTiling方法以使系統(tǒng)可以自動(dòng)選擇合適的動(dòng)態(tài)閾值,并將其在個(gè)性化檢索系統(tǒng)中進(jìn)行了測(cè)試,取得了較好效果;白麗君、張永奎[2]提出基于智能Agent的用戶興趣發(fā)現(xiàn)與更新,通過(guò)監(jiān)視跟蹤用戶的瀏覽行為和操作,判斷用戶對(duì)哪些文獻(xiàn)資料感興趣,對(duì)該文獻(xiàn)提取興趣特征詞和內(nèi)容關(guān)鍵詞則被認(rèn)為是用戶真正的興趣;牛朝林等[3]針對(duì)微博用戶興趣隨時(shí)間變化的特征,提出一種基于模糊關(guān)聯(lián)規(guī)則的微博用戶潛在興趣發(fā)現(xiàn)方法,該方法采用LDA主題模型表示微博主題的分布,挖掘模糊關(guān)聯(lián)規(guī)則,最后通過(guò)相似度計(jì)算發(fā)現(xiàn)潛在興趣;為了應(yīng)對(duì)微博的數(shù)據(jù)稀疏特性,王仁武等[4]提出首先構(gòu)建主題詞共現(xiàn)圖,然后通過(guò)Clauset算法和PageRank算法聚類實(shí)現(xiàn)族群興趣的自動(dòng)發(fā)現(xiàn);國(guó)琳、左萬(wàn)利[5]通過(guò)構(gòu)建和分析用戶興趣分布曲線以及發(fā)現(xiàn)興趣領(lǐng)域?qū)<?,提出甄別狀態(tài)不正常的偽專家算法;王實(shí)、高文等[6]根據(jù)用戶的訪問(wèn)記錄定義了一個(gè)隱馬爾可夫模型,然后提出一種新的增量發(fā)行算法Increase-R用于發(fā)現(xiàn)用戶的興趣遷移模式;王喆、唐杰等[7]充分考慮領(lǐng)域?qū)<业难芯砍晒皫熒P(guān)系等因素,采用學(xué)習(xí)排序的方法作為框架,用權(quán)威度來(lái)衡量一位專家在某領(lǐng)域作為指導(dǎo)者的成就及影響力;而文獻(xiàn)[8]、[9]指出,衡量某科研人員在該領(lǐng)域的權(quán)威度,更應(yīng)考慮其發(fā)表論文的數(shù)量、質(zhì)量以及合作關(guān)系。

從上述研究現(xiàn)狀可以看出,目前對(duì)用戶研究興趣的發(fā)現(xiàn)大多數(shù)是面向社交網(wǎng)絡(luò)開展的,而很少有針對(duì)科研領(lǐng)域的科研興趣發(fā)現(xiàn)方面的研究。因此,如何快速準(zhǔn)確地找到科研人員的科研興趣及重要研究成果,對(duì)了解科研領(lǐng)域的發(fā)展變化及關(guān)注的科研熱點(diǎn)具有重要意義。

2 系統(tǒng)模型及數(shù)據(jù)獲取方法

2.1 系統(tǒng)基本框架

如圖1所示,本文的科研興趣自動(dòng)發(fā)現(xiàn)與多視角可視化方法主要包含3個(gè)模塊:數(shù)據(jù)獲取及預(yù)處理模塊(M1)、科研興趣自動(dòng)發(fā)現(xiàn)與可視化模塊(M2)以及科研興趣多視角檢索模塊(M3)。

(1)科研論文是科研成果的重要載體,是科研興趣的重要表達(dá)方式。為此,數(shù)據(jù)獲取及預(yù)處理模塊主要通過(guò)自制的論文爬行器爬取互聯(lián)網(wǎng)上出現(xiàn)的科研論文,并抽取論文元數(shù)據(jù),為后續(xù)的科研興趣自動(dòng)發(fā)現(xiàn)作好數(shù)據(jù)準(zhǔn)備。

(2)科研興趣自動(dòng)發(fā)現(xiàn)與可視化模塊是本文工作的核心,主要是從已有的論文數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)科研人員的科研興趣。該發(fā)現(xiàn)方法首先建立關(guān)聯(lián)矩陣,然后對(duì)矩陣進(jìn)行聚類得到相關(guān)科研興趣,最后將挖掘的科研興趣進(jìn)行可視化。

(3)科研興趣多視角展示模塊主要是為用戶提供多種檢索方式,以實(shí)現(xiàn)對(duì)科研興趣的多視角展現(xiàn),方便用戶進(jìn)行對(duì)比分析。目前主要實(shí)現(xiàn)了3種檢索方式。

2.2 基于網(wǎng)絡(luò)爬行器的數(shù)據(jù)獲取及預(yù)處理方法

要想獲得教師的科研興趣,必須找到一個(gè)學(xué)術(shù)思想集散地,以追蹤最新科研數(shù)據(jù)。經(jīng)過(guò)多方面比較,本文選定萬(wàn)方數(shù)據(jù)庫(kù)(www.wanfangdata.com.cn)作為抓取科研信息的集散地,同時(shí)本文研究工作只選取了位于該數(shù)據(jù)庫(kù)中計(jì)算機(jī)領(lǐng)域3大期刊(軟件學(xué)報(bào)、計(jì)算機(jī)學(xué)報(bào)、計(jì)算機(jī)研究與發(fā)展)的科研論文。建立全面的教師信息庫(kù)、及時(shí)更新教師信息是準(zhǔn)確發(fā)現(xiàn)科研興趣的前提與關(guān)鍵。

本文設(shè)計(jì)并實(shí)現(xiàn)了論文爬行器用于實(shí)現(xiàn)對(duì)論文數(shù)據(jù)的獲取。該爬行器首先對(duì)獲取的鏈接進(jìn)行篩選,過(guò)濾掉非“www.wanfangdata.com.cn”開頭的所有鏈接,只處理本站內(nèi)的鏈接。經(jīng)過(guò)過(guò)濾,可以剔除其中的動(dòng)態(tài)鏈接、明顯的廣告鏈接等,然后將相對(duì)URL轉(zhuǎn)換成絕對(duì)URL,最后將待爬取的鏈接存儲(chǔ)到列表中等待調(diào)用。網(wǎng)頁(yè)展示給用戶的主要內(nèi)容是它的文本,為抽取其中的信息,需要進(jìn)一步分析其網(wǎng)頁(yè)結(jié)構(gòu),利用正則表達(dá)式準(zhǔn)確定位到需要的文本內(nèi)容并使用抽取工具(BeautifulSoup)將文本內(nèi)容抽取出來(lái)。數(shù)據(jù)存儲(chǔ)是論文爬行器工作的最后一步,也是后續(xù)系統(tǒng)開發(fā)所使用的數(shù)據(jù)源。在本爬蟲中,有針對(duì)性地抽取了萬(wàn)方論文在線網(wǎng)站中的論文標(biāo)題、作者、作者單位、關(guān)鍵詞、出版日期、被引次數(shù)及作者發(fā)文次數(shù)以及H值[10]等信息,在數(shù)據(jù)存儲(chǔ)時(shí)對(duì)抽取到的相應(yīng)信息進(jìn)行整理,再依次存入數(shù)據(jù)庫(kù)供系統(tǒng)使用。部分?jǐn)?shù)據(jù)示例如圖2所示。

3 基于內(nèi)容分析的科研興趣發(fā)現(xiàn)及可視化方法

3.1 基于關(guān)鍵詞聚類的科研興趣發(fā)現(xiàn)方法

科學(xué)文獻(xiàn)是科研工作者進(jìn)行研究成果表達(dá)的一種主要方式,它可以反映出學(xué)科領(lǐng)域的主要研究?jī)?nèi)容和方向,而關(guān)鍵詞是論文核心內(nèi)容的提煉濃縮,能高度概括出論文的基本內(nèi)容。因此,可通過(guò)挖掘科研人員發(fā)表的論文關(guān)鍵詞集合來(lái)了解作者科研方向,實(shí)現(xiàn)研究興趣的挖掘。具體方法為:首先建立論文關(guān)鍵詞共現(xiàn)矩陣,然后對(duì)共現(xiàn)矩陣進(jìn)行聚類得到作者研究興趣,最后通過(guò)可視化圖將作者研究興趣進(jìn)行可視化,以向用戶直觀展示。本文用于科研人員科研興趣發(fā)現(xiàn)的算法描述如下:

Input:科研人員姓名

Output:該科研人員的科研興趣

Step1:從爬行器爬取的科研數(shù)據(jù)庫(kù)中檢索到該教師的所有科研論文,得到其科研論文集合ExpertPaper={paper1,paper2,...papern}。

Step2: 抽取論文集合ExpertPaper中每篇論文的關(guān)鍵詞,形成關(guān)鍵詞集合KeywordSet={keywordi|keywordi∈paperj,paperj∈ExpertPaper,1≤i≤m,1≤j≤n}。

Step3: 建立關(guān)鍵詞共現(xiàn)矩陣(Coij)m×m,Coij的取值由公式1計(jì)算得到,此處keywordi和keywordj共現(xiàn)是指它們作為同一篇論文的關(guān)鍵詞出現(xiàn)。

Coij=k,if keywordi和keywordj在k篇論文中共現(xiàn)Coij=0,else(1)

Step4: 采用GN算法對(duì)(Coij)m×m進(jìn)行聚類,得到教師的科研興趣。

3.2 科研興趣可視化方法

在通過(guò)關(guān)鍵詞聚類獲得了教師的科研興趣之后,為更好、更直觀地展現(xiàn)教師的科研興趣,對(duì)教師科研興趣可視化進(jìn)行了研究和實(shí)現(xiàn)。XML(Extensible Markup Language)和JSON(JavaScript Object Notation)都是常用的數(shù)據(jù)交換格式。其中,JSON是一種輕量級(jí)的數(shù)據(jù)交換格式,采用完全獨(dú)立于語(yǔ)言的文本格式,這些特性使JSON成為理想的數(shù)據(jù)交換語(yǔ)言,易于閱讀和編寫,同時(shí)也易于機(jī)器解析和生成。因此,本文選取JSON作為數(shù)據(jù)交換格式。首先需要將圖1所示的科研信息數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換成JSON格式,然后將數(shù)據(jù)導(dǎo)入到Js Chars可視化插件,從而實(shí)現(xiàn)可視化。

4 科研興趣多視角檢索與展示

本文在上述教師科研興趣自動(dòng)發(fā)現(xiàn)的基礎(chǔ)上,實(shí)現(xiàn)了科研興趣的多視角檢索與展示,目前可以通過(guò)3種方法進(jìn)行多視角檢索和展示科研興趣,以方便用戶更全面地對(duì)比分析。本文實(shí)現(xiàn)的原型系統(tǒng)運(yùn)行(在瀏覽器中輸入地址 127.0.0.1:9876)之后,即可顯示如圖3所示的主界面。

該頁(yè)面主要顯示3部分內(nèi)容:首先是一個(gè)搜索框,用戶可以搜索感興趣的作者、關(guān)鍵詞或地區(qū)信息;第二部分是展現(xiàn)數(shù)據(jù)庫(kù)中按出現(xiàn)次數(shù)從多到少排列的教師列表以及發(fā)文數(shù)量;第三部分是數(shù)據(jù)庫(kù)中的關(guān)鍵詞,即代表教師研究方向,按出現(xiàn)次數(shù)從多到少排列,并顯示出現(xiàn)次數(shù)。點(diǎn)擊任意一個(gè)教師姓名則會(huì)顯示出該教師的科研興趣,例如點(diǎn)擊發(fā)文數(shù)量較多的馮登國(guó)、高文老師,便會(huì)可視化出二位教師的科研興趣,如圖4所示。

通過(guò)圖4的餅狀圖可以發(fā)現(xiàn),馮登國(guó)老師的科研方向排名前8(設(shè)定只顯示前8個(gè))的分別為:訪問(wèn)控制、可信計(jì)算、可信平臺(tái)模塊、信息安全、分組密碼、證明安全性、數(shù)字水印和安全協(xié)議。其中訪問(wèn)控制總共出現(xiàn)了14次,因此可以認(rèn)為這是馮老師的第一興趣點(diǎn)。同樣地,可以得出高文老師的科研熱點(diǎn)方向是手語(yǔ)識(shí)別和人臉識(shí)別。通過(guò)這種展示方式可以極大地方便用戶了解感興趣教師的研究方向及取得的成果,對(duì)學(xué)生選擇合適的導(dǎo)師起到很好的指導(dǎo)作用。

在圖3所示的主界面中除了可以通過(guò)教師來(lái)展示科研興趣外,還可以實(shí)現(xiàn)按地區(qū)檢索與按關(guān)鍵詞檢索。例如以“青島”作為關(guān)鍵詞檢索,會(huì)得到青島地區(qū)科研人員列表,從中可以發(fā)現(xiàn)本校的吳哲輝、梁永全、杜玉越等知名教師信息。點(diǎn)擊某位教師姓名,同樣可以顯示如圖4所示的該教師的科研興趣。通過(guò)按地區(qū)檢索,可以方便用戶尋找某個(gè)特定地區(qū)的知名教師,同時(shí)可以了解該教師的科研興趣,方便建立科研團(tuán)隊(duì),以更好地開展科研合作工作。如果按照關(guān)鍵詞檢索,比如“Petri網(wǎng)”,可以得到如圖5所示的列表,該列表將國(guó)內(nèi)研究Petri網(wǎng)的相關(guān)教師都列在其中,比如清華大學(xué)的林闖教授、山東科技大學(xué)的吳哲輝教授等。

5 結(jié)語(yǔ)

本文實(shí)現(xiàn)了一個(gè)簡(jiǎn)單高效的科研興趣自動(dòng)發(fā)現(xiàn)與多視角檢索方法與系統(tǒng),首先通過(guò)論文爬行器爬取互聯(lián)網(wǎng)上的科研信息,建立科研信息數(shù)據(jù)庫(kù);其次通過(guò)對(duì)關(guān)鍵詞共現(xiàn)矩陣進(jìn)行聚類,實(shí)現(xiàn)科研興趣的自動(dòng)發(fā)現(xiàn)并可視化;最后提供了按姓名、按地區(qū)、按關(guān)鍵詞3種檢索方法,以滿足不同用戶多方面的檢索需求。

本文工作目前只是針對(duì)中文科研論文進(jìn)行了研究,而且研究中僅利用了關(guān)鍵詞信息,下一步工作將考慮面向跨語(yǔ)言(中文、英文)科研論文處理分析的科研興趣自動(dòng)發(fā)現(xiàn)方法,同時(shí)將積極探索科研論文中的其它信息,以更好地改善科研興趣自動(dòng)發(fā)現(xiàn)的效果。

參考文獻(xiàn):

[1]鄒博偉,張宇,范基禮,等.基于改進(jìn)TextTiling方法的用戶新興趣發(fā)現(xiàn)的研究[J].計(jì)算機(jī)研究與發(fā)展,2009,46(9): 1594-1600.

[2]白麗君,張永奎,李榮陸.基于智能Agent的用戶興趣發(fā)現(xiàn)和更新[J].計(jì)算機(jī)工程,2003,29(2): 236-237.

[3]牛朝林,高茂庭.基于模糊關(guān)聯(lián)規(guī)則的微博用戶潛在興趣發(fā)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(1):31-38.

[4]王仁武,袁毅,翟伯蔭.基于Clauset和PageRank的社交網(wǎng)絡(luò)族群興趣發(fā)現(xiàn)研究[J].情報(bào)雜志,2015,34(1):183-187.

[5]國(guó)琳,左萬(wàn)利.基于興趣圖譜的用戶興趣分布分析及專家發(fā)現(xiàn)[J].電子學(xué)報(bào),2015,43(8): 1561-1567.

[6]王實(shí),高文,李錦濤,等.基于隱馬爾可夫模型的興趣遷移模式發(fā)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2001,24(2): 152-157.

[7]中國(guó)科技論文在線.基于權(quán)威度的指導(dǎo)者挖掘與個(gè)性化推薦方法[EB/OL].http://www.paper.edu.cn.

[8]HIRSCH J E.An index to quantify an individual's scientific research output[C].Proceedings of Natl Acad Sci USA 102(PNAS'05),2005:16569-16572.

[9]LIU XIAOMING,BOLLEN J,NELSON M L.Co-authorship networks in the digital library research community[J].Information Processing & Management,2005,41(6): 681-682.

[10]王勇,徐永紅,姚萍.科研評(píng)價(jià)指標(biāo)-h指數(shù)研究綜述[J].情報(bào)雜志,2011(30): 41-44.

(責(zé)任編輯:黃 ?。?

猜你喜歡
科研人員檢索可視化
科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負(fù)擔(dān)專項(xiàng)行動(dòng)
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
基于CGAL和OpenGL的海底地形三維可視化
治療艾滋病,中國(guó)科研人員有了新發(fā)現(xiàn)
廣東公安科研人員風(fēng)采
2019年第4-6期便捷檢索目錄
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
專利檢索中“語(yǔ)義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
渝中区| 郑州市| 孙吴县| 西青区| 丁青县| 怀仁县| 页游| 福泉市| 繁昌县| 永嘉县| 淮滨县| 施甸县| 肇东市| 连江县| 永泰县| 竹溪县| 融水| 平果县| 出国| 阳原县| 公主岭市| 成都市| 乡城县| 惠来县| 安徽省| 昌平区| 汉中市| 三门峡市| 岳阳县| 彩票| 来安县| 泾源县| 永康市| 东兰县| 萨嘎县| 外汇| 浙江省| 利辛县| 东海县| 家居| 黄龙县|