国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息檢索領(lǐng)域主題研究
——基于SIGIR郵件列表和會議論文的比較研究*

2017-07-18 12:01:48趙忠偉程齊凱
數(shù)字圖書館論壇 2017年6期
關(guān)鍵詞:信息檢索主題詞列表

趙忠偉,程齊凱

(武漢大學(xué)信息管理學(xué)院,武漢 430072)

信息檢索領(lǐng)域主題研究
——基于SIGIR郵件列表和會議論文的比較研究*

趙忠偉,程齊凱

(武漢大學(xué)信息管理學(xué)院,武漢 430072)

傳統(tǒng)學(xué)科主題研究主要基于學(xué)術(shù)文本題錄數(shù)據(jù),研究對象單一。本文以SIGIR(Special Interest Group on Information Retrieval)郵件列表為切入點分別構(gòu)建SIGIR郵件列表數(shù)據(jù)集和同期會議論文數(shù)據(jù)集,并在兩個數(shù)據(jù)集的基礎(chǔ)上對信息檢索的主題結(jié)構(gòu)和主題演化進行對比分析。研究發(fā)現(xiàn),信息檢索領(lǐng)域存在研究內(nèi)容不斷深入、研究方法不斷增多和核心主題逐漸分裂的規(guī)律;同時還發(fā)現(xiàn),SIGIR郵件列表研究主題較會議論文而言,在時序上存在一定的“領(lǐng)先性”,通過該研究旨在揭示SIGIR郵件列表在信息檢索領(lǐng)域的學(xué)術(shù)價值。

領(lǐng)域主題;主題結(jié)構(gòu);主題演化;共詞分析;SIGIR郵件列表

1 引言

電子郵件作為一種較正式的交流方式,常被科研人員作為問題交流和科研合作的介質(zhì)。在開源軟件開發(fā)過程中,眾多開發(fā)者通常使用電子郵件進行溝通。國外已有很多學(xué)者對開源軟件的郵件列表展開相關(guān)研究,包括社會網(wǎng)絡(luò)挖掘和內(nèi)容挖掘等。

Ducheneaut利用社會網(wǎng)絡(luò)分析法對開源軟件郵件列表中的人物關(guān)系網(wǎng)絡(luò)進行挖掘[1],將開源軟件社區(qū)人物分成核心開發(fā)者、維護者、Bug修復(fù)者、Bug報告者、用戶文檔撰寫者和用戶。Elsayed等對Enron Collection郵件列表進行挖掘,揭示郵件列表中人物間社會關(guān)系[2]。Bird等認為開源軟件開發(fā)過程的每個階段都包含一個由核心開發(fā)人員組成的小組[3],并在后續(xù)研究中針對其他開源軟件的郵件列表進行了社會網(wǎng)絡(luò)分析[4-6]。

SIGIR(Special Interest Group on Information Retrieval)是信息檢索領(lǐng)域的頂級國際學(xué)術(shù)會議,自1963年,SIGIR一直專注于信息搜索和信息獲取技術(shù)的研究和教育。其主辦方通過郵件發(fā)布會議通知,網(wǎng)站所有注冊者均收到郵件。SIGIR官網(wǎng)保存了2007年10月—2017年2月的郵件列表。受國外開源軟件郵件列表研究成果啟發(fā),本文認為SIGIR郵件列表對揭示信息檢索領(lǐng)域的發(fā)展具有重要意義。本文希望通過對SIGIR郵件列表和同期會議論文進行比較,揭示信息檢索領(lǐng)域主題結(jié)構(gòu)和主題演化趨勢。

目前,對于領(lǐng)域主題結(jié)構(gòu)和主題演化研究的方法主要有詞頻分析法和共詞分析法。詞頻分析法是通過分析領(lǐng)域內(nèi)主題詞歷年走勢來揭示領(lǐng)域研究主題的演化情況;共詞分析法是通過構(gòu)建主題詞共現(xiàn)矩陣,進行主題詞聚類分析。共詞分析法在很多學(xué)科主題研究中得到應(yīng)用,如高聚物化學(xué)[7]、信息檢索[8]、軟件工程[9]、生物醫(yī)學(xué)[10-11]、圖書情報[12-13]等。

2 研究設(shè)計

數(shù)據(jù)是研究的基石,因此本文構(gòu)建SIGIR郵件列表和會議論文的數(shù)據(jù)集。具體包括三方面。(1)郵件數(shù)據(jù)獲取。利用網(wǎng)絡(luò)爬蟲抓取SIGIR官網(wǎng)的郵件列表,獲得郵件列表數(shù)據(jù)。(2)確定會議論文。獲取同期發(fā)表在SIGIR會議和ECIR(European Conference onInformation Retrieval)會議上的論文。(3)關(guān)鍵詞抽取。從郵件列表的正文中對關(guān)鍵詞進行抽取。統(tǒng)計發(fā)現(xiàn),SIGIR、ECIR會議論文平均每篇文章有3.5個關(guān)鍵詞,相對于郵件列表來說,會議論文的關(guān)鍵詞數(shù)量過少,因此,本文從會議論文摘要中抽取部分詞匯作為對原有關(guān)鍵詞的補充。

利用共詞分析法對信息檢索領(lǐng)域的主題結(jié)構(gòu)和主題演化進行研究。陳必坤等將學(xué)科知識網(wǎng)絡(luò)的研究單元分為作者、機構(gòu)、城市、國家/地區(qū)、專業(yè)術(shù)語(來自標題、摘要和關(guān)鍵詞)、引文等[14]。本文選取關(guān)鍵詞作為信息檢索領(lǐng)域主題研究的研究單元。

本文的原始數(shù)據(jù)包括兩部分:第一部分數(shù)據(jù)來自SIGIR官網(wǎng)的郵件列表,包含2007年12月—2017年2月的所有郵件數(shù)據(jù),考慮到2007年和2017年數(shù)據(jù)不全,因此剔除2007年和2017年的郵件數(shù)據(jù),只選取2008—2016年的郵件數(shù)據(jù)作為研究對象;第二部分數(shù)據(jù)為2008—2016年SIGIR和ECIR會議的會議論文。

從SIGIR官網(wǎng)的郵件列表共得到7 419封郵件,其中2008年1月—2016年12月共計7 218封,郵件格式相對統(tǒng)一,一般包括標題(header block)、正文(content block)和腳注(footer block)。

通過調(diào)研,發(fā)現(xiàn)SIGIR郵件列表中涉及的會議主要有SIGIR、ECIR、ICTIR(ACM International Conference on the Theory of Information Retrieval)、NTCIR(NACSIS Test Collections for IR)等。但由于未能獲取到ICTIR和NTCIR會議論文的數(shù)據(jù)。因此,本文以SIGIR和ECIR會議論文作為對比研究對象。最終獲取SIGIR會議論文1 968篇和ECIR會議論文828篇。

3 信息檢索領(lǐng)域主題結(jié)構(gòu)研究

3.1 信息檢索領(lǐng)域關(guān)鍵詞的抽取和選擇

本文采用基于詞表的方法對郵件列表郵件正文和會議論文摘要進行關(guān)鍵詞抽取,該詞表包含領(lǐng)域內(nèi)8萬多條相關(guān)關(guān)鍵詞,關(guān)鍵詞覆蓋面廣。

由于從摘要中抽取出的關(guān)鍵詞數(shù)量巨大,若不對其進行篩選,則會造成構(gòu)造的共詞矩陣過大,給分析帶來困難,造成維度災(zāi)難。TF-IDF是信息檢索和數(shù)據(jù)挖掘常用的一種詞語加權(quán)技術(shù),因此本文考慮使用TFIDF算法進行關(guān)鍵詞篩選。

3.2 信息檢索領(lǐng)域高頻關(guān)鍵詞分析

利用TF-IDF算法選取郵件列表和會議論文高頻詞進行聚類分析,在選取熱點關(guān)鍵詞時人工剔除與主題關(guān)聯(lián)度較小的關(guān)鍵詞,合并意義相近的關(guān)鍵詞,最終選取在郵件列表數(shù)據(jù)集和會議論文數(shù)據(jù)集中出現(xiàn)頻率排名前40的關(guān)鍵詞,其中部分高頻關(guān)鍵詞如表1和表2所示。

表1 郵件列表高頻關(guān)鍵詞(部分)

表2 會議論文高頻關(guān)鍵詞(部分)

3.3 信息檢索領(lǐng)域熱點關(guān)鍵詞相異矩陣的構(gòu)建

為分析信息檢索領(lǐng)域的研究主題情況,對熱點關(guān)鍵詞進行聚類。將選取的40個關(guān)鍵詞分別在兩個數(shù)據(jù)集上構(gòu)建共現(xiàn)矩陣,生成兩個“40×40”的領(lǐng)域主題關(guān)鍵詞共現(xiàn)矩陣。單一的詞頻信息對反映關(guān)鍵詞間的聯(lián)系存在一定局限性,高頻關(guān)鍵詞與其他關(guān)鍵詞共現(xiàn)的概率需大于低頻關(guān)鍵詞,為消除這種由詞頻帶來的影響,需要構(gòu)造共現(xiàn)矩陣[15]。本文采用Equivalence系數(shù)將共現(xiàn)頻次轉(zhuǎn)換成“[0,1]”的相似矩陣。關(guān)鍵詞A和B的Equivalence系數(shù)計算方法如下。

通過分析,發(fā)現(xiàn)大多數(shù)E值較低,因此本文考慮將相似矩陣轉(zhuǎn)換成相異矩陣,即用1減去相似矩陣中的值得到相異矩陣。本文利用Java語言自編程序計算熱點關(guān)鍵詞的相異矩陣,具體如表3和表4所示(篇幅有限,僅列舉部分)。與相似矩陣不同,相異矩陣中的值越大,關(guān)鍵詞間的關(guān)聯(lián)性越弱,反之亦然[17]。

表3 郵件列表熱點關(guān)鍵詞相異矩陣(部分)

表4 會議論文熱點關(guān)鍵詞相異矩陣(部分)

3.4 郵件列表和會議論文熱點關(guān)鍵詞聚類分析

為進一步揭示不同關(guān)鍵詞間的關(guān)聯(lián)性,需對關(guān)鍵詞進行聚類分析,將關(guān)聯(lián)性較強的關(guān)鍵詞聚成一個詞簇,相同詞簇內(nèi)部的關(guān)鍵詞具有較強的關(guān)聯(lián)性,不同詞簇間關(guān)鍵詞的相異性較大。將上述生成的兩個相異矩陣導(dǎo)入SPSS進行聚類分析,得出不同方式下的研究主題。

從郵件列表聚類結(jié)果來看,其研究主題主要分布在七個方面:(1)情感分析和意見挖掘的主題詞包括“Sentiment Analysis”“Opinion Mining”;(2)自動問答的主題詞包括“Natural Language Processing”“Computational Linguistics”“Question Answering”“Machine Translation”“Information Extraction”;(3)數(shù)字圖書館和交互式信息檢索的主題詞包括“Digital Libraries”“User Study”“User Interfaces”“Recommender System”“User Modeling”“Collaborative Filtering”;(4)人工智能與人機交互的主題詞包括“Artificial Intelligence”“Human-Computer Interaction”;(5)社會網(wǎng)絡(luò)和文本挖掘的主題詞包括“Social Media”“Social Network”“Machine Learning”“Data Mining”“Text Mining”“Knowledge Discovery”;(6)機器學(xué)習(xí)排序和自然語言處理的主題詞包括“Learning to Rank”“Language Model”“Topic Model”“Semantic Technologies”“Content-Based Recommendation”“Named Entity Recognition”“Named Entities”;(7)深度學(xué)習(xí)和圖像檢索的主題詞包括“Image Retrieval”“Multimedia Retrieval”“Deep Learning”。

從會議論文聚類結(jié)果看,其研究主題主要分布在七個方面:(1)推薦系統(tǒng)的主題詞包括“Recommender System”“Collaborative Filtering”;(2)社會網(wǎng)絡(luò)和社交媒體的主題詞包括“Social Media”“Social Network”;(3)檢索模型與評價的主題詞包括“Evaluation Metrics”“Implicit Feedback”“Evaluation Measures”“Learning to Rank”“Ranking Model”“Machine Learning”;(4)文本挖掘和自然語言處理的主題詞包括“Sentiment Analysis”“Named Entities”“Question Answering”“Knowledge Base”“Text Mining”“Retrieval Model”“Document Ranking”“Experimental Results”;(5)相關(guān)反饋的主題詞包括“Relevance Judgements”“Retrieval Effectiveness”“Language Model”“Document Retrieval”“Query Expansion”“Pseudo-Relevance Feedback”“Retrieval Performance”;(6)用戶為中心/交互式信息檢索的主題詞包括“User Behavior”“Click Model”“User Study”“User Satisfaction”“Query Log”“Query Suggestion”“Search Behavior”“User Interaction”“Information Needs”;(7)圖像檢索的主題詞為“Image Retrieval”。

從列表和會議論文的主題詞聚類結(jié)果可以看出,兩個數(shù)據(jù)集聚類結(jié)果中有很多相似主題,如自然語言處理、文本挖掘、社會網(wǎng)絡(luò)、社交媒體、交互式信息檢索等。這說明高頻主題詞在兩個數(shù)據(jù)集上的分布存在一定的相似性,但也存在一定差別。如自動問答、數(shù)字圖書館、人工智能、深度學(xué)習(xí)等主題詞出現(xiàn)在郵件列表數(shù)據(jù)集的聚類結(jié)果中,但未在會議論文數(shù)據(jù)集的聚類結(jié)果中出現(xiàn);檢索模型與檢索評價出現(xiàn)在會議論文數(shù)據(jù)集聚類結(jié)果中,但并未在郵件列表數(shù)據(jù)集的聚類結(jié)果中出現(xiàn),具體如表5所示。

表5 郵件列表和會議論文研究主題異同

4 信息檢索領(lǐng)域主題演化研究

4.1 信息檢索領(lǐng)域主題演化網(wǎng)絡(luò)分析

受地理學(xué)沖積圖影響,Rosvall等提出一種社區(qū)演化分析方法[18],可用于研究主題演化,但該方法不能反映主題在當(dāng)前時間段的活躍程度。王曉光等對此方法進行了改進,其通過對主題進行排序,將排名靠前的主題放在圖形頂端,并在此基礎(chǔ)上開發(fā)了一款學(xué)科主題演化可視化工具NEViewer[19],該工具以時間為維度根據(jù)關(guān)鍵詞共現(xiàn)關(guān)系繪制沖積圖來表示領(lǐng)域主題的演化。

本文利用NEViewer對信息檢索領(lǐng)域的主題演化進行可視化分析。從兩個數(shù)據(jù)集中分別選取前2 000個高頻關(guān)鍵詞作為共現(xiàn)網(wǎng)絡(luò)中的節(jié)點。將時間劃分成三個階段:第一個階段為2008—2010年,第二個階段為2011—2013年,第三個階段為2014—2016年。在各時間段構(gòu)建高頻詞共現(xiàn)矩陣并導(dǎo)入NEViewer,繪制以郵件列表為主題的信息檢索研究主題演化沖積圖(見圖1)。

由圖1可見,社交網(wǎng)絡(luò)、推薦系統(tǒng)、文本挖掘、機器學(xué)習(xí)等主題擁有較高的中心度;同時,也可以看出社交網(wǎng)絡(luò)、推薦系統(tǒng)、文本挖掘和機器學(xué)習(xí)持續(xù)處于圖形比較靠近頂端的位置,說明社交網(wǎng)絡(luò)、推薦系統(tǒng)、文本挖掘和機器學(xué)習(xí)是近年來的研究熱點。

同樣方法對會議論文數(shù)據(jù)集繪制如圖2所示的主題演化沖積圖。

由圖2可知,機器學(xué)習(xí)排序、語言模型、查詢擴展和推薦系統(tǒng)等主題擁有較高的中心度,是信息檢索領(lǐng)域會議論文的研究熱點??傮w來看,信息檢索領(lǐng)域研究主題演化存在以下規(guī)律。

(1)信息檢索研究內(nèi)容不斷深入。傳統(tǒng)信息檢索研究主題主要集中在文檔表示、查詢分析、檢索模型、檢索結(jié)果排序和檢索結(jié)果評價等。隨著Web 2.0的發(fā)展和以Twitter、Facebook為代表的社交網(wǎng)絡(luò)的興起,社交網(wǎng)絡(luò)、推薦系統(tǒng)正成為信息檢索領(lǐng)域的研究熱點,對傳統(tǒng)研主題的研究正逐漸減少。

(2)信息檢索研究方法不斷增多。隨著神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、自然語言處理、人工智能等研究被引入信息檢索領(lǐng)域,信息檢索的研究方法更加豐富和多元化。

(3)信息檢索存在核心主題演化現(xiàn)象。從郵件列表反映的研究主題演化來看,機器學(xué)習(xí)主題分裂出決策支持和人工智能;會議論文中機器學(xué)習(xí)排序分裂出相關(guān)性判別、查詢建議、查詢結(jié)果多樣化等主題。但是,沒有明顯的主題合并現(xiàn)象出現(xiàn)。這說明隨著研究方法的多樣化,信息檢索領(lǐng)域的研究更加精細化和專業(yè)化。另外,部分主題沒有后續(xù)研究,這說明部分信息檢索研究主題存在消亡現(xiàn)象。

圖1 郵件列表主題演化沖擊圖

圖2 會議論文主題演化沖擊圖

4.2 信息檢索領(lǐng)域主題詞-時間共現(xiàn)網(wǎng)絡(luò)分析

為研究主題詞2008—2016年分布情況,進一步構(gòu)建主題詞-時間的共現(xiàn)網(wǎng)絡(luò),將40個主題詞分別在兩個數(shù)據(jù)集上構(gòu)建主題詞-時間共現(xiàn)網(wǎng)絡(luò)。利用Ucinet子群分析法,將主題詞按時間分成9個子類別,具體如表6和表7所示。

通過對郵件列表的主題詞-時間共現(xiàn)網(wǎng)絡(luò)和會議論文主題詞-時間共現(xiàn)網(wǎng)絡(luò)的對比分析,可以發(fā)現(xiàn)郵件列表在8個研究主題存在“領(lǐng)先”會議論文研究主題的現(xiàn)象。如“Collaborative Filtering”在郵件列表中是2008年的代表性主題詞,但在會議論文中是2015年的代表性主題詞;“Social Network”在郵件列表中是2008年的代表性主題詞,而在會議論文中是2010年的代表性主題詞;“Learning to Rank”是郵件列表2014年的代表性主題詞,而在會議論文數(shù)據(jù)集中是2016年的代表主題詞。主題詞“User Interaction”“Recommender System”“Text Mining”“User Study”等在郵件列表和會議論文中也存在類似現(xiàn)象。因此,SIGIR郵件列表研究主題較會議論文而言,在時序上存在一定的領(lǐng)先性。

表6 郵件列表2008—2016年代表性主題詞

表7 會議論文2008—2016年代表性主題詞

5 結(jié)語

本文以SIGIR郵件列表為切入點分別構(gòu)建郵件列表和會議論文數(shù)據(jù)集。提出將SIGIR郵件列表作為信息檢索領(lǐng)域研究對象,通過與同期會議論文進行比較分析,證明SIGIR郵件列表作為研究主體的價值,這是信息檢索領(lǐng)域研究對象的創(chuàng)新。但該研究過程存在一定的局限性。

(1)SIGIR郵件列表的會議通知包含眾多信息檢索相關(guān)會議(如ICTIR、NTCIR等),但由于數(shù)據(jù)獲取方面的原因,本文在構(gòu)建會議論文數(shù)據(jù)集過程中未將這些會議論文納入,因此分析結(jié)果可能存在一定的片面性。

(2)在關(guān)鍵詞選取時,首先利用TF-IDF算法初步識別了一些高頻關(guān)鍵詞,其次對一些意義相近的關(guān)鍵詞進行合并,人工剔除與主題關(guān)聯(lián)度較小的關(guān)鍵詞。在關(guān)鍵詞合并和剔除過程中難免存在一定主觀性,因此分析結(jié)果可能存在一定的局限性。

[1]DUCHENEAUT N.Socialization in an open source software community:a socio-technical analysis[J].Computer Supported Cooperative Work,2005,14(4):323-368.

[2]ELSAYED T,OARD D W.Modeling identity in archival collections of email:a preliminary study[C]//Ceas 2006-the 3rd Conference on Email and Anti-Spam,July 27-28,2006,Mountain View,California.DBLP,2006:95-103.

[3]BIRD C,GOURLEY A,DEVANBU P,et al.Open borders?Immigration in open source projects[C]//International Conference on Software Engineering Workshops.[S.1.]:IEEE Computer Society,2007:6.

[4]BIRD C,GOURLEY A,DEVANBU P,et al.Mining email social networks in Postgres[C]//International Workshop on Mining Software Repositories.[S.1.]:ACM,2006:185-186.

[5]HONG Q, KIM S,CHEUNG S C,et al.Understanding a developer social network and its evolution[C]//IEEE International Conference on Software Maintenance.[S.1.]:IEEE,2011:323-332.

[6]BIRD C,PATTISON D,D’SOUZA R,et al.Latent social structure in open source projects[C]//ACM Sigsoft International Symposium on Foundations of Software Engineering,November Atlanta,Georgia,2008.[S.1.]:DBLP,2008:24-35.

[7]CALLON M,COURTIAL J P,LAVILLE F.Co-Word analysis as a tool for describing the network of interactions between basic and technological research:the case of polymer chemsitry[J].Scientometrics,1991,22(1):155-205.

[8]DING Y,CHOWDHURY G G,FOO S.Bibliometric cartography of information retrieval research by using co-word analysis[J].Information Processing & Management,2001,37(6):817-842.

[9]COULTER N,MONARCH I,KONDA S.Software engineering as seen through its research literature:a study in co-word analysis[J].Journal of the Association for Information Science and Technology,1998,49(13):1206-1223.

[10]鄭華川,于曉歐,辛彥.利用共詞聚類分析探討抗原CD44研究現(xiàn)狀[J].中華醫(yī)學(xué)圖書情報雜志,2002,11(2):1-3.

[11]鄭華川, 崔雷. 胃癌前病變低頻被引論文的共詞和共篇聚類分析[J].中華醫(yī)學(xué)圖書情報雜志,2002,11(3):1-3.

[12]馬費成,望俊成,陳金霞,等.我國數(shù)字信息資源研究的熱點領(lǐng)域:共詞分析透視[J].情報理論與實踐,2007,30(4):438-443.

[13]洪凌子,黃國彬,于洋.基于CiteSpace的國內(nèi)外數(shù)字圖書館研究論文的比較分析[J].圖書館論壇,2014(6):91-100.

[14]陳必坤,王曰芬.學(xué)科結(jié)構(gòu)與演化可視化分析的內(nèi)容研究[J].圖書情報工作,2016,60(21):87-95.

[15]姚強,張士靖.國際健康素養(yǎng)研究熱點與前沿文獻計量分析[J].中國健康教育,2012,28(1):36-39.

[16]李信,李旭暉,陸偉.大數(shù)據(jù)驅(qū)動下的圖書情報學(xué)科熱點領(lǐng)域挖掘——面向WOS題錄數(shù)據(jù)的實證視角[J].圖書館論壇,2017(4):49-57.

[17]段春雨,蔡建東.我國教育信息化研究熱點知識圖譜——基于2003—2013年碩士及博士學(xué)位論文的關(guān)鍵詞分析[J].華北水利水電大學(xué)學(xué)報(社會科學(xué)版),2015,31(1):129-131.

[18]ROSVALL M,BERGSTROM C T.Mapping change in large networks[J].Plos One,2010,5(1):e8694.

[19]王曉光,程齊凱.基于NEViewer的學(xué)科主題演化可視化分析[J].情報學(xué)報,2013,32(9):900-911.

Research on the Subject of Information Retrieval: A Comparative Study Based on SIGIR Mailing List and Conference Papers

ZHAO ZhongWei, CHENG QiKai
(School of Information Management, Wuhan University, Wuhan 430072, China)

Traditional discipline topic research is mainly based on the scholar papers, but the research object is too stereotyped. In this paper, the SIGIR mailing list dataset and the conference paper dataset are constructed with the SIGIR mailing list as the starting point, and the discipline topic structure and discipline topic evolution of information retrieval are compared and analyzed in two datasets respectively. We found that the research content of information retrieval is deepening, and the research methods continue to fl ourish, and the core research topics are splitting gradually, at the same time, we found that the SIGIR mailing list’s research topics keep ahead than conference papers’. The academic value of the SIGIR mailing list in the discipline topic research is revealed.

Discipline Topic; Topic Structure; Topic Evolution; Co-word Analysis; SIGIR Mailing List

G353.4

10.3772/j.issn.1673-2286.2017.06.007

趙忠偉,男,1990年生,碩士研究生,研究方向:信息檢索、知識挖掘,E-mail:2009302330014@whu.edu.cn。

程齊凱,男,1989年生,博士研究生,研究方向:信息檢索、機器學(xué)習(xí),E-mail:chengqikai0806@163.com。

2017-04-28)

* 本研究得到國家自然科學(xué)基金面上項目“面向詞匯功能的學(xué)術(shù)文本語義識別與知識圖譜構(gòu)建”(編號:71473183)資助。

猜你喜歡
信息檢索主題詞列表
巧用列表來推理
學(xué)習(xí)運用列表法
擴列吧
醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
不含3-圈的1-平面圖的列表邊染色與列表全染色
长沙市| 义马市| 全椒县| 金寨县| 二手房| 金昌市| 南通市| 宁河县| 德兴市| 全州县| 疏勒县| 苍溪县| 河津市| 宜章县| 类乌齐县| 天长市| 逊克县| 平定县| 三河市| 库伦旗| 鄂尔多斯市| 陇西县| 铜梁县| 息烽县| 菏泽市| 建阳市| 南开区| 芒康县| 长沙县| 晋城| 正安县| 岳西县| 同德县| 石城县| 盐亭县| 曲麻莱县| 通州市| 崇明县| 桦南县| 大兴区| 万盛区|