国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Matlab挖掘分析NIPS會議論文

2017-11-21 11:23:39堯濤謝冬青
關(guān)鍵詞:有向圖主題詞會議

堯濤,謝冬青

(1.廣州大學 數(shù)學與信息科學學院,廣東 廣州 510006;2.廣州大學 計算機科學與教育軟件學院,廣東 廣州 510006)

基于Matlab挖掘分析NIPS會議論文

堯濤1,謝冬青2

(1.廣州大學 數(shù)學與信息科學學院,廣東 廣州 510006;2.廣州大學 計算機科學與教育軟件學院,廣東 廣州 510006)

為更高效地通過會議論文了解相關(guān)研究領域的最新研究動態(tài),本文以2015年NIPS會議論文為樣本,采用Matlab工具來對其中403篇論文進行文本挖掘,主要從論文作者附屬機構(gòu)、論文合作者、論文主題等角度來進行數(shù)據(jù)分析. 分析得到,前20附屬機構(gòu)主要構(gòu)成了合作者網(wǎng)絡關(guān)系,論文發(fā)表量較多的附屬機構(gòu)對多類分類問題,以及圖像方面和高斯過程更感興趣. 圖像處理研究是會議中研究最多的主題,其中語義分析、文本挖掘、神經(jīng)網(wǎng)絡、深度學習等也是當前的發(fā)展趨勢熱點. 通過主成分分析方法(PCA)對主題分類后看到,不同附屬機構(gòu)研究范圍不同,Google傾向于涵蓋多個領域,而IBM和Microsoft則更專注于某一方面的研究.結(jié)果表明,利用Matlab對論文的各類信息進行挖掘與分析,可以了解該領域的研究方向以及各個附屬機構(gòu)合作關(guān)系、發(fā)文量和研究熱點. 本文方法為研究者快速了解會議論文提供了參考,也為研究其他會議論文提供了一定的思路與方向.

文本挖掘;Matlab;主題分析

專業(yè)會議論文是體現(xiàn)該領域最新研究進展的重要方面,如大量機器學習領域的研究論文發(fā)表于各大國際會議,如何快速高效地通過這些會議論文來反映其研究領域的相關(guān)信息,對研究者具有重要意義. NIPS(Neural Information Processing Systems)會議[1]作為國際上機器學習領域最好的會議之一,對該會議上的論文進行相關(guān)文本挖掘,可以很大程度反映機器學習領域研究熱點和發(fā)展趨勢.通常來說,文本挖掘與一般數(shù)據(jù)挖掘[2]不同,其所研究的文本數(shù)據(jù)庫是由來自各種數(shù)據(jù)源的大量文檔組成,這些文檔可能由標題、作者、出版日期等結(jié)構(gòu)化數(shù)據(jù)組成,也可能包含摘要和內(nèi)容等非結(jié)構(gòu)化的文本成分,而這些文檔的內(nèi)容是人類自然語言,計算機很難處理其語義. 本文以2015年NIPS收錄的403篇論文為樣本,通過一系列的數(shù)據(jù)處理方法來構(gòu)造出相關(guān)的實驗數(shù)據(jù). 實驗以Matlab工具進行文本挖掘,主要從論文作者附屬機構(gòu)、論文合作者、論文主題來研究分析機器學習領域相關(guān)論文[3-4].

1 文本挖掘及PCA簡介

文本挖掘[5-6]是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程. 文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對文檔進行分類,獲取有用的知識和信息.

PCA(Principal Component Analysis)即主成分分析[7],是一種多元統(tǒng)計分析數(shù)據(jù)的方法,其原理就是通過一個特殊向量矩陣U,將一個高維向量X映射到一個低維的向量空間,表示為一個低維向量Y. 實質(zhì)上主成分分析是將高維數(shù)據(jù)降維成低維數(shù)據(jù),可以更直觀地觀察數(shù)據(jù),經(jīng)常用于模式識別數(shù)據(jù)的特征提取及降維等.

PCA的算法步驟:

1)初始化:原始數(shù)據(jù)m條n維矩陣按列重新組成n行m列矩陣,即

2)將Xn×m的每一行(代表一個屬性)進行均值化處理,即減去這一行的均值;

4)將特征向量按照對應的特征值大小降序排列成矩陣,取前k行組成矩陣U;

本文利用文本挖掘的相關(guān)知識提取了2015年NIPS會議論文網(wǎng)站的論文信息(包括標題、作者、摘要、正文)作為實驗數(shù)據(jù),建立相關(guān)文檔詞頻矩陣. 利用PCA主成分分析方法進行降維處理,便于主題分類等.

2 數(shù)據(jù)準備

首先,本文根據(jù)Github官網(wǎng)上Ben Hamner的源代碼①源代碼網(wǎng)址:https∶//github.com/benhamner/nips-2015-papers,利用Python對2015年NIPS會議論文進行爬取,得到相關(guān)數(shù)據(jù)表:Authors(作者信息表)、PaperAuthors(論文對應作者關(guān)系表)和Papers(論文信息表). 為了具體分析作者及附屬機構(gòu)的關(guān)系,根據(jù)NIPS論文收錄官網(wǎng)的網(wǎng)頁源代碼,利用Matlab進行文本挖掘分析,提取出相關(guān)作者附屬機構(gòu)等信息得到AcceptPapers(收錄論文信息表). 最后,將Authors、PaperAuthors、Papers、AcceptPapers 4個數(shù)據(jù)表利用Matlab打包成2015nips.mat,詳細可見個人網(wǎng)站②個人網(wǎng)站網(wǎng)址:https∶//github.com/Yiutto/2015nips.mat. 為了方便了解各個信息表的相關(guān)屬性及其含義,下面給出4個數(shù)據(jù)表的屬性介紹:

表1 Authors相關(guān)屬性

表2 PaperAuthors相關(guān)屬性

表3 Papers相關(guān)屬性

表4 AcceptedPapers相關(guān)屬性

3 實驗及分析

3.1 實驗環(huán)境

Matlab是目前國際上流行的科學計算軟件,它具有強大的矩陣計算和數(shù)據(jù)可視化能力,可實現(xiàn)數(shù)值計算、圖形處理、自動控制、信息處理等多種功能. 本文所討論的文本挖掘?qū)嶒炦^程,就是通過Matlab編程實現(xiàn)的. 本文所用版本是Matlab R2015b(低版本Matlab可能不支持后面的實驗).

3.2 實驗步驟

3.2.1 建立論文與作者附屬機構(gòu)的關(guān)系有向圖

該文通過Matlab中的digraph()函數(shù)使用圖形來可視化nips論文作者的附屬機構(gòu). 根據(jù)AcceptedPapers表中的兩個屬性Name和Org來創(chuàng)建論文與作者附屬機構(gòu)的節(jié)點有向圖G,刪除G中連接組件bins小于10的所有節(jié)點. 就本次實驗得到的論文與作者附屬機構(gòu)節(jié)點有向圖而言,G中節(jié)點的度數(shù)降序處理后,規(guī)定排前20名的附屬機構(gòu)節(jié)點用高亮橘黃色表示,其他附屬機構(gòu)節(jié)點則用橘黃色表示,藍色節(jié)點表示論文本身. 主要代碼如下:

圖1 2015NIPS論文與作者附屬機構(gòu)有向圖

圖1是2015年NIPS會議論文與附屬機構(gòu)的有向圖,其中高亮橘黃色的節(jié)點有20個,代表的各個附屬機構(gòu)及相應論文數(shù)如表5所示,分別為'Google'、'MIT'、'Stanford'、'Microsoft'、'U Texas'、'Princeton'、'CMU'、'Duke'、'U Washington'、'UC Berkeley'、'Harvard'、'UCL'、'INRIA'、'Georgia Tech'、'U Toronto'、'UMich'、'U Wisconsin'、'EPFL'、'Tsinghua University'、'U Montreal';橘黃色節(jié)點有17個,代表的各個附屬機構(gòu)及相應論文數(shù)如表6所示,分別為'IBM'、'Cornell'、'ETH'、'ENS'、'Cambridge'、'U Edinburgh'、'NYU'、'Technion'、'U Freiburg'、'WUSTL'、'MPI'、'UIUC'、'IDSIA'、'TU Dresden'、'U Amsterdam'、'Polytechnique Montreal'、'U Birmingham'.

表5 前20附屬機構(gòu)及論文數(shù)

表6 其他附屬機構(gòu)及論文數(shù)

3.2.2 建立論文共同作者的附屬機構(gòu)關(guān)系有向圖

一篇論文的作者可能來自不同的附屬機構(gòu),通過下面實驗可看到這些附屬機構(gòu)之間的關(guān)系. 根據(jù)AcceptedPapers表中的兩個屬性Org和Title來創(chuàng)建論文共同作者附屬機構(gòu)的節(jié)點有向圖G,刪除G中連接組件bins小于5的所有節(jié)點,提取G中最大組件,將其中的論文定義為topDoc. 主要代碼如下:

圖2是2015NIPS論文共同作者的附屬機構(gòu)有向圖,可以發(fā)現(xiàn)Top20和Others兩大類群. 論文共同作者附屬機構(gòu)的節(jié)點有向圖G中的最大組件其實就是由上一個實驗中提到的Top20(Google、MIT、Stanford等)構(gòu)成的,這些附屬機構(gòu)節(jié)點(圖2中高亮的橘黃色節(jié)點)屬于同一個合作網(wǎng)絡. “Others”類群是從對應發(fā)表論文總篇數(shù)排名后20的附屬機構(gòu)中選取的.

圖2 2015NIPS論文合作者附屬機構(gòu)有向圖

3.2.3 論文主題分析

為了找出2015年NIPS論文的主題,本文在實驗前通過論文標題提取了35個相關(guān)單詞(見注②nips2015_topics.xlsx). 2015nips.mat數(shù)據(jù)集中有個Papers表,其中包含有摘要,標題,PaperText列. 為了方便,本次實驗選取論文的摘要做詞頻分析. 依據(jù)3.2.2,將G中最大連接組件的論文定義為“Docs in the Largest Cluster”,其他組件的論文定義為“Other Docs”,主要代碼如下:

從圖3中可以看出,在2015年nips會議上發(fā)表的論文當中,不管是Top20附屬機構(gòu)(最大連接組件)還是Others附屬機構(gòu)(其他連接組件)發(fā)表的論文,研究最多的是有關(guān)圖像處理問題(Image).除了Adaptive、Autoencoders、Bandit、Brain、CNN、Image、LASSO、Neuro、PCA、Regret、Semantic、Text這12個主題詞外,Top20附屬機構(gòu)在其他主題詞的研究范圍比Others附屬機構(gòu)要廣.

圖3 文檔分組下相關(guān)詞頻統(tǒng)計

3.2.4 通過PCA進行主題分類

通過Matlab中的PCA[7](Principal Component Analysis)函數(shù),使用主成分分析來可視化各個主題之間的關(guān)系. 根據(jù)上一個實驗建立的文檔詞頻矩陣,進行相關(guān)的實驗操作,主要代碼如下:

圖4-a中黃色主題詞是依據(jù)圖3中黑色比例遠大于白色比例定義的關(guān)鍵詞,共有12個,分別是Bayesian、Game、Gaussian Process、Graph、Market、MAP、Monte Carlo、Multi-class、Risk、SGD、Stochastic Gradient、Tensor. 圖4-a中主要分了3個類群,似乎這12個主題詞跨越了所有3個集群.紫色類群(圖4-a中上方位置)有7個主題詞,其中有4個黃色主題詞,分別是Bayesian、Stochasitc Gradient、Monte Cario、SGD,這說明該4個領域Top20附屬機構(gòu)要比Ohters附屬機構(gòu)研究內(nèi)容更深.藍色類群(圖4中左方位置)中有6個主題詞,其中黃色主題詞也占3個,分別是Game、Market、Risk,這表明Top20附屬機構(gòu)對該3個領域研究甚廣. 綠色類群(圖4-a中右方位置)中的關(guān)鍵詞也是3個類群中最多的,共有13個,研究的主題主要是深度學習方面,從圖中可以看出所有附屬機構(gòu)對此領域都有研究,原因是NIPS會議就是以神經(jīng)網(wǎng)絡為主的會議.

為了更細化地分析研究NIPS會議中的Deep Learning,將圖4-a中綠色類群單獨放大到圖4-b.從圖4-b可以看出深度學習是這個類群的主題,CNN(卷積神經(jīng)網(wǎng)絡)是一種經(jīng)常用于圖像分類的深度學習算法,RNN(多層反饋神經(jīng)網(wǎng)絡)傾向于在自然語言處理中用來分析“文本”,Autoencoders和 LSTM(Long Short-Term Memory)也是深度學習算法. 其中還涉及了Image、Text,這表明深度學習的研究不僅僅只停留在理論上,已經(jīng)用于解決圖像處理和文本分類問題. MAP(Maximum A Posteriori)是這個類群中唯一的黃色主題詞,當大多數(shù)論文研究的是深度學習的相關(guān)主題時,Top20和Others附屬機構(gòu)在這些主題詞上并沒有太多顯著頻率差異,所以大多數(shù)主題詞的顏色并非黃色.

圖4 論文主題的主成分分析

在觀察圖4-a的時候,中心軸附近有許多離群點(不屬于3個類群),將其放大到圖4-c. 從圖4-c可以發(fā)現(xiàn),共有9個主題詞,黃色主題詞有4個,分別為Graph、Gaussian Process、Multi-class、Tensor,這說明Top20附屬機構(gòu)的論文似乎對多類分類問題,以及圖像方面和高斯過程更感興趣. 中心軸附近的主題大多數(shù)是機器學習算法,如支持向量機(SVM),主成分分析(PCA),隱馬爾可夫模型(HMM)或最小絕對收縮與選擇算子(LASSO).

為了體現(xiàn)NIPS會議對商業(yè)價值的研究,Top20附屬機構(gòu)包括一些商業(yè)實體,如Google、IBM和Microsoft,它們研究論文的主題可能反映了機器學習領域所帶的商業(yè)利益. 如圖5所示,三家公司傾向于涵蓋不同的主題,而它們都參與了一些深入學習相關(guān)研究. 從圖中可發(fā)現(xiàn),Google傾向于涵蓋多個領域,而IBM和Microsft似乎更局限于某一方面的研究.

圖5 三大附屬機構(gòu)論文主題的主成分分析

4 結(jié)束語

本文在Matlab實驗環(huán)境下,對2015 NIPS會議論文進行文本挖掘,相關(guān)數(shù)據(jù)和實驗代碼附在個人網(wǎng)站上. 首先從論文作者附屬機構(gòu)進行分析,給出前20名附屬機構(gòu)及論文數(shù);隨后在對論文合作者關(guān)系分析中發(fā)現(xiàn),前20附屬機構(gòu)主要構(gòu)成了合作者網(wǎng)絡;通過論文主題文本分析發(fā)現(xiàn),2015 NIPS會議研究最多的就是圖像處理問題;最后使用PCA主成分分析法對主題進行分類,可以看到,不同附屬機構(gòu)研究范圍不同,Google傾向于涵蓋多個領域,而IBM和Microsft似乎更局限于某一方面的研究;分析結(jié)果從不同角度反映了2015年NIPS會議的前沿理論和研究熱點,能幫助研究者快速地了解會議論文的相關(guān)主題、論文相似度、作者研究領域等,后期研究將進一步建立論文合作者關(guān)系網(wǎng)絡與引用關(guān)系網(wǎng)絡等.

[1] CORTES C, LAWRENCE N D, LEE DD, et al. Advances in neural information processing systems 28 [EB/OL].[2017-01-06]. https∶//papers.nips.cc/book/advances-in-neural-information-processing-systems-28-2015

[2] RAJARAMAN A, ULLMAN J D, TAN Pangnin, et al. 范明,范宏建,譯. 數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫M]. 北京:人民郵電出版社,2011∶ 39-51.

[3] JI Pengsheng, JIN Jiashun. Coauthorship and citation networks for statisticians [J]. The Annals of Applied Statistics, 2017, 10(4)∶ 1779-1812.

[4] 路榮,項亮,劉明榮,等. 基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國信息檢索學術(shù)會議論文集. 北京:中國中文信息學會,2010.

[5] 薛為民,陸玉昌. 文本挖掘技術(shù)研究[J]. 北京聯(lián)合大學學報(自然科學版),2005, 19(4)∶ 59-63.

[6] BANCHS R E, 李亞寧. 用MATLAB做文本挖掘[J]. 國外科技新書評介,2014(6)∶ 16.

[7] WOLD S, ESBENSEN K, GELADI P. Principal component analysis [J]. Chemometrics and intelligent laboratory systems, 1987, 2(1-3)∶ 37-52.

[責任編輯:韋 韜]

Mining and Analysis of NIPS Conference Papers Using the Matlab

YAO Tao1, XIE Dong-qing2
(1. Guangzhou University Mathematics and Information Science College, Guangzhou 510006, China;2. Guangzhou University School of Computer Science and Educational Software,Guangzhou 510006, China)

In order to more efficiently understand the latest research developments in the relevant research areas through conference papers, this paper takes the NIPS conference papers of the year 2015 as a sample, and uses Matlab tools to conduct text mining of 403 papers, mainly from the angle of author affiliation, co-authors, and themes. An analysis reveals that the top 20 bodies the authors are affiliated to form a network of collaborators, and those with plenty of published papers are more interested in many categories of problems, as well as images and Gaussian processes. Image processing is the most studied topic at the conferences, and semantic analysis, text mining, neural network, and deep learning form the current development trend and hotspots. A PCA principal component analysis of topic classification reveals that different institutions which the authors are affiliated to cover different areas of research: Google tends to cover multiple areas, while IBM and Microsoft are more concerned with a certain aspect of the study. The results show that the use of Matlab on the various types of information mining and analysis can reveal the direction of a research field and the relationship between various bodies, the amount of documents and research hot spots.This method provides a quick reference for researchers to learn about conference papers and a line of thinking and direction for researching other types of conference papers.

text mining; matlab; topic analysis

TP391

A

1006-7302(2017)04-0057-09

2017-03-20

廣東省自然科學基金面上項目(2016A030313540);廣州市移動互聯(lián)網(wǎng)安全與容災重點實驗室建設項目(2014SY000022);廣州市屬高??蒲匈Y助項目(1201430560)

堯濤(1992—),男,江西撫州人,在讀碩士生,主要研究方向為數(shù)據(jù)挖掘與網(wǎng)絡信息安全.

猜你喜歡
有向圖主題詞會議
《八七會議》
黨員文摘(2022年15期)2022-08-04 09:15:52
有向圖的Roman k-控制
會議通知
會議通知
超歐拉和雙有向跡的強積有向圖
關(guān)于超歐拉的冪有向圖
ISO/TC8/SC8 期間會議在滬召開
我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
2014年第16卷第1~4期主題詞索引
华亭县| 英山县| 南和县| 北票市| 准格尔旗| 台南县| 谷城县| 行唐县| 蓬安县| 苍南县| 呈贡县| 通化市| 什邡市| 裕民县| 佛教| 巨鹿县| 汾阳市| 闻喜县| 杭州市| 榆社县| 正定县| 磴口县| 石屏县| 东源县| 绥芬河市| 克拉玛依市| 武平县| 木兰县| 五原县| 隆子县| 德州市| 仙居县| 库尔勒市| 攀枝花市| 奉新县| 石景山区| 淮滨县| 汶上县| 临邑县| 兴业县| 喜德县|