□文/Kakao AI Report
6163篇AI論文談到的趨勢與變化
□文/Kakao AI Report
最近,有關(guān)人工智能(AI)的研究在各個領(lǐng)域都取得了顯著的成果。這主要歸功于長期以來一直致力于這個研究領(lǐng)域的AI研究人員的努力。如果根據(jù)引用次數(shù)、參與人數(shù)、接受論文數(shù)量和歷史記錄來看,關(guān)于AI的最重要的學(xué)術(shù)會議就是ICML(International Conference on Machine Learning) 和 NIPS(Neural Information Processing Systems)。相較于ICML的重點是機器學(xué)習(xí),NIPS涵蓋的課題領(lǐng)域更為廣泛,包括認(rèn)知科學(xué)和應(yīng)用機器學(xué)習(xí)。在37年前的1980年,ICML舉行了首次學(xué)術(shù)會議,并于今年8月在悉尼舉行了第34次會議。NIPS成立于1987年,計劃于2017年12月在加利福尼亞舉行第30屆會議。
為了研究AI領(lǐng)域的最新趨勢,研究小組對2005年至2016年期間ICML和NIPS發(fā)表的6163篇科學(xué)論文進行了薈萃分析。最新的研究結(jié)果揭示了AI研究的最新趨勢和變化。通過對過去12年來被引用次數(shù)最多的論文進行研究,從各種角度,如從諸如累積引用,作者的合作網(wǎng)絡(luò),及論文中關(guān)鍵字的變化等角度入手,以分析AI研究領(lǐng)域最新的發(fā)展趨勢和變化。
從2005年到2016年,ICML總共接受了2315份論文。2016年接受的論文數(shù)量為322篇,比11年前的134篇論文翻了一倍還多。
而至于NIPS,接受的論文數(shù)量從2005年的207份增加到2016年的568份,增加了一倍多。
圖1 ICML在過去12年接受的論文數(shù)量的變化
研究團隊可以證實,對于ICML和NIPS來說,2012年接受的論文數(shù)量與2011年相比都有顯著上升。這是2012年人工智能研究歷史上的一個重要事件。2012年,Geoffrey E.Hinton教授和他的團隊(多倫多大學(xué))在Imagenet大型視覺識別大賽(ILSVRC)中使用深度神經(jīng)網(wǎng)絡(luò)展示了一個很好的成果。
圖2 NIPS在過去12年接受的論文數(shù)量的變化
表1顯示了(分別為NIPS和ICML)中接受論文和被引用總數(shù)最高的前30名作者。 (原始文件在這里:https∶//github.com/giallo41/Data_Science/blob/master/Conf/data/ALL_most_cited_author_Graph.xlsx)
圖3 在過去的12年里,ICML中被引用次數(shù)最高的前20名作者
圖4 在過去12年里,NIPS中被引用次數(shù)最高的前20名作者
圖5 在過去12年里,ICML和NIPS中累計被引用次數(shù)最高的前20名作者
該研究小組調(diào)查了在ICM和NIPS中排名前15位的作者的12年變化趨勢。結(jié)果表示,那些在接受論文數(shù)量上逐漸變化的作者,每年也會不斷地發(fā)表論文。在GitHub上可以找到完整的ICML和累計引用的列表。
圖6顯示了ICML和NIPS接受的論文中被引用最多的作者的協(xié)作網(wǎng)絡(luò)。粗體線意味著他們經(jīng)常作為合作者出版。為了更好地進行分析,研究團隊創(chuàng)建了由15位被引用次數(shù)最多的作者發(fā)表論文的共同作者的關(guān)系網(wǎng)絡(luò)圖。分析中使用的數(shù)據(jù)可以在GitHub中找到。
表1 NIPS和ICML中接受論文和被引用總數(shù)最高的前30名作者
表2 大多數(shù)引用的文章由這15位作者撰寫
為了間接地展示出過去12年里人工智能領(lǐng)域的研究課題的變化,研究團隊分析了論文標(biāo)題中的關(guān)鍵字的變化。首先,團隊在過去的12年中,用了詞“云”來了解趨勢變化的大致情況。過去12年在ICML和NIPS中使用頻率最高的兩個關(guān)鍵字是“學(xué)習(xí)”和“模型”。由于這兩個詞是目標(biāo)研究期間在論文標(biāo)題中出現(xiàn)的頻率最高,所以團隊認(rèn)為,除了這兩個詞之外的其他關(guān)鍵字將顯示AI研究的趨勢變化。選定的基礎(chǔ)年份是2006年、2011年和2016年。選擇5年的時間間隔能夠更為清楚地研究變化。
圖6 具有較高引用率的作者協(xié)作網(wǎng)絡(luò)
圖7 ICML年度關(guān)鍵詞
出現(xiàn)在ICML接受的論文標(biāo)題中的關(guān)鍵詞(更大的詞意味著它們更常用于標(biāo)題中。)
對于ICML收錄的論文,2006年論文題目中最常使用的關(guān)鍵詞是“貝葉斯”、“核”和“分類”。 但是,2016年收錄的論文則頻繁出現(xiàn)“網(wǎng)絡(luò)”、“算法”、“優(yōu)化”,“深度”等關(guān)鍵詞。
NIPS收錄的論文標(biāo)題中出現(xiàn)的關(guān)鍵字(越大的詞意味著它們更常在標(biāo)題中出現(xiàn))。
對于NIPS收錄的論文,2006年論文題目中最常使用的關(guān)鍵詞是“貝葉斯”、“核”、“分類”和“聚類”,與ICML收錄的論文中出現(xiàn)的相似。相比之下,“深度”、“自然”、“網(wǎng)絡(luò)”和“隨機”等詞在2016年被NIPS收錄的論文中出現(xiàn)最為頻繁。對這些關(guān)鍵詞的考察,我們了解了過去10年研究主題的變化。
為了了解過去10年人工智能研究課題的變化,對頻繁出現(xiàn)的標(biāo)題關(guān)鍵詞進行了分析。
雖然關(guān)鍵字“深度”在ICML中沒有出現(xiàn),但在2006年的NIPS中出現(xiàn)了一次。但2016年“網(wǎng)絡(luò)”一詞成為最顯著的關(guān)鍵字,在ICML中出現(xiàn)了22次,在NIPS中出現(xiàn)了43次。
AI研究網(wǎng)絡(luò)的主要broker是Michael I.Jordan。
圖8 NIPS年度關(guān)鍵詞
圖9 ICML錄用論文中的標(biāo)題關(guān)鍵詞比較:2006年和2016年
圖10 NIPS錄用論文中的標(biāo)題關(guān)鍵詞比較:2006年和2016年
研究團隊還根據(jù)NIPS和ICML的錄用論文,對研究人員網(wǎng)絡(luò)進行了研究。特別注意網(wǎng)絡(luò)中研究人員的身份。所選擇的基本指標(biāo)是度中心性(degree centrality),其通過對每個實體對網(wǎng)絡(luò)中的其他實體的直接鏈接的數(shù)量進行計數(shù)來衡量實體的連接度,以及中介中心性(Betweenness Centrality),指的是作為連接網(wǎng)絡(luò)中的其他實體的broker的能力。為了將這兩個概念應(yīng)用于研究網(wǎng)絡(luò),度中心性意味著研究人員之間的直接聯(lián)系的程度,而中介中心性意味著研究人員之間broker的能力。對于構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)的研究人員數(shù)量,NIPS為5878人,ICML為3949人。
對于NIPS來說,加州大學(xué)伯克利分校教授Michael I. Jordan在度中心性和中介中心性領(lǐng)域排名第一。Jordan也是吳恩達(dá)的指導(dǎo)教授,他被稱為四大AI大神之一。在ICML中介中心性領(lǐng)域Jordan排名第一。這意味著Michael I. Jordan是AI研究網(wǎng)絡(luò)的靈魂人物。換句話說,他是連接兩個研討會研究網(wǎng)絡(luò)研究人員的關(guān)鍵實體。通常,broker對網(wǎng)絡(luò)內(nèi)的通信進行控制,網(wǎng)絡(luò)的成員依賴于broker。網(wǎng)絡(luò)分析表明,Michael I. Jordan一直是人工智能研究的中心人物。
除了Jordan,所謂的AI大神,如Jordan的學(xué)生吳恩達(dá),Geoffrey E. Hinton和Yoshua Bengio也占據(jù)了網(wǎng)絡(luò)排名的頂層。在韓國,密歇根大學(xué)計算機科學(xué)與工程系教授Honglak Lee在ICML排名第十九位,他是在吳恩達(dá)的指導(dǎo)下完成博士論文的。
ICML 會 議 ∶http∶//www.machinelearning.org/icml.html
NIPS 進程 ∶https∶//papers.nips.cc/
2005年至2016年期間錄用的論文被使用情況。
使用了2005年至2016年間在ICML錄用的2315篇論文和NIPS錄用的3848篇論文。
使用網(wǎng)站 https∶//scholar.google.co.kr檢查文章標(biāo)題的引用。隨著新論文的錄用,現(xiàn)有論文的引用次數(shù)逐漸增加。為分析目的,引用次數(shù)為4月21日的數(shù)量為基礎(chǔ)。
https∶//github.com/giallo41/Data_Science/tree/master/Conf
研究團隊收集的數(shù)據(jù)文件和用于分析的Python源代碼可以在這里找到。
·ICML和NIPS論文題目、作者以及過去12年每篇論文的引用次數(shù)以Excel格式統(tǒng)計,并使用Python的Pandas DataFrame進行分析。
·添加了每個作者過去12年的累計引用次數(shù),并且使用dataframe.sort()方法選擇了大多數(shù)引用的作者。
·對于論文標(biāo)題分析,標(biāo)題中的單詞被分隔并轉(zhuǎn)換為小寫。那么這樣的話,就像‘∶’,‘?’,‘for’,‘a(chǎn)’,‘a(chǎn)n’ ,’in’, ‘of’,‘with’,‘a(chǎn)nd’, ‘the’, ‘to’, ‘on’, ‘from’, ‘by’,‘using’, ‘very’, ‘via’, ‘it’, ‘that’, ‘a(chǎn)s’,‘,’ ,’which’, ‘-’, ‘through’, ‘without’,‘while’, ‘is’, ‘than’, ‘where’, ‘much’,‘many’, ‘or’ 和 ‘so’被丟棄。
·由Python提供的單詞云包用于詞云分析,其描述了每個關(guān)鍵字在相對字體大小方面的發(fā)生頻率。
(1)概念
有時研究人員獨立主導(dǎo)完成研究,有時與其他人合作進行研究。我們假設(shè)有研究員A,研究A可以參與研究(a),也參與研究(b)。在這種情況下,研究人員A可以作為兩個研究之間的橋梁。正如我們從這個例子中所看到的,中間人有可能在一個網(wǎng)絡(luò)中連接不同的信息或知識。在許多對網(wǎng)絡(luò)結(jié)構(gòu)感興趣的領(lǐng)域,包括組織社會學(xué),(可能)擔(dān)任中間人角色的實體對已經(jīng)使用“中介中心性(betweenness centrality)”的概念進行了研究。該方法也適用于本文。此外,考察實體之間的聯(lián)系程度的度中心性(Degree Centrality)也被用作測量指標(biāo)。度中心性確定一個實體對與其相關(guān)的其他實體的影響程度。
(2)方法
對2005—2016年期間NIPS和ICML錄用的論文作者做出總結(jié)。ICML的研究人員為3949人,NIPS為5878人。作者的列表被排序成行和列,產(chǎn)生一個方形矩陣。 ICML是一個3949×3949矩陣,NIPS是一個5878×5878矩陣。我們計算了每位研究人員與其他研究人員一起寫論文的次數(shù)。如果A和B一起寫了四篇論文,那么A列B列中的值為4。這個矩陣是使用UCINET 6.0進行分析的,這是一個網(wǎng)絡(luò)分析工具。從分析結(jié)果中,我們提取了分別為度中心性和中介中間性前20名。