曹 燕,師英昭,曾 文
(中國科學技術信息研究所,北京 100038)
人工智能(Artificial Intelligence,AI)是以計算機知識、數(shù)學、心理學等學科的相關理論為基礎,利用大數(shù)據(jù)和機器學習等方法,模擬、延伸和擴展人類智能的理論、方法、技術及應用系統(tǒng)的新興學科。人工智能于1956 年在John Mccarthy組織的Dartmouth學會上首次正式提出[1],近50年來得到了迅速的發(fā)展和廣泛的重視,特別是在計算機視覺、人臉識別、模式識別、專家系統(tǒng)、自然語言處理、圖像和語言理解、神經(jīng)網(wǎng)絡、控制系統(tǒng)等多個領域獲得廣泛應用[2],與基因工程、納米科學一起被譽為21世紀三大尖端技術。
面向人工智能領域開展科技文獻計量研究,可以通過文獻分析獲得該領域的發(fā)展現(xiàn)狀、當前熱點領域和前沿技術,并提出促進中國人工智能產(chǎn)業(yè)發(fā)展的建議。學術會議尤其是領域高端會議論文匯集了學科領域最新的研究成果,內(nèi)容更具有新穎性、專業(yè)性和前瞻性[3]。因此,相較于期刊論文,會議論文更具有即時性、價值性和研究性,更能反映當下學科的發(fā)展前沿以及技術發(fā)展狀況。
人工智能是一個知識更新迅速、交叉性很強的綜合學科,涉及眾多領域。近年來,國內(nèi)外學者在人工智能領域的研究主要以期刊論文和專利文獻等載體為研究對象[4-9],部分學者將多種數(shù)據(jù)庫來源和多種類型的文獻同時作為研究對象,如梁江海等[10]將Web of Science TM核心合集相關SCI論文和incoPat全球?qū)@麛?shù)據(jù)庫收錄的專利文獻作為數(shù)據(jù)來源。目前國內(nèi)以會議論文作為研究對象進行的人工智能領域發(fā)展的研究較少,羅晨等[6]以WoS核心合集社會科學引文索引(SSCI)中期刊論文和會議論文為研究對象,但WoS數(shù)據(jù)庫中的會議論文存在嚴重收錄不全的問題。2012年張春博等[11]以國際人工智能領域權威學術會議AAAI年會會議論文為研究對象進行人工智能領域的文獻計量研究。面向人工智能領域科技文獻的計量研究方法大多是科學計量學方法和數(shù)學模型等方法[12-14],一些學者運用CiteSpace、HistCite、VOSviewer等軟件對我國以及全球的人工智能領域進行多角度研究分析[15-17],Alfonso等[18]通過貝葉斯網(wǎng)絡分析了文獻計量指標間的關系。另外一些學者從區(qū)域發(fā)展的視角進行研究,如張華等[19]對吉林省人工智能產(chǎn)業(yè)發(fā)文進行文獻計量分析,并結合吉林省人工智能領域創(chuàng)新資源不足以及缺乏原創(chuàng)成果的實際情況,提出了吉林省人工智能產(chǎn)業(yè)研發(fā)資源合理調(diào)配和布局的建議。
在各種學術會議中,學術年會是一種最具制度性的會議形式,尤其是某一學科領域的權威學會組織主辦的學術年會,更具有主題性、學術性、高層次、綜合性和規(guī)模性的特點[3]。 IJCAI和 AAAI是人工智能領域公認的權威綜合性學術會議。其中IJCAI是人工智能領域最主要的學術年會會議之一,自1969年開始舉辦至今,已連續(xù)舉辦29屆,形成了廣泛的知名度和巨大的影響力,發(fā)表在IJCAI年會會議上的論文可以代表目前人工智能領域最先進的技術和最有意義的進展。因此對該年會論文進行計量和可視化分析可以在一定程度上反映出人工智能的研究現(xiàn)狀和發(fā)展趨勢,本文將以IJCAI年會會議論文為研究對象,采用科學計量學方法對全球人工智能領域的發(fā)展現(xiàn)狀、技術熱點和前沿趨勢進行相關研究。
在EI Compendex數(shù)據(jù)庫中選擇2009—2019年 IJCAI會議收錄的學術論文作為分析樣本。IJCAI從2015年開始由每兩年舉辦更改為每年舉辦,2009—2019年內(nèi)共召開了8屆年會,會議主題均涉及人工智能領域的最新理論和最新應用成果,IJCAI在2009—2019年共收錄了5 467篇文獻,2019年論文收錄篇數(shù)較2009年論文收錄篇數(shù)增長了近1.5倍,反映出人工智能領域研究近十年來快速發(fā)展的狀況(如表1所示)。
表1 IJCAI年會收錄文章篇數(shù)(2009—2019年)
對IJCAI會議論文數(shù)據(jù)進行去重、不相關處理、字段轉(zhuǎn)換和內(nèi)容轉(zhuǎn)換處理之后,本文采用統(tǒng)計分析方法對發(fā)文量較高的國家地區(qū)、機構和作者進行研究,在文獻計量方面基于詞頻共現(xiàn)原理,利用德雷塞爾大學的陳超美教授開發(fā)的信息可視化軟件Citespace 5.5.R實現(xiàn)對作者間的合作和關鍵詞關聯(lián)的研究,以了解該領域的研究力量和主題分布情況。
經(jīng)過統(tǒng)計得知,2009—2019年IJCAI會議論文共涉及55個國家和地區(qū),但研究呈現(xiàn)出較高的集中度(見圖1)。其中中國和美國位于人工智能研究領域的第一梯隊,分別以1 363篇和1 295篇文獻遙遙領先于其他國家/地區(qū),且二者發(fā)文量占比接近總發(fā)文量的一半,說明中美兩國不僅具備雄厚的經(jīng)濟實力和強大的科研實力,同時也極其重視在前沿科研領域上的投入。與此同時不可忽視的是學術年會舉辦國家/地區(qū)的影響力和號召力,在2009—2019年舉辦的8屆IJCAI學術年會中,在美國和中國各舉辦過兩屆。英國以385篇文章位列第三,反映了在人工智能領域較強的科研實力;法國、澳大利亞和德國分別以232篇、229篇和221篇文章緊隨其后,與英國共同構成第二梯隊。加拿大、意大利、日本、新加坡則處于第三梯隊。其他主要發(fā)文國家還包括以色列、西班牙、奧地利、印度和荷蘭等。
圖1 IJCAI年會發(fā)文量前15位的國家/地區(qū)(2009—2019年)
2009—2019年IJCAI年會會議上中美兩國發(fā)表論文數(shù)量的年度變化趨勢如圖2所示,中國的發(fā)文量呈現(xiàn)逐年遞增的發(fā)展趨勢,在2009—2019年中國在IJCAI年會上的論文發(fā)表量增長了近10.63倍。分年度來看,2009年中國的發(fā)文量遠落后于美國,之后IJCAI年會上的發(fā)文量與美國之間的差距逐年降低,呈現(xiàn)快速接近并趕超美國的趨勢。這得益于中國近年來對人工智能領域發(fā)展的重視,2017年兩會將人工智能首次寫入政府工作報告,將其列為國家重點項目,并提出要加快培育壯大包含人工智能在內(nèi)的新興產(chǎn)業(yè);同年7月份國務院頒布了《新一代人工智能發(fā)展規(guī)劃》[20];2018年和2019年兩次中央經(jīng)濟工作會議都明確表示加強人工智能、工業(yè)互聯(lián)網(wǎng)等新型基礎設施建設,并由國家科技部組建了新一代人工智能發(fā)展研究中心,以強化國家新一代人工智能發(fā)展規(guī)劃實施的組織保障和研究支撐。
圖2 IJCAI會議中美發(fā)文量對比圖(2009—2019年)
圖3展示了發(fā)文量排名前15位的核心機構。其中排名前5的組織機構中有4個來自中國,包括清華大學、中國科學院、南京大學和北京大學。在2017年國務院頒布的《新一代人工智能發(fā)展規(guī)劃》和2018年教育部印發(fā)的《高等學校人工智能創(chuàng)新行動計劃》等[20,21]政策導向下,為抓住人工智能發(fā)展機遇,清華大學、南京大學、北京大學和中山大學等國內(nèi)高校相繼成立人工智能學院和智能工程學院等相關研究機構。此外,該領域產(chǎn)學研結合非常密切,清華大學與騰訊、搜狗、微軟、華為等國內(nèi)外知名企業(yè)建立了面向教學或研究的聯(lián)合實驗室。北京大學計算機科學技術系與香港理工大學、加州大學圣塔芭芭拉分校(UCSB)、澳大利亞悉尼科技大學、百度和微軟亞洲研究院等國內(nèi)外多所大學、研究機構和企業(yè)均有密切的學術和合作聯(lián)系。南京大學設有機器學習與數(shù)據(jù)挖掘研究所(華為-LAMDA)人工智能聯(lián)合實驗室。與南京大學并列第三的機構是卡耐基·梅隆大學(Carnegie Mellon University),是美國首個開通本科人工智能專業(yè)學位的大學,主要研究方向是人工智能領域的博弈論、聚類算法、學習系統(tǒng)、預測主動學習和機器學習等。此外在人工智能研究領域影響力較大的機構還有南洋理工大學、牛津大學、加州大學、法國科學院、中國科學技術大學、復旦大學等研究機構。從圖3中可以看到有IBM沃森研究院這樣的公司型研究機構位于其中,除此之外發(fā)文量較多的公司型研究機構還有微軟研究院 (Micosoft Research)和谷歌(Google)等,這二者一直以來都是IJCAI學術年會的贊助商。2019年新增了很多來自中國的企業(yè)贊助商,如華為、阿里巴巴、百度和騰訊等,這也反映出人工智能領域研究和產(chǎn)業(yè)化發(fā)展應用密不可分。
圖3 IJCAI年會發(fā)文量前10位的研究機構(2009—2019年)
隨著大量分支學科和交叉性學科的出現(xiàn),合作與交流可以使具備不同學科背景的學者進行知識碰撞,實現(xiàn)知識的集成。合作度和合作率這兩個指標在科學計量學中用來表示某學科領域的合作狀況,論文合作度是指論文的作者數(shù)量與論文篇數(shù)之比,合著率是合著的論文篇數(shù)占全部論文的比例。表2為對2009—2019年期間IJCAI學術年會論文合作度和合作率的統(tǒng)計。論文合作度有顯著的上升趨勢,2018—2019年超過了94%。
表2 IJCAI學術年會論文合作度與合作率統(tǒng)計(2009—2019年)
近年來合作度和合作率的上升趨勢體現(xiàn)出人工智能領域的研究人員具備良好的科研合作精神,同時也反映出人工智能領域具有高度的學科領域交叉性。
在圖4中可以看出全球范圍內(nèi)人工智能領域形成一個相互連通的作者合作關系網(wǎng)絡,可根據(jù)具體的機構信息將其劃分為6個合作群,分別為中國合作群、北歐合作群、中歐合作群、北美合作群、澳大利亞合作群和以色列合作群。中國合作群中作者數(shù)量眾多且出現(xiàn)較多青年學者(淺色節(jié)點);在其他合作群尤其是北美合作群,作者數(shù)量相對較少且較早地投入到人工智能領域的研究中(深色節(jié)點),說明這些這些合作群中的科研人員大多是人工智能領域的著名學者,其中不乏帝國理工學院的Nicholas R Jennings教授這樣的領域權威專家。中國合作群中淺色節(jié)點增多的現(xiàn)象說明隨著國家政策的支持和科技的進步,人工智能發(fā)展迅猛,越來越多的青年學者投入該領域的研究,有望引領全球人工智能的發(fā)展浪潮。然而,盡管國內(nèi)已涌現(xiàn)大批人工智能領域的研究學者,在全球合作連通網(wǎng)絡中占據(jù)很大的比例,但根據(jù)2021年4月發(fā)布的AI 2 000榜單,在全球最具影響力的人工智能學者中,美國學者入選數(shù)量最多,有1 164人次,其次是中國,有222人次,這說明中國近年來雖然學術產(chǎn)出增長速度已經(jīng)超過美國,但科研人員的總體研究水平仍有差距。
圖4 IJCAI年會論文作者合作網(wǎng)絡圖
進一步分析中國合作子網(wǎng)絡(見圖5),同樣,根據(jù)具體的機構信息將圖中的連通網(wǎng)絡劃分為8個合作群,分別是南京大學合作群、北京大學合作群、浙江大學合作群、上海交通大學合作群、中國科學技術大學合作群、西安電子科技大學合作群、西北工業(yè)大學合作群、清華大學合作群,其中清華大學合作群可以劃分出三個子合作群,分別為清華大學軟件學院合作群、清華大學計算機科學與技術系合作群以及清華大學訪問教授合作群。
圖5 IJCAI年會中國合作網(wǎng)絡圖
3.3.1 全球研究熱點分析
關鍵詞是作者將論文論點高度凝練后提取的語句,分析其演變情況可以有效地了解該研究領域的總體特征和發(fā)展態(tài)勢。在表3中統(tǒng)計出2009—2019年8屆IJCAI學術年會論文的關鍵詞詞頻和突現(xiàn)度。出現(xiàn)頻次較高的關鍵詞有l(wèi)earning system(學習系統(tǒng))、learning algorithm(學習算法)、classification of information(信息分類)、computer circuit(計算機電路)、semantics(人工智能語義)、multi agent system(多智能體系統(tǒng))、deep learning(深度學習)、polynomial(多項式函數(shù))、embedding(嵌入)、forecasting(預測)、clustering algorithm(聚類算法)、machine learning(機器學習)、deep neural network(深度神經(jīng)網(wǎng)絡)。
通過對人工智能領域突現(xiàn)詞的分析,可以探測在某一時段引用量有較大變化的關鍵詞,用以發(fā)現(xiàn)某一個關鍵詞衰落或者興起的情況,從而能夠進一步對該領域研究熱點進行分析。通過對綜合詞頻和突現(xiàn)值進行分析,得到12個關鍵詞,分別是computer circuit(計算機電路)、multi agent system(多智能體系統(tǒng))、deep learning (深度學習)、polynomial(多項式函數(shù))、embedding(嵌入)、machine learning(機器學習)、deep neural network(深度神經(jīng)網(wǎng)絡)、convolutional neural network (卷積神經(jīng)網(wǎng)絡)、bayesian network(貝葉斯網(wǎng)絡)、benchmarking (標桿分析法)、game theory(博弈論)、neural network(神經(jīng)網(wǎng)絡)。
由表3可知,突現(xiàn)強度最大的是machine learning(機器學習),突現(xiàn)強度為16.53,其次是convolutional neural network (卷積神經(jīng)網(wǎng)絡),強度為16.14。機器學習是人工智能的核心研究領域,涉及很多算法,如支持向量機(SVM)、聚類算法、回歸算法和推薦算法等,廣泛應用于數(shù)據(jù)分析與挖掘、模式識別和自然語言理解等領域。卷積神經(jīng)網(wǎng)絡是一種帶有卷積結構的深度神經(jīng)網(wǎng)絡,也是深度學習的代表算法之一。時間延遲網(wǎng)絡和LeNet-5是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡,也是深度學習的代表算法之一[22],被廣泛應用于計算機視覺、自然語言處理等領域,具體的實際應用有圖像搜索、目標定位監(jiān)測、圖像分割、人臉識別等。
表3 IJCAI學術年會高頻和突現(xiàn)關鍵詞(2009—2019年)
采用 CiteSpace 將圖 6 所示的IJCAI年會近十年關鍵詞共現(xiàn)網(wǎng)絡圖譜中的關鍵詞以時間序列圖譜的形式展開(見圖7),可見人工智能領域在不同時期有不同的研究前沿,從近年的發(fā)展來看,2012—2015年的研究前沿是neural network(神經(jīng)網(wǎng)絡)、convolutional neural network (卷積神經(jīng)網(wǎng)絡)和image segmentation (圖像分割);2016年至2017年間Google DeepMind研發(fā)的機器學習程序AlphaGo戰(zhàn)勝世界頂級圍棋選手,deep learing (深度學習)無疑是2017年最重要的研究前沿之一,此外還有convolution (卷積)和deep neural network (深度神經(jīng)網(wǎng)絡);2018—2019年的研究前沿包括graph algorithm (圖算法)、recurrent neural network (循環(huán)神經(jīng)網(wǎng)絡)和learing to rank (排序?qū)W習)。
圖6 IJCAI關鍵詞共現(xiàn)網(wǎng)絡圖譜(2009—2019年)
圖7 IJCAI關鍵詞時間序列圖譜(2009—2019年)
3.3.2 中美研究熱點對比分析
從前文可知中美是全球人工智能研究的兩大強國,故本文對中美兩國2009—2019年發(fā)表在IJCAI年會上的論文關鍵詞進行可視化,進一步分析和比較兩國的研究熱點(見圖8和圖9),對兩國高頻和突現(xiàn)關鍵詞進行統(tǒng)計(見表4)。
由圖8IJCAI中國關鍵詞共現(xiàn)網(wǎng)絡圖譜可以看到中國在人工智能領域的研究方向主要是學習系統(tǒng)、嵌入、卷積神經(jīng)網(wǎng)絡、深度學習等,從圖9IJCAI美國關鍵詞共現(xiàn)網(wǎng)絡圖譜可以看到美國在人工智能領域的研究方向主要是學習系統(tǒng)、學習算法、信息分類、多智能體系統(tǒng)等,結合表4發(fā)現(xiàn)中美兩國在人工智能領域具有共同關注的研究方向,包括學習系統(tǒng)、卷積神經(jīng)網(wǎng)絡,中美兩國關注的研究方向整體上比較相似,表明中美兩國在人工智能領域技術的發(fā)展方向上基本一致。但兩國在人工智能領域技術發(fā)展上存在一定的側(cè)重,美國重點關注多智能體系統(tǒng)、決策、強化學習、自然語言處理等方向,中國更關注于矩陣算法、因式分解、卷積、矩陣分解等方向。
圖8 IJCAI中國關鍵詞共現(xiàn)網(wǎng)絡圖譜(2009—2019年)
圖9 IJCAI美國關鍵詞共現(xiàn)網(wǎng)絡圖譜(2009—2019年)
表4 IJCAI學術年會中美前15關鍵詞對比表(2009—2019年)
人工智能是一個已經(jīng)滲透到社會生活中方方面面的新興學科,本文以EI數(shù)據(jù)庫收錄的IJCAI頂尖人工智能學術年會論文為研究對象,研究了2009—2019年人工智能領域的研究力量和研究熱點分布,直觀地展示了該領域的發(fā)文量、研究機構、研究國家和研究熱點,得到以下結論:
(1)地區(qū)差異。不同國家和地區(qū)對人工智能的政策與支持力度不同,美國和中國遠遠領先于其他國家。美國在各個方面(包括發(fā)文量、機構間合作以及領軍人才等)都具有壓倒性的優(yōu)勢,處于領先地位。就中國而言,越來越多的學者進入到人工智能領域的研究,發(fā)文量逐漸增多并保持較高水平,但與美國相比研究影響力仍有一定差距。
(2)合作交流。世界范圍內(nèi)人工智能領域都注重交流合作并存在廣泛的交流合作,說明主要國家和地區(qū)均已認識到合作對提高人工智能領域技術發(fā)展的重要性,但是作者之間仍然存在明顯的區(qū)域特征壁壘,跨區(qū)域合作、跨學科合作、跨機構合作和跨產(chǎn)業(yè)合作等方面仍存在一定不足。
(3)通過分析關鍵詞和技術熱點可知,人工智能領域的研究熱點包括語義、學習算法、信息分類、深度學習和神經(jīng)網(wǎng)絡等。中美兩國在人工智能領域的熱點關鍵技術的研究方向上基本一致,兩國都重點關注深度學習、神經(jīng)網(wǎng)絡、學習系統(tǒng)和學習算法等方向,但具體側(cè)重點又存在一定的差異。
本文研究分析了人工智能領域的研究力量分布、熱點與前沿,但仍存在一定的局限性,在后續(xù)的研究中將從以下兩個方面改進:首先,進一步豐富數(shù)據(jù)來源,如增加專利、學位論文、期刊論文、重要的報紙論文等多源數(shù)據(jù)源,從而提供更全面的分析;其次,人工智能在不同時期有不同的研究熱點和研究趨勢,新的研究熱點必是新的術語詞匯,受基礎詞匯和新詞匯的影響,往往新詞匯的詞頻比較低,若僅憑關鍵詞和突現(xiàn)詞來識別人工智能領域前沿和發(fā)展略顯不足,在實際中還需要結合專家意見和行業(yè)調(diào)研開展工作。