李麗霞,任卓明,張子柯
(杭州師范大學阿里巴巴商學院 杭州 311121)
在科學技術飛速發(fā)展的今天,創(chuàng)新意識和創(chuàng)新能力越來越成為一個國家國際競爭力和國際地位的最重要決定因素[1-3]。近年來,引領科技發(fā)展的創(chuàng)新活力不斷被激發(fā),我國科技水平有了大幅提高[4-5]。而作為一個資源匱乏,國土面積小的國家,瑞士以高效的科技創(chuàng)新體系聞名,被譽為“創(chuàng)新之國”。其科學研究水平、自主創(chuàng)新能力均居世界前列,曾連續(xù)九年位居世界經(jīng)濟論壇全球競爭力排名榜首,并連續(xù)八年排名世界知識產(chǎn)權組織全球創(chuàng)新指數(shù)榜首[6]。瑞士國家科學基金會(SNSF)作為瑞士最主要的科研基金提供機構,以促進基礎科學學術研究和瑞士科技創(chuàng)新的發(fā)展為任務[7]。因此有必要從具有國際性、權威性和前沿性的瑞士國家科學基金數(shù)據(jù)展開現(xiàn)狀分析與趨勢預測,從而獲取科技發(fā)展的導向,而且了解創(chuàng)新型國家的研究現(xiàn)狀和研究趨勢,可以引起我國科研人員和科技管理人員前瞻性思考,找到科技創(chuàng)新的突破口。
當前,基于國內(nèi)外的政府科學基金和學術文獻的數(shù)據(jù)挖掘,分析科學研究前沿以及探索學科發(fā)展等的研究,已成為非?;钴S的領域。該方面的研究主要有兩類方法:一是定性研究,以領域專家的經(jīng)驗知識為依托。如文獻[8]針對河北省省級自然科學基金研制了績效評價指標體系,并根據(jù)評價結果確定所需考察的研究熱點,但這種方法容易受所選專家自身知識及專家主觀性的限制影響;二是定量研究,以計量學方法為主,如文獻[9]采用文獻計量方法,對“十一五”期間工商管理學科的國內(nèi)外研究的熱點問題及其內(nèi)容進行了分析,并就研究熱點的形成、發(fā)展趨勢的異同等方面進行了比較研究。伴隨著科學知識圖譜作為一種探測學科知識結構、識別領域學科熱點主題、追蹤學科發(fā)展動態(tài)的科學計量新手段興起[10-11],國內(nèi)外很多學者運用詞頻分析、共詞分析、共引分析方法結合科學知識圖譜技術對不同領域進行研究熱點與未來趨勢的分析。文獻[12]利用詞頻分析法揭示了國內(nèi)外知識管理領域的研究熱點及國內(nèi)外的差異。2016 年,文獻[13]對高頻關鍵詞進行詞頻分析并繪制知識圖譜可視化,分析了國內(nèi)外學習分析領域當前的研究熱點與未來的研究趨勢。文獻[14]運用共詞分析結合知識圖譜揭示了最近30 年來生命科學的演進趨勢,發(fā)現(xiàn)了新興學科的產(chǎn)生和發(fā)展。文獻[15]采用文獻計量方法和關鍵詞共現(xiàn)分析法,對中國學術期刊數(shù)據(jù)庫的查新研究論文進行統(tǒng)計分析,研究了科技查新研究領域的現(xiàn)狀、發(fā)展、熱點和趨勢。文獻[16]基于科研基金項目數(shù)據(jù)采用文獻計量、詞頻分析、共詞分析的方法研究了中圖書館、情報與文獻學的研究進展及趨勢分析,發(fā)現(xiàn)研究呈現(xiàn)網(wǎng)絡化、政策化、服務化、人性化趨勢。
近幾年,國內(nèi)外對科學研究前沿的探索更加活躍,采用的方法也更加多樣化。文獻[17]綜合采用引文分析、社會網(wǎng)絡分析和皮爾遜相關系數(shù)分析等方法,對1990?2012 年的中國國家自然科學基金圖書情報類研究項目進行定量化和可視化的處理,探索了情報學領域的發(fā)展情況。文獻[18]結合內(nèi)容詞分析等多種計量學方法與科學知識圖譜技術,深入研究分析學科知識體系的結構關系,辨識和探測學科領域的研究熱點主題及其變化趨勢,為新環(huán)境下科技決策者有效開展科技管理工作提供新手段。文獻[19]通過利用詞頻變化率Z 值對所選取的高頻關鍵詞進行分類,同時結合高頻關鍵詞共現(xiàn)網(wǎng)絡以及多維尺度分析法,不僅有效地從研究熱點、研究主題及研究范式3 個方面揭示出國內(nèi)情報學研究的發(fā)展趨勢,也為探究學科研究發(fā)展趨勢提供了一個嶄新的研究視角。上述研究為避免低頻詞的影響,大多選取高頻關鍵詞進行分析,高頻關鍵詞的選取主要有經(jīng)驗判定法、高頻低頻詞界分公式[20]和詞頻g 指數(shù)[21]3 種。其中,文獻[22]為得到更好的分析結果,在主題識別階段改進了詞頻g 指數(shù)來選取共詞分析的對象,在主題演化分析模塊,提出構建三維戰(zhàn)略坐標來進行靜態(tài)分析,并構建學科主題演化現(xiàn)象識別模型來進行動態(tài)分析。
在最近的研究中,針對文獻和其他數(shù)據(jù)集的信息挖掘發(fā)現(xiàn)了諸多令人欣喜的研究規(guī)律。文獻[23]用游走模型解釋研究興趣的內(nèi)在演化規(guī)律與特性,對研究和理解科學家研究興趣的轉移與演化具有重要意義。文獻[24]研究發(fā)現(xiàn)職業(yè)巔峰期是普遍存在的并且表現(xiàn)為隨機分布,通常只出現(xiàn)一次,但一旦出現(xiàn)研究人員top3 作品出現(xiàn)的時間便有規(guī)律可循。文獻[25]通過量化“伴侶效應”發(fā)現(xiàn)其在醫(yī)學和生物科學領域更為顯著,對高影響力的期刊有更重要的影響,說明經(jīng)驗對在特定的科學期刊上發(fā)表論文有著非常大的作用,能幫助形成高影響的科學工作。文獻[26]重構50 萬名藝術家的展覽歷史和聯(lián)系網(wǎng)絡,發(fā)現(xiàn)藝術家處于網(wǎng)絡中的中心位置,更容易進入夢寐以求的機構,說明聲譽和影響網(wǎng)絡在決定獲得資源和獎勵方面發(fā)揮著關鍵作用。文獻[27]發(fā)現(xiàn)在多項運動項目中,成員之間共同的成功經(jīng)歷大大提高了團隊獲勝的幾率,而不僅僅是個人才能。文獻[28]闡述了失敗的動力學機制,或許勝敗早有伏筆,從動力學的早期信號就足以將成功者和無法獲得成功者分離開。文獻[29]發(fā)現(xiàn)諾貝爾獎由于僅授予生理學或醫(yī)學、物理、化學等領域,擴大了科研結構化偏差,如今科研跨學科融合趨勢增強,呼吁設置新的獎勵制度。文獻[30]通過雙曲空間嵌入、KL 散度等方法挖掘技能缺口和影響流,發(fā)現(xiàn)教育技能在工作技能和研究技能之間扮演著關鍵的過渡角色,并且硬技能的需求增加會促使軟技能的需求增加。
本文采集1999?2018 年SNSF 的P3 數(shù)據(jù)庫的科研基金項目完整信息,分析了信息技術學科基金中的關鍵詞演化情況;以層級結構分布圖可視化交叉關鍵詞分析了信息技術和數(shù)學的分布情況,并通過計算不同時間段關鍵詞分布的Kullback-Leibler散度挖掘了信息技術與數(shù)學的學科交叉情況。
瑞士國家科學基金項目數(shù)據(jù)來源于SNSF 的P3 數(shù)據(jù)庫[31]。數(shù)據(jù)庫中提供了所有支持的項目、人員和出版物數(shù)據(jù)并每天更新。該數(shù)據(jù)庫包含1975?2018 年70 150 條立項信息?;痦椖康臄?shù)據(jù)中包含項目編號、項目名稱、項目負責人、項目所屬機構、主學科名稱、涉及的所有學科、主學科的上級結構、開始日期、截至日期、資助金額、關鍵詞、摘要等字段。本文抽取了近20 年即1999?2018 年期間的數(shù)據(jù),其中信息技術共包含1 493 條立項信息??茖W基金項目中的關鍵詞是對研究內(nèi)容進行高度概括的詞語,易構成知識圖譜,分析結果可讀性強[32]。關鍵詞的來源主要為數(shù)據(jù)中已列出的關鍵詞,而部分關鍵詞空缺項目需從標題或摘要中抽取關鍵詞。根據(jù)該數(shù)據(jù)的特點,應用關鍵詞庫匹配方法比無監(jiān)督的關鍵詞提取能保證更高的結果準確率。
關鍵詞提取的工作流程為:根據(jù)已提供的關鍵詞創(chuàng)建關鍵詞表,對英文的摘要利用Standford Corenlp 進行分詞和停用詞表去停用詞,以雙向最大匹配算法匹配關鍵詞表從而抽取關鍵詞詞串。由于不同的研究人員有不同的取詞習慣,需要制定調整和篩選規(guī)則對關鍵詞進行對齊。針對關鍵詞的對齊,本文研究采取集體實體對齊的方法,根據(jù)兩個實體詞的本身結構和共現(xiàn)鄰居結構相似性度量,以更加精確的范圍篩選出相似關鍵詞集。但目前所有通過計算的方法都存在或大或小的誤差,對于數(shù)據(jù)分析的工作,結果應盡量保證準確無誤,本文研究通過設定不同閾值對本數(shù)據(jù)的對齊結果檢驗,發(fā)現(xiàn)集體實體對齊方法的關鍵詞對齊結果準確率較高,此外加以人工輔助使關鍵詞準確對齊。主要工作流程為:以經(jīng)過分詞、去停用詞處理的摘要作為word2vec[33]的訓練數(shù)據(jù),生成詞向量,計算每個關鍵詞詞組中每個詞的詞向量加權平均和作為關鍵詞向量,利用余弦相似性[34]計算得到任意兩個詞的相似性,并設定閾值(相似性大于0.7)初步劃分相似關鍵詞集。此時的相似關鍵詞集還存在很大的誤差,需要劃分更精確的范圍。以關鍵詞在文章中的共現(xiàn)頻率作為單元關系構建關鍵詞共詞網(wǎng)絡,共同出現(xiàn)在同一項目中的關鍵詞則存在相鄰關系,計算相似關鍵詞集中任意兩個關鍵詞實體的共現(xiàn)鄰居結構的相似性,得到相似度排名,再通過關鍵詞對齊計算的主要思想——關鍵詞的內(nèi)部單詞結構和在共現(xiàn)網(wǎng)絡中共現(xiàn)鄰居結構相似度高的兩個關鍵詞為對齊關系,使關鍵詞準確對齊,最終獲得5 053 個有效關鍵詞。
本文統(tǒng)計了涉及的所有關鍵詞詞頻,如圖1a的詞云圖所示機器學習、計算機視覺、信息檢索、分布式系統(tǒng)、軟件工程是信息技術學科詞頻最高的關鍵詞,也是近20 年的研究重點。為客觀地揭示該學科研究熱點的變化趨勢,本文采用詞頻g指數(shù)[20-21]結合實際詞頻分布情況篩選高頻關鍵詞,通過計算相對詞頻和修均數(shù)據(jù)樣本以消除不同年份科研產(chǎn)量和隨機干擾成分的影響。具體步驟如下:
1) 統(tǒng)計所選取的關鍵詞i 在第j 年的詞頻C0(i,j),(i=1,2,···,28; j=1,2,···,20)。
2) 通過關鍵詞的連續(xù)3 年相對詞頻(即各關鍵詞與當年關鍵詞總數(shù)的比值)修均數(shù)據(jù)樣本,消除樣本中干擾成分的影響,進而突出數(shù)據(jù)的固有規(guī)律。
3) 計算每個關鍵詞的詞頻變化率Zi。
式中,Zi大于0 表示該關鍵詞i 受到的關注整體呈上升趨勢,且Z 值越大說明該研究內(nèi)容上升趨勢越明顯,為目前的研究熱點。
根據(jù)詞頻分布情況,共有28 個關鍵詞被選為近20 年信息技術學科的高頻關鍵詞,其累計詞頻達到727 次。如圖1b 所示是其中Z 值排名前10 位的研究熱點。這些熱點是:深度學習(deep learning)、編程語言(programming languages)、大數(shù)據(jù)(big data)、算法(algorithms)、機器學習(machine learning)等。其中,深度學習是近些年上升趨勢最明顯的研究內(nèi)容。
圖1 關鍵詞情況分析
為進一步清晰揭示信息技術學科研究的內(nèi)部結構特征和演化,本文將1999?2018 年共20 年的數(shù)據(jù)以每5 年為一個時間切片進行劃分。為了避免頻次較低的關鍵詞對知識圖譜可讀性的影響,本文去掉了每個時間切片中詞頻小于等于3 的關鍵詞。另外在不同時間切片中,由于關鍵詞頻次存在懸殊,本文利用Ochiia 系數(shù)[16]衡量兩個關鍵詞之間的聯(lián)系密切程度。Ochiia 系數(shù)的取值范圍(0,1)。其具體計算為:
式中,NA與NB分別為關鍵詞A 與B 出現(xiàn)的頻數(shù),NA∩B為關鍵A 與B 共同出現(xiàn)的頻數(shù)。在計算得到Ochiia 系數(shù)的關鍵詞相關矩陣后,導入關鍵詞相關矩陣和所有關鍵詞頻次數(shù)據(jù)到Gephi 軟件[35],可視化每個時間切片內(nèi)的內(nèi)部結構。以關鍵詞出現(xiàn)頻次為節(jié)點的大小,連邊的粗細表示研究內(nèi)容之間關聯(lián)強度。最后可視化的結果如圖2 所示,節(jié)點的大小為關鍵詞出現(xiàn)頻次,連邊的粗細表示研究內(nèi)容之間關聯(lián)強度,節(jié)點越大表示關鍵詞在該時間段出現(xiàn)頻次越多,連邊越粗表示兩個關鍵詞的Ochiia系數(shù)越大。
圖2 關鍵詞的知識圖譜演化分析
從每個時間段知識圖譜的詞頻即節(jié)點大小變化來看,如圖2a,1999?2003 年以分布式系統(tǒng)(distributed system)、隱馬爾可夫模型(hidden markov models)為最主要的兩個研究方向,其次著重于計算機視覺(computer vision)、互聯(lián)網(wǎng)(internet)、信息檢索(information retrieval)和并行計算(parallel computing)的研究和應用,而在2004?2008 年時間片如圖2b 所示,機器學習(machine learning)與計算機視覺成為該時間段的研究熱點。接著在2009?2013 年期間如圖2c 所示,機器學習和計算機視覺的依然是研究熱點,相比較而言在上一個時間片的其他熱門研究均呈現(xiàn)不同的下降幅度。如分布式系統(tǒng)的下降幅度最大,軟件工程(software engineering)出現(xiàn)細微的研究占比下降,同時,上個時間片中研究熱度較低的計算圖形學(computer graphics)、人機交互(human computer interaction)、云計算(cloud computing)逐步上升,出現(xiàn)在大眾的視野中。而從圖2d 的最近5 年的知識圖譜來看,機器學習和計算機視覺較上個時間切片的占比仍為增長的趨勢,其次的研究熱點深度學習(deep learning)、大數(shù)據(jù)(big data)和物聯(lián)網(wǎng)(internet of things)即是近5 年新興的研究熱點。
從研究內(nèi)容的關聯(lián)強度即連邊的粗細的變化來看,如圖2a,在2009?2013 年的時間切片知識圖譜中,隱馬爾可夫模型應用于計算機視覺和語音識別(speech recognition)的研究中。在計算機視覺的相關研究中,值得一提的是圖像處理(image process)在信息技術學科的研究中保持著穩(wěn)定發(fā)展,直至2018 年仍占有不少的比重,該研究內(nèi)容在初期與計算機視覺聯(lián)系緊密,而伴隨著機器學習的發(fā)展,圖像處理轉向與機器學習結合的研究。而下一個時間切片的圖2b 知識圖譜中,以計算機視覺、機器學習和分布式系統(tǒng)為度最大的節(jié)點。就計算機視覺而言,除了機器學習與計算機視覺的交叉研究非常緊密,與該內(nèi)容存在交叉研究的內(nèi)容諸多相同,主要概括為包含文本處理的信息檢索、圖模型、目標檢測與模式識別。在此階段,對于分布式系統(tǒng)的研究雖然減少,但相關的研究更加豐富,最主要展開了協(xié)調力和中間件(middleware)的研究,還開始涉及了算法(algorithm)、圖論(graph theory)和博弈論(game theory)等復雜性科學的研究。在圖2c 的2009?2013 年時間段,與分布式系統(tǒng)相關的研究內(nèi)容之間連線比前些年更粗,說明在此時這些研究聯(lián)系更加緊密。其中可靠性(reliability)、可擴展(scalability)和并行(parallel)成為該時間對軟件工程方向最為側重的研究點。并在該階段,與機器學習相關的研究更為豐富,主要包括對近似算法(approximation algorithms)、數(shù)據(jù)挖掘(data mining)、隱私與安全(privacy and security)、計算與系統(tǒng)生物學(system and computational biology)、計算神經(jīng)科學(computational neuroscience)、自然語言處理(natural language processing)、計算機視覺、圖像處理等研究。從圖2d 的這個時間切片內(nèi)容來看,機器學習和深度學習處于人工智能領域非常核心的位置,形成類星狀結構,而計算機視覺邊緣化現(xiàn)象已非常明顯。不僅已有研究內(nèi)容得到發(fā)展,還新增了大數(shù)據(jù)(big data)、數(shù)字人文(digital humanities)、物聯(lián)網(wǎng)、智能電網(wǎng)(smart grids)、生物信息學(bioinformatics)、機器人技術(robotics)、虛擬現(xiàn)實(virtual reality)、眾包(crowdsourcing)、醫(yī)療影像(medical imaging)、高性能計算(high-performance computing)等新興研究方向。
在瑞士國家科學基金項目數(shù)據(jù)集中共有290 個在不同學科共同出現(xiàn)的關鍵詞,為直觀地看出這些共同關鍵詞的不同分布,圖3 繪制了所有詞頻高于5 并且度大于1 的關鍵詞層級分布圖,節(jié)點的大小表示關鍵詞的詞頻高低,其節(jié)點越大,詞頻越高。其中,深色節(jié)點為信息技術與數(shù)學交叉研究中的共同關鍵詞,該關鍵詞在兩學科的研究中都處于重要的地位,淺色節(jié)點則是僅出現(xiàn)在某一學科的關鍵詞,在該學科為重點研究內(nèi)容,但在另一學科中研究占比較少。節(jié)點到圓心的距離代表其在層級上接近頂點的程度,處于圓心的節(jié)點是處于該學科核心地位的研究內(nèi)容。結果如圖3a 所示,信息技術學科的層級分布圖共顯示了64 個關鍵詞,如圖3b所示,數(shù)學學科的層級分布圖共顯示40 個關鍵詞,共同關鍵詞包含16 個。在兩學科層級分布圖中,機器學習和算法(algorithm)分別為最靠近圓心的核心研究內(nèi)容。在共同關鍵詞中,密碼學(cryptography)和算法為在兩學科中研究頻率都相對最高的關鍵詞,其中,密碼學在信息技術學科中詞頻為32,在數(shù)學學科中詞頻為13,比算法的詞頻更高。除機器學習之外的其余共同關鍵詞研究頻率都比密碼學和算法略低,但在兩學科中研究詞頻分布非常均勻。而機器學習在信息技術學科中詞頻為86,在數(shù)學學科中詞頻為6,研究占比的差距在所有關鍵詞中最大,但數(shù)學在機器學習中是很重要的,無論在算法的研究,還是在工程上的系統(tǒng)構建。從分布的位置上看,這些表示交叉情況更明顯的共同關鍵詞比其他關鍵詞更靠近圓心,說明交叉研究越頻繁,且更容易帶動研究內(nèi)容的發(fā)展。
圖3 關鍵詞層級分布圖
信息技術與多個學科存在交叉關系,圖4a 為與信息技術交叉研究最頻繁的10 個學科,以連邊的粗細體現(xiàn)兩個學科交叉研究的頻繁程度,連邊越粗表示兩學科的聯(lián)系越緊密。其中,數(shù)學(mathematics)是與信息技術最為密切的學科,其次是電氣工程(electrical engineering)和其他工程學(other disciplines of engineering sciences)心理學(psychology)和管理科學(science of management)等學科。為進一步研究這兩個交叉密切的學科在不同時間的交叉情況,本文整合了信息技術(IT)和數(shù)學(math)4 個時間段(1999?2003 年,2004?2008年,2009?2013 年,2014?2018 年)的所有關鍵詞,并通過關鍵詞總數(shù)歸一化,將每個關鍵詞出現(xiàn)的頻率轉化為概率,然后評估關鍵詞分布之間的Kullback-Leibler(KL)散度[30],來探測研究內(nèi)容的相似性,從而動態(tài)評估兩學科內(nèi)部結構差異和交叉情況來探測變化情況。KL 散度也稱相對熵,是用于量化分布間的差異,計算一個已有的關鍵詞概率分布p(x)遇到一個新的關鍵詞概率分布q(x)所經(jīng)歷的信息增益,具體計算為:
圖4 信息技術與數(shù)學內(nèi)部結構差異與交叉情況
如圖4b 所示,KL 值為0 時,兩個概率分布完全相同,顏色為白色;KL 值越大,兩者的差異越大,顏色越深。該矩陣顯示每個學科自身年份跨度越大,相似性越低,IT(1999?2003 年)與IT(2014?2018 年)的KL 值相較于其他時間段的KL 值最大。就學科自身的演化情況來看,1999?2003 年到2004?2008 年的KL 值比2004?2008 年(2009?2013年)到2009?2013 年(2014?2018 年)更大,演化速度更快,其中數(shù)學以略微的優(yōu)勢比信息技術演化更快。從兩學科的交叉情況來看,在學科交叉現(xiàn)象(圖3a)不明顯的1999?2003 年,IT 和Math 的研究內(nèi)容不相似度也極高,而伴隨著交叉現(xiàn)象激增,除1999?2003 年的其他時間段,概率分布的KL 值普遍降低,并且與1999?2003 年和其他4 個時間段的KL 值差距明顯。說明針對數(shù)學和信息技術的學科交叉研究也曾加入了交叉研究的大潮流,但近些年信息技術和數(shù)學的交叉趨勢趨于平穩(wěn),兩學科的交叉研究已發(fā)展至較穩(wěn)定、成熟的狀態(tài)。
本文通過分析1999?2018 年瑞士國家科學基金的立項信息,挖掘瑞士的信息技術學科的發(fā)展情況。首先分析了信息技術學科的關鍵詞研究頻率和演化情況,發(fā)現(xiàn)信息技術從原始圍繞分布式系統(tǒng)等軟件開發(fā)演化成以機器學習、深度學習為中心的人工智能研究;然后挖掘信息技術與交叉現(xiàn)象最明顯的數(shù)學的交叉情況,發(fā)現(xiàn)密碼學和算法是信息技術與數(shù)學交叉最明顯的研究內(nèi)容,并且這兩個學科的交叉研究也曾加入了2002?2010 年的交叉研究大潮流,但近些年兩學科的交叉研究已發(fā)展至較穩(wěn)定、成熟的狀態(tài)。本文研究以期為信息技術學科及相關交叉學科的發(fā)展提供一定的參考,但目前對于學科交叉的演化研究不夠深入。在接下來的研究工作中,將進一步通過交叉詞刻畫學科交叉中研究內(nèi)容相互影響的因果關系和學科交叉對研究內(nèi)容發(fā)展的影響,并期望能找到交叉學科的發(fā)展規(guī)律。
本文研究工作得到杭州師范大學科研啟動經(jīng)費項目和“錢江人才計劃”D 類項目(QJD1803005)的資助,在此表示感謝。