呂晶 郭思月 滕廣青 馬卓
(1.東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,長春 130117;2.吉林省科學(xué)技術(shù)信息研究所,長春 130033)
隨著人類社會科技發(fā)展水平的不斷提高,各國政府越來越意識到科學(xué)技術(shù)的發(fā)展對社會、經(jīng)濟、軍事、教育等領(lǐng)域的重要作用,并通過設(shè)立科學(xué)基金項目資助那些重點需求、亟待創(chuàng)新的科學(xué)問題研究??茖W(xué)界的基金項目對于相關(guān)領(lǐng)域科學(xué)研究的發(fā)展具有積極的支持與促進作用,甚至能夠引導(dǎo)科學(xué)創(chuàng)新的發(fā)展方向。由于科學(xué)論文是科學(xué)研究進展的最直接體現(xiàn),圖書情報學(xué)界在以往的研究中,大多借助論文中標(biāo)注的基金信息對其中的關(guān)聯(lián)影響進行判識。然而,論文中的基金標(biāo)注信息與論文中的關(guān)鍵詞一樣只是外在的形式特征,單純依靠外在形式特征的分析僅能夠獲得有限的低維度信息,無法對其進行全景式及細粒度的洞察。近年來,隨著數(shù)據(jù)科學(xué)思維引入圖書情報學(xué)界,科技信息的多維復(fù)合分析逐漸引起學(xué)術(shù)界關(guān)注??萍夹畔⒍嗑S復(fù)合分析,能夠通過跨維度的交叉關(guān)聯(lián),挖掘與發(fā)現(xiàn)不同維度間隱含的模式信息。
鑒于此,本研究通過研究領(lǐng)域、數(shù)據(jù)對象、研究方法等多維度結(jié)合的綜合分析,探索基金項目與科學(xué)研究之間的關(guān)聯(lián)影響,嘗試揭示其中潛在的模式與規(guī)律,以期為國家規(guī)劃科技發(fā)展戰(zhàn)略、制定科研資助策略等提供有益的支持。
隨著科學(xué)技術(shù)在社會發(fā)展中的作用愈發(fā)凸顯,人類社會對于科學(xué)研究的重視已經(jīng)提到前所未有的高度。各國政府通過科學(xué)基金項目重點扶持與資助那些對國家發(fā)展和社會進步產(chǎn)生重要支撐與推動作用的研究領(lǐng)域。圖書情報學(xué)界也對基金項目對科學(xué)研究產(chǎn)生的影響作用展開研究。Butler[1]、Wang等[2]通過期刊論文中的基金標(biāo)注信息篩選出獲基金資助的論文,基于基金資助數(shù)據(jù)與科研總產(chǎn)出數(shù)據(jù),探究資金資助對科研產(chǎn)出的影響。Boyack等[3]通過基金資助的論文,分析政府資助對科研出版物數(shù)量和被引頻次的影響。國內(nèi)學(xué)者陳秋怡等[4]基于Web of Science核心集引文索引數(shù)據(jù)庫中發(fā)表論文最多的6個國家的科研基金資助與論文產(chǎn)出的整體分析,探測科研基金資助投入與高水平國際論文產(chǎn)出之間的關(guān)系。許鑫等[5]以自然科學(xué)領(lǐng)域的代表學(xué)科作為微觀層面的研究對象,通過SCI論文中的基金標(biāo)識區(qū)分基金論文和非基金論文,從引用和使用兩個角度分析科學(xué)基金資助對論文的即時影響力與內(nèi)容影響力的影響。上述研究都是通過論文中的基金標(biāo)注信息識別基金項目與論文之間的關(guān)聯(lián)關(guān)系,這種基于外在形式特征的篩選方法對于衡量基金項目的直接產(chǎn)出是有效的,但在探查基金項目對更大領(lǐng)域科學(xué)研究的影響方面則顯得力不從心。
隨著數(shù)據(jù)科學(xué)范式的興起,大數(shù)據(jù)思維已經(jīng)被學(xué)術(shù)界普遍接受。現(xiàn)有的研究表明,利用多維度數(shù)據(jù)結(jié)合的研究方法可以識別出基于單一維度數(shù)據(jù)不能識別的研究前沿,研究人員在科技情報分析中逐漸有意識地將論文數(shù)據(jù)、專利數(shù)據(jù)等不同來源的數(shù)據(jù)進行整合[6-7],即使基于單一數(shù)據(jù)源也在分析工作中包容了文獻、作者、關(guān)鍵詞、機構(gòu)、時間等更多的數(shù)據(jù)維度[8]。相對于以往基于單一維度數(shù)據(jù)的研究而言,多維數(shù)據(jù)的整合為科技情報分析工作提供了更好的說服力[9]。然而,科技文獻中明確標(biāo)識的外在形式特征尚不足以支持更細粒度的分析工作。自然語言處理(Natural Language Processing,NLP)技術(shù)與方法逐漸被應(yīng)用到多維度數(shù)據(jù)的科技信息分析中,通過對科學(xué)文獻文本的語義分析獲取其中蘊含的更細粒度的語義關(guān)聯(lián)。此類研究工作包括基于多文獻數(shù)據(jù)集的主題挖掘[10],期刊論文、學(xué)位論文、專利文獻間的主題差異[11],科學(xué)規(guī)劃與基金項目的主題識別[12],基于基金項目與論文的前沿探測[13],論文與專利之間的主題關(guān)聯(lián)演化[14],以及基金項目到論文的知識擴散效應(yīng)[15]等諸多領(lǐng)域的研究。
綜上所述,基于多維度數(shù)據(jù)的科技信息分析已經(jīng)成為學(xué)術(shù)界的共識,而且自然語言處理技術(shù)的成熟為更細粒度的跨維度分析提供了方法支持。本研究在現(xiàn)有研究成果的基礎(chǔ)上,采用基金項目與論文、下位學(xué)科與上位學(xué)科、關(guān)鍵詞與文本主題等多維度數(shù)據(jù)結(jié)合的綜合分析方法,對基金項目與科學(xué)論文之間的關(guān)聯(lián)影響進行識別與分析,探測和揭示其中潛在模式與規(guī)律。
本研究除采用傳統(tǒng)科學(xué)計量中的關(guān)鍵詞分析方法外,還將對基金項目與科學(xué)論文進行主題建模,通過主題相似性識別基金項目與科學(xué)論文之間關(guān)聯(lián)影響。研究工作采用目前成熟且流行的隱狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型。LDA主題模型是由Blei等[16]提出的用于識別大規(guī)模文檔中潛在主題信息的三層貝葉斯概率模型,包括單詞層、主題層和文檔層。通過對目標(biāo)文本集進行建模分析,可以通過中間層主題得到文檔中出現(xiàn)的詞的概率,其公式如下。
公式(1)中,α、β為超參數(shù),θ為“文本-主題”概率分布,z為詞的主題分布,Z表示主題,N為詞的數(shù)量,w表示詞,wn是序列中單詞的第n個單詞,Zn是文檔中第n個單詞的主題。研究工作進一步引入吉布斯采樣(Gibbs Sampling)對主題模型求解[17]。吉布斯采樣假設(shè)文本中出現(xiàn)的詞匯連成一串且不重復(fù),在LDA迭代過程中,Gibbs為這個串中的每一個詞分配一個主題,然后不斷地更新其狀態(tài)直到收斂到一個較為穩(wěn)定的數(shù)據(jù)集,從而計算出LDA的概率分布的近似值,是目前概率分布計算中采用較多且準(zhǔn)確程度較高的方法[18]。在使用LDA模型進行核心主題識別過程中,一個重要的問題是最佳主題數(shù)目的確定。主題數(shù)目會影響到主題模型的效果,以往采用困惑度[16]確定的主題數(shù),往往結(jié)果冗長[19-20]且主題過于分散。現(xiàn)有的研究表明,主題一致性是衡量主題質(zhì)量最有效的方法[21],且一致性得分與人類判斷的主題連貫性非常相似[22-23]。因此,本研究采用一致性分?jǐn)?shù)對主題數(shù)目進行判定,以此提高主題詞聚類的效果。其具體公式如下[24]。
基金項目與科學(xué)論文之間的關(guān)聯(lián)跨越兩個不同的維度。以往的研究工作多通過論文中標(biāo)注的基金項目信息建立二者之間的關(guān)聯(lián)關(guān)系。這種外在的形式特征只能獲得基金項目與其直接產(chǎn)出成果之間的關(guān)聯(lián)信息。但是科學(xué)知識體系是一個關(guān)聯(lián)錯綜復(fù)雜的動態(tài)系統(tǒng),一處細小的改變可能會引起更大范圍的變化。近年來,深度神經(jīng)網(wǎng)絡(luò)的突破,使得人工智能對多個行業(yè)或領(lǐng)域產(chǎn)生的巨大影響是這方面的一個典型代表。加之本研究重點關(guān)注一個較小領(lǐng)域的基金項目對其所隸屬更大領(lǐng)域的科學(xué)研究產(chǎn)生的影響,因此采用文本主題建模的方法獲取更細粒度的關(guān)聯(lián)。
本研究通過主題相似度識別基金項目與科學(xué)論文之間的關(guān)聯(lián)關(guān)系??茖W(xué)研究中,基金項目立項前需要一定的研究積累,立項后會產(chǎn)出相應(yīng)的研究成果。因此在已識別的關(guān)聯(lián)關(guān)系基礎(chǔ)上,結(jié)合時間先后順序?qū)﹃P(guān)聯(lián)影響的作用方向進行判定。即基金項目A與論文B主題相似時,如果基金項目A的時間在論文B之前,則視為基金項目A對論文B產(chǎn)生影響。反之,則視為論文B對基金項目A產(chǎn)生影響。研究工作將通過多維度信息的綜合分析,對基金項目與相關(guān)領(lǐng)域科學(xué)研究的關(guān)聯(lián)影響進行分析。
本研究共涉及3個數(shù)據(jù)源。①通過自主研發(fā)的爬蟲工具,從國家自然科學(xué)基金共享服務(wù)網(wǎng)(科技成果信息系統(tǒng))爬取2008—2014年立項的“交通土建工程”(E0807)所有類型的基金項目數(shù)據(jù)(截至2019年11月,科學(xué)基金共享服務(wù)網(wǎng)僅提供2014年及以前立項的項目信息)。②從科學(xué)網(wǎng)人工獲取2015—2017年該領(lǐng)域自然科學(xué)基金立項信息。③依托Web of Science核心合集數(shù)據(jù)庫,檢索式為WC=“Transportation”,文獻類型限定為“Article”,時間跨度選擇2008—2017年,獲取國際學(xué)術(shù)界在交通運輸領(lǐng)域的科學(xué)論文數(shù)據(jù)。原則上講,“交通土建工程”應(yīng)該是“Transportation”(交通運輸)的下位詞,如此選擇的目的在于從一個較小領(lǐng)域的基金項目探測其對更大學(xué)科領(lǐng)域的影響作用。對國家自然科學(xué)基金項目和論文數(shù)據(jù)進行相應(yīng)的預(yù)處理后,最終得到有效的國家自然科學(xué)基金項目數(shù)據(jù)集和論文數(shù)據(jù)集(以下簡稱“基金集與論文集”),分別包含1 140項基金項目和34 825篇論文。
為了能夠?qū)痦椖亢涂茖W(xué)論文之間的內(nèi)在關(guān)聯(lián)關(guān)系的特征變化進行跟蹤分析,研究工作以每2個自然年份為1個時間刻度,將基金集與論文集中的數(shù)據(jù)劃分為5個時間窗口。獲得基金項目數(shù)量與論文數(shù)量的時間序列如圖1所示。
圖1 基金項目與論文數(shù)量時間序列
圖1反映了t1~t5時間序列(2008—2017年)上國家自然科學(xué)基金立項與科學(xué)論文發(fā)表數(shù)量的情況??梢园l(fā)現(xiàn),“交通土建工程”領(lǐng)域國家自然科學(xué)基金項目與“交通運輸”領(lǐng)域論文數(shù)量呈總體增長趨勢。其中,基金項目在t4時間窗口有所回落(242項),其后繼續(xù)增長。而圖中代表論文發(fā)表數(shù)量的折線則在時間序列上呈現(xiàn)出持續(xù)增長的趨勢,且論文發(fā)表數(shù)量并未受到t4時間段基金項目數(shù)量回落的影響。
每項(篇)基金項目(論文)中的關(guān)鍵詞是由科研人員(作者)所賦予的,旨在突出該科研工作的核心思想與主題。研究工作基于所獲取的t1~t5全部時間段內(nèi)的基金集和論文集數(shù)據(jù),構(gòu)建基金項目和論文兩種類型的關(guān)鍵詞網(wǎng)絡(luò)。從基金集中提取“關(guān)鍵詞”字段用于構(gòu)建基金關(guān)鍵詞網(wǎng)絡(luò);從論文集中提取“DE”字段用于構(gòu)建論文的關(guān)鍵詞網(wǎng)絡(luò)。兩種類型的關(guān)鍵詞網(wǎng)絡(luò)構(gòu)建方式相同,均是基于關(guān)鍵詞的共現(xiàn)關(guān)系構(gòu)建。研究中構(gòu)建的關(guān)鍵詞網(wǎng)絡(luò)為無向2值網(wǎng)絡(luò),即網(wǎng)絡(luò)中各個關(guān)鍵詞之間僅考慮是否存在關(guān)聯(lián)?;痦椖亢驼撐脑跁r間序列上的關(guān)鍵詞網(wǎng)絡(luò)的特征指標(biāo)如表1所示。
表1中的數(shù)據(jù)顯示,基金項目關(guān)鍵詞網(wǎng)絡(luò)的節(jié)點數(shù)量、連邊數(shù)量與基金項目立項數(shù)量表現(xiàn)出相同的變化趨勢,即總體上呈現(xiàn)逐期增加的趨勢,僅在t4時間窗口略有回落。論文關(guān)鍵詞網(wǎng)絡(luò)的節(jié)點數(shù)量和連邊數(shù)量則在時間序列上單調(diào)遞增,與該領(lǐng)域發(fā)文數(shù)量的變化相契合。此外,基金項目關(guān)鍵詞的網(wǎng)絡(luò)密度、聚類系數(shù)、特征路徑長度均在時間序列上存在波動起伏,而論文關(guān)鍵詞網(wǎng)絡(luò)的相應(yīng)指標(biāo)則呈現(xiàn)單調(diào)遞減的趨勢。這一現(xiàn)象可能由于基金項目數(shù)量的波動導(dǎo)致,但同時也在一定程度上反映了基金項目關(guān)鍵詞更體現(xiàn)項目本身的創(chuàng)新性,而論文關(guān)鍵詞網(wǎng)絡(luò)則更好地表現(xiàn)出領(lǐng)域知識之間的關(guān)聯(lián)性。
基金項目或論文中標(biāo)注的關(guān)鍵詞是科學(xué)文獻的顯性外在形式特征,而作為基金項目或論文重要組成部分的摘要則包含大量隱含的語義信息。研究工作分別提取基金項目和論文的標(biāo)題(TI)、關(guān)鍵詞(DE)、摘要(AB),進行主題建模,挖掘基金項目與論文文本中潛在的語義信息。
研究工作對基金集和論文集數(shù)據(jù)進行預(yù)處理,將標(biāo)題、關(guān)鍵詞和摘要進行合并構(gòu)成用于構(gòu)建主題的文本,通過分詞、詞性標(biāo)注等處理把文本數(shù)據(jù)的初始信息按照語義規(guī)則以詞為單位進行拆分。文本中包含的無用詞對主題識別沒有任何意義,對此使用自設(shè)的中英文停用詞表將其過濾,從而保證研究的精準(zhǔn)性。研究中,采用一致性指標(biāo)檢測基金項目和論文在t1~t5時間窗口中的最佳主題數(shù)量,選取一致性分?jǐn)?shù)最高且趨于平緩的點所對應(yīng)的最佳主題數(shù)量,超參數(shù)迭代次數(shù)為1 000次,得到一致性結(jié)果如圖2所示。
表1 基金項目與論文關(guān)鍵詞網(wǎng)絡(luò)特征指標(biāo)
圖2 基金項目與論文一致性得分
圖2為基金項目與論文在t1~t5時間窗口中,不同主題數(shù)量所得到一致性得分情況。圖2(a)和圖2(b)分別為基金項目和論文對應(yīng)的圖示。一致性分?jǐn)?shù)代表文本主題的連續(xù)性程度,分?jǐn)?shù)最高且趨于平穩(wěn)的點所對應(yīng)的主題數(shù)目表示文本主題連續(xù)性最好。結(jié)合一致性分?jǐn)?shù)以及多次實驗,經(jīng)人工判讀最終確定的基金集和論文集的主題數(shù)量如表2所示。
表2 基金項目與論文的最佳主題數(shù)量
表2列示了本研究中基金項目與相關(guān)領(lǐng)域論文所選取主題數(shù)量。主題數(shù)量的選取與文本數(shù)量沒有關(guān)聯(lián),在t1~t5全部時間窗口中,基金項目共涉及90個主題,論文涉及113個主題。
為了能夠進一步探析基金項目與科學(xué)論文之間細粒度的關(guān)聯(lián)信息,研究工作依托主題之間的相似程度,構(gòu)建基金項目與論文之間的關(guān)聯(lián)關(guān)系。由于本研究的數(shù)據(jù)來自不同的數(shù)據(jù)源,基金集中的文本語言為中文,而論文集中的文本語言為英文。因此,為了能夠更加準(zhǔn)確地將兩類數(shù)據(jù)集內(nèi)的主題進行相似性測算,研究工作基于中國規(guī)范術(shù)語數(shù)據(jù)庫將論文核心主題詞與數(shù)據(jù)庫內(nèi)相應(yīng)領(lǐng)域的詞進行對齊,將論文主題詞轉(zhuǎn)換成中文進行計算。進而使用余弦相似度[25]在同一語種空間計算兩個數(shù)據(jù)集中各個主題之間的相似程度。主題A和主題B之間的余弦相似度公式如(3)所示。
公式(3)中,Ai、Bi分別代表兩個主題向量A和B的各分量;CS取值范圍為[0,1]。據(jù)此可以得到t1~t5時間窗口中基金項目與論文的所有主題間關(guān)聯(lián),包括基金項目與基金項目之間、基金項目與論文之間、論文與論文之間的3種主題關(guān)聯(lián)。由于本研究旨在探索較小領(lǐng)域基金項目對所隸屬的較大學(xué)科領(lǐng)域科學(xué)研究的影響作用,故只保留基金項目與論文之間的主題關(guān)聯(lián)。主題間相似度的大小表示兩個主題之間的關(guān)聯(lián)強度,由于學(xué)科相關(guān)性原因,計算結(jié)果顯示多數(shù)主題之間均存在一定的相似性。為保證研究的精準(zhǔn)性,考慮到數(shù)據(jù)采集范圍以及文本類型的異質(zhì)性,研究工作參考文獻[13]的閾值設(shè)定原則,過濾掉0值以及相似度低于0.1的關(guān)聯(lián),從而保留具有分析意義的關(guān)聯(lián)強度較大的關(guān)聯(lián)關(guān)系。在此基礎(chǔ)上,結(jié)合時間序列上先后順序確定基金項目與論文之間的關(guān)聯(lián)影響關(guān)系。
通過對關(guān)鍵詞進行分析可以掌握學(xué)科領(lǐng)域的研究熱點。關(guān)鍵詞網(wǎng)絡(luò)的節(jié)點度值體現(xiàn)了知識之間的關(guān)聯(lián)程度,關(guān)鍵詞的度值越大,意味著與越多的關(guān)鍵詞存在關(guān)聯(lián),越能代表領(lǐng)域的核心知識。而關(guān)鍵詞的詞頻可以反映領(lǐng)域的研究熱點。因此,研究工作基于前文構(gòu)建的t1~t5時間窗口下基金項目與論文的關(guān)鍵詞網(wǎng)絡(luò),分別提取度值和詞頻排名前10位的關(guān)鍵詞加以分析,結(jié)果如表3、表4所示。
表3 基金項目中度值、詞頻前10位關(guān)鍵詞
續(xù)表
表3中,基金項目度值排名靠前的關(guān)鍵詞與詞頻排名靠前的關(guān)鍵詞大體一致。兩者結(jié)合分析發(fā)現(xiàn),道路材料與鐵路建設(shè)是該領(lǐng)域基金項目長期重點支持的研究方向。從時間序列上看,“瀝青路面”(t1~t5)、“瀝青混合料”(t1~t5)、“瀝青混凝土”(t1、t5)、“水泥混凝土路面”(t1)、“瀝青”(t2、t5),以及“高速鐵路”(t1~t5)、“高速列車”(t2)、“重載鐵路”(t4)、“無砟軌道”(t4~t5)、“道岔”(t5)等關(guān)鍵詞,表明我國在公路與高速鐵路建設(shè)方面長期的資助傾向。此外,表3中多次出現(xiàn)的“交通安全”“安全”“可靠性”等關(guān)鍵詞,反映出交通安全問題也是我國基金項目的資助重點。
表4列示的是論文中度值與詞頻排名前10位的關(guān)鍵詞。整體上看,度值排名與詞頻排名同樣表現(xiàn)出大體的相似性。在5個時間窗口中“安全”一直作為高度值、高詞頻的關(guān)鍵詞,與安全相關(guān)的關(guān)鍵詞如“道路安全”“交通安全”在5個時間窗口中均有出現(xiàn),并且占據(jù)較高的排名。論文中的關(guān)鍵詞表明,交通安全、道路安全等問題是該領(lǐng)域國際學(xué)術(shù)界長期的重點研究內(nèi)容。同時,“電動汽車”“排放”與“智能交通系統(tǒng)”以及通信傳輸類(正交頻分復(fù)用、多入多出、衰落信道)等關(guān)鍵詞則凸顯出交通運輸大學(xué)科領(lǐng)域?qū)G色交通和智能交通的關(guān)注。值得一提的是,t4~t5時間窗口中“中國”均作為高頻關(guān)鍵詞出現(xiàn),表明近年來中國的交通事業(yè)發(fā)展受到國際學(xué)術(shù)界普遍關(guān)注。
表4 論文中度值、詞頻前10位關(guān)鍵詞
從關(guān)鍵詞的分析結(jié)果看,由于基金項目選擇較小的“交通土建工程”領(lǐng)域,因此其主要資助方向為道路材料、高速鐵路、交通安全;而在更大的交通運輸領(lǐng)域,科研論文表現(xiàn)出以安全為最主要的研究方向,同時包括綠色交通與智能交通。值得注意的是,交通安全同樣作為“交通土建工程”領(lǐng)域基金項目的重點資助對象之一,說明我國在“交通土建工程”小領(lǐng)域的基金資助傾向,一定程度上與所隸屬的大學(xué)科領(lǐng)域的研究重點有相同之處;那么“可靠性”關(guān)鍵詞在基金項目與論文中出現(xiàn)的時差(基金項目t1時間窗口,論文t3時間窗口),在一定程度上反映出,我國在較小領(lǐng)域中的基金資助對更大范圍的國際學(xué)術(shù)界以及更大的學(xué)科領(lǐng)域產(chǎn)生了積極的引導(dǎo)與促進作用。在t4~t5時間窗口論文關(guān)鍵詞中高頻出現(xiàn)的“中國”及其排名提升趨勢就是一個有力的佐證。
上述基于關(guān)鍵詞的關(guān)聯(lián)影響分析中可以初步看到,我國對較小領(lǐng)域的基金項目的資助,一定程度上對國際學(xué)術(shù)界較大學(xué)科領(lǐng)域的科學(xué)研究產(chǎn)生積極的引導(dǎo)與促進作用。為了獲得更細粒度的證據(jù)以及更精準(zhǔn)的判斷,研究工作針對基金項目與論文的文本,采用LDA主題模型獲取文本主題,并計算主題相似度?;诨鸺c論文集時間序列上全部主題的相似度測量結(jié)果,分別從數(shù)量與內(nèi)容的角度分析二者之間的關(guān)聯(lián)影響。計算得到相同時間窗口基金項目與論文的相似性相關(guān)數(shù)據(jù),如表5所示。
表5 相同時間窗口基金項目與論文相似性數(shù)據(jù)
表5中的數(shù)據(jù)顯示,在t1~t5時間窗口中,基金項目與論文的主題之間滿足相似程度的關(guān)聯(lián)共有49對??紤]到論文數(shù)據(jù)來自更大的學(xué)科領(lǐng)域,因此以論文主題數(shù)為分母,得到相似主題占比如表中所示。表5中較高的相似主題占比(35.00%~50.00%)表明來自于較小領(lǐng)域的基金項目與所隸屬的較大領(lǐng)域的科學(xué)論文之間存在較大的相似性,二者之間的存在一定的關(guān)聯(lián)關(guān)系。但是基于同一時間窗口的比較僅僅能夠說明二者間存在關(guān)聯(lián),尚不能確定二者之間的影響關(guān)系。研究工作進一步結(jié)合時間序列的先后順序,考察二者之間的影響關(guān)系?;跁r間順序的影響關(guān)系如表6所示。
表6 基于時間順序的基金項目與論文間影響關(guān)系
表6中,整個時間序列上基金項目與論文之間的影響關(guān)系共計99對。其中基金項目對論文的影響關(guān)系(基金項目在前,論文在后)數(shù)量為63對,論文對基金項目的影響關(guān)系(論文在前,基金項目在后)36對。基金項目立項需要一定相關(guān)的前期積累,而項目研究又會產(chǎn)出相應(yīng)的研究成果。從數(shù)量來看,即使較小領(lǐng)域的基金項目對所隸屬的更大領(lǐng)域的論文產(chǎn)生的影響仍然要大于論文對基金項目的影響。從影響的時間長度上來看,基金項目對論文的影響關(guān)系中,跨越1~4個時間窗口的影響關(guān)系數(shù)量分別為26、18、13、6,平均時間長度為1.984個時間窗口(約3.968年)。論文對基金項目跨越1~4個時間窗口的影響關(guān)系數(shù)量分別為13、15、6、2,平均時間長度為1.917個時間窗口(約3.834年)。從這個意義上講,基金項目對論文的影響周期更長遠一些。研究工作采用?;鶊D將99對影響關(guān)系逐一列示,結(jié)果如圖3所示。
圖3中,由左向右表示基金項目或論文對另一方的影響關(guān)系,連邊的寬度為主題相似程度,反映影響關(guān)系的強弱。這種影響關(guān)系在現(xiàn)實中對研究工作的開展產(chǎn)生引導(dǎo)或促進作用。從圖中可知,t1時間窗口的基金項目對論文影響較大的主題包括#2、#4、#5、#16(圖中空心數(shù)字顯示)等。其中,基金項目#2主題是軌道交通的可靠性方面的內(nèi)容;#4主題是公路行駛安全方面的內(nèi)容;#5主題主要是信號控制等智能交通方面的內(nèi)容;#16主題為尾氣污染等環(huán)境保護方面的內(nèi)容。上述前3個基金項目主題對交通運輸領(lǐng)域論文的影響蔓延至t2~t5時間窗口,#16主題的影響波及t3~t5時間窗口。此外,其他對后期論文產(chǎn)生較大影響的基金項目主題包括t2時間窗口的#13、#15、#16主題,以及t3時間窗口的#4、#5、#14主題等。其對應(yīng)的主題內(nèi)容分別為基礎(chǔ)設(shè)施可靠性、道路建設(shè)材料、安全危險識別、安全風(fēng)險評估、信號智能控制、軌道交通優(yōu)化6個方面。影響波及范圍均涉及其后至少2個時間窗口。
另外,論文對基金項目的影響主要集中于t1、t2兩個時間窗口。t1時間窗口對基金項目影響較大主題為#4、#5、#10(圖中實心數(shù)字顯示)。#4主題是危險駕駛行為方面的內(nèi)容,#5主題為行人出行安全問題,#10主題為城市公共交通政策方面的內(nèi)容。3個論文主題的影響范圍至少涉及其后的2個時間窗口,但最遠只波及到t4時間窗口。t2時間窗口#9、#12主題對基金項目的影響較大,#9主題為可靠性評估的內(nèi)容,#12主題仍為駕駛行為安全的內(nèi)容。影響范圍同樣涉及至少2個時間窗口。
綜合基金項目與論文之間的雙向影響關(guān)系,顯然基于文本語義的關(guān)聯(lián)影響分析的識別粒度更細,而且基金項目對論文的影響更大,作用周期更長。其中,在軌道交通、交通安全、綠色交通、智能交通、道路材料等方面,我國的自然科學(xué)基金項目都對國際學(xué)術(shù)界交通運輸領(lǐng)域的相關(guān)研究產(chǎn)生了引導(dǎo)與促進作用。
圖3 基金項目與論文之間的影響關(guān)系
本文通過基金項目與論文、下位學(xué)科與上位學(xué)科、關(guān)鍵詞與文本主題、網(wǎng)絡(luò)分析與時間序列分析多維度結(jié)合的綜合分析,對國家自然科學(xué)基金項目與國際學(xué)術(shù)界科學(xué)研究成果之間的關(guān)聯(lián)影響進行識別與分析。綜合上述分析結(jié)果,研究工作初步得出以下結(jié)論。
(1)較小領(lǐng)域的基金項目與所隸屬的更大領(lǐng)域科學(xué)研究之間存在關(guān)聯(lián)影響關(guān)系。關(guān)鍵詞網(wǎng)絡(luò)的分析結(jié)果顯示,基金項目與科學(xué)論文之間存在大量相似或相近的高度值高詞頻關(guān)鍵詞(見表3、表4);主題分析則顯示相同時間窗口的主題相似程度達到35.00%~50.00%(見表5),在時間先后順序上形成99條相互關(guān)聯(lián)影響關(guān)系(見表6),其中以交通安全領(lǐng)域表現(xiàn)最為突出。這些現(xiàn)象與數(shù)據(jù)說明,即使較小領(lǐng)域的基金項目與其所隸屬的更大學(xué)科領(lǐng)域的科學(xué)研究之間也存在關(guān)聯(lián)影響關(guān)系,可為國家在對科技創(chuàng)新的資助上選擇重點方向?qū)崿F(xiàn)以點帶面,提供了數(shù)據(jù)支持。
(2)基金項目與科學(xué)論文之間前者對后者的引導(dǎo)與促進作用更大。盡管基金項目立項前的研究積累與立項后的成果產(chǎn)出,在一定程度上決定了基金項目與論文之間的關(guān)聯(lián)影響是相互的,但是研究中也發(fā)現(xiàn)一些關(guān)鍵詞在基金項目與科學(xué)論文之間存在時差,即基金項目關(guān)鍵詞先于論文關(guān)鍵詞(見表3、表4)。而主題分析中識別出的99條影響關(guān)系(見表6)中,基金項目對論文的影響關(guān)系(63條)要遠多于論文對基金項目的影響關(guān)系(36條)。加之論文關(guān)鍵詞中“中國”在時間軸后期的高頻出現(xiàn),都進一步表明我國自然科學(xué)基金項目對相關(guān)領(lǐng)域科學(xué)研究的引導(dǎo)與促進作用。
(3)基金項目與科學(xué)論文之間前者對后者的影響持續(xù)時間更長。研究中基于主題相似度與時間先后順序識別出的99條關(guān)聯(lián)影響關(guān)系中,基金項目對論文的影響關(guān)系的平均作用時間長達1.984個時間窗口(見表6),比論文對基金項目的影響周期更長;而且圖3中大部分此類影響關(guān)系的作用一直蔓延到時間軸的末端(t5時間窗口)。相對而言,論文對基金項的影響作用則周期較短。這一結(jié)果為國家通過基金資助調(diào)控科技創(chuàng)新主攻方向,提供了有力的科學(xué)支持。
研究中采用的科技信息的多維度分析視角與方法,能夠有效挖掘與發(fā)現(xiàn)維度間潛在的模式與規(guī)律,為科學(xué)研究提供更全景化的信息服務(wù)。研究中也存在一些局限,基于單一領(lǐng)域分析基金項目與科研成果的特征難免存在些許局限。未來的研究工作將納入更廣泛的學(xué)科領(lǐng)域,融合更加多維的信息,探索科學(xué)研究與科技創(chuàng)新中更細粒度的模式與規(guī)律。