孫錚
目前,科技界對熱點(diǎn)學(xué)科的預(yù)測通常有2種方式,一種是通過某一個(gè)學(xué)科的權(quán)威科學(xué)家根據(jù)其自身對本領(lǐng)域的發(fā)展以及現(xiàn)狀作出的個(gè)人預(yù)測;另一種是科研工作者根據(jù)一個(gè)學(xué)科中的某一個(gè)關(guān)鍵詞被引頻次的多寡而作出的臆測。有些對未來的預(yù)測相對準(zhǔn)確,但也有一部分以往的預(yù)測與現(xiàn)今的熱點(diǎn)相左??傊瑳]有一個(gè)綜合各種因素并基于統(tǒng)計(jì)學(xué)數(shù)據(jù)的預(yù)測方法。如何充分利用論文作者的公開數(shù)據(jù)并通過設(shè)計(jì)一個(gè)科學(xué)合理的預(yù)測模型來尋找哪些學(xué)科有可能成為未來的熱點(diǎn)學(xué)科,已經(jīng)成為科技界關(guān)注的問題之一。
一、目前可利用的論文作者公開數(shù)據(jù)
科研論文在發(fā)表時(shí),可利用的公開數(shù)據(jù)有第一作者的職稱、第一作者的單位、發(fā)表刊物的名稱和發(fā)表時(shí)間。
論文發(fā)表時(shí)間可以說明,論文作者是跟隨熱點(diǎn)學(xué)科進(jìn)行研究,還是針對某一學(xué)科進(jìn)行引導(dǎo)性的研究,是評判該作者的理論是否具有前瞻性的重要依據(jù)。
論文作者的職稱在一定程度上顯示了該作者在其本學(xué)科內(nèi)是否具有科研水平和成果,是否獲得了其所在學(xué)科內(nèi)的其他專家的認(rèn)同。以職稱“高級工程師”為例,能否成為“高工”首先要在其學(xué)科領(lǐng)域內(nèi)有一定的科研成果并獲得職稱評定委員會(huì)的認(rèn)可,而職稱評定委員會(huì)一般都是由該學(xué)科內(nèi)的專家組成。
作者單位的科研水平又是由該單位所有科研人員的科研成果作為支撐,并由另一個(gè)權(quán)威評定機(jī)構(gòu)的專家組進(jìn)行評定的。
論文發(fā)表的刊物一般都有該刊物的影響因子,影響因子是通過統(tǒng)計(jì)某期刊當(dāng)年的被引用總次數(shù)除以該期刊在前2年內(nèi)發(fā)表的論文總數(shù)得出的評價(jià)指標(biāo),代表科研工作者對該刊物的認(rèn)可度。
上述數(shù)據(jù)指標(biāo)綜合起來建模預(yù)測熱點(diǎn)學(xué)科,比單純個(gè)人預(yù)測所依據(jù)的數(shù)據(jù)基礎(chǔ)更加具有權(quán)威性。
二、學(xué)科發(fā)展的不同階段與統(tǒng)計(jì)模型的設(shè)計(jì)
一個(gè)學(xué)科的成長可以分為如下幾個(gè)階段,起始階段、初始關(guān)注階段、廣泛關(guān)注階段、大面積爆發(fā)階段,爆發(fā)階段之后就是熱點(diǎn)學(xué)科了。
學(xué)科冷熱程度可以通過搜索論文關(guān)鍵詞的多寡體現(xiàn),可以理解為熱點(diǎn)關(guān)鍵詞就是熱點(diǎn)學(xué)科。
一些研究生往往是通過尋找近年的熱點(diǎn)關(guān)鍵詞來確定自己的研究方向來撰寫論文,以期望畢業(yè)時(shí)的論文更容易發(fā)表,這種情況使得某些熱點(diǎn)學(xué)科會(huì)連續(xù)熱上幾年甚至十幾年。而每個(gè)熱點(diǎn)學(xué)科的成長歷程在時(shí)間跨度上是不一致的,基礎(chǔ)學(xué)科的熱點(diǎn)往往會(huì)經(jīng)歷一個(gè)漫長的成長期甚至“冬眠”數(shù)十年之后才通過應(yīng)用手段的變化而成為熱點(diǎn),比如數(shù)學(xué)在計(jì)算機(jī)大面積普及之后,有些十九世紀(jì)的研究成果才得以應(yīng)用。而應(yīng)用學(xué)科的熱點(diǎn)會(huì)有一個(gè)很短的成長期和一個(gè)很短的衰退期。所以不能按照年度來劃分關(guān)鍵詞的統(tǒng)計(jì)階段,應(yīng)該按照第一次發(fā)現(xiàn)該關(guān)鍵詞為起始點(diǎn),該關(guān)鍵詞首次成為年度前十熱點(diǎn)關(guān)鍵詞為結(jié)束點(diǎn)。以起始點(diǎn)和結(jié)束點(diǎn)之間的中點(diǎn)為基點(diǎn),來分布各個(gè)階段之間統(tǒng)計(jì)數(shù)據(jù)。
在設(shè)計(jì)預(yù)測模型時(shí),首先要盡量避免人為的干擾,盡量以一個(gè)關(guān)鍵詞本學(xué)科的權(quán)威數(shù)據(jù)為依據(jù),以統(tǒng)計(jì)各篇論文中的關(guān)鍵詞為基礎(chǔ),并用文章第一作者的單位科研水平排名、第一作者科研水平、刊載刊物影響因子、當(dāng)年被引頻次、引用者的單位科研水平排名等數(shù)據(jù)為權(quán)重,計(jì)算一個(gè)可以編程的函數(shù),然后通過服務(wù)器的運(yùn)算來尋找具有相同成長歷程的普通關(guān)鍵詞,來預(yù)測哪些關(guān)鍵詞有可能成為下一年度或者下一階段的熱點(diǎn)學(xué)科。
三、預(yù)測模型的具體運(yùn)算方法
各項(xiàng)數(shù)據(jù)的統(tǒng)計(jì)權(quán)重是,論文第一作者的單位科研水平排名 25%
第一作者科研水平 15%
刊載刊物影響因子 25%
當(dāng)年被引頻次 15%
引用者的單位科研水平排名 10%
引用者論文刊載刊物影響因子 10%
假設(shè)2014年排名第1的關(guān)鍵詞A,第1次發(fā)表在“北京大學(xué)學(xué)報(bào) 2004-6”上,第1作者是B教授,B教授的工作單位是北京大學(xué)生命科學(xué)學(xué)院,當(dāng)年無人引用。那么A的起始得分就應(yīng)該是“[(北京大學(xué)生命科學(xué)學(xué)院的排名或者北京大學(xué)的排名*25%)+(教授*15%)+(北京大學(xué)學(xué)報(bào)的影響因子*25%)+(當(dāng)年被引0次*15%)+(引用者的單位科研水平排名*10%)+(引用者文章刊載刊物*10%)]*0.1=該關(guān)鍵詞2004年的得分”(最后乘以0.1是預(yù)防數(shù)字過大而造成服務(wù)器運(yùn)算困難而加入的保險(xiǎn)系數(shù),無被引則計(jì)算為0)。假設(shè)數(shù)值是3.8。
A在2005年第一次被別人引用,發(fā)表在“科技導(dǎo)報(bào) 2005-1”上,第1作者是C教授。C教授的工作單位中國農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院,當(dāng)年又被中國農(nóng)業(yè)科學(xué)院的D教授引用并發(fā)表在“作物學(xué)報(bào) 2005-11”上。則A的初始關(guān)注階段的得分應(yīng)該是“{(北京大學(xué)生命科學(xué)學(xué)院的排名或者北京大學(xué)的排名*25%)+[(教授+教授)*15%]+[(科技導(dǎo)報(bào)影響因子+作物學(xué)報(bào)影響因子)*25%]+(當(dāng)年被引2次*15%)+[(中國農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院的排名或者中國農(nóng)業(yè)大學(xué)的排名+中國農(nóng)科院的排名)*25%]}*0.1=該關(guān)鍵詞2005年的得分”假設(shè)數(shù)值是5.3。
這樣從起始點(diǎn)到關(guān)注段的2個(gè)數(shù)值就出來了,這樣在坐標(biāo)上就有了(-50x,3.8y)和(-40x,5.3y)兩個(gè)數(shù)值。后面的廣泛關(guān)注階段、大面積爆發(fā)階段的同樣計(jì)算出每階段的得分。
四、如何尋找學(xué)科熱點(diǎn)關(guān)鍵詞
每個(gè)熱點(diǎn)關(guān)鍵詞的情況都不會(huì)一樣,從作者到刊物的水平也都不會(huì)相似,所以每個(gè)關(guān)鍵詞的起始點(diǎn)和第1次被引的數(shù)值都不會(huì)一樣,那么如何比對2個(gè)關(guān)鍵詞或者說如何比對一個(gè)普通關(guān)鍵詞和熱點(diǎn)關(guān)鍵詞之間關(guān)系呢?
不同學(xué)科的關(guān)鍵詞之間確實(shí)沒有關(guān)聯(lián),但是科研人員水平和如何關(guān)注本學(xué)科發(fā)展是成正比的,還有如何看待本學(xué)科發(fā)展的眼光也都是相似的。如果一個(gè)普通學(xué)科能過成為熱點(diǎn),那他們的成長歷程應(yīng)該也是相似的。所以可以通過比對普通關(guān)鍵詞和熱點(diǎn)關(guān)鍵詞的成長歷程來判斷,它是否有可能成為熱點(diǎn)。假設(shè)一個(gè)普通關(guān)鍵詞為G,我們可以把剛才得出的A((-50x,3.8y),(-40x,5.3y))通過函數(shù)運(yùn)算得出其余弦角度和在坐標(biāo)中的長度,再運(yùn)算G的兩點(diǎn)間的余弦角度和在坐標(biāo)中的長度,角度和長度越接近則說明G在起始點(diǎn)與初始關(guān)注階段的發(fā)展歷程與A越類似。通過統(tǒng)計(jì)N個(gè)熱點(diǎn)關(guān)鍵詞的函數(shù)找到一個(gè)熱點(diǎn)關(guān)鍵詞發(fā)展的函數(shù)區(qū)間,G能否成為熱點(diǎn)也就可以通過比對G是否被這個(gè)區(qū)間所包含來預(yù)測。
通過統(tǒng)計(jì)每個(gè)學(xué)科的熱點(diǎn)關(guān)鍵詞來尋找各個(gè)學(xué)科內(nèi)熱點(diǎn)成長歷程特點(diǎn),來完善預(yù)測模型。當(dāng)數(shù)據(jù)累積到一定程度之后就可以大致勾勒出一個(gè)學(xué)科的熱點(diǎn)成長模式。
對學(xué)科關(guān)鍵詞的預(yù)測,可以讓學(xué)術(shù)期刊依據(jù)統(tǒng)計(jì)模型得出的評分,在刊登論文時(shí)盡量發(fā)表那些在統(tǒng)計(jì)模型中得分高的論文,這對提高影響因子有很大的幫助。同時(shí),對在校研究生準(zhǔn)確選擇科研方向也是一個(gè)輔助,對科研機(jī)構(gòu)的項(xiàng)目立項(xiàng)也可以作為參考工具。