郭 強(qiáng),陳清文,劉建國
(1. 上海理工大學(xué)復(fù)雜系統(tǒng)科學(xué)研究中心 上海 楊浦區(qū) 200093;2. 上海財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院 上海 楊浦區(qū) 200433)
引文網(wǎng)絡(luò)的建模與分析已經(jīng)被廣泛用于評(píng)價(jià)科學(xué)家、科研單位甚至地區(qū)或國家的學(xué)術(shù)影響力。論文的應(yīng)用次數(shù)對(duì)科學(xué)家、科學(xué)家的職稱評(píng)定、科研獎(jiǎng)勵(lì)等方面都具有重要意義[1-3]。引文網(wǎng)絡(luò)的分析結(jié)果已經(jīng)被應(yīng)用于科研管理政策的制定、科研激勵(lì)等措施,對(duì)學(xué)科發(fā)展具有重要意義[4]。
當(dāng)前,基于科研引文網(wǎng)絡(luò)分析方法主要?dú)w為兩類:基于統(tǒng)計(jì)和基于網(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)方法?;诮y(tǒng)計(jì)的評(píng)價(jià)方法包括基本科學(xué)指標(biāo)數(shù)據(jù)庫(ESI)[5-7]、總引用次數(shù)、總論文發(fā)表數(shù)、H 指數(shù)[8]、G 指數(shù)[9]、I10 指數(shù)[10]等指標(biāo)。2001 年,美國科技信息所(ISI)提出ESI 指標(biāo)用來度量科學(xué)研究績效[5-6]。ESI 是從論文發(fā)表總數(shù)、引文次數(shù)、平均被引頻次等多個(gè)方面對(duì)國家/地區(qū)科研水平、機(jī)構(gòu)學(xué)術(shù)聲譽(yù)以及期刊學(xué)術(shù)水平進(jìn)行衡量。但是ESI 只考慮編入Thomson Reuters 索引的期刊中發(fā)表的書籍、文獻(xiàn)[7],限制了其客觀性。文獻(xiàn)[8]提出既考慮引用量又考慮發(fā)文章數(shù)的H 指數(shù)。一個(gè)人或組織的H 指數(shù)定義為其發(fā)表的所有文章中被引次數(shù)大于等于H 次的論文超過H 篇。一名科學(xué)家的H 指數(shù)越高,他的論文影響力越大。但是H 指數(shù)無法對(duì)只發(fā)表了少數(shù)幾篇重要文獻(xiàn)的科學(xué)家的工作進(jìn)行評(píng)價(jià)。文獻(xiàn)[9]在H 指數(shù)上做出改進(jìn),提出了G 指數(shù)。G 指數(shù)是一種基于學(xué)者以往貢獻(xiàn)的科學(xué)家影響力評(píng)估方法。此外,一些用來完善或優(yōu)化H 指數(shù)的指標(biāo)也相繼被提出。2011 年,谷歌提出了I10 指數(shù)[10],即科學(xué)家發(fā)表文章中被引次數(shù)大于等于10 次的文章數(shù)?;诰W(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)方法包括基于科學(xué)家合作[11-12]和引用網(wǎng)絡(luò)的PageRank 算法[13-14]?;诤献骶W(wǎng)絡(luò)的PageRank 算法是指基于合作網(wǎng)絡(luò)中科學(xué)家之間的合作關(guān)系對(duì)科學(xué)家進(jìn)行評(píng)價(jià),該方法主要反映了科學(xué)家在合作網(wǎng)絡(luò)中的影響力。基于引用網(wǎng)絡(luò)的PageRank 算法則是基于文獻(xiàn)之間的引用關(guān)系和科學(xué)家之間的引用網(wǎng)絡(luò)對(duì)科學(xué)家的學(xué)術(shù)水平進(jìn)行評(píng)估。但是,上述全部方法都只考慮了科學(xué)家發(fā)表文章數(shù)、文章引用量,沒有考慮到科學(xué)家的溝通、時(shí)間等投入成本。因此,本文提出一種考慮輸入和輸出變量的投入產(chǎn)出模型,對(duì)科學(xué)家的績效進(jìn)行綜合評(píng)價(jià)。
假設(shè)有甲乙兩位科學(xué)家,科學(xué)家甲與多名科學(xué)家合作發(fā)表了一篇文章,而科學(xué)家乙與一名科學(xué)家合作也發(fā)表了一篇文章,同時(shí)他們文章的引用量也相同。用H 指數(shù)等指標(biāo)計(jì)量甲乙兩名科學(xué)家的投入產(chǎn)出績效是相同的。但是,甲比乙投入的多,占用的社會(huì)資源更多。如果乙和甲擁有相同的社會(huì)資源,乙就可能有更多的產(chǎn)出。綜合考慮科學(xué)家的投入和產(chǎn)出要素,本文工作主要是提出了一種考慮投入和產(chǎn)出的科學(xué)家績效算法。算法在考慮科學(xué)家的科研產(chǎn)出的同時(shí),也考慮了科學(xué)家的溝通、時(shí)間等投入成本,從投入和產(chǎn)出的視角對(duì)科學(xué)家的績效進(jìn)行建模評(píng)價(jià)。在APS 實(shí)證數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法可以更準(zhǔn)確地識(shí)別出獲諾貝爾獎(jiǎng)的科學(xué)家,其中本文算法的AUC 值為0.7957,比只考慮總引用量的評(píng)價(jià)方法的準(zhǔn)確度提高了8.77%。此外,對(duì)于APS 數(shù)據(jù)集,64.29%的科學(xué)家獲得諾獎(jiǎng)前的投入產(chǎn)出績效高于獲得諾獎(jiǎng)后的投入產(chǎn)出績效。對(duì)于Web of science 數(shù)據(jù)集,81.25%的科學(xué)家獲得杰青前的投入產(chǎn)出績效高于獲得杰青后的投入產(chǎn)出績效。
本文限定科學(xué)家的投入產(chǎn)出績效 hj不超過1,即maxhj≤1,這意味著,若第j位科學(xué)家hj=1,則第j位科學(xué)家相對(duì)于其他科學(xué)家而言,他的投入產(chǎn)出績效最高;若hj<1,則說明第j 位科學(xué)家相對(duì)于其他科學(xué)家而言,他的投入產(chǎn)出績效有待提高??茖W(xué)家j*(j?∈j,且j*為j 中任意一個(gè)科學(xué)家)的投入產(chǎn)出績效經(jīng)Charnes-Cooper 變換,可得[15]:
當(dāng)前,科研合作是科研人員進(jìn)行科學(xué)研究的主要方式。科研合作伙伴之間技能互補(bǔ)、相互信任,有助于科學(xué)家雙方科研事業(yè)長期可持續(xù)發(fā)展。其中,科研論文合作是科研合作的重要形式,論文的質(zhì)量是度量科研產(chǎn)出的重要指標(biāo)。已有的文獻(xiàn)顯示,論文作者越多,則論文被引用次數(shù)越多[16]。也有學(xué)者發(fā)現(xiàn)一篇論文的署名機(jī)構(gòu)越多,則論文被引用次數(shù)越高。因此,本文假定合作科學(xué)家數(shù)量和合作機(jī)構(gòu)數(shù)量可以作為投入產(chǎn)出模型的輸入變量[17-18]。
科學(xué)家間的合作能夠促進(jìn)科研產(chǎn)出[19-20]。圖1給出了科學(xué)家發(fā)文量和平均被引用次數(shù)與合作科學(xué)家數(shù)量,以及合作機(jī)構(gòu)數(shù)之間的關(guān)系。從中可以發(fā)現(xiàn),合作科學(xué)家數(shù)量和機(jī)構(gòu)數(shù)對(duì)于提高論文數(shù)量和平均被引次數(shù)具有促進(jìn)作用。
圖1 論文平均被引次數(shù)與合作科學(xué)家數(shù)和合作機(jī)構(gòu)數(shù)的關(guān)聯(lián)關(guān)系
假如科學(xué)家甲和乙都發(fā)表了1 篇論文,其被引次數(shù)都為0,科學(xué)家甲與3 人合作,分別隸屬于與科學(xué)家甲不同的3 所科研機(jī)構(gòu),而科學(xué)家乙與1 人合作,隸屬于與科學(xué)家乙不同的1 所科研機(jī)構(gòu),則甲、乙科學(xué)家的H 指數(shù)、發(fā)文章量、引用量也一樣。此時(shí),如果不考慮科學(xué)家合作的科學(xué)家數(shù)量以及科學(xué)家合作的機(jī)構(gòu)數(shù)量,則無法準(zhǔn)確地判定出哪一位科學(xué)家的績效更高。根據(jù)投入產(chǎn)出績效算法可以計(jì)算得出:
可以看到,h甲=0.333 本文采用美國物理學(xué)會(huì)(APS)1893~2009年的數(shù)據(jù)。為了研究科學(xué)家的投入產(chǎn)出績效,最終處理的APS 數(shù)據(jù)集包含超過247 889 名科學(xué)家(包括35 名獲得諾貝爾物理學(xué)獎(jiǎng)的科學(xué)家)、451 034 篇論文和462 145 次引用。此外,本文采用了Web of science 數(shù)據(jù)集包括2011?2015 年國家杰出青年科學(xué)基金(NSFDYS)管理科學(xué)部的資助者在Web of science 數(shù)據(jù)庫發(fā)表的所有論文。數(shù)據(jù)集包含標(biāo)題、出版年份、科學(xué)家名稱、每位科學(xué)家的隸屬機(jī)構(gòu)以及每篇論文的引用次數(shù)。為了研究獲獎(jiǎng)?wù)攉@獎(jiǎng)前后科學(xué)家的投入產(chǎn)出表現(xiàn),本文手動(dòng)處理了科學(xué)家獲獎(jiǎng)前后論文的引文量,篩選出獲獎(jiǎng)前后都有數(shù)據(jù)的科學(xué)家為實(shí)驗(yàn)對(duì)象。Web of science 最終處理的數(shù)據(jù)集包含32 位管理學(xué)科的獲杰青的科學(xué)家、1680 篇論文和22335 次引用,APS 的最終處理數(shù)據(jù)集包含28 位獲得諾獎(jiǎng)的科學(xué)家、2433 篇論文和6949 次引用。 在APS 數(shù)據(jù)集中,獲諾貝爾獎(jiǎng)的35 名科學(xué)家占總科學(xué)家數(shù)的1.4?,本文分別計(jì)算諾貝爾獎(jiǎng)科學(xué)家和非諾貝爾獎(jiǎng)科學(xué)家的投入產(chǎn)出績效,其中投入產(chǎn)出績效值在0~1 之間,1 代表科學(xué)家的投入產(chǎn)出績效最高,0 代表科學(xué)家的投入產(chǎn)出績效最低,結(jié)果分布如圖2 所示。在投入產(chǎn)出績效為0~0.2 時(shí),非諾貝爾科學(xué)家的績效累積分布的趨勢(shì)急劇上升,而諾貝爾科學(xué)家的上升趨勢(shì)比較平緩。總體上,在同一投入產(chǎn)出績效下,非諾貝爾科學(xué)家的績效累積分布比獲諾貝爾科學(xué)家的累積分布高。 圖2 科學(xué)家的投入產(chǎn)出績效累積分布圖 為了直觀看出本文提出的投入產(chǎn)出績效算法的準(zhǔn)確性[21],圖3 給出了投入產(chǎn)出績效算法與其他指標(biāo)結(jié)果的對(duì)比圖,子圖展示了績效排名前1000 名的科學(xué)家中獲諾貝爾獎(jiǎng)的科學(xué)家數(shù)分布狀態(tài)。從中可以發(fā)現(xiàn)本文提出的投入產(chǎn)出績效算法對(duì)科學(xué)家排名的準(zhǔn)確性比其他指標(biāo)高。 圖3 投入產(chǎn)出績效算法與其他指標(biāo)結(jié)果對(duì)比 本文采用AUC 指標(biāo)評(píng)價(jià)投入產(chǎn)出績效算法的準(zhǔn)確性。具體定義過程如下:分別從測(cè)試集合和非測(cè)試集合中隨機(jī)選取一位科學(xué)家,比較其投入產(chǎn)出績效。進(jìn)行n 次抽樣后,如果測(cè)試集合中的科學(xué)家投入產(chǎn)出績效高于非測(cè)試集合中的科學(xué)家績效,則記為n1。如果兩者相同,則記為n2,AUC值定義為: 當(dāng)AUC=1 時(shí)表示所有測(cè)試集中的科學(xué)家績效均高于非測(cè)試集中的結(jié)果;AUC=0.5 則表示結(jié)果與隨機(jī)抽樣的結(jié)果相同。抽樣次數(shù)n 越大,結(jié)果越可靠,本文取n=105。表1 給出了不同指標(biāo)的AUC 值,從中可以發(fā)現(xiàn)本文方法的結(jié)果為0.7957,比其他指標(biāo)中最高的總引用量指標(biāo)提高了8.77%。 表1 各指標(biāo)的AUC 值 本文研究了杰出青年基金獲得者和諾貝爾獎(jiǎng)獲得者兩個(gè)數(shù)據(jù)集的科學(xué)家投入產(chǎn)出績效:APS 數(shù)據(jù)集和web of science 數(shù)據(jù)集。圖4a 是28 位科學(xué)家獲諾貝爾獎(jiǎng)前后投入產(chǎn)出績效柱狀圖。其中,紅色代表科學(xué)家獲得諾貝爾獎(jiǎng)前的投入產(chǎn)出績效,藍(lán)色代表獲得科學(xué)家諾貝爾獎(jiǎng)后的投入產(chǎn)出績效。從圖4a 可以看出18 位科學(xué)家的獲獎(jiǎng)前的投入產(chǎn)出績效比獲獎(jiǎng)后的投入產(chǎn)出績效高,1 位科學(xué)家的投入產(chǎn)出績效不變。圖4b 的2011?2015 年獲得國家杰出青年科學(xué)基金的管理學(xué)部的32 位科學(xué)家投入產(chǎn)出績效柱狀圖。其中,紅色代表獲得杰青基金前的投入產(chǎn)出績效,藍(lán)色代表獲得杰青基金后的投入產(chǎn)出績效。從圖4b 可以看出26 位科學(xué)家獲獎(jiǎng)前的投入產(chǎn)出績效比獲獎(jiǎng)后的投入產(chǎn)出績效高,1 位科學(xué)家的投入產(chǎn)出績效不變。 圖4 科學(xué)家獲獎(jiǎng)前后投入產(chǎn)出績效柱狀圖 本文提出了一種考慮科學(xué)家投入和產(chǎn)出信息的績效評(píng)價(jià)算法。在評(píng)價(jià)科學(xué)家績效的時(shí)候,除了要考慮科學(xué)家的發(fā)表論文和論文影響力等產(chǎn)出績效,還需要考慮科學(xué)家的投入精力因素。如科學(xué)家需要花大量的時(shí)間進(jìn)行溝通、協(xié)商才能夠彼此合作。因此,本文考慮了合作科學(xué)家數(shù)和合作機(jī)構(gòu)數(shù)等投入因素,對(duì)科學(xué)家的投入產(chǎn)出績效進(jìn)行綜合評(píng)價(jià)。在包含近百年數(shù)據(jù)的美國物理學(xué)會(huì)上的實(shí)驗(yàn)結(jié)果表明,本文提出方法的AUC 值為0.7957,相比于總引用量的評(píng)價(jià)結(jié)果,準(zhǔn)確率提高了8.77%。此外,科學(xué)家在獲獎(jiǎng)前后的投入產(chǎn)出績效實(shí)驗(yàn)結(jié)果表明,大部分科學(xué)家獲獎(jiǎng)前的投入產(chǎn)出績效高于獲獎(jiǎng)后科學(xué)家的投入產(chǎn)出績效。 科學(xué)家投入產(chǎn)出績效算法取決于投入要素和產(chǎn)出要素的選取,因此可以研究更多投入要素,使科學(xué)家的排名更準(zhǔn)確。如科學(xué)家投入產(chǎn)出績效在一定程度上取決于科學(xué)家研究的主題,而本文方法并沒有考慮到研究主題這個(gè)投入變量。同時(shí),具有意義的研究主題可能會(huì)有更多的產(chǎn)出(發(fā)表的論文數(shù)),在未來的工作里會(huì)考慮加入研究主題來研究科學(xué)家的投入產(chǎn)出績效[22-23]。除此之外,獲獎(jiǎng)科學(xué)家獲獎(jiǎng)前后績效的差異的原因很多,如得獎(jiǎng)的年齡很大,得獎(jiǎng)后文章的價(jià)值還沒有完全發(fā)揮出來等,而本文的方法中并沒有考慮到這些影響因素。2 數(shù)值實(shí)驗(yàn)
2.1 數(shù)據(jù)集
2.2 實(shí)驗(yàn)結(jié)果
2.3 獲獎(jiǎng)前后的投入產(chǎn)出績效
3 結(jié) 束 語