基于引文分析的科學(xué)家投入產(chǎn)出績效算法研究

2020-10-15 01:51陳清文劉建國

電子科技大學(xué)學(xué)報(bào) 2020年5期

郭強(qiáng)，陳清文，劉建國

(1. 上海理工大學(xué)復(fù)雜系統(tǒng)科學(xué)研究中心上海楊浦區(qū) 200093；2. 上海財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院上海楊浦區(qū) 200433)

引文網(wǎng)絡(luò)的建模與分析已經(jīng)被廣泛用于評(píng)價(jià)科學(xué)家、科研單位甚至地區(qū)或國家的學(xué)術(shù)影響力。論文的應(yīng)用次數(shù)對(duì)科學(xué)家、科學(xué)家的職稱評(píng)定、科研獎(jiǎng)勵(lì)等方面都具有重要意義[1-3]。引文網(wǎng)絡(luò)的分析結(jié)果已經(jīng)被應(yīng)用于科研管理政策的制定、科研激勵(lì)等措施，對(duì)學(xué)科發(fā)展具有重要意義[4]。

當(dāng)前，基于科研引文網(wǎng)絡(luò)分析方法主要?dú)w為兩類：基于統(tǒng)計(jì)和基于網(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)方法?；诮y(tǒng)計(jì)的評(píng)價(jià)方法包括基本科學(xué)指標(biāo)數(shù)據(jù)庫(ESI)[5-7]、總引用次數(shù)、總論文發(fā)表數(shù)、H 指數(shù)[8]、G 指數(shù)[9]、I10 指數(shù)[10]等指標(biāo)。2001 年，美國科技信息所(ISI)提出ESI 指標(biāo)用來度量科學(xué)研究績效[5-6]。ESI 是從論文發(fā)表總數(shù)、引文次數(shù)、平均被引頻次等多個(gè)方面對(duì)國家/地區(qū)科研水平、機(jī)構(gòu)學(xué)術(shù)聲譽(yù)以及期刊學(xué)術(shù)水平進(jìn)行衡量。但是ESI 只考慮編入Thomson Reuters 索引的期刊中發(fā)表的書籍、文獻(xiàn)[7]，限制了其客觀性。文獻(xiàn)[8]提出既考慮引用量又考慮發(fā)文章數(shù)的H 指數(shù)。一個(gè)人或組織的H 指數(shù)定義為其發(fā)表的所有文章中被引次數(shù)大于等于H 次的論文超過H 篇。一名科學(xué)家的H 指數(shù)越高，他的論文影響力越大。但是H 指數(shù)無法對(duì)只發(fā)表了少數(shù)幾篇重要文獻(xiàn)的科學(xué)家的工作進(jìn)行評(píng)價(jià)。文獻(xiàn)[9]在H 指數(shù)上做出改進(jìn)，提出了G 指數(shù)。G 指數(shù)是一種基于學(xué)者以往貢獻(xiàn)的科學(xué)家影響力評(píng)估方法。此外，一些用來完善或優(yōu)化H 指數(shù)的指標(biāo)也相繼被提出。2011 年，谷歌提出了I10 指數(shù)[10]，即科學(xué)家發(fā)表文章中被引次數(shù)大于等于10 次的文章數(shù)?；诰W(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)方法包括基于科學(xué)家合作[11-12]和引用網(wǎng)絡(luò)的PageRank 算法[13-14]?；诤献骶W(wǎng)絡(luò)的PageRank 算法是指基于合作網(wǎng)絡(luò)中科學(xué)家之間的合作關(guān)系對(duì)科學(xué)家進(jìn)行評(píng)價(jià)，該方法主要反映了科學(xué)家在合作網(wǎng)絡(luò)中的影響力。基于引用網(wǎng)絡(luò)的PageRank 算法則是基于文獻(xiàn)之間的引用關(guān)系和科學(xué)家之間的引用網(wǎng)絡(luò)對(duì)科學(xué)家的學(xué)術(shù)水平進(jìn)行評(píng)估。但是，上述全部方法都只考慮了科學(xué)家發(fā)表文章數(shù)、文章引用量，沒有考慮到科學(xué)家的溝通、時(shí)間等投入成本。因此，本文提出一種考慮輸入和輸出變量的投入產(chǎn)出模型，對(duì)科學(xué)家的績效進(jìn)行綜合評(píng)價(jià)。

假設(shè)有甲乙兩位科學(xué)家，科學(xué)家甲與多名科學(xué)家合作發(fā)表了一篇文章，而科學(xué)家乙與一名科學(xué)家合作也發(fā)表了一篇文章，同時(shí)他們文章的引用量也相同。用H 指數(shù)等指標(biāo)計(jì)量甲乙兩名科學(xué)家的投入產(chǎn)出績效是相同的。但是，甲比乙投入的多，占用的社會(huì)資源更多。如果乙和甲擁有相同的社會(huì)資源，乙就可能有更多的產(chǎn)出。綜合考慮科學(xué)家的投入和產(chǎn)出要素，本文工作主要是提出了一種考慮投入和產(chǎn)出的科學(xué)家績效算法。算法在考慮科學(xué)家的科研產(chǎn)出的同時(shí)，也考慮了科學(xué)家的溝通、時(shí)間等投入成本，從投入和產(chǎn)出的視角對(duì)科學(xué)家的績效進(jìn)行建模評(píng)價(jià)。在APS 實(shí)證數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的方法可以更準(zhǔn)確地識(shí)別出獲諾貝爾獎(jiǎng)的科學(xué)家，其中本文算法的AUC 值為0.7957，比只考慮總引用量的評(píng)價(jià)方法的準(zhǔn)確度提高了8.77%。此外，對(duì)于APS 數(shù)據(jù)集，64.29%的科學(xué)家獲得諾獎(jiǎng)前的投入產(chǎn)出績效高于獲得諾獎(jiǎng)后的投入產(chǎn)出績效。對(duì)于Web of science 數(shù)據(jù)集，81.25%的科學(xué)家獲得杰青前的投入產(chǎn)出績效高于獲得杰青后的投入產(chǎn)出績效。

1 科學(xué)家投入產(chǎn)出績效算法

1.1 科學(xué)家投入產(chǎn)出績效算法的建立

本文限定科學(xué)家的投入產(chǎn)出績效 hj不超過1，即maxhj≤1，這意味著，若第j位科學(xué)家hj=1，則第j位科學(xué)家相對(duì)于其他科學(xué)家而言，他的投入產(chǎn)出績效最高；若hj<1，則說明第j 位科學(xué)家相對(duì)于其他科學(xué)家而言，他的投入產(chǎn)出績效有待提高?？茖W(xué)家j*(j?∈j，且j*為j 中任意一個(gè)科學(xué)家)的投入產(chǎn)出績效經(jīng)Charnes-Cooper 變換，可得[15]：

1.2 投入要素、產(chǎn)出要素的選取

當(dāng)前，科研合作是科研人員進(jìn)行科學(xué)研究的主要方式。科研合作伙伴之間技能互補(bǔ)、相互信任，有助于科學(xué)家雙方科研事業(yè)長期可持續(xù)發(fā)展。其中，科研論文合作是科研合作的重要形式，論文的質(zhì)量是度量科研產(chǎn)出的重要指標(biāo)。已有的文獻(xiàn)顯示，論文作者越多，則論文被引用次數(shù)越多[16]。也有學(xué)者發(fā)現(xiàn)一篇論文的署名機(jī)構(gòu)越多，則論文被引用次數(shù)越高。因此，本文假定合作科學(xué)家數(shù)量和合作機(jī)構(gòu)數(shù)量可以作為投入產(chǎn)出模型的輸入變量[17-18]。

科學(xué)家間的合作能夠促進(jìn)科研產(chǎn)出[19-20]。圖1給出了科學(xué)家發(fā)文量和平均被引用次數(shù)與合作科學(xué)家數(shù)量，以及合作機(jī)構(gòu)數(shù)之間的關(guān)系。從中可以發(fā)現(xiàn)，合作科學(xué)家數(shù)量和機(jī)構(gòu)數(shù)對(duì)于提高論文數(shù)量和平均被引次數(shù)具有促進(jìn)作用。

圖1 論文平均被引次數(shù)與合作科學(xué)家數(shù)和合作機(jī)構(gòu)數(shù)的關(guān)聯(lián)關(guān)系

1.3 科學(xué)家投入產(chǎn)出績效算法的計(jì)算示例

假如科學(xué)家甲和乙都發(fā)表了1 篇論文，其被引次數(shù)都為0，科學(xué)家甲與3 人合作，分別隸屬于與科學(xué)家甲不同的3 所科研機(jī)構(gòu)，而科學(xué)家乙與1 人合作，隸屬于與科學(xué)家乙不同的1 所科研機(jī)構(gòu)，則甲、乙科學(xué)家的H 指數(shù)、發(fā)文章量、引用量也一樣。此時(shí)，如果不考慮科學(xué)家合作的科學(xué)家數(shù)量以及科學(xué)家合作的機(jī)構(gòu)數(shù)量，則無法準(zhǔn)確地判定出哪一位科學(xué)家的績效更高。根據(jù)投入產(chǎn)出績效算法可以計(jì)算得出：

可以看到，h甲=0.333

2 數(shù)值實(shí)驗(yàn)

2.1 數(shù)據(jù)集

本文采用美國物理學(xué)會(huì)(APS)1893～2009年的數(shù)據(jù)。為了研究科學(xué)家的投入產(chǎn)出績效，最終處理的APS 數(shù)據(jù)集包含超過247 889 名科學(xué)家(包括35 名獲得諾貝爾物理學(xué)獎(jiǎng)的科學(xué)家)、451 034 篇論文和462 145 次引用。此外，本文采用了Web of science 數(shù)據(jù)集包括2011?2015 年國家杰出青年科學(xué)基金(NSFDYS)管理科學(xué)部的資助者在Web of science 數(shù)據(jù)庫發(fā)表的所有論文。數(shù)據(jù)集包含標(biāo)題、出版年份、科學(xué)家名稱、每位科學(xué)家的隸屬機(jī)構(gòu)以及每篇論文的引用次數(shù)。為了研究獲獎(jiǎng)?wù)攉@獎(jiǎng)前后科學(xué)家的投入產(chǎn)出表現(xiàn)，本文手動(dòng)處理了科學(xué)家獲獎(jiǎng)前后論文的引文量，篩選出獲獎(jiǎng)前后都有數(shù)據(jù)的科學(xué)家為實(shí)驗(yàn)對(duì)象。Web of science 最終處理的數(shù)據(jù)集包含32 位管理學(xué)科的獲杰青的科學(xué)家、1680 篇論文和22335 次引用，APS 的最終處理數(shù)據(jù)集包含28 位獲得諾獎(jiǎng)的科學(xué)家、2433 篇論文和6949 次引用。

2.2 實(shí)驗(yàn)結(jié)果

在APS 數(shù)據(jù)集中，獲諾貝爾獎(jiǎng)的35 名科學(xué)家占總科學(xué)家數(shù)的1.4?，本文分別計(jì)算諾貝爾獎(jiǎng)科學(xué)家和非諾貝爾獎(jiǎng)科學(xué)家的投入產(chǎn)出績效，其中投入產(chǎn)出績效值在0～1 之間，1 代表科學(xué)家的投入產(chǎn)出績效最高，0 代表科學(xué)家的投入產(chǎn)出績效最低，結(jié)果分布如圖2 所示。在投入產(chǎn)出績效為0～0.2 時(shí)，非諾貝爾科學(xué)家的績效累積分布的趨勢(shì)急劇上升，而諾貝爾科學(xué)家的上升趨勢(shì)比較平緩。總體上，在同一投入產(chǎn)出績效下，非諾貝爾科學(xué)家的績效累積分布比獲諾貝爾科學(xué)家的累積分布高。

圖2 科學(xué)家的投入產(chǎn)出績效累積分布圖

為了直觀看出本文提出的投入產(chǎn)出績效算法的準(zhǔn)確性[21]，圖3 給出了投入產(chǎn)出績效算法與其他指標(biāo)結(jié)果的對(duì)比圖，子圖展示了績效排名前1000 名的科學(xué)家中獲諾貝爾獎(jiǎng)的科學(xué)家數(shù)分布狀態(tài)。從中可以發(fā)現(xiàn)本文提出的投入產(chǎn)出績效算法對(duì)科學(xué)家排名的準(zhǔn)確性比其他指標(biāo)高。

圖3 投入產(chǎn)出績效算法與其他指標(biāo)結(jié)果對(duì)比

本文采用AUC 指標(biāo)評(píng)價(jià)投入產(chǎn)出績效算法的準(zhǔn)確性。具體定義過程如下：分別從測(cè)試集合和非測(cè)試集合中隨機(jī)選取一位科學(xué)家，比較其投入產(chǎn)出績效。進(jìn)行n 次抽樣后，如果測(cè)試集合中的科學(xué)家投入產(chǎn)出績效高于非測(cè)試集合中的科學(xué)家績效，則記為n1。如果兩者相同，則記為n2，AUC值定義為：

當(dāng)AUC＝1 時(shí)表示所有測(cè)試集中的科學(xué)家績效均高于非測(cè)試集中的結(jié)果；AUC＝0.5 則表示結(jié)果與隨機(jī)抽樣的結(jié)果相同。抽樣次數(shù)n 越大，結(jié)果越可靠，本文取n=105。表1 給出了不同指標(biāo)的AUC 值，從中可以發(fā)現(xiàn)本文方法的結(jié)果為0.7957，比其他指標(biāo)中最高的總引用量指標(biāo)提高了8.77%。

表1 各指標(biāo)的AUC 值

2.3 獲獎(jiǎng)前后的投入產(chǎn)出績效

本文研究了杰出青年基金獲得者和諾貝爾獎(jiǎng)獲得者兩個(gè)數(shù)據(jù)集的科學(xué)家投入產(chǎn)出績效：APS 數(shù)據(jù)集和web of science 數(shù)據(jù)集。圖4a 是28 位科學(xué)家獲諾貝爾獎(jiǎng)前后投入產(chǎn)出績效柱狀圖。其中，紅色代表科學(xué)家獲得諾貝爾獎(jiǎng)前的投入產(chǎn)出績效，藍(lán)色代表獲得科學(xué)家諾貝爾獎(jiǎng)后的投入產(chǎn)出績效。從圖4a 可以看出18 位科學(xué)家的獲獎(jiǎng)前的投入產(chǎn)出績效比獲獎(jiǎng)后的投入產(chǎn)出績效高，1 位科學(xué)家的投入產(chǎn)出績效不變。圖4b 的2011?2015 年獲得國家杰出青年科學(xué)基金的管理學(xué)部的32 位科學(xué)家投入產(chǎn)出績效柱狀圖。其中，紅色代表獲得杰青基金前的投入產(chǎn)出績效，藍(lán)色代表獲得杰青基金后的投入產(chǎn)出績效。從圖4b 可以看出26 位科學(xué)家獲獎(jiǎng)前的投入產(chǎn)出績效比獲獎(jiǎng)后的投入產(chǎn)出績效高，1 位科學(xué)家的投入產(chǎn)出績效不變。

圖4 科學(xué)家獲獎(jiǎng)前后投入產(chǎn)出績效柱狀圖

3 結(jié) 束語

本文提出了一種考慮科學(xué)家投入和產(chǎn)出信息的績效評(píng)價(jià)算法。在評(píng)價(jià)科學(xué)家績效的時(shí)候，除了要考慮科學(xué)家的發(fā)表論文和論文影響力等產(chǎn)出績效，還需要考慮科學(xué)家的投入精力因素。如科學(xué)家需要花大量的時(shí)間進(jìn)行溝通、協(xié)商才能夠彼此合作。因此，本文考慮了合作科學(xué)家數(shù)和合作機(jī)構(gòu)數(shù)等投入因素，對(duì)科學(xué)家的投入產(chǎn)出績效進(jìn)行綜合評(píng)價(jià)。在包含近百年數(shù)據(jù)的美國物理學(xué)會(huì)上的實(shí)驗(yàn)結(jié)果表明，本文提出方法的AUC 值為0.7957，相比于總引用量的評(píng)價(jià)結(jié)果，準(zhǔn)確率提高了8.77%。此外，科學(xué)家在獲獎(jiǎng)前后的投入產(chǎn)出績效實(shí)驗(yàn)結(jié)果表明，大部分科學(xué)家獲獎(jiǎng)前的投入產(chǎn)出績效高于獲獎(jiǎng)后科學(xué)家的投入產(chǎn)出績效。

科學(xué)家投入產(chǎn)出績效算法取決于投入要素和產(chǎn)出要素的選取，因此可以研究更多投入要素，使科學(xué)家的排名更準(zhǔn)確。如科學(xué)家投入產(chǎn)出績效在一定程度上取決于科學(xué)家研究的主題，而本文方法并沒有考慮到研究主題這個(gè)投入變量。同時(shí)，具有意義的研究主題可能會(huì)有更多的產(chǎn)出(發(fā)表的論文數(shù))，在未來的工作里會(huì)考慮加入研究主題來研究科學(xué)家的投入產(chǎn)出績效[22-23]。除此之外，獲獎(jiǎng)科學(xué)家獲獎(jiǎng)前后績效的差異的原因很多，如得獎(jiǎng)的年齡很大，得獎(jiǎng)后文章的價(jià)值還沒有完全發(fā)揮出來等，而本文的方法中并沒有考慮到這些影響因素。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡