白瑩瑩
摘 要:隨著學(xué)術(shù)網(wǎng)絡(luò)平臺(tái)上科技論文的大量發(fā)表,高效地從復(fù)雜的學(xué)術(shù)網(wǎng)絡(luò)中找到符合用戶需要的有價(jià)值的文章及其作者成為當(dāng)前一項(xiàng)重要而困難的工作。文章首先對(duì)學(xué)術(shù)社區(qū)發(fā)現(xiàn)算法的研究現(xiàn)狀進(jìn)行說(shuō)明;然后對(duì)論文排名和作者影響力評(píng)估算法進(jìn)行論述;最后總結(jié)論文排名和作者影響力評(píng)估算法存在的不足和面臨的挑戰(zhàn),并對(duì)學(xué)術(shù)影響力排名的發(fā)展前景進(jìn)行展望。
關(guān)鍵詞:學(xué)術(shù)社區(qū);文獻(xiàn)排名;PageRank算法;作者影響力
隨著科技的進(jìn)步,越來(lái)越多的學(xué)者參與到科學(xué)研究工作當(dāng)中,導(dǎo)致文獻(xiàn)的數(shù)量呈現(xiàn)海量增長(zhǎng)。這些文獻(xiàn)為我們開(kāi)展研究工作提供了很大方便的同時(shí)也帶來(lái)了一些困難。在開(kāi)展科研工作的過(guò)程中,我們不可能閱讀所有的文獻(xiàn),而是要在大量的數(shù)據(jù)中找到屬于自己研究領(lǐng)域的高水平文章和學(xué)者。這時(shí)就需要根據(jù)論文信息構(gòu)建學(xué)術(shù)網(wǎng)絡(luò),并根據(jù)論文的主題對(duì)學(xué)術(shù)網(wǎng)絡(luò)進(jìn)行領(lǐng)域劃分。目前,學(xué)術(shù)網(wǎng)絡(luò)的相關(guān)研究得到了相當(dāng)大的關(guān)注,是極具活力和熱度的研究領(lǐng)域。
1 學(xué)術(shù)社區(qū)發(fā)現(xiàn)
近年來(lái),很多學(xué)者研究復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)得到許多不同的理論,提出了很多社區(qū)劃分算法,例如基于圖分割的算法、基于層次聚類的算法、基于模塊度優(yōu)化的算法和基于啟發(fā)式社區(qū)挖掘的算法等。
Kemighan等[1]提出了著名的K-L算法,主要是將效益函數(shù)和貪婪算法相結(jié)合來(lái)劃分網(wǎng)絡(luò)中的節(jié)點(diǎn),或者將不同社區(qū)節(jié)點(diǎn)的位置進(jìn)行交換,最終劃分社區(qū);辛娟娟[2]提出了一種基于拉普拉斯矩陣的譜特征劃分網(wǎng)絡(luò)社區(qū)的譜二分法;唐杰等[3]運(yùn)用不同的函數(shù)對(duì)譜二分法進(jìn)行改進(jìn),降低了算法的時(shí)間復(fù)雜度的算法也被提出;Girvan等[4]提出了GN算法,通過(guò)刪除最大網(wǎng)絡(luò)邊界數(shù)來(lái)實(shí)現(xiàn)社區(qū)劃分;運(yùn)用統(tǒng)計(jì)學(xué)方法,一種與GN算法類似的算法被提出,降低了算法運(yùn)行的時(shí)間復(fù)雜度;Newman[5]提出“模塊度”的概念用來(lái)評(píng)價(jià)社區(qū)質(zhì)量好壞,他們認(rèn)為模塊度越大,社區(qū)結(jié)構(gòu)越明顯。隨著對(duì)模塊度概念的進(jìn)一步理解,研究者提出許多關(guān)于優(yōu)化模塊度來(lái)尋找網(wǎng)絡(luò)社區(qū)最佳劃分的算法。
在社區(qū)發(fā)現(xiàn)算法中,標(biāo)簽傳播算法因其簡(jiǎn)單高效而被廣泛應(yīng)用,但是算法也存在著準(zhǔn)確率低、穩(wěn)定性差、易產(chǎn)生標(biāo)簽震蕩現(xiàn)象的缺點(diǎn)[6]。針對(duì)這些情況,很多科研人員提出了改進(jìn)的標(biāo)簽傳播算法,在傳統(tǒng)標(biāo)簽傳播算法的基礎(chǔ)上改善了標(biāo)簽的更新策略和傳播策略,從而在保證算法效率的基礎(chǔ)上提高了算法的準(zhǔn)確性和穩(wěn)定性,提升了社區(qū)劃分的質(zhì)量。
2 文獻(xiàn)排名算法
目前國(guó)內(nèi)外對(duì)于文獻(xiàn)排名算法的研究有很多,很多學(xué)者根據(jù)引文網(wǎng)絡(luò)和鏈接網(wǎng)絡(luò)的相似性將PageRank算法應(yīng)用到文獻(xiàn)排名算法中,其計(jì)算公式如下:
其中,N為引文網(wǎng)絡(luò)中文獻(xiàn)總數(shù);PR(A)表示引用了文獻(xiàn)A的文獻(xiàn)Pi的PageRank值;C(Pi)表示引用了文獻(xiàn)的文獻(xiàn)數(shù);α為處于0~1之間的經(jīng)驗(yàn)常數(shù)。
隨著PageRank算法的廣泛應(yīng)用,有學(xué)者開(kāi)始在學(xué)術(shù)文獻(xiàn)排名中將PageRank算法和其他指標(biāo)相結(jié)合來(lái)得到更好的排名結(jié)果[7]。Age-based PageRank算法[8]加入論文發(fā)表時(shí)間來(lái)改進(jìn)排名算法;CiteRank算法是針對(duì)引用網(wǎng)絡(luò)而設(shè)計(jì)的一種文獻(xiàn)排名算法,它是一種基于文獻(xiàn)發(fā)表時(shí)間和隨機(jī)游走的方式對(duì)文獻(xiàn)進(jìn)行排名的算法;FutureRank算法用來(lái)實(shí)現(xiàn)文獻(xiàn)未來(lái)的影響力的排名;和PageRank算法一樣,HITS算法最初也被用來(lái)定義網(wǎng)頁(yè)的重要性,劉大有等[9]將HITS算法應(yīng)用到學(xué)術(shù)網(wǎng)絡(luò)中,定義了一對(duì)與作者相關(guān)且彼此關(guān)聯(lián)的評(píng)分標(biāo)準(zhǔn)一撰寫(xiě)權(quán)威值和引用權(quán)威值,并基于FutureRank算法將文獻(xiàn)發(fā)表時(shí)間作為影響未來(lái)引用頻次的因素,預(yù)測(cè)文獻(xiàn)價(jià)值。
3 作者影響力評(píng)估
作者是學(xué)術(shù)活動(dòng)中的主體,作者影響力評(píng)估是當(dāng)前學(xué)術(shù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,獲得了科研工作者的廣泛關(guān)注,具有較強(qiáng)的應(yīng)用價(jià)值。
Hirsch[10]將作者的發(fā)文量和被引次數(shù)進(jìn)行綜合考量,提出h指數(shù)(H-index)[11]對(duì)作者進(jìn)行評(píng)價(jià)研究,h指數(shù)是指某位學(xué)者至多有h篇論文分別被引用了至少h次,H-index綜合考慮了作者的發(fā)文數(shù)量和文獻(xiàn)的被引用次數(shù);此后很多學(xué)者考慮到h指數(shù)的缺陷,在此基礎(chǔ)上對(duì)h指數(shù)進(jìn)行修正,提出了一系列衍生算法。
傳統(tǒng)的PageRank算法評(píng)價(jià)作者影響力的算法評(píng)價(jià)作者的影響力忽略了時(shí)間因素,發(fā)表時(shí)間越久的論文被引用的次數(shù)可能更多,相應(yīng)的PageRank值越大。但是在現(xiàn)實(shí)生活中,我們一般認(rèn)為最新發(fā)表的論文應(yīng)該具有更大的參考價(jià)值;H-index算法只考慮文章的被引頻次,忽略了文章本身的價(jià)值。文章結(jié)合這兩個(gè)算法,并加入時(shí)間因素對(duì)算法進(jìn)行改進(jìn)[12]。
4 作者影響力評(píng)估算法的改進(jìn)
作者影響力評(píng)估算法改進(jìn)的思想是:基于論文的引用關(guān)系矩陣[13],使用PageRank算法迭代計(jì)算每篇文章的PageRank值,然后基于作者和論文之間的關(guān)系矩陣采用HITS算法迭代求解作者和文獻(xiàn)的權(quán)威值[14],同時(shí)考慮加入時(shí)間因素對(duì)文獻(xiàn)排名算法進(jìn)行改進(jìn),用改進(jìn)的PageRank算法對(duì)社區(qū)內(nèi)的文章進(jìn)行影響力排名。
在文獻(xiàn)排名的基礎(chǔ)上對(duì)作者的影響力進(jìn)行排名,使用改進(jìn)的PageRank算法替換H-index算法中的引用數(shù),可以得到一個(gè)改進(jìn)的作者影響力評(píng)估算法。
5 結(jié)語(yǔ)
隨著科研工作的發(fā)展,越來(lái)越多的學(xué)者參與到科研工作中,大量的學(xué)術(shù)論文被發(fā)表。如何從龐大的科研工作數(shù)據(jù)庫(kù)中找到影響力較大的作者和文獻(xiàn),是目前影響力評(píng)估算法研究的重點(diǎn)工作。本文對(duì)社區(qū)發(fā)現(xiàn)、論文排名和作者影響力評(píng)估相關(guān)算法研究成果進(jìn)行分析綜述,總結(jié)了算法改進(jìn)的措施,確定了下一步研究?jī)?nèi)容,為未來(lái)學(xué)術(shù)網(wǎng)絡(luò)的研究提供幫助。
[參考文獻(xiàn)]
[1]KEMIGHAN B W, LIN S.An efficient heuristic procedure for partitioning graphs[J].Bell System Technical Journal, 1970(49):291-307.endprint
[2]辛娟娟.社區(qū)劃分算法的研究與應(yīng)用[D].北京:北京林業(yè)大學(xué),2015.
[3]唐杰,宮繼兵,劉柳,等.基于話題模型的學(xué)術(shù)社會(huì)網(wǎng)絡(luò)建模以及應(yīng)用[J].中國(guó)科技論文在線,2011(1):25-31.
[4]GIRVAN M,NEWMAN M E J. Community structure in social and biological networks[J].Proceedings of the National Academy of Sciences, 2002(12):7821-7826.
[5]NEWMAN M E J. Modularity and community in networks[J].Proceedings of the National Academy of Sciences, 2006(23):8577-8582.
[6]張俊麗,常艷麗,師文.標(biāo)簽傳播算法理論及其應(yīng)用研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2013(1):21-25.
[7]ERJIA Y, YING D. Discovering author impact:a page rank perspective:information processing and management[M].Amsterdam Elsevier Ltd., 2011.
[8]SAYYADI H, GETOOR L. FutureRank:ranking scientific articles by predicting their future PageRank[C].Siam International Conference on Data Mining , 2009 :533-544.
[9]劉大有,薛銳青,齊紅.基于作者權(quán)威值的論文價(jià)值預(yù)測(cè)算法[J].自動(dòng)化學(xué)報(bào),2012(10):1654-1662.
[10]HIRSCH J E.An index to quantify an individuals scientific output[J].Proceedings of the National Academy of Sciences of the United States of America, 2005(46):16569-16572.
[11]YAN R, TANG J, LIU X, et al. Citation count prediction:learning to estimate future citations for literature[C].Proceedings of the 20th ACM International Conference Information and Knowledge Management, Association for Computing Machinery, 2011:1247-1252.
[12]周金夢(mèng).基于學(xué)術(shù)異構(gòu)網(wǎng)絡(luò)的學(xué)者影響力評(píng)估算法[D].大連:大連理工大學(xué),2016.
[13]曾瑋.文獻(xiàn)排名預(yù)測(cè)算法及作者影響力評(píng)估算法研究[D].成都:西南大學(xué),2014.
[14]薛銳青.基于作者權(quán)威值的論文排名預(yù)測(cè)算法研究[D].長(zhǎng)春:吉林大學(xué),2012.endprint