国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TextRank的多維度智庫相互影響力評估

2020-04-06 03:43饒緒黎林晶趙佳旭林峰陳志德
關(guān)鍵詞:相似度智庫影響力

饒緒黎 林晶 趙佳旭 林峰 陳志德

摘要:本文提出了一種基于TextRank的多維度智庫相互影響力評估模型,該模型綜合考慮智庫的內(nèi)、外影響力評估。在評估內(nèi)影響力方面,該模型基于TextRank算法提取智庫文章主題,通過各文章主題來衡量智庫文章之間內(nèi)容的相似度,引入時(shí)間衰減因子描述時(shí)間對影響力的削弱;在評估外影響力方面,該模型計(jì)算主題流行度來衡量智庫文章對外部環(huán)境的影響。實(shí)驗(yàn)表明:本文提出的模型,立足于文章內(nèi)容本身,多維度評估文章的內(nèi)外影響力,能夠有效評估智庫文章的影響力,具有一定的實(shí)用性和指導(dǎo)意義。

關(guān)鍵詞:智庫;影響力;相似度;主題流行度;時(shí)間衰減

0 引言

智庫(Think Tank)概念來源于美國,目前智庫的概念不再局限于軍事和國際關(guān)系的研究機(jī)構(gòu),而是延伸到從事政治、經(jīng)濟(jì)、社會(huì)等公共問題的研究機(jī)構(gòu)[1]。智庫以公共決策為研究對象,以公共利益為研究導(dǎo)向,以社會(huì)利益為研究準(zhǔn)則的專業(yè)研究機(jī)構(gòu),又稱為“智慧庫”、“智囊團(tuán)”等。智庫通常由多個(gè)學(xué)科專家組成,在社會(huì)、經(jīng)濟(jì)、科技、軍事、外交等各方面問題為決策者出謀劃策,提供最佳理論、策略、方法、思想。智庫與公民利益直接相關(guān),以知識(shí)的形式表達(dá)社會(huì)的需求[2]。文獻(xiàn)[3]中指出,智庫可以通過情報(bào)分析、專家預(yù)測為國家提供決策依據(jù),可以為解決國內(nèi)經(jīng)濟(jì)社會(huì)發(fā)展難題提供決策,可以為總統(tǒng)決策期間提供施政綱領(lǐng),進(jìn)行政策解讀,以獲得民眾支持。因此,關(guān)于智庫影響力的研究尤其重要。

由于缺乏統(tǒng)一的評估工具和標(biāo)準(zhǔn),智庫影響力難以準(zhǔn)確評估,實(shí)證分析難度大,因此以往智庫的研究主要是定性研究。隨著現(xiàn)代信息技術(shù)的發(fā)展,一些研究者開始著手于實(shí)證分析智庫影響力,研究的方法包括問卷調(diào)查分析、智庫網(wǎng)站分析、智庫網(wǎng)絡(luò)分析等。(1)問卷調(diào)查研究:Trimbath S[4]首次嘗試使用定量分析的方法評估了1997.7~1999.6期間12家經(jīng)濟(jì)政策智庫發(fā)布新聞能見度。Leeson P T等[5]使用計(jì)量回歸的方法分析了美國州智庫在相關(guān)公共政策的影響力。金晨[6]通過分析統(tǒng)計(jì)已發(fā)布的智庫研究報(bào)告,分析了中國高校智庫的影響力情況。這些方法局限于智庫的外在機(jī)構(gòu)特性,僅采取主觀的研究方法,對智庫自身的研究成果和研究主題卻少有涉及,客觀性不足。(2)智庫網(wǎng)站分析:一些學(xué)者通過研究智庫網(wǎng)站,基于智庫的訪問與出入鏈數(shù)據(jù)來評估影響力,文獻(xiàn)[7]中提出了出鏈數(shù)的概念,認(rèn)為網(wǎng)頁的出鏈數(shù)可以用于描述文獻(xiàn)的被引用量,出鏈數(shù)越大,反映了網(wǎng)頁的指向能力強(qiáng),也就是網(wǎng)頁資源的開放程度越強(qiáng)。文獻(xiàn)[8]中提出通過鏈接分析法對中美智庫網(wǎng)站進(jìn)行分析,從總網(wǎng)頁數(shù)、總鏈接數(shù)、內(nèi)鏈接數(shù)、外鏈接數(shù)、文檔鏈接數(shù)、被鏈接網(wǎng)站數(shù)等數(shù)據(jù)指標(biāo)對中國智庫網(wǎng)站建設(shè)提出改進(jìn)方法。這些方法通過客觀的網(wǎng)站數(shù)據(jù),能夠定性分析智庫的影響力,不過這類研究往往忽略網(wǎng)頁的內(nèi)容,僅關(guān)注網(wǎng)站的鏈接數(shù)據(jù),欠缺內(nèi)容相關(guān)性。(3)智庫網(wǎng)絡(luò)分析:智庫集群和智庫網(wǎng)絡(luò)影響是西方新興的智庫研究方向,這類研究將關(guān)注點(diǎn)放在智庫聯(lián)合構(gòu)成的同盟和組織上,研究這些智庫組織對政策和社會(huì)的影響力。如文獻(xiàn)[9]中將研究智庫專家研究成果的引用率、曝光率作為依據(jù)展開智庫及其專家影響力的排名。Richard Messnarz等[10]以構(gòu)成歐洲智庫的單位-創(chuàng)新集群為研究對象,通過智庫的結(jié)構(gòu)特點(diǎn)來評估智庫的影響力。Pautz等[11]通過建立量表的方法分析英國智庫的聯(lián)合網(wǎng)絡(luò),對學(xué)術(shù)、記者、工會(huì)等不同背景智庫聯(lián)合的影響力進(jìn)行評估。這類研究立足于智庫聯(lián)合化的新趨勢,有著重要的實(shí)際意義,但是對影響力僅止于定性研究,缺少量化研究的方法;另一方面,對智庫聯(lián)合成員的個(gè)體影響缺少研究的措施。

綜上所述,目前已有通過實(shí)證方式評估智庫影響力的研究,但是這些方法主要依賴智庫的外在內(nèi)容,忽視了智庫的“內(nèi)在”,即智庫的文章與思想。而實(shí)際上,智庫的本質(zhì)在于學(xué)者們會(huì)圍繞相關(guān)主題探討思想,撰寫文章。若撰寫文章針對某主題的思想被認(rèn)可,文章的影響將逐步擴(kuò)散,相關(guān)主題的熱度也會(huì)隨之上升。若能利用智庫文章的影響力來衡量整個(gè)智庫的影響力,即從智庫的“內(nèi)在”來評估其影響力,則評估準(zhǔn)確程度就會(huì)更高。因此本文引入數(shù)據(jù)挖掘分析的方法,立足于智庫文章內(nèi)容,采用自然語言處理技術(shù),提出了一種基于TextRank的多維度智庫相互影響力評估模型,該模型綜合考慮智庫文章的內(nèi)、外影響力問題,詳細(xì)構(gòu)建了智庫文章的影響力評估方法。具體評估時(shí),本文通過文本分析算法提取智庫文章的文本特征,實(shí)現(xiàn)文本到特征向量的轉(zhuǎn)換,隨后基于特征向量進(jìn)行內(nèi)、外影響力分析,進(jìn)而綜合評估智庫文章的影響力。實(shí)驗(yàn)數(shù)據(jù)表明:該評估模型從內(nèi)部影響及外部影響兩個(gè)方面,有效刻畫智庫文章的影響,能為決策者在決策時(shí)提供參考意見。

1 基于TextRank的多維度智庫相互影響力評估模型

本文在評估智庫數(shù)據(jù)的影響力時(shí),評估所用的文本數(shù)據(jù),主要來源于智庫研究機(jī)構(gòu)所發(fā)表的文章。智庫中發(fā)表的某主題文章,產(chǎn)生的影響包含內(nèi)、外兩方面的影響:內(nèi)影響產(chǎn)生于文章對智庫內(nèi)其他文章的影響;外影響產(chǎn)生于文章對外部社會(huì)觀點(diǎn)的影響。例如當(dāng)文章P提出某主題T后,后續(xù)發(fā)表一定數(shù)量的文章圍繞主題T進(jìn)行討論,則說明文章P對智庫產(chǎn)生了一定的內(nèi)影響力。其次文章P發(fā)布后,社會(huì)上或其他智庫圍繞該主題T也發(fā)布了一定數(shù)量的文章,則說明該文章P對智庫外產(chǎn)生了外影響力。因此智庫觀點(diǎn)會(huì)引起廣泛討論的特點(diǎn)使得我們需要通過內(nèi)、外兩方面綜合評估智庫文章的影響力。接下來本文將展開討論智庫文章內(nèi)、外兩部分影響力評估的構(gòu)建。

1.1 內(nèi)影響力評估

為評估文章對智庫內(nèi)部文章產(chǎn)生的影響力,本文采用TextRank算法[12]挖掘智庫文章的關(guān)鍵詞數(shù)據(jù),構(gòu)建文章的特征向量。TextRank算法以PageRank鏈接分析理論為基礎(chǔ),對文章詞語的重要程度迭代計(jì)算,只需要文檔本身即可實(shí)現(xiàn)詞語重要程度的計(jì)算,是目前無監(jiān)督關(guān)鍵詞挖掘的主流方法,簡潔并高效。本文在分析智庫文章中,涉及大量的文本關(guān)鍵詞提取,計(jì)算量較大且精確度要求高,故使用TextRank算法進(jìn)行文章關(guān)鍵詞提取。

挖掘到文章特征關(guān)鍵詞后,組建文章特征向量,并依據(jù)特征向量計(jì)算某篇文章與該篇文章發(fā)表后的所有文章之間的相似度,相似度越大,說明兩篇文章內(nèi)容越相似,即發(fā)表時(shí)間在前的文章對發(fā)表時(shí)間在后的文章影響越大。同時(shí),考慮到由于文章的影響力會(huì)隨著時(shí)間的推移逐漸減弱,在評估影響力時(shí)引入了時(shí)間衰減因子。

為實(shí)現(xiàn)文章間相似度的計(jì)算,本文首先基于TextRank算法對文章進(jìn)行特征提取。該算法通過將文本分割成若干組成單元(如單詞、句子)并建立圖模型,利用局部詞匯之間關(guān)系(共現(xiàn)窗口)迭代傳播圖模型的各個(gè)節(jié)點(diǎn)權(quán)重,直至收斂,最后對關(guān)鍵詞進(jìn)行排序,得到最重要的n個(gè)單詞。TextRank利用單篇文檔本身包含的文本信息即可實(shí)現(xiàn)關(guān)鍵詞提取、文本摘要的提取,該算法廣泛應(yīng)用于實(shí)際的文本挖掘中。

智庫文章同樣存在著多層影響關(guān)系,類似于學(xué)術(shù)研究領(lǐng)域的引文網(wǎng)絡(luò),文章影響關(guān)系示例如圖1所示,文章Pi可影響文章Pj的內(nèi)容,而Pj又影響文章Pk的內(nèi)容,那么Pi與Pk之間存在的是一種間接影響關(guān)系而非直接影響關(guān)系,文章Pi的影響力也應(yīng)有所下降。隨著時(shí)間的推移,間接影響關(guān)系會(huì)逐漸增強(qiáng),文章Pi的影響力也相應(yīng)逐漸下降。因此,為體現(xiàn)這種文章影響力隨時(shí)間衰減的情況,需引入時(shí)間衰減因子。

其中,λ為衰減率,DTj表示時(shí)間衰減因子,隨著Tj的增加而衰減。引入了時(shí)間衰減因子的影響量ETi,用于評價(jià)文章內(nèi)容的影響力,相比影響量Ei更為貼近現(xiàn)實(shí),更為準(zhǔn)確。

1.2 外影響力評估

通過文章總影響量的計(jì)算,可以衡量文章與文章間的內(nèi)部影響關(guān)系。而文章的影響力還會(huì)體現(xiàn)在對外部環(huán)境的影響:影響力大的文章發(fā)表后,會(huì)引起同行對該主題的關(guān)注,并帶動(dòng)起學(xué)術(shù)界對該主題的討論。所以文章的影響力大不僅體現(xiàn)在影響了許多的后繼者,也體現(xiàn)為成為研究熱潮的推動(dòng)者。

其中PopularityTi表示在Ti時(shí)間段內(nèi)發(fā)表的文章流行度,F(xiàn)Ti在Ti時(shí)間段內(nèi)某一特定主題所發(fā)表的文章數(shù)量,F(xiàn)Ti表示在Ti時(shí)間段文章發(fā)表的增長率,實(shí)際意義為該時(shí)間段的文章引發(fā)了后續(xù)多少篇文章的討論,即反映了一個(gè)時(shí)間段內(nèi)的文章對外部環(huán)境的總影響趨勢貢獻(xiàn)率。為了將貢獻(xiàn)率均分到發(fā)表在該時(shí)間段內(nèi)的文章上,將貢獻(xiàn)率FTi'除以文章數(shù)。

1.3 智庫文章影響力評估

其中,ET為文章Pi的帶時(shí)間權(quán)重影響量,即Pi的內(nèi)部影響量。FTi+1表示Ti+1時(shí)間段的總文章數(shù),PopularityTi表示文章Pi的流行度,即文章Pi對Ti+1時(shí)間段內(nèi)文章數(shù)目增長的貢獻(xiàn)率,PopularityTi與FTi+1的乘積表示文章Pi對外部環(huán)境熱度的貢獻(xiàn)量,即文章Pi的外部影響量。

內(nèi)部與外部影響量的和即文章的總影響量,作為文章影響力的評價(jià)指標(biāo),EFi值越大,說明文章的影響力越大。

2 實(shí)驗(yàn)分析

2.1 實(shí)驗(yàn)數(shù)據(jù)來源

本實(shí)驗(yàn)數(shù)據(jù)來源于國內(nèi)外87個(gè)著名智庫機(jī)構(gòu)站點(diǎn),共采集到45 492篇文章進(jìn)行實(shí)驗(yàn),采集到的文章發(fā)表時(shí)間從1975年3月~2019年8月。同時(shí)為了使實(shí)驗(yàn)數(shù)據(jù)更加集中,實(shí)驗(yàn)結(jié)果更有意義,本文選取關(guān)于nuclear、iran、afghanistan、iraq、african、korea、environment、korean、japanese、intelligence主題的智庫文章進(jìn)行實(shí)驗(yàn)。

2.2 閾值有效性

本文在1.1節(jié)中提出了采用歐式距離衡量兩兩文章間的特征向量的相似度,并采用設(shè)定閾值的方式,計(jì)算文章內(nèi)容的影響量。相似度大于設(shè)定的閾值,則認(rèn)為該文章與所對比的文章內(nèi)容相似,兩篇文章之間存在影響與被影響關(guān)系。

為了驗(yàn)證本文相似度閾值的有效性,本實(shí)驗(yàn)采用TextRank算法提取文章的關(guān)鍵詞,并選取其中出現(xiàn)頻率高的關(guān)鍵詞或主題名詞作為研究主題,如表1中所示的10個(gè)主題。同一主題下的文章內(nèi)容在理論上會(huì)具有一定的相似性,實(shí)驗(yàn)通過高于相似度閾值所占的比例來判斷閾值的有效性。通過計(jì)算該主題下的兩兩文章對數(shù)之間的特征向量歐式距離,來衡量兩篇文章間的相似度,距離越小,相似度越高。由于environment主題涉及的文章內(nèi)容相對比較廣泛,因此數(shù)據(jù)較為不理想,小于等于閾值0.15的文章占比較低,如表1所示。而除了environment主題外,其他主題的文章距離小于等于閾值0.15的占比均在86%以上,距離大于0.15的文章占比在13%以下。在圖2中,橫軸表示文本距離閾值,縱軸表示文章對數(shù),從圖2中可以發(fā)現(xiàn),文本距離在0.15左側(cè)的文章對數(shù)更多,而當(dāng)文本距離大于0.15的文章對數(shù)較少。因此,本實(shí)驗(yàn)將相似度閾值設(shè)為0.15。

2.3 影響力評估算法分析

本文提出了一種基于TextRank的多維度智庫相互影響力評估模型,首先,通過TextRank算法提取文章特征向量,利用歐式距離衡量特征向量間的相似度,統(tǒng)計(jì)相似度高的文章數(shù)量并引入時(shí)間衰減因子作為文章內(nèi)部影響量;然后計(jì)算主題流行度來衡量文章對外部環(huán)境熱度的貢獻(xiàn)量,作為文章的外部影響量;最后,將文章內(nèi)部影響與外部影響結(jié)合作為文章的綜合影響力。

一篇來源于卡內(nèi)基國際和平基金組織發(fā)布的標(biāo)題為“Iran Nuclear Propulsion:IAEA Firewalls”的文章,文章主要內(nèi)容關(guān)于伊朗擴(kuò)大核活動(dòng)范圍的計(jì)劃的討論[14],本文采用TextRank算法提取文章關(guān)鍵詞后的結(jié)果如表2文章關(guān)鍵詞提取結(jié)果所示。

如圖3所示為本文第1.1節(jié)中引入的時(shí)間衰減因子函數(shù)圖,從圖中可以發(fā)現(xiàn),在不同λ取值下,隨著時(shí)間的增長,衰減系數(shù)不斷減少,同時(shí),λ值越大,衰減系數(shù)下降得越緩慢。為了更好地?cái)M合智庫文章隨時(shí)間推移,文章影響力不斷減弱的現(xiàn)象,本文實(shí)驗(yàn)選取λ=0.3。圖3 時(shí)間衰減因子函數(shù)圖

最后,通過結(jié)合基于相似度的文章內(nèi)部影響量,與基于主題流行度的文章外部影響量,得到智庫文章的綜合影響力值,如表3所示為部分智庫文章綜合影響力值示例。

內(nèi)部影響值越大,說明智庫中的其他文章與該檢測的文章內(nèi)容相似度越高;而外部影響值越大,說明該檢測的文章對整體智庫主題熱度的貢獻(xiàn)越大,即引發(fā)其他文章對同一主題的討論和發(fā)布。《全球智庫報(bào)告》[15],是美國賓夕法尼亞大學(xué)智庫與公民社會(huì)項(xiàng)目連續(xù)第十一年為全球智庫進(jìn)行綜合評價(jià)的權(quán)威報(bào)告,與表3中文章來源的智庫機(jī)構(gòu)進(jìn)行對比,對比結(jié)果如表4,表中數(shù)據(jù)表示智庫機(jī)構(gòu)在相應(yīng)的地區(qū)或研究領(lǐng)域的排名。

同時(shí),這些頂級(jí)智庫在其他領(lǐng)域均有上榜全球報(bào)告,例如,海因里?!げ疇柣饡?huì)上榜最佳政黨智庫,加拿大國際治理創(chuàng)新中心、南非國際事務(wù)研究所、卡內(nèi)基國際和平基金組織上榜國際發(fā)展頂級(jí)智庫,加拿大國際治理創(chuàng)新中心、卡內(nèi)基莫斯科中心、卡內(nèi)基國際和平基金組織上榜具有突出政策導(dǎo)向的智庫等。這些數(shù)據(jù)進(jìn)一步說明本文提出的算法,能夠有效計(jì)算智庫文章的綜合影響力值,具有準(zhǔn)確性。

3 結(jié)論

本文提出了一種基于TextRank的多維度智庫相互影響力評估模型,結(jié)合智庫文章內(nèi)容的相似度,時(shí)間的衰減因素以及文章對外部環(huán)境的貢獻(xiàn)率多維度評估智庫的影響力。本文的創(chuàng)新點(diǎn)在于,從智庫文章本身內(nèi)容的角度衡量文章的影響力,從文章與文章之間內(nèi)容的相似性,計(jì)算影響力,更加符合實(shí)際分析。同時(shí)引入對外部環(huán)境的影響進(jìn)行綜合評估文章的影響力。實(shí)驗(yàn)結(jié)果表明:本文提出的智庫影響力評估模型具有合理性和實(shí)用性,能夠快速找出影響力較高的智庫文章,具有一定的實(shí)用價(jià)值和指導(dǎo)意義。

參考文獻(xiàn):

[1] 上海社會(huì)科學(xué)院智庫研究中心項(xiàng)目組,李凌.中國智庫影響力的實(shí)證研究與政策建議[J].社會(huì)科學(xué),2014(4):4-21.

[2] 朱旭峰.“思想庫”研究:西方研究綜述[J].國外社會(huì)科學(xué),2007(1):60-69.

[3] 王莉麗.旋轉(zhuǎn)門:美國思想庫研究[M].北京:國家行政學(xué)院出版社,2010.

[4] Trimbath S.Think Tanks:Who's Hot and Who's Not[J].The International Economy,2000,14(5):10-47.

[5] Leeson P T,Ryan M E,Williamson C R.Think tanks-MyScienceWork[J].Journal of Comparative Economics,2012,40(1):62–77.

[6] 金晨.我國高校智庫影響力及其提升研究——基于一流高校智庫的分析[J].中國高教研究,2019(7):63-69.

[7] 邱均平.網(wǎng)絡(luò)計(jì)量學(xué)[M].北京:科學(xué)出版社,2010:182-183,185.

[8] 黃開木,樊振佳,盧勝軍,等.基于鏈接分析法的中美智庫網(wǎng)站比較研究[J].情報(bào)理論與實(shí)踐,2014,37(11):129-133.

[9] 金芳,孫震海,國峰,等.西方學(xué)者論智庫[M].上海:上海社會(huì)科學(xué)院出版社,2010:13-27,89-93.

[10] Richard Messnarz,Andreas Riel,Gabriele Sauberer.Forming a European Innovation Cluster as a Think Tank and Knowledge Pool[C].European Conference on Software Process Improvement.Graz:Springer International Publishing,2016.

[11] Pautz,Hartwig.British Think-Tanks and Their Collaborative and Communicative Networks[J].Politics,2014,34(4):345-361.

[12] Mihalcea,Rada,Tarau,et al.TextRank:Bringing Order into Texts[C].Proc Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004.

[13] Li L,Zheng L,Yang F,et al.Modeling and Broadening Temporal User Interest in Personalized News Recommendation [J].Expert Systems with Applications,2014,41(7):3 168-3 177.

[14] Mark Hibbs.Iran Nuclear Propulsion:IAEA Firewalls [EB/OL].(2017-01-04)[2020-09-01]http://carnegieendowment.org/2017/01/04/iran-nuclear-propulsion-iaea-firewalls-pub-66603.

[15] 韋路,李佳瑞.2008-2018全球智庫發(fā)展變遷及對中國媒體智庫的啟示[J].當(dāng)代傳播,2019(5):4-9,49.

[責(zé)任編輯:鄭筆耕]

猜你喜歡
相似度智庫影響力
書訊:《新型智庫質(zhì)量提升與國家治理現(xiàn)代化》
My Hobby
改進(jìn)的協(xié)同過濾推薦算法
模糊Petri網(wǎng)在油田開發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
相似度算法在源程序比較中的應(yīng)用
你憑什么影響別人
影響母線負(fù)荷預(yù)測的因素及改進(jìn)措施
2015中國最具影響力10位商界領(lǐng)袖
新型智庫不能有“庫”無“智”
3.15消協(xié)三十年十大影響力事件
城固县| 沙河市| 法库县| 南京市| 翁牛特旗| 宁陕县| 诸城市| 久治县| 通山县| 荃湾区| 清镇市| 尉犁县| 额敏县| 南宫市| 石河子市| 石嘴山市| 静宁县| 竹北市| 洛川县| 勐海县| 萨迦县| 武冈市| 封丘县| 廊坊市| 临澧县| 伊通| 乐平市| 元朗区| 当涂县| 道真| 电白县| 香港 | 富顺县| 安龙县| 牡丹江市| 临澧县| 芒康县| 陵川县| 乌海市| 阳泉市| 隆尧县|