鐘輝新
〔摘 要〕介紹了新興趨勢等基本概念,在國際國內(nèi)文獻(xiàn)調(diào)研和分析的基礎(chǔ)上,揭示了基于文獻(xiàn)計量學(xué)、文本挖掘結(jié)合計量學(xué)、復(fù)雜網(wǎng)絡(luò)理論在新興趨勢探測研究中的進(jìn)展,最后總結(jié)了新興趨勢研究走向與存在問題。
〔關(guān)鍵詞〕新興趨勢探測;文獻(xiàn)計量;文本挖掘;復(fù)雜網(wǎng)絡(luò);綜述
DOI:10.3969/j.issn.1008-0821.2017.12.027
〔中圖分類號〕G257.3 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2017)12-0162-06
〔Abstract〕Firstly,the paper introduced basic concepts such as emerging trends.Secondly,based on the investigation and analysis on the domestic and international literature ,the paper revealed research progress on emerging trend detection which include bibliometrics,text mining combined with bibliometrics,complex network.Finally,the paper summarized the research trends and problems.
〔Key words〕emerging trend detection;bibliometrics;text mining;complex network;research review
在知識爆炸式增長、老化加速,科技競爭日趨激烈的背景下,從海量數(shù)據(jù)中探測出特定領(lǐng)域新興趨勢的方法和技術(shù)日益受到各界的重視。新興趨勢探測研究有利于發(fā)現(xiàn)領(lǐng)域研究方向、制定科研政策,深化情報服務(wù)和完善科學(xué)計量學(xué)與情報學(xué)相關(guān)理論,具有重要的理論意義和現(xiàn)實(shí)意義。
新興趨勢并沒有統(tǒng)一概念,Kontostathis A等[1]認(rèn)為新興趨勢就是隨著時間的推移能逐漸引起人們的興趣并被越來越多的學(xué)者討論的主題領(lǐng)域;劉玉仙等[2]認(rèn)為新興趨勢是一個新興的值得深入研究并日趨重要的研究主題,它在科學(xué)前沿中形成并通過研究人員的相互引用表現(xiàn)出來;殷蜀梅[3]認(rèn)為新興趨勢是在某個科學(xué)研究領(lǐng)域中備受研究者關(guān)注并且代表未來方向的一組主題領(lǐng)域。因此,新近出現(xiàn)、具有發(fā)展?jié)摿?、高速增長的主題是新興趨勢的主要組成部分。
探測(Detection)是從中探尋、測度、發(fā)現(xiàn)的意思,新興趨勢探測就是在特定領(lǐng)域中進(jìn)行探尋、測度、發(fā)現(xiàn)新的新興研究趨勢。Kontostathis A等[1]認(rèn)為新興趨勢探測(Emerging Trend Detection,ETD)就是發(fā)現(xiàn)某個特定領(lǐng)域中熱點(diǎn)信息的動態(tài)趨勢,并在探測到最新發(fā)展動態(tài)時進(jìn)行提示的過程。Le M H等[4]把新興趨勢探測過程分為3個主要階段:主題描述(Representation)、主題識別(Identification)、趨勢判斷(Verification)。因此,特定領(lǐng)域的新興趨勢探測一般需要解決3個核心問題:一是如何表示領(lǐng)域內(nèi)主題;二是用什么樣的指標(biāo)來測度主題;三是采用什么標(biāo)準(zhǔn)來判斷新興趨勢。
1 總體研究情況
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,大量的科技文獻(xiàn)被數(shù)字化并在網(wǎng)絡(luò)上傳播,大型數(shù)據(jù)庫收錄的文獻(xiàn)數(shù)量越來越多,覆蓋面越來越廣,相應(yīng)地基于文獻(xiàn)語料的新興趨勢探測研究也將越來越多。為了從總體上掌握國際國內(nèi)的研究現(xiàn)狀,本研究選擇Web of Science 和CNKI等典型代表數(shù)據(jù)庫作為文獻(xiàn)調(diào)研的對象。
1.1 國際新興趨勢研究的基本情況
本研究于2016年12月18日利用Web of Science 的核心合集數(shù)據(jù)庫,選擇時間區(qū)間為1986-2016年,檢索出“新興趨勢(Emerging Trend)”相關(guān)論文418篇。從學(xué)科分布看,研究“新興趨勢”最多的學(xué)科是INFORMATION SCIENCE LIBRARY SCIENCE,即信息科學(xué)與圖書館科學(xué),有56篇;從國家分布看,研究最多的國家是美國,有155篇,其次是中國,有55篇;從文獻(xiàn)類型分布看,在418篇文獻(xiàn)中有255篇ARTICLE,占比超過50%;從時間分布看,新興趨勢探測研究起步于1991年,在2000年以前的年均發(fā)文量一直低于3篇,未成為有效的研究主題,但在2000年以后呈現(xiàn)穩(wěn)步增長的勢頭,尤其是近幾年發(fā)表的文章越來越多,這說明新興趨勢探測研究已經(jīng)成為學(xué)者們高度關(guān)注的主題,是國際上的研究熱點(diǎn)或前沿。
1.2 國內(nèi)新興趨勢研究的基本情況
本研究于2016年12月18日利用CNKI進(jìn)行跨庫檢索,結(jié)果為20篇論文。從檢索結(jié)果看,國內(nèi)有關(guān)新興趨勢的研究并不多,在2012年以前每年的發(fā)文量未超過3篇。因?yàn)镃NKI沒有收錄像《情報學(xué)報》這樣的重要期刊,本研究利用萬方數(shù)據(jù)知識服務(wù)平臺作進(jìn)一步的文獻(xiàn)補(bǔ)充調(diào)研。整合CNKI和萬方數(shù)據(jù),經(jīng)過閱讀摘要后,篩選出國內(nèi)與新興趨勢探測密切相關(guān)的文獻(xiàn)32篇,其中有1篇博士論文、6篇碩士論文、26篇期刊論文。研究機(jī)構(gòu)主要特點(diǎn)是:大連理工大學(xué)的WISE實(shí)驗(yàn)室與陳超美博士聯(lián)合開發(fā)了Citespace,有著穩(wěn)定的研究團(tuán)隊(duì),該大學(xué)的劉則淵教授是中國知識圖譜研究的先驅(qū)之一,指導(dǎo)了不少學(xué)生在該領(lǐng)域進(jìn)行系統(tǒng)研究,因此該大學(xué)是國內(nèi)“新興趨勢”研究主要陣地之一;中國科學(xué)院有著較為龐大的圖書情報導(dǎo)師團(tuán)隊(duì),而且在主題演化、識別方面有持續(xù)研究傳統(tǒng),指導(dǎo)完成該領(lǐng)域的博士論文較多,研究實(shí)力較強(qiáng);另外,山東理工大學(xué)的白如江在該領(lǐng)域深耕多年,也發(fā)表不少相關(guān)論文,并在2016年申請到國家社科規(guī)劃項(xiàng)目“未來新興科學(xué)研究前沿識別研究”。因此,以上3個機(jī)構(gòu)未來有可能出現(xiàn)新的研究成果。endprint
2 相關(guān)研究進(jìn)展
2.1 基于文獻(xiàn)計量學(xué)方法的相關(guān)研究進(jìn)展
文獻(xiàn)計量學(xué)方法是通過對文獻(xiàn)作者、引文、期刊來源、機(jī)構(gòu)等屬性的統(tǒng)計分析,利用這些屬性及它們之間的關(guān)系隨時間的變化來追溯特定學(xué)科領(lǐng)域的研究動向,從而有效地探測新興趨勢。盡管新興趨勢探測的方法已經(jīng)越來越多,但是通過文獻(xiàn)計量特征的統(tǒng)計來探測新興趨勢的方法仍然被最普遍采用。
2.1.1 文獻(xiàn)外在特征計量分析
利用文獻(xiàn)外在特征計量指標(biāo)來判斷知識的增長是一種簡單而實(shí)用的方法,如期刊數(shù)量的增長、相對于年齡的論文被引次數(shù)、自引率等。通過一些簡單的文獻(xiàn)計量學(xué)指標(biāo)的歷時變化就可以判別新興研究領(lǐng)域及其趨勢,例如普賴斯指數(shù)(Price Index)、引文半衰期(Median Citation Age)和即年指標(biāo)(Immediacy Index),其中普賴斯指數(shù)與引文半衰期可以用來衡量文獻(xiàn)老化的速度,一個研究領(lǐng)域內(nèi)文獻(xiàn)的普賴斯指數(shù)越高,引文半衰期越小,表明該研究領(lǐng)域就越“年輕”[5];同樣地,即年指標(biāo)也可以用來反映論文的被引速度,即年指標(biāo)值越大,說明論文的被引速度越快,相關(guān)的研究內(nèi)容獲得關(guān)注度就越大。Tu Yining等[6]利用知識老化理論,提出了新穎指數(shù)(NI) 和已發(fā)表量指數(shù)(PVI) 兩個新型指標(biāo),以它們的負(fù)相關(guān)性判斷新興主題。
利用文獻(xiàn)外在特征統(tǒng)計方法簡單實(shí)用,數(shù)據(jù)容易獲取,指標(biāo)容易理解,標(biāo)準(zhǔn)單一,決策成本比較低,但由于忽略了文獻(xiàn)外在特征與內(nèi)容的相關(guān)性以及文獻(xiàn)之間的知識傳遞關(guān)系,其精準(zhǔn)度會受到一定影響,比較適合低成本快速決策的新興趨勢探測。
2.1.2 詞頻分析
詞頻分析法是利用能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動向的文獻(xiàn)計量方法[7]。例如,馬費(fèi)成等[8]利用文獻(xiàn)的關(guān)鍵詞詞頻揭示知識管理的新興主題;鞏永強(qiáng)等[9]通過國內(nèi)情報學(xué)領(lǐng)域的詞頻分析歸納出增長型、平穩(wěn)型和下降型3種研究變化趨勢,從而揭示該領(lǐng)域熱點(diǎn)遷移和發(fā)展趨勢;Ito E等[10]利用關(guān)鍵詞的時間系列分析,開發(fā)出一種網(wǎng)絡(luò)小說趨勢分析工具作為網(wǎng)頁CGI,該工具不僅顯示查詢詞的發(fā)展趨勢,也顯示了相似詞的發(fā)展趨勢。詞頻是新興趨勢探測中表示主題的常用指標(biāo),目前比較流行的ETD系統(tǒng)如ThemeRiver、TOA(Technology Opportunities Analysis)、Timemines、PatentMiner等都采用該指標(biāo)。
利用詞頻的統(tǒng)計來探測特定研究領(lǐng)域的新興趨勢,簡單直接,通過歷時的可視化圖形直觀顯示出來,使科研人員能夠快速地掌握特定領(lǐng)域的主題演變。但是,這些指標(biāo)之間缺乏關(guān)聯(lián),并且對那些低頻的關(guān)鍵詞難以識別,而新興趨勢一般是剛剛出現(xiàn)的,相關(guān)主題詞的詞頻也許并不高,因此詞頻分析比較適合研究熱點(diǎn)識別,對于新興趨勢探測則要通過詞頻變化率來實(shí)現(xiàn)。
2.1.3 引文分析
引文分析一般分為共被引分析、文獻(xiàn)耦合分析以及直接引用分析3種。3種引文生成知識網(wǎng)絡(luò)都可用以探測研究前沿和新興趨勢。Small等利用通過同被引網(wǎng)絡(luò)的時間切片和簇演變鏈(Clustering String),將高被引的文獻(xiàn)集合代表關(guān)鍵概念(Concept Symbol)識別各種特定領(lǐng)域的突現(xiàn)和結(jié)構(gòu)的演化;后來又利用隨時間變化共被引簇(Co-citation Clusters)跟蹤研究領(lǐng)域的突現(xiàn)和成長,并預(yù)測領(lǐng)域最近屬性的變化[11]。Chen C[12]將知識基礎(chǔ)與研究前沿相結(jié)合,以同被引論文簇作為知識基礎(chǔ)、突發(fā)詞匯表示研究前沿來研究一個領(lǐng)域新興的趨勢、瞬時的概念和潛在的研究問題。韓濤[13]利用潛在知識(Latent Knowledge)演化理論,提出了采用不同閾值層聚類結(jié)構(gòu)間差異性的自動檢測方法,以揭示同被引分析中隱藏在低閾值層的有重要意義的潛在知識簇,從而實(shí)現(xiàn)了對研究領(lǐng)域潛在演變趨勢的識別。Morris[14]在文獻(xiàn)耦合聚類的基礎(chǔ)上引入時間軸,以炭疽病的研究為例,利用可視化工具揭示了研究領(lǐng)域主題的產(chǎn)生、發(fā)展和消亡。Shibata N[15]等利用直接引用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)演化結(jié)合時間線可視化的方法,對氮化鎵(Gallium Nitride)、復(fù)雜網(wǎng)絡(luò)(Complex Networks)兩個領(lǐng)域的主題演化進(jìn)行分析,從中探測這兩個領(lǐng)域的新興趨勢。
3種引文分析方法在學(xué)科前沿和新興趨勢探測上有一定的差異性。Shibata N等[16]比較了這3種引文分析方法用于研究前沿識別時的性能和特點(diǎn),結(jié)果發(fā)現(xiàn)直接引用關(guān)系可以識別大而且新的研究領(lǐng)域,同時,直接引文網(wǎng)絡(luò)獲得的聚集系數(shù)最大,這表明通過直接引文網(wǎng)絡(luò)獲得的文獻(xiàn)簇的文獻(xiàn)相似度最大,因此,利用直接引文網(wǎng)絡(luò)識別研究前沿的風(fēng)險性最小。Small H等[17]比較了科技文獻(xiàn)新興趨勢探測中的直接引文網(wǎng)和共引兩種模型,發(fā)現(xiàn)采用直接引文網(wǎng)更具有時效性和選擇性。鑒于3種引文分析方法各有優(yōu)缺點(diǎn),有學(xué)者提出發(fā)揮各種引文網(wǎng)絡(luò)的優(yōu)勢,把多種引文分析方法結(jié)合起來共同探測新興趨勢的想法。Boyack K W等[18]將當(dāng)前文獻(xiàn)加入共引網(wǎng)絡(luò)中生成聚類,認(rèn)為混合引文網(wǎng)絡(luò)如有向引用和共被引共存的引文網(wǎng)絡(luò)可用于識別新興主題。
為了克服引文分析忽視內(nèi)容關(guān)聯(lián)的缺點(diǎn),不少學(xué)者將其與引文分析結(jié)合起來應(yīng)用在新興趨勢探測中。Glenisson P等[19]利用文本內(nèi)容分析結(jié)合計量學(xué)指標(biāo)對 SCIENTOMETRICS 的文章進(jìn)行分析時,發(fā)現(xiàn)內(nèi)容詞分析和引文分析相結(jié)合的混合方法將會成為未來研究科學(xué)結(jié)構(gòu)演化的一種有價值的工具。張琳等[20]利用基于引文和內(nèi)容詞混合的分析方法在“心理學(xué)、社會學(xué)和教育學(xué)領(lǐng)域”進(jìn)行新興主題的識別。Besselaar等[21]利用詞語—參考文獻(xiàn)的共現(xiàn),以論文的參考文獻(xiàn)做語境來考察從標(biāo)題中抽取的詞語,揭示研究領(lǐng)域的結(jié)合演化。
引文分析的方法能有效揭示知識結(jié)構(gòu)的演化,而且可以通過可視化的知識圖譜生動顯示文獻(xiàn)之間的關(guān)聯(lián)和變化,通過聚類方法識別主題,從而推演知識的產(chǎn)生、發(fā)展、成熟和消亡的過程。但是引文分析是對內(nèi)容的一種間接揭示方式,而引文動機(jī)多樣化,施引文獻(xiàn)和被引文獻(xiàn)之間的知識關(guān)聯(lián)與引用內(nèi)容有很多不同,因此缺乏語義關(guān)聯(lián)。同時因?yàn)橐牡漠a(chǎn)生需要一段時間,滯后性是其明顯的缺點(diǎn)。引文和內(nèi)容詞結(jié)合的分析方法既能揭示科學(xué)知識結(jié)構(gòu)變化過程,又能精確揭示知識內(nèi)容之間的關(guān)聯(lián)性。但是這種混合方法缺乏有效理論的支撐,操作上主觀性強(qiáng),在某個領(lǐng)域能有效識別出新興趨勢,而用同樣的方法在其他領(lǐng)域卻不適合。endprint
2.2 基于文本挖掘結(jié)合計量相關(guān)研究進(jìn)展
單純通過文獻(xiàn)的特征計量分析而忽略文獻(xiàn)的內(nèi)容,顯然已經(jīng)無法滿足新興趨勢探測的需求,因此通過文本挖掘結(jié)合計量的方法就誕生了,比如突發(fā)詞檢測、共詞分析、主題模型等。
2.2.1 突發(fā)詞檢測
突發(fā)詞(Burst Word),也稱為爆發(fā)詞,是指在某一時間內(nèi)被大量提及,使用頻次上出現(xiàn)較大跳躍的詞,是知識增長最為顯著的表現(xiàn)。特定領(lǐng)域的文獻(xiàn)流中有關(guān)某一主題的內(nèi)容詞突然出現(xiàn)爆發(fā)式、跳躍式增長,意味著該主題突現(xiàn)增長的勢頭,這對探測特定領(lǐng)域內(nèi)新興趨勢具有重要的意義。Kleinberg J在2002年提出了突發(fā)檢測算法(Burst Detection Algorithm),也被稱為Kleinberg算法。他認(rèn)為詞的重要性體現(xiàn)在詞出現(xiàn)的密度上而不是在詞出現(xiàn)的時間長短上,即出現(xiàn)頻次的增長率突然加大的詞顯得十分重要[22]。突發(fā)詞側(cè)重的是領(lǐng)域內(nèi)詞之間的增長的比較,隱含了特定領(lǐng)域主題的突發(fā)和增長,能從語義上揭示知識的進(jìn)化,并且在一定程度上克服常用詞的干擾,無需進(jìn)行太多詞的預(yù)處理。突發(fā)詞也可以反映研究領(lǐng)域局部熱點(diǎn)的變化,揭示領(lǐng)域內(nèi)有潛力的影響因素,有助于發(fā)現(xiàn)推動特定領(lǐng)域發(fā)展的微觀因素[23]。
Chen C[12]利用Kleinberg算法探測代表研究前沿的專業(yè)術(shù)語,并將其融入追蹤科技前沿的可視化軟件Citespace中,該軟件可以從題目、摘要,關(guān)鍵詞和文獻(xiàn)記錄的標(biāo)識符中提取突變專業(yè)術(shù)語,從而確定科學(xué)前沿。隨著Citespace軟件的廣泛應(yīng)用,許多學(xué)者利用該軟件的突發(fā)詞檢測來研究特定領(lǐng)域的研究前沿和新興趨勢。我國也有不少學(xué)者在這方面進(jìn)行了探索和研究,魏建香[24]利用突現(xiàn)詞發(fā)現(xiàn)交叉學(xué)科的研究熱點(diǎn)和前沿動態(tài),王莉亞[25]提出了基于信息熵的時間序列中突變點(diǎn)識別方法,對流域水資源管理領(lǐng)域的不同階段關(guān)鍵詞進(jìn)行突變檢測,以發(fā)現(xiàn)研究領(lǐng)域主題突變和結(jié)構(gòu)演化。
突發(fā)詞檢測能從微觀層面發(fā)現(xiàn)特定領(lǐng)域潛在的研究主題的變化,而不是熱點(diǎn)主題,這一點(diǎn)明顯優(yōu)于詞頻分析,而且考慮到領(lǐng)域內(nèi)所有詞之間變化的比較而不是單個詞的變化,這對新興趨勢的探測有積極意義。但是突發(fā)詞檢測仍需要時間的積累,其閾值的設(shè)置對結(jié)果影響較大,而且對詞的來源要求較高,需要通過預(yù)處理的突發(fā)檢測才會比較有意義,同樣突發(fā)詞之間也缺乏語義關(guān)聯(lián)。Kleinberg算法雖然能比較有效對一定時間跨度的語料進(jìn)行突發(fā)詞檢測,但是算法中最優(yōu)序列的參數(shù)k、s、γ需要主觀確定,這將對檢測效果造成較大的影響;同時,Kleinberg算法利用平滑窗口來定義時間區(qū)間,可能會導(dǎo)致割裂某些主題隨時間成長變化的發(fā)展過程,形成虛假的突發(fā)詞或者主題;另外,Kleinberg算法是基于時間段檢測方法,一般情況下分析時間切片不能小于2,同樣需要時間的積累,具有一定的時滯。
2.2.2 共詞分析
共詞分析法主要是統(tǒng)計一組詞在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),一組詞兩兩出現(xiàn)在同一篇文獻(xiàn)的次數(shù)越多,那么這組詞主題關(guān)系就越緊密,在此基礎(chǔ)上進(jìn)行聚類分析,進(jìn)而分析這些詞所代表的學(xué)科和主題變化。Ding Y等[26]從關(guān)鍵詞字段、題目和摘要字段抽取術(shù)語,通過詞匯控制工具進(jìn)行規(guī)范化處理,利用共詞分析揭示了信息檢索領(lǐng)域知識結(jié)構(gòu),發(fā)展模式與趨勢。Pottenger等[27]利用數(shù)據(jù)挖掘技術(shù)和神經(jīng)網(wǎng)絡(luò)模型從文本數(shù)據(jù)集中自動分析與識別新出現(xiàn)的概念或主題。Kontostathis A等[28]在Pottenger研究的基礎(chǔ)上,利用潛在語義索引和共詞聚類分析明顯地增加了識別新突現(xiàn)概念的效率。
共詞分析克服了詞頻獨(dú)立性的缺點(diǎn),考慮到了詞與詞之間親疏遠(yuǎn)近關(guān)系,能直接揭示文獻(xiàn)主題之間的相關(guān)性,針對性和準(zhǔn)確度都更高。但是,目前共詞分析大部分采用從題目、摘要、關(guān)鍵詞字段直接抽取術(shù)語的方法,抽取術(shù)語與作者的取詞習(xí)慣有很大關(guān)系,可能存在不規(guī)范的表述,或者存在同義詞和近義詞大量并存的情況,而且沒有考慮到詞的層級,大量的上位詞和下位詞并存,因此對詞的預(yù)處理要求較高。為了達(dá)到較好的聚類效果,通常選用高頻詞作為分析對象,無法發(fā)現(xiàn)尚處于低頻潛在主題。
2.2.3 主題模型
共詞聚類的方法主要根據(jù)主題詞之間的關(guān)聯(lián)強(qiáng)度或者隨時間的演化,要么形成主題與詞之間的聚類關(guān)系,要么形成主題與文獻(xiàn)之間的聚類關(guān)系,缺乏對主題詞、主題、文獻(xiàn)三者間的關(guān)系揭示。為了克服這一缺陷,2013年BLei D M[29]在概率隱性語義索引模型(Probabilistic Latent Semantic Indexing,PLSI)的“潛在主題”基礎(chǔ)上提出了LDA(Latent Dirichlet Allocation))模型,利用Dirichlet概率分布和Gibb抽樣,從而實(shí)現(xiàn)了詞、主題、文獻(xiàn)三層結(jié)構(gòu)的貝葉斯概率分布。LDA模型克服了PLSI過度擬合的缺點(diǎn),并能很好地模擬文檔的生成過程,對新興主題識別以及預(yù)測有很好的效果,因此得到廣泛應(yīng)用和不斷改良。
為了讓LDA模型主題形成動態(tài)演化,需要通過相似性將相鄰時間點(diǎn)的主題關(guān)聯(lián)起來, 2006年Blei D M等[30]提出了動態(tài)主題模型(Dynamic Topic Models,DTM),可用于處理文檔流,從而實(shí)現(xiàn)話題的分布強(qiáng)度和話題的內(nèi)容都在隨時間而演化。2006年Wang X等[31]在LDA模型的基礎(chǔ)上加入“主題—時間”分布,提出了主題隨時間變化而變化的主題模型(Topic Over Time,TOT)。除了TOT和DTM模型外,很多學(xué)者將計量指標(biāo)與LDA結(jié)合起來,提出層次LDA主題模型HLDA、OLDA、CTM、ATM、OLDA 。這些模型被廣泛應(yīng)用到科技文獻(xiàn)、新聞、論壇、博客等領(lǐng)域的主題識別之中。目前,國外有不少研究機(jī)構(gòu)開發(fā)了應(yīng)用工具,有些還是免費(fèi)的開源工具,如斯坦福大學(xué)開發(fā)的開源話題建模工具TMT以及GibbsLDA++,這些工具極大地方便了科研人員的研究。endprint
主題概率模型LDA模擬文檔生成的機(jī)器學(xué)習(xí)技術(shù),能有效實(shí)現(xiàn)分類和降維,采用詞、主題和文檔三層貝葉斯概率模型識別文檔集中潛在的主題詞信息,直接利用文獻(xiàn)中的詞來生成主題的分布,對揭示主題內(nèi)容有非常大的優(yōu)勢,而且相關(guān)模型非常多,應(yīng)用也非常廣泛,是目前新興趨勢探測主要方法之一。雖然LDA不需要專門的詞表,但是對詞的依賴仍然很強(qiáng),核心詞的確定成為難點(diǎn)之一,如果不經(jīng)過詞的預(yù)處理,很多高頻但意義不強(qiáng)的詞就會影響分類的效果。同時在分類數(shù)目的確定上存在一定難度和主觀性,相似度閾值的設(shè)定需要較強(qiáng)的專業(yè)知識。
2.3 基于復(fù)雜網(wǎng)絡(luò)理論的相關(guān)研究進(jìn)展
文獻(xiàn)計量學(xué)的分析方法主要通過對文獻(xiàn)及文獻(xiàn)之間的關(guān)系的計量來揭示科學(xué)結(jié)構(gòu)。隨著社會網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)研究的不斷發(fā)展,研究人員發(fā)現(xiàn)同被引網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、耦合網(wǎng)絡(luò)、合著網(wǎng)絡(luò)等都是在科學(xué)交流過程中自組織形成的復(fù)雜網(wǎng)絡(luò),因此可以在文獻(xiàn)計量學(xué)的基礎(chǔ)上應(yīng)用網(wǎng)絡(luò)分析方法來揭示科學(xué)結(jié)構(gòu)。
2.3.1 優(yōu)先鏈接
優(yōu)先鏈接(Preferential Attachment)也叫優(yōu)先連接、擇優(yōu)連接或優(yōu)先粘貼,是指擁有更多財富或信譽(yù)的個體將優(yōu)先得到財富或信譽(yù)。文獻(xiàn)引用中也存在優(yōu)先連接的現(xiàn)象,即引用次數(shù)越多的文獻(xiàn)被再次引用的概率越大,因此,引文網(wǎng)絡(luò)中的引文分布呈冪律分布。Price D J S[32]在1976年建立的Price模型可用來解釋引文網(wǎng)絡(luò)具有無尺度特性的成因,Price認(rèn)為,是引用的累計增長(Cumulative Advantage)效應(yīng)導(dǎo)致了引文網(wǎng)絡(luò)具有無尺度特性,累計增長效應(yīng)就是基于優(yōu)先粘帖的現(xiàn)象。如果將鏈接分布機(jī)制移植到引文分析研究中,將有助于篩選核心文獻(xiàn),考查引文分布機(jī)制,解釋引文網(wǎng)絡(luò)中的睡美人現(xiàn)象、冪律分布現(xiàn)象、無標(biāo)度現(xiàn)象等[33]。李粵[34]在優(yōu)先連接模型的基礎(chǔ)上提出可調(diào)優(yōu)先連接模型(Adjustable Preferential Attachment,APA),并利用此模型分別進(jìn)行優(yōu)先粘貼現(xiàn)象、節(jié)點(diǎn)老化現(xiàn)象、無尺度特性、睡美人現(xiàn)象和高聚集性的一致性分析,結(jié)果顯示APA模型在5個結(jié)構(gòu)特性上符合真實(shí)引文網(wǎng)絡(luò)。
優(yōu)先鏈接是一種基于現(xiàn)有網(wǎng)絡(luò)關(guān)系對未來鏈接的預(yù)測,顯然不受到引文滯后的影響,這對預(yù)測和探測特定領(lǐng)域的新興趨勢有重要的意義。但是引文網(wǎng)絡(luò)優(yōu)先鏈接都是間接揭示研究內(nèi)容和主題的演化,而知識具有進(jìn)化和創(chuàng)新特性,主題在不斷演化,鏈接可能意味關(guān)聯(lián),但是內(nèi)容可能已經(jīng)發(fā)生突變,因此優(yōu)先鏈接機(jī)制比較復(fù)雜,判讀計算難度比較大,探測的效果尚不明確,目前在新興趨勢探測的應(yīng)用并不多。
2.3.2 社團(tuán)結(jié)構(gòu)
網(wǎng)絡(luò)社團(tuán)(Network Community)是指由網(wǎng)絡(luò)結(jié)點(diǎn)組成的一個個結(jié)點(diǎn)子集合,子集合內(nèi)部結(jié)點(diǎn)之間邊的連接很稠密,各子集合結(jié)點(diǎn)之間邊的連接則很稀疏。隨著復(fù)雜網(wǎng)絡(luò)理論不斷成熟,有人將其研究方法應(yīng)用到引文網(wǎng)絡(luò)和共詞網(wǎng)絡(luò)之中,利用網(wǎng)絡(luò)社團(tuán)來識別特定領(lǐng)域的主題演化。東京大學(xué)工程創(chuàng)新研究所在利用引文網(wǎng)絡(luò)進(jìn)行新興主題識別上有較多的研究。Shibata N等[35]以鎵化氮和復(fù)雜網(wǎng)絡(luò)兩個研究領(lǐng)域?yàn)槔?,利用Newman提出的社團(tuán)結(jié)構(gòu)識別算法對科學(xué)引文網(wǎng)絡(luò)進(jìn)行聚類分析,分析聚類結(jié)果中論文簇的平均年(Average Age)指標(biāo)和不同時間片的論文簇之間的父子關(guān)系,從中識別研究前沿的突現(xiàn)。他們同時采用模塊度值(Q值)衡量社團(tuán)結(jié)構(gòu)之間的關(guān)系,Z-Value衡量社團(tuán)內(nèi)部及密度,然后根據(jù)他們組合判斷不同主題的演化階段,明確給出了量化的判斷標(biāo)準(zhǔn)[36]。2010年我國學(xué)者王凌燕等[37]引入社會網(wǎng)絡(luò)中的弱連接概念并分析弱連接的特點(diǎn),利用Q測度法識別生物領(lǐng)域的新興研究趨勢。
復(fù)雜網(wǎng)絡(luò)領(lǐng)域的社團(tuán)結(jié)構(gòu)識別算法不需要依賴分析對象相似關(guān)系計算,可以通過網(wǎng)絡(luò)結(jié)構(gòu)的特性直接獲取最優(yōu)化的聚類結(jié)果,從而克服了閾值主觀調(diào)整的問題,這明顯優(yōu)于傳統(tǒng)的聚類方法。但是從網(wǎng)絡(luò)視角判斷不同時間的兩個研究主題之間演化關(guān)系的影響因素較多,比如節(jié)點(diǎn)、邊、結(jié)構(gòu)等,目前相似度是最為直接和有效的判斷方法,但是閾值的選擇同樣具有主觀性。
2.3.3 傳播動力學(xué)
動力學(xué)研究是復(fù)雜網(wǎng)絡(luò)的研究重點(diǎn)之一,其本質(zhì)上是探討網(wǎng)絡(luò)結(jié)構(gòu)與功能關(guān)系的復(fù)雜網(wǎng)絡(luò)的動力學(xué)行為,涉及傳播動力學(xué)、動力學(xué)同步化等多方面的內(nèi)容。越來越多的學(xué)者將復(fù)雜網(wǎng)絡(luò)的傳播模型運(yùn)用于分析知識傳播和創(chuàng)新擴(kuò)散的網(wǎng)絡(luò)結(jié)構(gòu)和功能,相關(guān)研究表明社會網(wǎng)絡(luò)結(jié)構(gòu)的存在可以顯著提高知識的增長率。Cowan R等[38]發(fā)現(xiàn)“小世界網(wǎng)絡(luò)”結(jié)構(gòu)下的知識擴(kuò)散速度是最快的。Liu X等[39]利用群體動力學(xué)原理和社團(tuán)之間關(guān)系,通過關(guān)鍵詞運(yùn)動矢量研究知識網(wǎng)絡(luò),包括引文網(wǎng)絡(luò)和關(guān)鍵詞網(wǎng)絡(luò)的動態(tài)演化,識別了新興研究趨勢的形成,并識別了特定領(lǐng)域的新興趨勢的演化過程。
知識網(wǎng)絡(luò)是天然的復(fù)雜網(wǎng)絡(luò),傳播動力學(xué)考慮到知識網(wǎng)絡(luò)的生長動力和機(jī)制,從系統(tǒng)生長視角考察知識的涌現(xiàn),是一種最為接近現(xiàn)實(shí)的研究方法。但是,知識創(chuàng)造活動的創(chuàng)新要求、不同觀點(diǎn)和求異的思維使得知識在傳播過程中的“感染者”將會出現(xiàn)變異,不可能達(dá)到完全一致,只是一種相關(guān)性的協(xié)同創(chuàng)造?;谝陨显?,目前利用復(fù)雜網(wǎng)絡(luò)的動力學(xué)理論進(jìn)行新興趨勢探測的應(yīng)用研究并不多。
3 結(jié) 語
目前新興趨勢探測在國際上已成為研究前沿和熱點(diǎn),但在國內(nèi)仍處于跟蹤發(fā)展的醞釀階段,通過對比國際國內(nèi)相關(guān)研究的梳理,發(fā)現(xiàn)國內(nèi)新興趨勢探測存在以下幾個問題:
1)缺乏理論與實(shí)踐相結(jié)合的研究。目前國內(nèi)新興趨勢探測的研究主要在參考國外理論和方法的基礎(chǔ)上進(jìn)行改進(jìn)和應(yīng)用,雖然國內(nèi)有些學(xué)者提出了理論層面的假設(shè),但沒有將理論分析與實(shí)證研究結(jié)合,因此真正理論創(chuàng)新并不多,更沒有形成完善的理論體系。
2)指標(biāo)通用性不足,評價標(biāo)準(zhǔn)不一,方法可復(fù)制性不強(qiáng)。新興趨勢指標(biāo)大部分依據(jù)具體應(yīng)用來設(shè)計,通用性不強(qiáng),也沒有建立指標(biāo)的評價體系和方法,主題確認(rèn)與趨勢判斷主要依靠專家來進(jìn)行定性判斷,主觀性很強(qiáng)。雖然也有研究機(jī)構(gòu)和學(xué)者從不同的角度來制定評價標(biāo)準(zhǔn),但大部分都是采用監(jiān)測文獻(xiàn)隨著時間的變化計量學(xué)指標(biāo),而且各側(cè)重點(diǎn)不同,因此統(tǒng)計的方法各式各樣,可復(fù)制性不強(qiáng)。endprint
3)主題趨勢預(yù)測研究不足,有待突破。雖然領(lǐng)域新興主題趨勢的預(yù)測極其重要,但是這方面的研究非常缺乏,只有少數(shù)的研究利用多元回歸方法對主題特征指標(biāo)未來趨勢進(jìn)行預(yù)測,有個別的學(xué)者提出了用優(yōu)先鏈接模型來預(yù)測未來的核心文獻(xiàn),但是只考慮文獻(xiàn)在知識網(wǎng)絡(luò)的中重要性,沒有考慮到文獻(xiàn)衰老和異質(zhì)性,也缺乏從信息不完全的視角去對缺失信息(或缺失關(guān)系)的預(yù)測,因此主題趨勢預(yù)測研究的理論和方法有待于突破。
4)研究視角較為單一,難于發(fā)現(xiàn)主題演化的動因。目前對于新興主題趨勢探測的研究,主要基于單一維度/網(wǎng)絡(luò)(關(guān)鍵詞維度、作者維度、引文維度)分析,缺乏多維度或者網(wǎng)絡(luò)之間關(guān)聯(lián)分析。個別研究雖然考慮到網(wǎng)絡(luò)維度之間的關(guān)系,但沒有考慮網(wǎng)絡(luò)之間的前后演化關(guān)系,也缺乏探究網(wǎng)絡(luò)之間的相互關(guān)系,因此難于從深層次揭示主題的成因、發(fā)展的動力和未來趨勢。
5)缺乏對用戶行為研究。目前新興趨勢探測主要從文獻(xiàn)特征歷時變化、文獻(xiàn)關(guān)聯(lián)和內(nèi)容關(guān)聯(lián)等視角進(jìn)行分析,鮮有人將學(xué)術(shù)群體的行為考慮在內(nèi),隨著各種數(shù)據(jù)庫的不斷完善和Almetrics的興起,用戶行為數(shù)據(jù)將成為新興趨勢探測和研究前沿識別的重要支撐。
參考文獻(xiàn)
[1]Kontonstathis A,Galistsky L M,Porttenger W M,et al.A Survey of Emerging Trend Detection in Textual Data Mining[C]// A Comprehensive Survey of Text Mining.New York:Springer,2004:185-224.
[2]劉玉仙,Rousseau R.新出現(xiàn)趨勢識別和分析方法引介[J].科學(xué)學(xué)研究,2009,(7):994-998.
[3]殷蜀梅.判斷新興研究趨勢的技術(shù)框架研究[J].圖書情報知識,2008,(3):76-80.
[4]Le M H,Ho T B,Nakamori Y.Detecting Emerging Trend from Science scientific Corpora[J].International Journal of Knowledge and systems sciences 2005,2(2):53-59.
[5]陳立新,劉則淵.引文半衰期與普賴斯指數(shù)之間的數(shù)量關(guān)系研究[J].圖書情報知識,2007,(1):25-28.
[6]Tu Yining,Seng Jialang.Indices of novelty for emerging topic detection[J].Journal of Information Processing and Management,2012,48( 2) :303-325.
[7]安興茹.基于正態(tài)分布的詞頻分析法高頻詞閾值研究[J].情報雜志,2014,(10):129-136.
[8]馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計分析[J].情報學(xué)報,2006,25(2):163-171.
[9]鞏永強(qiáng),劉莉.基于詞頻分析法的情報學(xué)研究熱點(diǎn)透析[J].圖書館學(xué)研究,2011,(13):9-13.
[10]Ito E,Urakawa T,F(xiàn)lanagan B,et al.Keywords Frequency Trend Analysis of Online Novels[J].China Modern Doctor,2013:68-73.
[11]Small H,Upham P.Citation structure of an emerging research area on the verge of application[J].Scientometrics,2009,79(2):365-375.
[12]Chen C.CiteSpace ⅡI:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[ J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[13]韓濤.知識結(jié)構(gòu)演化深度分析的方法及其實(shí)現(xiàn)[D].北京:中國科學(xué)院研究生院,2008.
[14]Morris S A,Yen G,Wu Z.Time Line Visualization of Research Fronts[J].Journal of American Society for Information Science,2003,54(5):413-422.
[15]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11):758-775.
[16]Shibata N,Kajikawa Y,Takeda Y,et al.Comparative study on methods of detecting research fronts using different types of citation[J].Journal of the Association for Information Science and Technology,2009,60(3):571-580.endprint
[17]Small H,Boyack K W,Klavans R.Identifying emerging topics in science and technology[J].Research Policy,2014,43(8):1450-1467.
[18]Boyack K W,Klavans R,Small H,et al.Characterizing emergence using a detailed micro-model of science:Investigating two hot topics in nanotechnology[C]// Technology Management for Emerging Technologies (PICMET):2012 Proceedings of PICMET12.Vancouver,Canada:IEEH Conference Publications,2012:2605-2611.
[19]Glenisson P,Glnzel W,Janssens F,et al.Combining full text and Bibliometric Information in Mapping Scientific Disciplines[J].Information Processing and Management,2005,(41):1548-1572.
[20]張琳,梁立明,Janssens F,等.混合聚類方法用于科學(xué)結(jié)構(gòu)研究——“心理學(xué)、社會學(xué)和教育學(xué)”領(lǐng)域?yàn)槔齕J].科學(xué)學(xué)研究,2010,28(6):837-845.
[21]Van D,Besselaar P,Heimer G.Mapping Research Topics Using Word-reference Co-occurrences:a Method and an Exploratory case Study[J].Scientometrics,2006,68(3):377-393.
[22]Kleinberg J.Bursty and hierarchical structure in streams[J].Data Mining and KnowledgeDiscovery,2003,7(4):373-397.
[23]王孝寧,崔雷,劉剛,等.突發(fā)監(jiān)測算法用于共詞聚類分析的嘗試[C]// 中華醫(yī)學(xué)會第十五次全國醫(yī)學(xué)信息學(xué)術(shù)會議.2009:104-107.
[24]魏建香.學(xué)科交叉知識發(fā)現(xiàn)及其可視化研究[D].南京:南京大學(xué),2010.
[25]王莉亞.基于關(guān)鍵詞突變的主題突變研究[J].情報理論與實(shí)踐,2013,(11):45-48.
[26]Ding Y,Chowdhury G G,F(xiàn)oo S.Bibliometric Cartography of Information Retrieval Research by Using Co-word Analysis[J].Information Processing and Management,2001,(37):817-842.
[27]Pottenger W M,Yang T.Detecting Emerging Concepts in Text Data Mining[C]// Berry M.Computational Information Retrieval.Philadelphia,USA:Society for Industrial and Applied Mathematics,2001:89-105.
[28]Kontostathis A,De I,Holzman L E,et al.Use of term clusters for emerging trend detection[EB/OL].http://citeseer.uark.edu:8080/citeseerx/viewdoc/summary?doi=10.1.1.81.4196,2013-07-28.
[29]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[30]Blei D M,Lafferty J D.Dynamic topic model[C]// Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:113-120.
[31]Wang X,Mccallum A.Topics over time:a non-Markov continuous-time model of topical trends[C]// Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Philadelphia,Pa,Usa,August.DBLP,2006:424-433.
[32]Price D J S.A general theory of bibliometric and other cumulative advantage processes[J].Journal of the American Society for Information Science,1976,27:292-306.
[33]蘇芳荔,李江.鏈接分布機(jī)制評述——優(yōu)先連接與均勻連接[J].情報雜志,2010,(10):167-171.
[34]李粵.引文網(wǎng)絡(luò)的可調(diào)優(yōu)先粘貼模型及其應(yīng)用[D].北京:清華大學(xué),2007.
[35]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11):758-775.
[36]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting Emerging Research Fronts in regenerative medicine by the citation Networks of Scientific Publications[J].Technological Forecsting & Social Change,2011,(78):274-282.
[37]王凌燕,方曙.Q測度法對探測新興研究趨勢作用的探討[J].情報理論與實(shí)踐,2010,33(11):61-65.
[38]Cowan R,Jonard N.Network Structure and the Diffusion of Knowledge[J].Journal of Economic Dynamics and Control,2004,28(8):1557-1575.
[39]Liu X,Jiang T,Ma F.Collective dynamics in knowledge networks::emerging trends analysis[J].Journal of Informetrics,2013,7(2):425-438.
(本文責(zé)任編輯:孫國雷)endprint