国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型和時間序列分析的新興主題識別與特征關(guān)聯(lián)研究

2022-08-02 02:11李雅倩孫玉玲趙婉雨
知識管理論壇 2022年3期
關(guān)鍵詞:強(qiáng)度特征指標(biāo)

李雅倩 孫玉玲 趙婉雨

1. 中國科學(xué)院文獻(xiàn)情報(bào)中心 北京 100090

2. 中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系 北京 100049

1 引言

隨著科學(xué)研究第四范式的興起,數(shù)據(jù)驅(qū)動下的科學(xué)研究正從知識層下沉到數(shù)據(jù)層,制定科技發(fā)展計(jì)劃和相關(guān)政策需要緊隨科研動態(tài)。文獻(xiàn)作為知識流動的重要載體,是識別學(xué)科主題的重要數(shù)據(jù)來源。面對海量文本數(shù)據(jù),如何科學(xué)有效地從中發(fā)掘新興研究主題,是科研管理者和科研人員研究方向布局和調(diào)整的重要參考依據(jù)[1]。同時,學(xué)科主題發(fā)展具有“慣性”與“相關(guān)性/延續(xù)性”,即學(xué)科主題時間序列變化發(fā)展具有延續(xù)性并且是相互聯(lián)系的,一定時期內(nèi)存在可預(yù)測的發(fā)展變化規(guī)律。新興主題的識別和趨勢預(yù)測,有助于科研工作者了解研究動態(tài),有利于基金資助組織和決策者優(yōu)化創(chuàng)新資源分配,進(jìn)一步促進(jìn)有發(fā)展?jié)摿Φ难芯糠较虻陌l(fā)展。

與新興主題相似的概念較多,諸如熱點(diǎn)主題、前沿主題和顛覆式主題等,并由此演化出一般創(chuàng)新主題、新興前沿主題和科學(xué)前沿等概念,在研究和應(yīng)用中容易出現(xiàn)概念邊界的模糊不清[2]。H. Xu等計(jì)量“新興主題”相關(guān)概念族群的研究熱度和發(fā)展趨勢,指出族群概念間存在差異和交叉,相比于前沿主題和顛覆式主題等,學(xué)者們對于新興主題的研究興趣增長更快[3]。新興主題相關(guān)概念的差別主要體現(xiàn)在時間維度和創(chuàng)新維度,熱點(diǎn)主題、新興主題和前沿主題在時間指向上,分別表征過去、現(xiàn)在和未來的重要研究主題,其創(chuàng)新程度隨時間發(fā)展逐漸增強(qiáng),預(yù)測難度也逐漸增大[4]。

在新興主題的識別方法上,學(xué)者們主要利用共詞分析[5]、引文分析[6]和文本挖掘分析[7]等相關(guān)技術(shù)方法,從科學(xué)文獻(xiàn)中提取和識別新興主題。近幾年,針對新興主題特征的討論越來越多,大多數(shù)學(xué)者聚焦于文獻(xiàn)的外部歷史性特征,如文本主題的歷史演化和引用情況等,而對于未來發(fā)展趨勢的考慮較少[8]。王山[2]認(rèn)為,新興主題代表著研究領(lǐng)域的未來趨勢,對其趨勢的分析解讀尤為重要。隨著相關(guān)研究熱度持續(xù)增長,識別方法也日益多元化和科學(xué)化,但是在新興研究主題的明確概念定義與擬定的可操作性指標(biāo)之間仍然缺乏良好的聯(lián)系[9]。因此,如何挖掘新興主題與特征之間的關(guān)聯(lián)關(guān)系,采取有效的特征方案,通過構(gòu)建科學(xué)嚴(yán)謹(jǐn)?shù)念A(yù)測模型和使用合適的分析方法進(jìn)而提取長期關(guān)聯(lián)變量,可以為新興主題識別提供一些參考。筆者從新興主題的全面特征出發(fā),利用自然語言處理和時間序列趨勢模型方法,綜合分析文本和特征數(shù)據(jù),進(jìn)行新興主題識別及特征關(guān)聯(lián)分析。

2 相關(guān)研究與主要進(jìn)展

新興主題識別可以及時跟蹤科學(xué)發(fā)展動態(tài),盡早捕捉相關(guān)領(lǐng)域未來的發(fā)展契機(jī)和可能的變化趨勢[10]。梳理新興主題概念和識別方法研究,相關(guān)進(jìn)展大致可分為3類:面向新興主題定義及其特征的研究討論、面向新興主題識別方法的融合創(chuàng)新和面向主題趨勢分析的綜合運(yùn)用。

2.1 新興主題概念及特征

1965年,D. J. De Solla Price[11]開創(chuàng)性地定義了研究前沿,認(rèn)為這是一種處于正在成長階段的新穎性研究。新興主題起源于對研究前沿的關(guān)注[12],在新興主題完整概念提出前,主題特征識別處在萌芽階段,主要表現(xiàn)為采用多指標(biāo)計(jì)量進(jìn)行特征識別,如R. L. Ohniwa等[12]認(rèn)為主題詞增長性和豐富性是表征新興主題的重要信息;Y. N. Tu等[13]認(rèn)為新穎性和研究熱度是新興主題最顯著的特征。

2015年,D. Rotolo等[14]對新興技術(shù)主題提出了全面的特征定義,考慮到技術(shù)和科學(xué)的差異性,Q. Wang[15]對新興主題進(jìn)行了定義,即新興主題是具有新穎性和一定連貫性、能產(chǎn)生較大科學(xué)影響力且發(fā)展速度相對較快的主題,其4個主要的特征分別為:新穎性、增長性、一致連貫性和科學(xué)影響力。伴隨完整概念的提出,新興主題特征分析邁入新階段。H. Xu等[3]提出針對新興主題的多維科學(xué)計(jì)量指標(biāo)評價方案,其中,新穎性和增長被認(rèn)為是新興主題的最重要指標(biāo),這兩個指標(biāo)被視為閾值指標(biāo),在確保新穎性和增長的前提下,考慮了對社會和經(jīng)濟(jì)以及對社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)的顯著影響的潛力。新興主題的研究價值來源于其未來的增長潛力或科學(xué)影響潛力[2]。S. Xu等關(guān)注新興主題的未來趨勢,通過分析主題特征走勢并預(yù)見新興的研究主題[9]。新興主題特征定義被提出后,新興主題研究取得了新的進(jìn)展,一方面有關(guān)學(xué)者不斷探索新的定義以及新的識別方法,另一方面一些學(xué)者致力于開發(fā)一系列的識別指標(biāo)[3]。

2.2 新興主題識別方法

經(jīng)過不斷發(fā)展和創(chuàng)新,新興主題識別方法經(jīng)歷由單一方法到機(jī)器學(xué)習(xí)、文本挖掘等多元化方法的融合。H. Small[16]首次提出利用共引識別新興主題,C. Chen[17]將引文與詞法分析結(jié)合,聯(lián)合引文分析和爆破檢測識別新興主題。文本挖掘可以細(xì)粒度地挖掘大規(guī)模語料庫中的文本關(guān)系特征[18],M. Blei等先后提出的主題模型[19]和動態(tài)影響模型[20]等,可根據(jù)概率突發(fā)和關(guān)聯(lián)規(guī)則識別領(lǐng)域新興主題[21],獲得了較為廣泛的使用。

近年來,學(xué)者們在文本挖掘方法的基礎(chǔ)上,探索基于新興主題特征的多維特征的識別方法。李靜等根據(jù)內(nèi)外部文本特征構(gòu)建新興主題綜合識別公式[22];白敬毅等[23]將主題新穎性、增長性、影響力等特征指標(biāo)依次賦權(quán)疊加,利用多維尺度繪制主題分布矩陣識別新興主題;S. Xu等[9]利用動態(tài)影響模型提取主題結(jié)構(gòu)及增長性和影響力等指標(biāo),使用多任務(wù)最小二乘支持向量機(jī)區(qū)分不同主題的特征表現(xiàn)等。如能融合多維特征構(gòu)建綜合識別方案,將有助于更好地實(shí)現(xiàn)新興主題識別。

2.3 主題趨勢預(yù)測

在新興主題識別的研究中,越來越多的學(xué)者關(guān)注到主題的趨勢特征。A. Kontostathis等[24]觀測詞頻趨勢判定新興主題;C. Lee等[25]使用多層神經(jīng)網(wǎng)絡(luò)來捕獲一定時段內(nèi)關(guān)聯(lián)指標(biāo)間的非線性關(guān)系,開發(fā)了兩個衡量主題趨勢的定量指標(biāo)。針對主題時間序列數(shù)據(jù),岳麗欣等利用 ARIMA(Autoregressive Integrated Moving Average model)模型分別預(yù)測了熱點(diǎn)主題[26]和主要研究主題[27]的未來趨勢;劉自強(qiáng)等[28]運(yùn)用ARDL模型度量主題趨勢和擴(kuò)散滯后效應(yīng),可見,時間序列分析方法已經(jīng)取得了一些應(yīng)用。

目前新興主題概念及特征已經(jīng)較為清晰,雖然不少學(xué)者考慮到趨勢因素,但主要為了對研究現(xiàn)狀進(jìn)行分析解讀,而對未來趨勢變化的預(yù)測稍顯不足。在新興主題識別中,普遍采用綜合識別公式等方法,一定程度上壓縮了主題特征,對主題特征的動態(tài)變化過程有待進(jìn)一步研究。筆者在Q. Wang等[15]提出的新興主題基本定義的基礎(chǔ)上,加入時間序列分析對主題趨勢進(jìn)行預(yù)測,作為潛在高成長性特征,結(jié)合全局主成分分析,從全領(lǐng)域視角分析各個主題的特征水平,系統(tǒng)地構(gòu)建影響力和增長性的綜合評價指標(biāo)體系,結(jié)合時間序列方法進(jìn)一步分析主題成分的動態(tài)特征,以對相關(guān)領(lǐng)域主題的特征表現(xiàn)情況及其深層次的關(guān)系進(jìn)行剖析。

3 新興主題識別方法框架

筆者提出的新興主題識別與分析框架主要分為4個部分(見圖1)。針對文本數(shù)據(jù),利用LDA主題識別生成主題時間序列,結(jié)合ARIMA模型和全局主成分量化主題特征,構(gòu)建新興主題識別方案。在新興主題識別的基礎(chǔ)上,綜合采用面板協(xié)整分析和格蘭杰因果推斷,挖掘觀測變量間的長期關(guān)系和關(guān)聯(lián)效應(yīng),分析新興主題及其特征的長期關(guān)聯(lián)關(guān)系。

圖1 研究技術(shù)路線

3.1 主題識別和數(shù)據(jù)提取

筆者主要使用python語言進(jìn)行摘要文本數(shù)據(jù)分詞、清洗和詞形還原,在與作者關(guān)鍵詞、文章關(guān)鍵詞合并去重后,通過LDA主題模型獲取主題概率分布。選擇主題數(shù)量為1-175個的模型,經(jīng)一致性比較和人工核驗(yàn),確定最優(yōu)主題數(shù)量。根據(jù)主題模型導(dǎo)出分布結(jié)果,計(jì)算主題各維度數(shù)據(jù)。

3.2 基于多維指標(biāo)的新興主題識別體系構(gòu)建

目標(biāo)領(lǐng)域主題的發(fā)展存在多種多樣的外在體現(xiàn),筆者從新興主題定義出發(fā),確定了基于新興主題特征的量化指標(biāo)識別體系,即在一致連貫性和新穎性指數(shù)基礎(chǔ)上,采用ARIMA模型對主題未來成長潛力的預(yù)測結(jié)果,聯(lián)合影響力和增長性特征時序立體表進(jìn)行創(chuàng)新的全局主成分分析,刻畫主題發(fā)展的動態(tài)特征與綜合表現(xiàn),綜合各維度特征完成新興主題的識別,如圖2所示:

圖2 新興主題多維特征識別體系

3.2.1 未來高成長性

未來高成長性是指主題在未來具有良好的發(fā)展?jié)摿?。本文主要采用ARIMA模型,從主題強(qiáng)度數(shù)據(jù)出發(fā)預(yù)測其未來趨勢。ARIMA(p,d,q)模型包括AR過程、MA過程和差分整合過程,內(nèi)含3個主要參數(shù)分別為:p為自回歸項(xiàng)數(shù),d為平穩(wěn)差分階數(shù),q為滑動平均項(xiàng)數(shù)[31]。ARIMA模型可以表示為:

在公式(1)中,L是滯后算子,d∈整數(shù),d>0。

3.2.2 新穎性

新穎性的度量是新穎主題識別的關(guān)鍵部分。Y. N. Tu等[13]利用發(fā)文時間測算新穎性指數(shù)。白敬毅等[23]增加主題生命周期理論,定義新穎性,如公式(2)所示:

其中,t為主題生命周期,F(xiàn)Y為主題初次出現(xiàn)年份。考慮到濕地領(lǐng)域存在長生命周期主題,為保證區(qū)分度采用主題平均年齡,計(jì)算公式為:

3.2.3 一致連貫性

一致連貫性是指主題已經(jīng)出現(xiàn)一段時間,且擁有持續(xù)穩(wěn)定發(fā)展的趨勢。Q. Wang等[15]將主題連貫性定義為主題鏈接的松散程度,通過領(lǐng)域內(nèi)引文數(shù)與發(fā)文數(shù)量之比(一致性指數(shù))來測量,并將閾值取為1。S. Xu[9]認(rèn)為連貫性取決于主題提取方法是否可以確保提取的主題足夠連貫。白如江等[29]認(rèn)為,可以通過時間切片,在連續(xù)時間區(qū)間達(dá)到設(shè)定標(biāo)準(zhǔn)的主題,即為滿足連貫性要求。本文綜合采用相鄰時間劃片以及一致性指數(shù)計(jì)算方法,度量一致連貫性特征。

3.2.4 科學(xué)影響力及增長性

科學(xué)影響力評估范式包括數(shù)量、質(zhì)量和效果論,涉及研究成果產(chǎn)生條件、呈現(xiàn)載體和傳播3個維度,以及研究強(qiáng)度、研究績效、研究支撐能力、研究機(jī)構(gòu)多樣化程度和研究成果的傳播能力等指標(biāo)[30]。對于新興主題科學(xué)影響力的分析存在單一和多種指標(biāo)的情況,如Q. Wang等[15]利用主題被引次數(shù)計(jì)算科學(xué)影響力;G.González-Alcaide等[31]分析研究主題領(lǐng)域文獻(xiàn)發(fā)布情況、合作者特征(作者、機(jī)構(gòu)和國家)和施引文獻(xiàn)等影響傳播特征,評估研究成果在研究領(lǐng)域的影響。本研究立足于科學(xué)影響典型評價范式,選擇引文數(shù)量、作者數(shù)量、機(jī)構(gòu)規(guī)模以及學(xué)科豐富性等作為科學(xué)影響力的綜合觀測指標(biāo)。

主題增長是一個增量的概念,可以從多個角度來衡量,如Q. Wang等[15]采用發(fā)文數(shù)量增長,H. Guo等[32]分析突發(fā)關(guān)鍵詞、作者數(shù)量以及跨學(xué)科性等特征變化。結(jié)合相關(guān)研究內(nèi)容,兼顧指標(biāo)的實(shí)用性和可獲得情況,筆者圍繞主題影響力和增長性兩方面的內(nèi)涵,主要選擇能夠體現(xiàn)主題使用熱度、研究參與熱度、研究關(guān)注熱度和研究增長情況方面的指標(biāo),在通過全局主成分分析的適宜性檢驗(yàn)后,最終選取主題強(qiáng)度、主題引用、主題作者、主題機(jī)構(gòu)和學(xué)科數(shù)量5項(xiàng)主題影響力評價指標(biāo),以及主題增長評價的5個增量指標(biāo),包括主題強(qiáng)度增長率,主題文獻(xiàn)引用增長率、作者增長率、機(jī)構(gòu)增長率和學(xué)科增長率,通過時序全局主成分分析得到評價綜合影響力和綜合增長性的兩個主成分。針對主題特征的綜合分析涉及多維面板數(shù)據(jù)的處理。全局主成分分析在處理此類數(shù)據(jù)上可以保留主題的動態(tài)特征,更具穩(wěn)健性和代表性[33]。

具體指標(biāo)計(jì)算方法如下:

(1)主題引用指標(biāo)。筆者認(rèn)為,主題引用指標(biāo)(Topic Citation,TCI)可以反映主題所擁有的關(guān)注度和傳播熱度,計(jì)算公式如下:

(2)主題作者數(shù)量指標(biāo)。主題作者數(shù)量(Topic Author index ,TAT)指標(biāo)測量的是某特定年份下,參與某個主題研究的學(xué)者的規(guī)模,也能在一定程度上反映出主題的熱度。計(jì)算公式如下:

(3)主題學(xué)科數(shù)量指標(biāo)。主題學(xué)科數(shù)量(Topic Category index,TCG)可以反映出主題學(xué)科跨度和學(xué)科交叉程度,筆者在增長性等指標(biāo)設(shè)計(jì)上增加學(xué)科交差性等指標(biāo)。計(jì)算公式如下:

(4)主題機(jī)構(gòu)數(shù)量指標(biāo)。主題機(jī)構(gòu)數(shù)量(Topic Institution index,TIS)可以反映出學(xué)術(shù)機(jī)構(gòu)對該領(lǐng)域的參與度,這也能反映出機(jī)構(gòu)的研究方向選擇和支持力度。該指標(biāo)越大說明科研機(jī)構(gòu)中在該主題下的布局越多。計(jì)算公式如下:

(5)主題強(qiáng)度指標(biāo)。主題強(qiáng)度(Topic Indensity,TI)反映科技文獻(xiàn)數(shù)據(jù)的研究熱度,由各個文檔的主題及其權(quán)重分布計(jì)算得到。B.Chen等[34]研究發(fā)現(xiàn),研究主題k在t時間的主題強(qiáng)度TIk,t,計(jì)算公式為:

(6)增長性的度量。增長性體現(xiàn)在引文增長、作者增長、機(jī)構(gòu)規(guī)模擴(kuò)大TI以及不同學(xué)科的匯集等方面,其度量方式為相鄰時間數(shù)據(jù)的變化。通過計(jì)算,得到TI-G、TIS-G、TCI-G、TCG-G和TAT-G,分別表征相應(yīng)特征的增長。以主題強(qiáng)度增長為例,度量公式為:

增長性的計(jì)算方案如圖3所示:

圖3 主題強(qiáng)度增長計(jì)算演示

3.3 主題特征關(guān)聯(lián)分析

為了深度挖掘目標(biāo)領(lǐng)域新興主題發(fā)展的內(nèi)在發(fā)展規(guī)律,本研究采用主題特征關(guān)聯(lián)分析方法。2003年諾貝爾獲獎?wù)逤. W. J. Granger提出基于“預(yù)測”的協(xié)整分析與格蘭杰因果檢驗(yàn)方法,對變量間的長期作用關(guān)系提出統(tǒng)計(jì)學(xué)上的檢驗(yàn),判斷變量間的因果關(guān)聯(lián)關(guān)系[35]。對于包含截面?zhèn)€體特征與時間維度變化特征的面板數(shù)據(jù),C. W. Kao等提出面板協(xié)整檢驗(yàn)的方法[36],E. I. Dumitrescu和C. Hurlin[37]拓展了面板數(shù)據(jù)格蘭杰因果關(guān)系的檢驗(yàn)方法,從而可以更好地分析自變量與被解釋變量的關(guān)聯(lián)效用作用機(jī)制。針對新興主題特征關(guān)聯(lián)效應(yīng)的分析,本研究主要采用上述方法。

4 新興主題識別實(shí)證分析

4.1 數(shù)據(jù)來源

筆者利用“濕地”領(lǐng)域研究論文數(shù)據(jù)開展實(shí)證分析,在Web of Science平臺核心合集的SCIE數(shù)據(jù)庫(SCI-Expanded)和SSCI數(shù)據(jù)庫(Social Sciences Citation Index)中進(jìn)行檢索。梳理濕地的不同類型和表達(dá),并利用相關(guān)關(guān)鍵詞設(shè)計(jì)檢索策略,將標(biāo)題、摘要、作者關(guān)鍵字和關(guān)鍵字作為識別字段,以TI=((wetlands or wetland or “wet land” or “wet lands” or marsh or swamp* or peatland* or “peat land*”or bog or bogs or mire or mires or fen or fens or everglade* or mangrove*)) not TS=(“swamp crayfish*” or “marsh sandpiper” or “marsh mallow” or “marsh harbour”)作為檢索式進(jìn)行主題檢索,檢索年代范圍限制在2000年1月1日到2020年12月31日,檢索時間為2020年9月,選取文獻(xiàn)類型為“article”和“review”的文章,共計(jì)檢索得到濕地領(lǐng)域相關(guān)文獻(xiàn)24 449篇。論文年度分布情況見圖4,態(tài)勢發(fā)展良好,增量穩(wěn)步上升。

圖4 濕地領(lǐng)域文獻(xiàn)數(shù)據(jù)

4.2 主題探測

筆者利用python進(jìn)行主題識別,選擇主題數(shù)量為1-175個的模型,綜合比較困惑度(perplexity)和一致性的表現(xiàn)。其中,困惑度是利用概率計(jì)算某個主題模型在測試集上的表現(xiàn),其值越低,則說明這個主題模型越好。困惑度分析結(jié)果表明,困惑度指標(biāo)區(qū)分度不顯著。C_v、U_mass、C_npmi和 C_uci coherence 均為一致性指標(biāo),衡量主題內(nèi)詞語之間是否為相互支撐關(guān)系,在一致性指標(biāo)結(jié)果中,主題數(shù)目為26個時最優(yōu),見圖5。

圖5 主題一致性可視化

通過分詞和主題模型等自然語言處理后導(dǎo)出主題—關(guān)鍵詞分布,得到濕地領(lǐng)域的26個研究主題(見表1)。結(jié)合人工判讀并翻譯,濕地領(lǐng)域包括人工濕地再生、濕地生態(tài)監(jiān)測、環(huán)境氣候變化響應(yīng)、濕地污染成分分析、濕地生物多樣性保護(hù)、濕地氣體排放通量模型與監(jiān)測、退化濕地系統(tǒng)恢復(fù)、濕地循環(huán)系統(tǒng)分析、區(qū)域濕地管理、濕地恢復(fù)標(biāo)準(zhǔn)技術(shù)和濕地生態(tài)防護(hù)等主題。

表1 濕地領(lǐng)域研究主題—關(guān)鍵詞列表

續(xù)表1

4.3 新興主題識別分析

4.3.1 一致連貫性分析

為了檢測濕地領(lǐng)域主題的一致連貫性,通過時間劃片并計(jì)算2016-2020年和2011-2015年的主題一致性指數(shù),結(jié)果見圖6。主題一致連貫性指數(shù)的橫坐標(biāo)代表主題序號,縱坐標(biāo)代表主題一致性指數(shù)計(jì)算結(jié)果。相鄰時間區(qū)間內(nèi)主題一致性指數(shù)均遠(yuǎn)高于設(shè)定閾值,說明利用主題模型確定的26個研究主題連接緊密,滿足一致連貫性要求。

圖6 主題一致連貫性指數(shù)

4.3.2 潛在高成長力分析

針對潛在高成長力,筆者通過構(gòu)建ARIMA模型來預(yù)測主題未來趨勢。為避免潛在的自相關(guān)和異方差問題,預(yù)先對數(shù)據(jù)進(jìn)行對數(shù)化處理,然后進(jìn)行平穩(wěn)性檢驗(yàn)。檢驗(yàn)類型上,分為趨勢截距(c,t)、無趨勢有截距(c,0)和無趨勢無截距(0,0)3種類型,根據(jù)顯著性確定檢驗(yàn)類型,平穩(wěn)性檢驗(yàn)結(jié)果見表2。在主題強(qiáng)度序列中,進(jìn)行差分處理后,主題1、5、6、12、21和23序列穩(wěn)定,其余均為平穩(wěn)序列,因此可以建模。

表2 主體強(qiáng)度序列檢驗(yàn)結(jié)果

經(jīng)過單位根檢驗(yàn),PCF圖、PACF圖定階,結(jié)合信息準(zhǔn)則(即AIC、SC和HQ最小個數(shù)最多原則)和參數(shù)比較,確定了ARIMA模型形式。由于建模期間過程數(shù)據(jù)較多,下面僅以表3展示最終模型參數(shù)定階結(jié)果,并以主題5為例,展示建模流程。

表3 ARIMA時間序列模型搭建

如圖7所示,主題5自相關(guān)圖3階截尾,偏自相關(guān)圖1階截尾,模型參數(shù)p應(yīng)取0-3階,參數(shù)q應(yīng)取0-1,可能存在8種可能的組合。通過信息準(zhǔn)則比較,確定了模型的最優(yōu)形式(見圖8)。據(jù)此展開主題趨勢擬合和預(yù)測分析,圖9左側(cè)為基于ARIMA模型擬合的2000-2018年主題強(qiáng)度走勢,呈現(xiàn)增長;右側(cè)為Topic5未來5年主題走勢預(yù)測結(jié)果,表現(xiàn)平穩(wěn)。

圖7 主題5建模PAC和PACF圖

圖8 主題5模型信息準(zhǔn)則及參數(shù)

圖9 主題5基于ARIMA的趨勢擬合預(yù)測

4.3.3 影響力和增長性分析

時序全局主成分分析利用綜合變量來取代原有的全局變量,能抓住主要影響特征[38]。通過計(jì)算2001-2018各年度度量指標(biāo),得到260×18的時序數(shù)據(jù)表,共4 680條數(shù)據(jù),指標(biāo)間存在相關(guān)性(見圖10)。為消除量綱的影響,采取標(biāo)準(zhǔn)化處理,巴特利球度檢驗(yàn)統(tǒng)計(jì)量為9 135.283,p值接近0,KMO檢驗(yàn)值大于0.7,適合主成分分析。

圖10 影響力和增長性各成分相關(guān)性分析

計(jì)算全局主成分分析的初始解及因子解情況,依據(jù)特征值大于1的原則,選取主成分F1和F2,二者分別攜帶43.375%和32.519%的原始數(shù)據(jù)信息。第一主成分中5項(xiàng)影響力指標(biāo)均為正值且有較大的載荷,構(gòu)成影響力綜合因子。第二主成分更多地反映了主題增長性情況,構(gòu)成增長性因子。

利用成分得分系數(shù)得到兩類主成分的解析表達(dá)式,如下所示:

根據(jù)累計(jì)貢獻(xiàn)度歸一化處理,計(jì)算綜合評價指標(biāo)權(quán)重,可以進(jìn)一步得到新興主題影響力和增長性綜合評價的表達(dá)式,如下所示:

為了更好地解釋主成分的現(xiàn)實(shí)意義,可以通過數(shù)據(jù)標(biāo)準(zhǔn)化和各主成分得分計(jì)算觀察主題二維分布情況,如圖11所示。主題7、13、16、23、24、25和26等呈現(xiàn)出高增長與高影響的協(xié)同發(fā)展效應(yīng),表現(xiàn)高增長新興主題可以取得更多的科學(xué)影響力;主題1、2、4、5、6、10、11、12、14、18、19和21等,其增長性和影響力呈現(xiàn)出一定的替代效應(yīng);主題3、8、9、12和15等分布接近原點(diǎn),影響力和增長性特征發(fā)展較為穩(wěn)定。

圖11 濕地領(lǐng)域主題增長性及影響力因子動態(tài)分布

4.3.4 新興主題識別結(jié)果

綜合濕地領(lǐng)域主題各維度的特征,可以發(fā)現(xiàn):①通過主題模型計(jì)算得到的26個主題均滿足一致連貫性特征的要求。②潛在高成長性分析結(jié)果顯示,在2000-2018年里,主題強(qiáng)度大部分呈現(xiàn)平穩(wěn)或上升的態(tài)勢;在未來5年中,主 題 5、6、7、9、13、14、15、16、17、18、22、23、25和26擁有顯著的潛在高成長力,預(yù)計(jì)發(fā)展態(tài)勢向好。③新穎度方面表現(xiàn)良好的主題包括主題 2、7、9、11、12、13、15、16、17、23和25。④聯(lián)合分析增長性和影響力,主題 3、7、13、16、17、23、24、25和 26擁 有具有較好的特征表現(xiàn)。

新興主題多維識別結(jié)果如圖12所示,結(jié)果表明,在濕地領(lǐng)域符合新興主題定義的主題為主題7、13、15、16、17和25,即退化濕地系統(tǒng)恢復(fù)、濕地微生物基因研究、濕地物質(zhì)平衡/濕地生態(tài)補(bǔ)償、濕地定量勘查研究、濕地菌群系統(tǒng)治理分析和濕地生態(tài)對氣候變化響應(yīng)分析。

圖12 新興主題特征維度分析

5 新興主題特征關(guān)聯(lián)分析

新興主題具有發(fā)展成為未來熱點(diǎn)主題的趨勢[39],是前沿主題孵化的基床[40]。在新興主題識別的基礎(chǔ)上,深度挖掘新興主題關(guān)聯(lián)特征的長期關(guān)系,可以更好地認(rèn)識新興主題,具有一定的現(xiàn)實(shí)意義。

本文立足于科學(xué)評價體系,選取能反映研究強(qiáng)度、研究績效、研究機(jī)構(gòu)多樣化程度和成果傳播能力的主要計(jì)量指標(biāo),針對新興主題組成的面板數(shù)據(jù),進(jìn)行主題特征(包括引文特征、作者特征、機(jī)構(gòu)規(guī)模以及學(xué)科豐富性等)關(guān)聯(lián)分析。為規(guī)避可能存在的異方差情況,對數(shù)據(jù)進(jìn)行對數(shù)化處理后,完成LLC平穩(wěn)性檢驗(yàn),其中,主題多學(xué)科特征存在單位根過程,即一階單整,其余變量均為零階單整。

5.1 長期均衡分析:協(xié)整分析

由于采用的數(shù)據(jù)并非同階單整,需要經(jīng)協(xié)整檢驗(yàn)確定長期穩(wěn)定關(guān)系。在Kao-test協(xié)整檢驗(yàn)中,原假設(shè)為主題強(qiáng)度與主題特征數(shù)據(jù)不存在協(xié)整關(guān)系。根據(jù)DF和調(diào)整的ADF等5個檢驗(yàn)統(tǒng)計(jì)量的顯著性比較,結(jié)論均為拒絕原假設(shè)(見表4),即存在協(xié)整關(guān)系,主題強(qiáng)度序列與主題各維度外部特征之間存在長期穩(wěn)定關(guān)系,可以對觀測變量進(jìn)行進(jìn)一步的因果關(guān)系分析診斷。

表4 Kao-test協(xié)整檢驗(yàn)

根據(jù)協(xié)整方程可得:主題機(jī)構(gòu)的增長、主題作者數(shù)量的增長和主題被引頻次的增加,與主題強(qiáng)度在長呈現(xiàn)正向的均衡關(guān)系;主題學(xué)科豐富性的增加與主題強(qiáng)度在長期呈現(xiàn)負(fù)向的均衡關(guān)系,如表5所示:

表5 協(xié)整方程

5.2 格蘭杰因果關(guān)系檢驗(yàn)

格蘭杰因果檢驗(yàn)是一種預(yù)測能力的檢驗(yàn),其基本原理為:假設(shè)變量甲和乙間存在互相影響,如果甲的滯后期變量對乙有顯著影響,那么甲是乙的格蘭杰原因,反之則反[41]。確認(rèn)主題強(qiáng)度與各維度特征之間存在協(xié)整關(guān)系后,由于作用方向不明,筆者首先利用Pvar模型確定最優(yōu)滯后階數(shù)為3,接著采用A. Juodis等[42]提出的格蘭杰因果檢驗(yàn)方法對變量的外生性進(jìn)行檢驗(yàn),確定主題各維度特征對主題強(qiáng)度是否擁有解釋能力,若無則需調(diào)整。

原假設(shè)為被解釋變量主題聯(lián)合維度特征對主題強(qiáng)度無顯著性影響,檢驗(yàn)結(jié)果見表6,機(jī)構(gòu)、作者、引用和學(xué)科豐富性對主題強(qiáng)度的三階滯后項(xiàng)對主題強(qiáng)度的影響顯著性水平有所差異,但其聯(lián)合作用的臨界值小于0.05,說明4個變量的聯(lián)合變化是主題強(qiáng)度變化的內(nèi)生因素。為研究變量之間具體的因果關(guān)系,筆者進(jìn)行進(jìn)一步的格蘭杰因果檢驗(yàn),結(jié)果見表7。

表6 格蘭杰外生性檢驗(yàn)

表7 Granger因果關(guān)系檢驗(yàn)結(jié)果

分析表7Granger因果關(guān)系檢驗(yàn)結(jié)果,可得出如下結(jié)論:

(1)對于濕地領(lǐng)域的新興主題而言,主題強(qiáng)度和主題機(jī)構(gòu)數(shù)量、主題作者數(shù)量之間存在雙向的格蘭杰因果關(guān)系。這說明,領(lǐng)域內(nèi)研究學(xué)者的增長促進(jìn)了領(lǐng)域新興主題的發(fā)展,主題強(qiáng)度的增長也吸引了新的一批學(xué)者展開相關(guān)的研究,結(jié)果驗(yàn)證了集群效應(yīng),說明人才發(fā)展與主題發(fā)展屬于相輔相成的主動模式。這從側(cè)面反映出濕地領(lǐng)域相關(guān)研究支持機(jī)構(gòu)制定研究激勵政策的有效性,在未來發(fā)展學(xué)科主題時應(yīng)考慮項(xiàng)目為先、人才為本的執(zhí)行思路。

(2)在濕地領(lǐng)域中,主題強(qiáng)度和主題學(xué)科豐富性數(shù)量、主題引用間存在單向的因果關(guān)系,即主題強(qiáng)度的良好發(fā)展是主題學(xué)科豐富性的原因,但學(xué)科豐富性不是主題強(qiáng)度良好發(fā)展的原因;主題強(qiáng)度增長是主題引用頻次增加的原因,而主題引用頻次增加是主題強(qiáng)度變化的原因。其現(xiàn)實(shí)含義為,主題強(qiáng)度對主題豐富性有著單方面作用,主題強(qiáng)度隨著時間發(fā)展而不斷擴(kuò)張,促進(jìn)了濕地領(lǐng)域?qū)W科的多元化發(fā)展;然而,濕地領(lǐng)域?qū)W科豐富性的發(fā)展并沒有明顯優(yōu)化主題強(qiáng)度的增長,這說明,通過促進(jìn)學(xué)科豐富性的增加并不能夠直接地促進(jìn)該領(lǐng)域主題強(qiáng)度的良性發(fā)展,在濕地領(lǐng)域內(nèi)盲目追求學(xué)科豐富性,可能導(dǎo)致主題分散化較為嚴(yán)重,難以做到“大而精”。此外,引用情況在一定程度上代表著主題關(guān)注度的轉(zhuǎn)移,主題強(qiáng)度增長對于引用的拉動作用在短期內(nèi)因果關(guān)系不顯著,反觀主題引用頻次對主題強(qiáng)度發(fā)展的影響,可以發(fā)現(xiàn),引用頻次增加對主題強(qiáng)度發(fā)展的促進(jìn)效果顯著,是該領(lǐng)域主題強(qiáng)度發(fā)展的“風(fēng)向標(biāo)”。

6 討論

從論文數(shù)據(jù)中,筆者提出了一套基于新興主題特征的識別與關(guān)聯(lián)分析方法。在特征提取方面,結(jié)合新興主題相關(guān)理論與實(shí)踐,在新穎性等方面做出了改良,加入潛在高成長性指標(biāo),并針對影響力和增長性選取了較為全面的特征考量方案。本研究通過主題模型提取研究主題與主題分布,采用趨勢預(yù)測模型與分析方法分析主題未來趨勢,結(jié)合全局主成成分析刻畫主題增長性和影響力動態(tài)發(fā)展路徑,根據(jù)主題綜合表現(xiàn)情況完成新興主題的識別。為更好地識別新興主題,筆者利用協(xié)整分析和格蘭杰因果檢驗(yàn),針對新興主題的特征關(guān)聯(lián)關(guān)系進(jìn)行挖掘,研究發(fā)現(xiàn),主題強(qiáng)度與機(jī)構(gòu)數(shù)量、作者規(guī)模間存在雙向的關(guān)聯(lián)效應(yīng),主題引用頻次對主題發(fā)展存在正向的影響,主題強(qiáng)度對主題多樣性產(chǎn)生單向的促進(jìn)作用,由此,筆者提出應(yīng)堅(jiān)持項(xiàng)目為先、人才為本的創(chuàng)新政策執(zhí)行思路,以及關(guān)于如何發(fā)展新興主題的一些思考。筆者在特征科學(xué)性和識別全面性上進(jìn)行了反復(fù)考量,綜合選用自然語言處理、多元統(tǒng)計(jì)分析和時間序列分析方法,確定了新興主題識別與特征分析方法,該方法對于客觀認(rèn)識領(lǐng)域內(nèi)研究主題動態(tài)、展開科研布局決策等具有一定的參考價值。

筆者提出的新興主題識別分析方法主要從科學(xué)文獻(xiàn)角度展開,由于新興主題是一個領(lǐng)域內(nèi)研究內(nèi)容的全面特征,其研究價值體現(xiàn)在科技、政策和經(jīng)濟(jì)等各個方面,而文獻(xiàn)只是反映研究主題創(chuàng)新變化的一個重要對象,除科學(xué)文獻(xiàn)外,還包括政策文本和專利數(shù)據(jù)等研究對象。因此,未來研究可以嘗試將多源文本融合進(jìn)行綜合的新興主題識別研究。

猜你喜歡
強(qiáng)度特征指標(biāo)
一類帶臨界指標(biāo)的非自治Kirchhoff型方程非平凡解的存在性
如何表達(dá)“特征”
不忠誠的四個特征
最新引用指標(biāo)
莫讓指標(biāo)改變初衷
Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
抓住特征巧觀察
地埋管絕熱措施下的換熱強(qiáng)度
Double圖的Kirchhoff指標(biāo)
基于DEFORM-3D的300M超高強(qiáng)度鋼切削性能的比較
阜平县| 台中市| 义马市| 保靖县| 青州市| 东山县| 海淀区| 夹江县| 佛学| 旌德县| 沙河市| 沅江市| 介休市| 福州市| 原阳县| 汉源县| 都匀市| 大渡口区| 昔阳县| 东丰县| 莱阳市| 德安县| 绥化市| 邢台市| 潞西市| 淮滨县| 新余市| 翼城县| 加查县| 岱山县| 昭通市| 睢宁县| 西充县| 滦平县| 会东县| 贡山| 法库县| 哈尔滨市| 临湘市| 红河县| 仪陇县|