国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新興主題識(shí)別方法研究綜述

2023-12-18 14:30:25柴文越劉小平梁爽
現(xiàn)代情報(bào) 2023年12期
關(guān)鍵詞:引文分析文本挖掘文獻(xiàn)計(jì)量

柴文越 劉小平 梁爽

關(guān)鍵詞: 新興主題; 主題識(shí)別; 文獻(xiàn)計(jì)量; 引文分析; 文本挖掘; 綜述

DOI:10.3969 / j.issn.1008-0821.2023.12.014

〔中圖分類號〕G250.2 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號〕1008-0821 (2023) 12-0164-14

隨著科技的發(fā)展, 越來越多的新目標(biāo)、新方向、新方法、新成果噴涌而出, 如何快速把握國際科技新形勢, 了解各國(地區(qū))科技創(chuàng)新的攻關(guān)重點(diǎn), 及時(shí)準(zhǔn)確地追蹤新興研究趨勢與前沿?zé)狳c(diǎn), 以謀劃科技發(fā)展戰(zhàn)略布局, 是提高國家科技實(shí)力的重要環(huán)節(jié)。《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》中提出, 國家應(yīng)面向世界科技前沿, 實(shí)施具有前瞻性、戰(zhàn)略性的科技項(xiàng)目, 強(qiáng)化國家的戰(zhàn)略科技力量[1] 。因此, 通過設(shè)計(jì)快速高效的識(shí)別方法, 發(fā)現(xiàn)各學(xué)科的最新研究動(dòng)向, 能為科研工作者規(guī)劃其后續(xù)的研究方向提供參考、為研究機(jī)構(gòu)合理分配資源提供便利、為國家制定科技戰(zhàn)略提供數(shù)據(jù)支持, 具有十分重要的現(xiàn)實(shí)意義。因此, 面向新興主題識(shí)別的整個(gè)研究流程,對研究的現(xiàn)狀與進(jìn)展進(jìn)行全面的梳理和述評, 能夠發(fā)現(xiàn)研究存在的局限, 找到需要深入研究的問題,為后續(xù)研究提供參考。

現(xiàn)已有部分學(xué)者對新興主題識(shí)別相關(guān)研究展開述評, 為進(jìn)一步開展新興主題識(shí)別提供了重要參考。如盧超等[2] 、劉小玲等[3] 分別對新興研究話題和新興技術(shù)主題的概念、主題提取方法、探測指標(biāo)構(gòu)建和結(jié)果驗(yàn)證方法進(jìn)行歸納; 楊金慶等[4] 從數(shù)據(jù)特征的視角入手, 梳理了新興主題識(shí)別的方法。然而, 相關(guān)研究對新興主題概念界定的視角關(guān)注較少;對數(shù)據(jù)源的選擇, 尤其是多源數(shù)據(jù)融合方面存在的問題關(guān)注不夠充分; 對新興主題的內(nèi)在屬性以及各學(xué)者所關(guān)注的特性總結(jié)不夠全面; 最新發(fā)表的成果尚待梳理, 所以相關(guān)工作還待進(jìn)一步剖析。因此,本文首先對相關(guān)概念進(jìn)行辨析, 并對新興主題的起源與內(nèi)涵和新興主題識(shí)別的研究視角進(jìn)行梳理; 其次, 面向新興主題識(shí)別的流程, 本文將分別對新興主題識(shí)別研究選取的數(shù)據(jù)源與分析對象、面向分析對象的主題識(shí)別及表征方法, 以及用于篩選新興主題的屬性與指標(biāo)進(jìn)行述評, 并對比不同方法間的優(yōu)劣; 最后, 本文將綜合目前的研究現(xiàn)狀對新興主題識(shí)別領(lǐng)域的研究進(jìn)行歸納總結(jié), 發(fā)現(xiàn)研究存在的局限, 指出未來研究的方向, 以期為后續(xù)研究提供參考。

1新興主題的概念與辨析

1.1相關(guān)概念辨析

與“新興主題” 經(jīng)常一起出現(xiàn)的概念為“前沿主題”, 二者因具有類似的特性而經(jīng)常被混淆。1965年, 學(xué)者Price D J D[5] 提出的“研究前沿”, 被認(rèn)為是某領(lǐng)域近期發(fā)表的被引頻率較高的參考文獻(xiàn)集合, 以表征一個(gè)研究領(lǐng)域的前沿思想。研究早期,學(xué)者對研究前沿的定義通常為方法性描述, 主要通過引文分析方法, 利用高被引文獻(xiàn)集、高被引文獻(xiàn)集的施引文獻(xiàn)、共被引中的核心文獻(xiàn)等來表征前沿主題[6-7] 。隨著研究的深入, 學(xué)者對研究前沿的定義更強(qiáng)調(diào)主題的特性, 認(rèn)為前沿主題是受到高度關(guān)注, 具有較高影響力、較大發(fā)展?jié)摿?、較高水平的研究問題, 代表了當(dāng)前研究的熱點(diǎn)與難點(diǎn)[8] 。

總的來說, 二者都是具備一定創(chuàng)新性和影響力的主題, 存在交叉但又各有側(cè)重。“新興主題” 也被稱為新興研究話題、新興研究趨勢, 主要強(qiáng)調(diào)時(shí)間維度上的“新”, 以及發(fā)展維度上的“興”, 是受到新技術(shù)出現(xiàn)或環(huán)境變化等影響, 在近期出現(xiàn)或得到一定關(guān)注但尚未被廣泛研究的主題, 這類主題具有一定的發(fā)展?jié)摿Γ?正在快速興起。而“前沿主題” 主要強(qiáng)調(diào)研究水平的“高”, 研究難度的“大”, 以及研究質(zhì)量的“優(yōu)”, 代表了某一領(lǐng)域的最高水平和最新成果。這類主題的研究價(jià)值往往已經(jīng)被充分認(rèn)可, 但仍然需要深入探索和挖掘, 研究存在一定的挑戰(zhàn)。而隨著研究的愈發(fā)深入, 一部分新興研究主題將成長為前沿主題, 其他主題將成為非前沿性熱點(diǎn)主題或衰老主題。

1.2新興主題的起源與內(nèi)涵

新興主題(Emerging Topics) 這一概念最早由Matsumura N 等[9] 于2002 年提出, 被認(rèn)為是新出現(xiàn)且重要的主題。根據(jù)這一定義, Matsumura N 等基于社會(huì)進(jìn)化的視角, 在社區(qū)網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn), 證明了新興主題是與多個(gè)強(qiáng)鏈接社區(qū)存在弱鏈接關(guān)系的主題。時(shí)至今日, 已有不少學(xué)者進(jìn)行了新興主題識(shí)別的相關(guān)研究, 但“新興主題” 的概念和其基本屬性仍然沒有較為明確和被公認(rèn)的定義。

通過閱讀發(fā)現(xiàn), 國內(nèi)外學(xué)者對新興主題概念的界定通常從3 個(gè)角度入手: ①新興主題的外部表現(xiàn):根據(jù)生命周期理論, 一個(gè)主題從誕生到衰落通常會(huì)經(jīng)歷4 個(gè)階段: 萌芽期、快速發(fā)展期、成熟期、衰落或轉(zhuǎn)型期, 根據(jù)主題的外部表現(xiàn), 新興主題通常被定義為處于快速發(fā)展期的主題; ②新興主題的外部表現(xiàn)與未來趨勢: 在新興主題現(xiàn)有表現(xiàn)的基礎(chǔ)上,強(qiáng)調(diào)新興主題的未來發(fā)展趨勢、影響與效應(yīng), 認(rèn)為新興主題具有更強(qiáng)的影響力和較大的發(fā)展?jié)摿Γ?③新興主題的外部表現(xiàn)與產(chǎn)生機(jī)制: 即在新興主題現(xiàn)有表現(xiàn)的基礎(chǔ)上, 從主題的產(chǎn)生機(jī)制或成因入手,對新興主題進(jìn)行定義與識(shí)別。有關(guān)新興主題概念的描述, 如表1 所示。

綜上發(fā)現(xiàn), 目前學(xué)界對新興主題的概念并沒有達(dá)成共識(shí), 且各研究關(guān)注的特性也不同。然而, 無論是從外部表現(xiàn)還是從產(chǎn)生機(jī)制入手, 幾乎所有學(xué)者都認(rèn)同新興主題的新穎性和成長性, 并以“新”和“興” 作為基礎(chǔ)屬性為“新興主題” 賦予定義。筆者根據(jù)以往的研究, 嘗試在學(xué)術(shù)場景下對新興主題作出如下定義: 新興主題是一類新穎的、發(fā)展速度較快的、具有一定創(chuàng)新性和持久性并且具有一定影響力的研究主題。

2新興主題識(shí)別方法研究進(jìn)展

通過閱讀相關(guān)文獻(xiàn)發(fā)現(xiàn), 在研究前期, 學(xué)者們通常立足于回顧的視角, 基于歷史數(shù)據(jù)對新興研究主題進(jìn)行識(shí)別。隨著機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步以及相關(guān)研究的愈發(fā)深入, 越來越多的學(xué)者立足于對未來趨勢進(jìn)行洞察與探測, 利用文本挖掘與神經(jīng)網(wǎng)絡(luò)等技術(shù)對新興主題進(jìn)行預(yù)測。在此基礎(chǔ)上, 本文選定CNKI 和Web of Science 核心合集分別作為中英文文獻(xiàn)數(shù)據(jù)來源, 在CNKI 上以檢索式SU = (“新興主題”+“新興研究” +“新興技術(shù)主題” +“新興趨勢”) AND SU=(“識(shí)別”+“探測”+“預(yù)測”)對中文文獻(xiàn)進(jìn)行檢索;在Web of Science 核心合集中,以檢索式TS = ((“emerg? theme? ” or “emerg? topic? ”or“theme? emerg?” or “topic? emerg?” or “emerg?of theme?” or “emerg? of topic? ” or (“emerg? re?search” and “trend”)) and (“identif? ” or“recog?ni?” or “forecast? ” or“detect? ”))對英文文獻(xiàn)進(jìn)行檢索, 限制索引=(SCI-Expanded, SSCI), 并根據(jù)專家建議將WOS 類別限定為計(jì)算機(jī)科學(xué)、信息科學(xué)相關(guān)的7 個(gè)WOS 類別。在閱讀過程中, 筆者將未被檢索到的相關(guān)被引文獻(xiàn)等納入文獻(xiàn)集內(nèi), 最終得到符合研究內(nèi)容的重要文獻(xiàn)。本文將梳理上述文獻(xiàn), 以對新興主題識(shí)別方法進(jìn)行總結(jié)與分析。

2.1數(shù)據(jù)源與分析對象

選擇數(shù)據(jù)源與分析對象是新興主題識(shí)別的首要環(huán)節(jié), 能夠決定研究適用的方法, 影響研究結(jié)果的呈現(xiàn)。通過文獻(xiàn)調(diào)研發(fā)現(xiàn), 新興主題識(shí)別的數(shù)據(jù)源主要可以分為單源數(shù)據(jù)和多源數(shù)據(jù), 而對于不同的研究階段, 學(xué)者選取的研究對象也存在差異。如圖1 所示, 在主題挖掘階段, 學(xué)者常用文獻(xiàn)標(biāo)題、摘要、關(guān)鍵詞、參考文獻(xiàn)、引文內(nèi)容等最能反映研究重點(diǎn)的內(nèi)容數(shù)據(jù)作為語料來源進(jìn)行主題挖掘。在主題新興與否的判別階段, 學(xué)者常用科技文獻(xiàn)發(fā)表年份、被引或下載情況等能夠反映文獻(xiàn)新穎性、關(guān)注度特性的外部數(shù)據(jù)進(jìn)行新興主題識(shí)別。

2.1.1基于單源數(shù)據(jù)的新興主題識(shí)別

單源數(shù)據(jù)即研究的數(shù)據(jù)集來自單一數(shù)據(jù)源, 學(xué)者通常選擇一類數(shù)據(jù)如期刊論文[15] 、專利文獻(xiàn)[18] 、基金項(xiàng)目數(shù)據(jù)[19] 、政策報(bào)告[20] 等進(jìn)行新興主題的識(shí)別。單源數(shù)據(jù)因其數(shù)據(jù)結(jié)構(gòu)統(tǒng)一、分類方式一致、內(nèi)容獲取便捷等優(yōu)勢被學(xué)者廣泛應(yīng)用于新興主題的識(shí)別研究。然而, 各類科技文獻(xiàn)的研究內(nèi)容、重點(diǎn)與研究方法不同, 單憑一種數(shù)據(jù)源可能難以真實(shí)反映復(fù)雜的科研主題, 因此不少學(xué)者試圖通過多類數(shù)據(jù)對新興研究主題進(jìn)行全面識(shí)別。

2.1.2基于多源數(shù)據(jù)的新興主題識(shí)別

多源數(shù)據(jù)即研究的數(shù)據(jù)集來自多種數(shù)據(jù)源, 為了彌補(bǔ)單源數(shù)據(jù)對科學(xué)研究現(xiàn)狀反映能力不足等問題, 學(xué)者們開始使用多源數(shù)據(jù)對研究問題進(jìn)行分析,以保證對學(xué)科領(lǐng)域進(jìn)行更為全面的認(rèn)知[21-23] 。通過調(diào)研發(fā)現(xiàn), 新興主題識(shí)別研究使用多源數(shù)據(jù)的方式主要分為3 類, 如圖2 所示。

1) 先融合研究, 即先將不同數(shù)據(jù)集進(jìn)行合并,再對合并后的多源數(shù)據(jù)集進(jìn)行主題識(shí)別。如邱悅文[24] 將論文的標(biāo)題與摘要、專利的說明書內(nèi)容、基金數(shù)據(jù)的標(biāo)題與結(jié)項(xiàng)摘要、政策的標(biāo)題等數(shù)據(jù)進(jìn)行融合, 利用LDA 主題模型與構(gòu)建的判別指標(biāo)實(shí)現(xiàn)新興技術(shù)主題識(shí)別。先融合方法將多類數(shù)據(jù)看作一個(gè)整體, 簡化了數(shù)據(jù)匹配和結(jié)果解讀的難度, 提升了研究效率。但由于對不同數(shù)據(jù)源選取的分析對象不同、各數(shù)據(jù)源之間存在時(shí)滯等原因[25] , 先融合方法存在一定的局限, 且難以分析不同數(shù)據(jù)源在主題表現(xiàn)情況上的差異。

2) 后融合研究, 即首先分別對不同的數(shù)據(jù)集進(jìn)行主題識(shí)別, 再根據(jù)識(shí)別結(jié)果將不同數(shù)據(jù)源得到的主題進(jìn)行融合, 進(jìn)而識(shí)別新興主題。如白如江等[26] 選擇科技規(guī)劃文本、基金項(xiàng)目數(shù)據(jù)以及期刊論文為數(shù)據(jù)源, 分別對3 類數(shù)據(jù)進(jìn)行主題識(shí)別, 在此基礎(chǔ)上對主題進(jìn)行相似度計(jì)算, 將相似度超過閾值的主題進(jìn)行融合, 進(jìn)而識(shí)別新興主題。后融合研究方法能夠全局性地觀測不同數(shù)據(jù)源上主題的表現(xiàn)情況, 但時(shí)滯問題仍未得到解決, 決定主題是否相似的閾值設(shè)置比較主觀, 識(shí)別結(jié)果容易受到人為因素影響。

3) 各數(shù)據(jù)源獨(dú)立, 即對不同數(shù)據(jù)分別進(jìn)行新興主題識(shí)別研究。如Tu T N 等[10] 分別識(shí)別了期刊論文和會(huì)議論文的新興主題, 并得到同一領(lǐng)域下期刊主題更加趨同、會(huì)議主題更加分散, 且新主題在會(huì)議論文中出現(xiàn)時(shí)間更早等結(jié)論。該方法雖然考慮到了不同數(shù)據(jù)間的差異, 但無法綜合代表復(fù)雜的科研主題。

多源數(shù)據(jù)分析能夠更全面地反映科研內(nèi)容, 但也存在一定的局限: 由于產(chǎn)出模式與研究目的不同,多源數(shù)據(jù)間存在時(shí)間維度上的差異, 若對在同一時(shí)段內(nèi)發(fā)表的不同文檔進(jìn)行簡單的融合, 會(huì)出現(xiàn)“主題不對齊” 等問題[27-28] , 在一定程度上會(huì)對主題新穎性等特性的測度造成干擾。目前, 少有研究考慮到不同數(shù)據(jù)源之間的差異, 結(jié)合數(shù)據(jù)源的特點(diǎn)以及各數(shù)據(jù)源之間的聯(lián)系進(jìn)行更為精準(zhǔn)的新興主題識(shí)別。而在先前的研究中, 已有學(xué)者對不同科技文獻(xiàn)主題間的時(shí)滯差異進(jìn)行了分析[29-30] , 學(xué)者可以進(jìn)行相關(guān)研究并根據(jù)研究結(jié)果對不同數(shù)據(jù)進(jìn)行提前或滯后等操作, 進(jìn)而實(shí)現(xiàn)主題對齊, 并依據(jù)主題相似度等指標(biāo)實(shí)現(xiàn)更為精準(zhǔn)的多源數(shù)據(jù)融合。

2.2主題識(shí)別方法研究現(xiàn)狀

實(shí)現(xiàn)科研主題的識(shí)別與表征是識(shí)別新興主題的基礎(chǔ), 本文根據(jù)研究實(shí)體的不同, 將國內(nèi)外學(xué)者用于識(shí)別新興主題的方法分為基于關(guān)鍵詞匯的主題識(shí)別、基于傳統(tǒng)引文分析的主題識(shí)別、基于文本挖掘的主題識(shí)別方法, 如圖3 所示。

2.2.1基于關(guān)鍵詞匯的主題識(shí)別

自1949 年齊普夫發(fā)現(xiàn)了文章內(nèi)詞匯的出現(xiàn)頻率存在一定的規(guī)律后, 基于關(guān)鍵詞的分析成為圖書情報(bào)領(lǐng)域?qū)<已芯康臒狳c(diǎn)之一[31] 。在新興主題識(shí)別的研究前期, 學(xué)者通常利用突變檢測方法以及共詞分析與社會(huì)網(wǎng)絡(luò)分析相結(jié)合的方法進(jìn)行新興主題的識(shí)別。

突變檢測(Burst Detection) 算法最早由Klein?berg 教授于2002 年提出, 該算法通過找到頻率急劇上升的實(shí)體來發(fā)現(xiàn)新出現(xiàn)的主題。突變檢測算法能夠反映關(guān)鍵詞匯的增長性, 并且不要求該詞是一個(gè)高頻詞匯, 因此被部分學(xué)者用于新興主題的識(shí)別。如Katsurai M 等[32] 提出了名為TrendNets 的能夠反映共詞網(wǎng)絡(luò)中邊權(quán)重快速變化的可視化方法, 通過計(jì)算連續(xù)時(shí)段內(nèi)詞語共現(xiàn)頻率的差異, 得到突然被大量討論的新興主題。而部分學(xué)者認(rèn)為, 孤立的詞匯難以準(zhǔn)確表達(dá)一個(gè)研究主題, 研究主題應(yīng)由一組具有強(qiáng)文本表示功能的關(guān)鍵詞集表征[10,33] 。因此,也有研究開始利用共詞分析與社交網(wǎng)絡(luò)分析相結(jié)合的方法實(shí)現(xiàn)關(guān)鍵詞匯的聚類, 并由各類間詞頻最高的詞匯、共詞網(wǎng)絡(luò)中的核心詞匯或根據(jù)詞匯的語義對主題進(jìn)行規(guī)范命名來表征主題。如馮佳等[34] 對持續(xù)出現(xiàn)且詞頻呈增長趨勢的高頻詞匯進(jìn)行共現(xiàn)分析, 并將詞匯聚類成為8 個(gè)類團(tuán), 每一個(gè)類團(tuán)代表一個(gè)新興主題。而由于一般詞匯缺乏一致性、準(zhǔn)確性和專業(yè)性, 因此利用更加權(quán)威的主題詞或關(guān)鍵術(shù)語進(jìn)行主題識(shí)別逐漸成為一種趨勢。如Ohniwa R L等[16] 先根據(jù)PubMed 數(shù)據(jù)庫中出現(xiàn)的MeSH 術(shù)語在不同時(shí)段下頻率的增量篩選出“新興關(guān)鍵詞”, 再對新興關(guān)鍵詞形成的共現(xiàn)網(wǎng)絡(luò)進(jìn)行聚類分析, 進(jìn)而識(shí)別新興主題。

基于關(guān)鍵詞匯的主題識(shí)別方法不需要構(gòu)建復(fù)雜模型, 操作較為簡單, 指標(biāo)計(jì)算相對容易。文章一經(jīng)發(fā)表便可以得到其中的關(guān)鍵詞匯, 因此有利于及時(shí)發(fā)現(xiàn)新興主題。然而該方法對語義和語境的關(guān)注不足, 難以解決一詞多義造成的主題識(shí)別不精確等問題, 也難以揭示文檔與主題、主題與詞匯間的隱含關(guān)系和語義聯(lián)系。由于突變檢測更注重關(guān)鍵術(shù)語在短期內(nèi)“增長性” 的測度、共詞聚類方法也多強(qiáng)調(diào)詞頻的數(shù)量, 這導(dǎo)致該方法對新興主題其他屬性的關(guān)注度不足。最后, 突變檢測與聚類方法都是基于回顧的視角進(jìn)行的主題識(shí)別, 因此該方法難以預(yù)測未來的新興主題。

2.2.2基于傳統(tǒng)引文分析的主題識(shí)別

引文分析是對科技期刊、專利文獻(xiàn)等分析對象的引證和被引證情況進(jìn)行分析, 以揭示知識(shí)流動(dòng)規(guī)律的文獻(xiàn)計(jì)量手段[35] 。一篇文獻(xiàn)往往會(huì)引用與其研究主題相同的文獻(xiàn), 因此通過構(gòu)建引文網(wǎng)絡(luò), 并對文獻(xiàn)進(jìn)行聚類是識(shí)別研究主題的方法之一。在新興主題識(shí)別研究中, 學(xué)者主要通過直接引文網(wǎng)絡(luò)分析、共被引網(wǎng)絡(luò)分析、文獻(xiàn)耦合網(wǎng)絡(luò)分析3 種方法進(jìn)行主題識(shí)別。

文獻(xiàn)共被引(Co-citation)這一概念于1973 年被美國學(xué)者Small H[35] 提出, 表示兩篇或多篇文獻(xiàn)被同一篇或多篇文獻(xiàn)共同引證。如Chen C M[36] 開發(fā)并利用新版本的CiteSpace, 將突變檢測算法與共被引分析方法相結(jié)合, 對共被引文獻(xiàn)及施引文獻(xiàn)的關(guān)鍵術(shù)語構(gòu)成的異質(zhì)網(wǎng)絡(luò)進(jìn)行分析, 進(jìn)而發(fā)現(xiàn)新興主題。文獻(xiàn)耦合的概念(Bibliographic Coupling)于1963 年被美國學(xué)者Kessler M M 提出, 表示兩篇或多篇文獻(xiàn)引用了同一篇或多篇文獻(xiàn)[37-38] 。由于共被引分析主要關(guān)注的是高被引文獻(xiàn), 而文獻(xiàn)耦合分析主要關(guān)注的是施引文獻(xiàn), 因此, 文獻(xiàn)耦合分析更具時(shí)效性, 也被部分學(xué)者認(rèn)為更適用于新興主題的識(shí)別研究[39-40] 。如Gl?nzel W 等[41] 利用文獻(xiàn)耦合分析與文本相似性分析得到了文檔集合的核心文獻(xiàn), 并將文獻(xiàn)集的異常增長、文獻(xiàn)集的新生、文獻(xiàn)集研究內(nèi)容的轉(zhuǎn)移視作新興主題誕生的3 種范式,以4 個(gè)學(xué)科為例證明了方法的有效性。直接引用網(wǎng)絡(luò)能夠揭示文獻(xiàn)間的直接關(guān)聯(lián)關(guān)系, 相比共被引和耦合關(guān)系更易形成, 且文獻(xiàn)一經(jīng)發(fā)表, 直接引用關(guān)系將不再變化, 因此直接引用分析更具時(shí)效性和選擇性, 更容易發(fā)現(xiàn)大型和新穎的文獻(xiàn)集群。但直接引用分析方法也存在同一類別內(nèi)文獻(xiàn)的相似性較小、類內(nèi)文獻(xiàn)的聚集性相較于文獻(xiàn)共被引和文獻(xiàn)耦合分析較弱等劣勢[42-43] 。如Shibata N 等[44] 考慮到研究時(shí)效性等問題, 選擇構(gòu)建直接引文網(wǎng)絡(luò), 利用網(wǎng)絡(luò)分析方法和時(shí)間序列分析方法對“氮化鎵” 和“復(fù)雜網(wǎng)絡(luò)” 領(lǐng)域的文獻(xiàn)進(jìn)行分析, 發(fā)現(xiàn)了新興研究趨勢并實(shí)現(xiàn)了研究結(jié)果的可視化呈現(xiàn)。

由于文獻(xiàn)的引用現(xiàn)象是普遍存在的, 并且分析引文時(shí)不要求過高的先決和輔助條件, 研究的深度和廣度也可以由學(xué)者自行調(diào)節(jié), 所以引文分析具有簡單易用和廣泛適用的優(yōu)點(diǎn)[45] 。此外, 文獻(xiàn)間具有單向且清晰的引證關(guān)系, 因此基于引用網(wǎng)絡(luò)聚類得到的研究主題也更容易被解釋。然而, 受期刊論文發(fā)表周期以及專利審查周期等限制, 文章從完成到被引用需要經(jīng)歷較長的時(shí)間周期, 因此基于引文分析的主題識(shí)別方法具有較為明顯的時(shí)滯問題, 不利于新興主題的早期發(fā)現(xiàn)。其次, 引文數(shù)據(jù)庫無法收集所有的引證信息, 且只有當(dāng)文獻(xiàn)被引次數(shù)達(dá)到一定的數(shù)量時(shí), 才會(huì)得到關(guān)注, 因此基于引文分析的主題識(shí)別方法很難做到研究主題的全面覆蓋, 容易忽略最新的研究主題。此外, 由于引文無法直觀地表征主題, 因此往往需要對文獻(xiàn)集進(jìn)行進(jìn)一步的處理, 來得到主題詞以表征主題。最后, 基于被引頻次的傳統(tǒng)引文分析方法忽視了引用動(dòng)機(jī)、引用情感、引用內(nèi)容及引文重要程度, 將所有的引文同等看待, 不利于準(zhǔn)確識(shí)別主題。基于以上分析, 可以發(fā)現(xiàn)基于傳統(tǒng)引文分析的新興主題識(shí)別方法仍然存在一定的缺陷, 發(fā)表時(shí)滯、引用時(shí)滯、引證數(shù)據(jù)的全面性、引用情境的多樣性等問題可能會(huì)對新興主題識(shí)別結(jié)果產(chǎn)生影響。

2.2.3基于文本挖掘的主題識(shí)別

文本挖掘是從大量半結(jié)構(gòu)或非結(jié)構(gòu)化的文本信息中提取未知的、潛在的、可理解的知識(shí)或數(shù)據(jù)模式的過程[46-47] 。與關(guān)鍵詞和傳統(tǒng)引文分析不同的是, 文本挖掘方法能夠自動(dòng)挖掘非結(jié)構(gòu)化文本中的語義信息, 并實(shí)現(xiàn)主題識(shí)別。通過調(diào)研發(fā)現(xiàn), 目前用于新興主題識(shí)別的文本挖掘方法主要分為主題模型和文本聚類兩種方法。

作為機(jī)器學(xué)習(xí)領(lǐng)域熱門的文本分析方法之一,主題模型能夠自動(dòng)地從大規(guī)模文本集中發(fā)現(xiàn)和提煉隱含的主題信息[48] 。LDA 作為經(jīng)典的主題模型被廣泛應(yīng)用于輿情監(jiān)測、社區(qū)發(fā)現(xiàn)、研究熱點(diǎn)探測等文本分析領(lǐng)域, 但其仍存在著在短文本上的表現(xiàn)一般、對文本的語境信息考慮不足、無法反映主題的動(dòng)態(tài)變化等局限。因此隨著機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,學(xué)者針對更具象的領(lǐng)域, 擴(kuò)展出更加有針對性的主題挖掘方法, 如動(dòng)態(tài)主題模型、相關(guān)主題模型、作者主題模型、有監(jiān)督主題模型、貝葉斯非參數(shù)模型等[49] 。而在新興主題識(shí)別領(lǐng)域, 學(xué)者仍然多利用LDA 及其擴(kuò)展模型, 搭配時(shí)間序列分析或主題演化分析方法進(jìn)行主題識(shí)別。如Xu M 等[50] 利用LDA模型生成主題并計(jì)算每個(gè)時(shí)間片下的主題概率, 接著利用主題概率的突變情況識(shí)別新興主題, 最后利用關(guān)聯(lián)規(guī)則挖掘和詞匯相似度計(jì)算來表征主題。由于LDA 主題模型存在前文所述的局限, 不少學(xué)者開始利用LDA 的擴(kuò)展模型進(jìn)行新興主題識(shí)別。如范云滿等[51] 、徐路路等[29] 、Zhou Y 等[52] 分別利用TNG、PLDA、Labeled-DMM 等模型實(shí)現(xiàn)新興主題識(shí)別。目前有關(guān)主題模型的研究已經(jīng)產(chǎn)生大量成果, 新興主題識(shí)別研究也需要對更前沿的新模型進(jìn)行深入探索與應(yīng)用, 以提高新興主題識(shí)別的效果。

文本聚類是利用機(jī)器學(xué)習(xí)等方法對大量文本內(nèi)容進(jìn)行聚類的方法, 該方法能夠更好地考慮到文本間語義的相似程度, 實(shí)現(xiàn)更為精準(zhǔn)的主題識(shí)別。學(xué)者多利用文檔的句子結(jié)構(gòu)或構(gòu)建文本的向量化表示,結(jié)合聚類算法進(jìn)行主題識(shí)別。如在句子結(jié)構(gòu)或?qū)嶓w與關(guān)系表示方面, 黃魯成等[53] 提取了突現(xiàn)文獻(xiàn)的施引文獻(xiàn), 從文獻(xiàn)摘要中提?。樱粒?結(jié)構(gòu), 并利用語義相似度計(jì)算程序和多維尺度分析方法實(shí)現(xiàn)新興主題的聚類。在文本向量化表示方面, 任惠超等[54]使用TF-IDF 方法對每篇文檔進(jìn)行向量化表示, 并利用K-means++算法對文檔進(jìn)行聚類實(shí)現(xiàn)主題識(shí)別, 最后利用指標(biāo)評估和突發(fā)檢測方法篩選新興主題; 郝雯柯等[55] 通過Sentence-BERT 和UMAP 算法對文本進(jìn)行語義表示和向量降維, 利用HDBSCAN聚類算法進(jìn)行文檔聚類, 最后選擇新穎度、成長性、影響力全部符合閾值的主題作為新興主題。

隨著開放獲取模式的推廣和文本挖掘技術(shù)的發(fā)展, 基于全文本的分析方法成為一種新的研究思路[56] 。因此, 除上述兩種常用方法外, 基于引文內(nèi)容分析和未來工作句子識(shí)別的全文本分析方法逐漸被用于新興趨勢發(fā)現(xiàn)或未來主題預(yù)測研究。

在施引文獻(xiàn)中, 引文位置分布不均勻[57] , 各位置的引文重要程度不同[58] , 引文在文中的作用不同[59] , 不加區(qū)分地看待引文則無法準(zhǔn)確反映施引與被引文獻(xiàn)之間的關(guān)系和知識(shí)流動(dòng)的情況。因此,在Garfield E[60] 開創(chuàng)了與引用行為相關(guān)的研究方向之后, 學(xué)者開始抽取施引文獻(xiàn)的引文句和引文上下文, 并利用基于規(guī)則和基于機(jī)器學(xué)習(xí)的分類方法識(shí)別重要引文[61] , 在此基礎(chǔ)上可以利用基于詞頻、聚類、主題模型等分析方法實(shí)現(xiàn)被引主題的識(shí)別與分析[62] 。如祝清松等[63] 利用C-value 算法對高被引文獻(xiàn)在施引文獻(xiàn)中的引用句進(jìn)行主題識(shí)別, 得到核心主題。Jebari C 等[64] 利用DTM 動(dòng)態(tài)主題模型對引用句進(jìn)行主題識(shí)別, 發(fā)現(xiàn)了主題演化情況以及研究趨勢。張金柱等[65] 利用K-means 算法對引用句及其前后句進(jìn)行主題聚類, 并通過時(shí)序分析發(fā)現(xiàn)被引主題的變化與當(dāng)下的新熱點(diǎn)。引用內(nèi)容是作者對被引文獻(xiàn)主題的進(jìn)一步總結(jié), 能夠?qū)崿F(xiàn)對被引文獻(xiàn)的語義補(bǔ)充[63,66] 。研究證明, 將引用內(nèi)容引入主題識(shí)別, 能夠增強(qiáng)主題識(shí)別結(jié)果, 反映知識(shí)的繼承和發(fā)展情況。因此將時(shí)序分析與引文路徑、引文主題分析相結(jié)合, 能夠發(fā)現(xiàn)研究主題的遷移情況以及科技創(chuàng)新的發(fā)展路徑, 有助于探測新興主題。

未來工作句子(FWS)包含了作者對未來研究方向的構(gòu)想。通過提取和分析未來工作句, 能夠輔助預(yù)測未來的研究趨勢[67] 。宋若璇等[68] 利用BERT 抽取未來工作句, 并結(jié)合文章關(guān)鍵詞、相關(guān)關(guān)鍵短語和論文摘要等形成創(chuàng)新提要, 最后利用UniLM 文本生成模型生成創(chuàng)新構(gòu)想話題。Zhang C Z 等[67] 將未來工作句分為方法、資源、評估、應(yīng)用、問題和其他6 種類型, 利用SciBERT 和KeyBert 模型實(shí)現(xiàn)未來工作句的分類與解讀, 從而對未來研究主題進(jìn)行挖掘。當(dāng)前學(xué)界對未來工作句子的研究還存在分類粒度不夠細(xì)、識(shí)別效率不夠高、預(yù)測結(jié)果不夠準(zhǔn)等問題, 在新興主題的預(yù)測方面仍有較大的發(fā)展空間。

與傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)方法相比, 文本挖掘法能夠以全局視角對文本進(jìn)行深層分析, 挖掘文檔與主題、主題與詞匯間的隱含關(guān)系。由于文本挖掘方法的特性, 該方法更容易實(shí)現(xiàn)新興主題的預(yù)測, 更符合新興主題識(shí)別的目標(biāo)與需求, 因此成為近年來更為熱門的新興主題識(shí)別方法。然而, 多數(shù)主題模型在運(yùn)行前需要確定主題數(shù)量, 聚類結(jié)果也對計(jì)算方法較為敏感, 因此對于不同的方法, 新興主題識(shí)別的結(jié)果可能會(huì)有較大的差異; 引文內(nèi)容分析在引文推薦、學(xué)科交叉文獻(xiàn)識(shí)別、創(chuàng)新路徑構(gòu)建等領(lǐng)域發(fā)展較快, 但在對新興主題識(shí)別方面應(yīng)用不夠, 對隱式句子的發(fā)現(xiàn)仍面臨挑戰(zhàn); 有關(guān)未來工作句子的研究也需要進(jìn)一步提升新興主題預(yù)測的準(zhǔn)確率。因此如何選擇適用的文本挖掘方法, 需要結(jié)合實(shí)際應(yīng)用場景進(jìn)一步探討。不同識(shí)別方法的特點(diǎn)與優(yōu)劣如表2 所示。

2.3新興主題識(shí)別的關(guān)注屬性與測度指標(biāo)

對主題進(jìn)行篩選是識(shí)別新興主題的最后一步,學(xué)者通常使用3 種方法對新興主題進(jìn)行識(shí)別: ①定性方法, 即德爾菲法, 領(lǐng)域?qū)<乙揽總€(gè)人經(jīng)驗(yàn)對新興主題進(jìn)行識(shí)別[69] ; ②定量方法, 即依靠一系列指標(biāo)對主題進(jìn)行測度。如Wang Q[70] 以激進(jìn)的新穎性、快速的成長性、一定的連貫性、高科學(xué)影響力4 個(gè)一級指標(biāo)通過設(shè)定閾值的方法識(shí)別新興主題;③定性與定量相結(jié)合法, 該方法主要有兩種應(yīng)用模式, a. 先利用指標(biāo)對主題進(jìn)行初步篩選后, 再交由專家判定。如任智軍等[71] 將識(shí)別的新興主題下最相關(guān)的論文和專利提供給專家進(jìn)行最終判定, 以識(shí)別新興主題; b. 先由專家組確定候選主題名單,再依據(jù)指標(biāo)對新興主題進(jìn)行識(shí)別[8] 。如Jang W 等[72]首先通過在線社區(qū)的帖子和報(bào)告收集專家意見, 再對技術(shù)文檔進(jìn)行主題建模, 最后利用候選技術(shù)的多樣性和中心性指數(shù)得分進(jìn)行模糊聚類, 以識(shí)別新興主題。由于定性研究方法較為主觀, 受限于專家個(gè)人的知識(shí)積累和評分偏好, 學(xué)者們更傾向于選擇定量以及定性與定量相結(jié)合的方法來識(shí)別新興主題。而關(guān)注特性及測度指標(biāo)的合理與否直接影響了新興主題的識(shí)別結(jié)果。因此有必要對國內(nèi)外學(xué)者使用的評價(jià)指標(biāo)進(jìn)行述評, 以期總結(jié)出更為全面和規(guī)范的指標(biāo)體系。

本文通過梳理文獻(xiàn), 總結(jié)了以下8 種用于識(shí)別新興主題的主要特性, 每個(gè)屬性涉及的主要測度指標(biāo)及內(nèi)涵如表3 所示。

1) 新穎性。該特性考慮的是主題出現(xiàn)的時(shí)間,一個(gè)主題出現(xiàn)的時(shí)間越晚, 其新穎程度越高, 是新興主題的概率越高[73] 。針對該特性, 學(xué)者們分別從主題平均年齡和主題首次出現(xiàn)年份對主題新穎性進(jìn)行測度。

2) 學(xué)科交叉性。學(xué)科交叉往往是新的科學(xué)生長點(diǎn), 可能產(chǎn)生重大的科學(xué)突破, 并形成新的研究趨勢。因此, 部分學(xué)者將學(xué)科交叉融合視為新興主題形成的內(nèi)驅(qū)動(dòng)力之一, 并利用該屬性進(jìn)行新興主題識(shí)別[17,74-75] 。如陳虹樞等[76] 提出學(xué)科多樣性指標(biāo), 利用主題下文檔的WOS 學(xué)科分類表征主題的學(xué)科交叉程度, 主題跨學(xué)科程度越高, 則越可能是新興主題。

3) 未來不確定性。部分學(xué)者認(rèn)為新興主題處于主題發(fā)展前期, 其研究結(jié)果、影響力都未能充分體現(xiàn), 具有一定的不確定性[77-78] , 研發(fā)具有更高的風(fēng)險(xiǎn)[79] 。許海云等[79] 構(gòu)建了基于引文的主題共現(xiàn)網(wǎng)絡(luò), 在利用新穎度和增長率指標(biāo)識(shí)別新興主題后,通過觀測主題在引文網(wǎng)絡(luò)中的社區(qū)數(shù)量、強(qiáng)連通數(shù)量、弱連通數(shù)量的變化情況, 來測度主題的未來不確定性以及未來發(fā)展趨勢。

4) 成長性。根據(jù)生命周期理論, 新知識(shí)在產(chǎn)生后的一段時(shí)間內(nèi)關(guān)注度較低[80] , 隨著時(shí)間的變化, 其關(guān)注度和影響力將不斷提高, 主題開始發(fā)展。而新興主題往往擁有更快的發(fā)展速度和較大的發(fā)展?jié)摿Γ?更有可能解決科研難題, 因此新興主題往往表現(xiàn)出高增長的特性[81] 。學(xué)者通常從主題發(fā)文數(shù)、主題引文量等多個(gè)角度衡量主題的成長性。如RanaeiS 等[82] 通過LDA 主題模型輸出的文檔—主題概率矩陣計(jì)算主題在每一年內(nèi)的支持文檔數(shù)量, 找到發(fā)文量隨時(shí)間增長的主題, 以發(fā)現(xiàn)潛在的新興主題。李雅倩等[83] 綜合主題被引量、主題作者數(shù)量、主題學(xué)科數(shù)量、主題機(jī)構(gòu)數(shù)量、主題強(qiáng)度指標(biāo)計(jì)算主題的成長性, 以識(shí)別新興主題。

5) 高主題強(qiáng)度。主題強(qiáng)度即主題熱度、主題關(guān)注度, 部分學(xué)者指出, 新興主題應(yīng)該具備高關(guān)注度屬性[84] , 代表著該領(lǐng)域的研究趨勢, 因此主題強(qiáng)度也被經(jīng)常用來識(shí)別新興主題。

6) 高主題影響力。一個(gè)新的且發(fā)展速度較快的主題往往會(huì)具有較大的科學(xué)影響。測度影響力最普遍的做法是利用文獻(xiàn)的被引數(shù)量來表征文章的影響力, 如果引文曲線持續(xù)攀升, 則更有可能產(chǎn)生突破性創(chuàng)新[85-86] 。如Wang Q[70] 利用出版物的被引次數(shù)來表征主題在一個(gè)時(shí)間間隔內(nèi)的科學(xué)影響力,認(rèn)為新穎、增長、具有高科學(xué)影響的連貫主題才是一個(gè)新興主題。而由于論文從產(chǎn)出到被引用需要一定的時(shí)間, 并且期刊的出版周期較長, 不利于快速得到一篇文獻(xiàn)的影響力, 借助社交媒體數(shù)據(jù)如Alt?metrics(替代計(jì)量學(xué))指標(biāo)對主題影響力進(jìn)行測度的方法開始被學(xué)者使用。如段慶鋒等[87] 利用Altmet?rics 指標(biāo)和引文數(shù)據(jù)構(gòu)建相對落差指標(biāo)Rgap, 并用該指標(biāo)識(shí)別新興主題。此外, 還有學(xué)者基于社會(huì)網(wǎng)絡(luò)理論, 通過測量主題的網(wǎng)絡(luò)屬性來尋找高影響力的主題。如黃璐等[88] 、孫蒙鴿等[89] 選取PageRank指標(biāo)并結(jié)合鄰居節(jié)點(diǎn)的數(shù)量及影響力來計(jì)算主題影響力, 并選取新穎性強(qiáng)和影響力高的主題為新興技術(shù)主題。

7) 突變性。突變原指DNA 分子的變異, 用于描述基因的表述失調(diào)[90-91] , 在文獻(xiàn)計(jì)量領(lǐng)域被用于描述隨著主題的出現(xiàn), 某些特征的頻率急劇上升等情況[92] 。主題突變往往能夠代表一個(gè)主題的新興趨勢, 因此突變性被部分學(xué)者用于檢測新興主題。如Guo H N 等[93] 將關(guān)鍵詞的突發(fā)、新作者的突然出現(xiàn)以及跨學(xué)科參考文獻(xiàn)的增加看作是新興領(lǐng)域的誕生標(biāo)志。

8) 持續(xù)性。持續(xù)性是指一個(gè)主題隨時(shí)間的推移而持續(xù)存在的特性。許海云等[94] 提出, 新興研究主題是創(chuàng)新路徑上可以持續(xù)發(fā)展的主題; PorterA L 等[95] 認(rèn)為, 該特性是與新穎性存在“拉扯”的特性, 新穎性要求主題出現(xiàn)時(shí)間較短, 而持續(xù)性反映的是一個(gè)主題持續(xù)存在、持續(xù)增長、與其他主題存在較為緊密的聯(lián)系的性質(zhì)。因此, 如何綜合考慮主題的新穎性和持續(xù)性是識(shí)別新興主題的難點(diǎn)之一。白敬毅等[14] 通過融合主題強(qiáng)度與主題新穎度構(gòu)建了新興主題探測指標(biāo)ETD, 并通過某一年份主題的ETD 減去平均ETD 構(gòu)建主題演化偏離度指標(biāo)TEDD, 如果某主題的TEDD 超過4 年持續(xù)增長,則符合持續(xù)性特征, 可被視為新興主題。該研究綜合考慮了主題新穎性與持久性, 對同時(shí)具備持續(xù)發(fā)展特性和新穎程度高的新興主題進(jìn)行了識(shí)別。

通過文獻(xiàn)調(diào)研可以發(fā)現(xiàn), 用于篩選新興主題的特性與指標(biāo)較為豐富, 學(xué)者們分別從主題的外部表現(xiàn)、研究內(nèi)容、未來影響等多個(gè)方面對主題進(jìn)行測度。然而, 目前尚未形成學(xué)者公認(rèn)的用來識(shí)別新興主題的指標(biāo)體系, 各研究存在關(guān)注維度不全、各維度之間聯(lián)系不緊密等情況。多數(shù)研究在測度新興主題時(shí), 孤立地看待各個(gè)維度與指標(biāo), 并篩選符合全部指標(biāo)的主題作為新興主題, 這可能會(huì)導(dǎo)致某一特征不明顯的新興主題被遺漏的情況。同時(shí)在設(shè)置判別指標(biāo)時(shí), 多利用事先設(shè)定閾值與權(quán)重的方法去判斷主題新興程度, 這種設(shè)置方法比較主觀, 理論支撐不足。因此, 如何更精準(zhǔn)地篩選新興主題尚需進(jìn)一步深入研究。

3總結(jié)與展望

通過對新興主題概念和新興主題識(shí)別方法進(jìn)行梳理和分析可以發(fā)現(xiàn), 新興主題識(shí)別研究日趨完善。然而該領(lǐng)域仍然存在不足之處, 本文提出以下局限并對未來工作進(jìn)行展望:

3.1研究局限

1) 理論支撐不足, 對新興主題的定義尚不明確。目前學(xué)界對新興主題的概念并沒有達(dá)成共識(shí),因此用來衡量主題是否為新興主題的指標(biāo)各異, 導(dǎo)致評估方式多樣, 評估結(jié)果說服力不強(qiáng)。

2) 在數(shù)據(jù)集構(gòu)建方面, 數(shù)據(jù)源的選擇與融合有待完善。目前新興主題識(shí)別研究使用的數(shù)據(jù)源仍以單一數(shù)據(jù)源為主, 該方法可操作性較高, 但難以真實(shí)反映復(fù)雜的科研主題。因此, 部分學(xué)者開始嘗試用多源數(shù)據(jù)進(jìn)行新興主題識(shí)別。然而異類數(shù)據(jù)間內(nèi)容、結(jié)構(gòu)以及時(shí)間上的差異較大, 如何克服差異實(shí)現(xiàn)更為精準(zhǔn)的融合是需要攻克的難題。

3) 在主題識(shí)別方面, 研究方法時(shí)滯性較強(qiáng),識(shí)別結(jié)果粒度較大, 對語義關(guān)注和解釋不足, 且研究多為面向過去的回顧式發(fā)現(xiàn)而非面向未來的前瞻性預(yù)測, 對未來研究的導(dǎo)向性不足。

4) 在篩選新興主題方面, 缺乏客觀完整的評價(jià)體系, 主觀性較強(qiáng)。由于新興主題的定義尚不明確, 學(xué)者用于篩選新興主題的屬性各異, 各指標(biāo)的測度方法與標(biāo)準(zhǔn)具有較強(qiáng)的主觀性和孤立性。并且在制定篩選規(guī)則時(shí), 現(xiàn)多用依賴于數(shù)據(jù)的閾值方法,指標(biāo)難被廣泛應(yīng)用。此外, 學(xué)者對主題的動(dòng)態(tài)變化情況關(guān)注不足, 難以及時(shí)發(fā)現(xiàn)從現(xiàn)有主題中分化出的新主題, 不利于新興主題的早期識(shí)別。

5) 研究各環(huán)節(jié)人工參與程度較高, 反饋實(shí)時(shí)性較差。目前數(shù)據(jù)的采集和清洗往往需要人工參與,識(shí)別方法多數(shù)為有監(jiān)督學(xué)習(xí), 標(biāo)注數(shù)據(jù)集短缺, 需要投入大量人力成本進(jìn)行標(biāo)注。這些因素共同導(dǎo)致新興主題識(shí)別的結(jié)果難以實(shí)現(xiàn)實(shí)時(shí)反饋, 使其在實(shí)際應(yīng)用中受到了限制。

3.2未來工作展望

1) 重視理論基礎(chǔ), 完善新興主題理論框架。在研究過程中, 應(yīng)充分學(xué)習(xí)生命周期理論、傳播動(dòng)力學(xué)等相關(guān)理論基礎(chǔ), 理解新興主題的內(nèi)涵和形成機(jī)制, 明確與其類似概念間的異同。此外, 在撰寫相關(guān)文章時(shí)對新興主題概念進(jìn)行明確定義, 也有利于進(jìn)一步完善新興主題識(shí)別的相關(guān)理論與方法框架。

2) 提高多源數(shù)據(jù)融合與多模態(tài)分析精度, 優(yōu)化新興主題識(shí)別性能。未來研究可以通過分析不同數(shù)據(jù)源之間主題的時(shí)滯差異, 對不同數(shù)據(jù)進(jìn)行提前或滯后等操作, 進(jìn)而實(shí)現(xiàn)主題對齊, 避免對不同數(shù)據(jù)進(jìn)行簡單合并處理。同時(shí), 應(yīng)著力探索多模態(tài)數(shù)據(jù)融合方式, 綜合利用文本、圖片、表格、音視頻等數(shù)據(jù), 實(shí)現(xiàn)不同模態(tài)間語義的相互補(bǔ)充印證, 以提升新興主題識(shí)別性能。

3) 面向全文本分析, 提高語料質(zhì)量。未來研究應(yīng)重視全文本分析, 從全文本中挖掘重要功能句,如利用深度學(xué)習(xí)模型提煉文章創(chuàng)新句、未來工作句、引用句等能夠反映文章創(chuàng)新性、前瞻性的重要功能句, 排除大量無關(guān)內(nèi)容, 進(jìn)而提高語料的質(zhì)量。同時(shí)后續(xù)研究應(yīng)結(jié)合語言模型, 更深入地挖掘主題、文檔、術(shù)語間的隱含關(guān)系和語義聯(lián)系, 彌補(bǔ)語義表達(dá)層面的不足, 提高新興主題識(shí)別的準(zhǔn)確性。

4) 加強(qiáng)新興主題探索性研究, 實(shí)現(xiàn)從回顧向預(yù)測轉(zhuǎn)型。新興主題識(shí)別研究應(yīng)選擇時(shí)效性更強(qiáng)的方法作為主要的主題識(shí)別方法, 以捕捉新興主題的早期弱信號。并利用時(shí)間序列分析、復(fù)雜網(wǎng)絡(luò)分析等方法對未來新興主題進(jìn)行預(yù)測, 提高研究的前瞻性和實(shí)用性。

5) 探索半監(jiān)督或無監(jiān)督學(xué)習(xí)方法, 推動(dòng)新興主題識(shí)別的自動(dòng)化和可視化。未來研究應(yīng)積極開發(fā)半監(jiān)督、自監(jiān)督或無監(jiān)督方法, 以減少人工標(biāo)注數(shù)據(jù)的需求和成本, 提升模型的準(zhǔn)確性和泛化能力。此外, 開發(fā)新興主題識(shí)別的自動(dòng)化和可視化工具有助于及時(shí)探測新興主題, 具有更高的普適性和研究價(jià)值。

猜你喜歡
引文分析文本挖掘文獻(xiàn)計(jì)量
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
我國醫(yī)學(xué)數(shù)字圖書館研究的文獻(xiàn)計(jì)量分析
基于WOS數(shù)據(jù)庫的近十年教育游戲文獻(xiàn)分析
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
國內(nèi)外智庫研究態(tài)勢知識(shí)圖譜對比分析
國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
基于文獻(xiàn)計(jì)量分析我國生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
基于引文分析與內(nèi)容分析的專利計(jì)量與評價(jià)的理論探索
科技視界(2016年23期)2016-11-04 10:01:05
《圖書館》2000—2011高被引論文統(tǒng)計(jì)與分析
科技視界(2016年24期)2016-10-11 09:32:50
宁安市| 巢湖市| 陆河县| 兴义市| 闽侯县| 屏边| 河池市| 长宁区| 麻江县| 嵊泗县| 新丰县| 广南县| 中宁县| 宝清县| 繁峙县| 大田县| 齐齐哈尔市| 桂平市| 延长县| 洛扎县| 区。| 当雄县| 正宁县| 德保县| 樟树市| 伊金霍洛旗| 盘锦市| 阆中市| 调兵山市| 沈阳市| 剑河县| 乌拉特后旗| 库尔勒市| 安化县| 车致| 长乐市| 筠连县| 平昌县| 巧家县| 淅川县| 胶南市|