楊金慶,陸 偉,吳樂(lè)艷
(1.武漢大學(xué)信息管理學(xué)院,武漢430072;2.武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢430072)
學(xué)科大數(shù)據(jù)時(shí)代的開(kāi)啟使得數(shù)據(jù)洪流不斷沖擊著各學(xué)科領(lǐng)域,科學(xué)研究正從“目標(biāo)驅(qū)動(dòng)”“模型驅(qū)動(dòng)”邁向“數(shù)據(jù)驅(qū)動(dòng)”為特征的研究范式,其動(dòng)態(tài)性、客觀性和敏捷性逐漸增強(qiáng)[1]。近年來(lái),以期刊文獻(xiàn)、基金項(xiàng)目文檔、專(zhuān)利文本、會(huì)議資料等為代表的科技文獻(xiàn)發(fā)表數(shù)量龐大,例如,僅2018年SCI數(shù)據(jù)庫(kù)收錄206.97萬(wàn)篇科技論文,其中我國(guó)學(xué)者貢獻(xiàn)41.82萬(wàn)篇[2]。科技戰(zhàn)略決策者及科研人員將面臨科技文獻(xiàn)數(shù)量龐大、增長(zhǎng)迅速的新局面,及時(shí)、準(zhǔn)確地把握科學(xué)研究的新動(dòng)向變得愈發(fā)困難,智能化探測(cè)學(xué)科新興主題逐漸成為科技情報(bào)人員的重要研究領(lǐng)域。
新興主題探測(cè),由美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)于1998年首次提出[3],并初步用于對(duì)新聞報(bào)道主題的探測(cè)。隨后,新興主題探測(cè)被引入科學(xué)研究領(lǐng)域,并逐漸形成新興主題探測(cè)的研究范式,其內(nèi)容主要包括:科技文獻(xiàn)數(shù)據(jù)獲取、學(xué)科主題識(shí)別、學(xué)科主題階段判定、可視化分析[4]。其中,科技文獻(xiàn)數(shù)據(jù)的全面性與新穎性是保證新興主題探測(cè)準(zhǔn)確性的基礎(chǔ),同時(shí),科技文獻(xiàn)的多樣性也為多源科技文獻(xiàn)的融合帶來(lái)挑戰(zhàn)?!岸嘣葱畔ⅰ迸c“多源方法”既可保證情報(bào)分析的全面性,又可進(jìn)一步提高情報(bào)分析結(jié)果的有效性[5]。面對(duì)格式多樣、分布廣泛、種類(lèi)繁多的科技文獻(xiàn),融合多源科技文獻(xiàn)可以全面發(fā)掘?qū)W科主題,進(jìn)而深入了解學(xué)科領(lǐng)域發(fā)展態(tài)勢(shì),輔助科研工作與科技政策制定。
由此可見(jiàn),多源科技文獻(xiàn)融合逐漸成為新興主題探測(cè)研究領(lǐng)域的重要問(wèn)題之一,一些學(xué)者正不斷尋求多源科技文獻(xiàn)融合的新策略。目前,融合多源科技文獻(xiàn)用于新興主題探測(cè)的主要策略為:相同年份內(nèi)多源科技文獻(xiàn)相互融合[6-7],并未考慮多源科技文獻(xiàn)間知識(shí)傳播的時(shí)滯性問(wèn)題??紤]到期刊論文是探測(cè)學(xué)科新興主題的主要來(lái)源數(shù)據(jù),本文以期刊論文為中心,探究基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、會(huì)議論文與期刊論文所承載的學(xué)科主題間的時(shí)滯問(wèn)題,以期對(duì)科技文獻(xiàn)融合策略的制定有所啟發(fā)和借鑒。
科技文獻(xiàn)格式多樣、分布廣泛,種類(lèi)繁多,學(xué)科主題隱含于不同的科技文獻(xiàn)數(shù)據(jù),如基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、期刊論文、會(huì)議資料等。不同種類(lèi)的科技文獻(xiàn)所承載的知識(shí)功能也存在一定差異?;痦?xiàng)目文本前瞻性強(qiáng),承載著研究人員針對(duì)學(xué)科困境和難題給出的解決思路或技術(shù)方案。專(zhuān)利承載著某一具體問(wèn)題的研究成果,是科技創(chuàng)新知識(shí)的重要結(jié)晶和載體[8]。會(huì)議論文是與會(huì)人員廣泛交流討論的思想來(lái)源。期刊論文是承載國(guó)內(nèi)外最新研究成果和學(xué)科發(fā)展動(dòng)向的主要載體形式。
針對(duì)不同類(lèi)型科技文獻(xiàn),研究者借助其特有的內(nèi)部和外部特征制定新興主題探測(cè)的評(píng)判指標(biāo)?;痦?xiàng)目文本資助時(shí)長(zhǎng)和資助金額外部特征可以用來(lái)衡量所承載學(xué)科主題的重要性程度,徐路路等[6]以此探測(cè)石墨烯領(lǐng)域?qū)W科新興主題。王凌燕等[9]結(jié)合專(zhuān)利申請(qǐng)量和引證數(shù)外部特征識(shí)別工業(yè)生物領(lǐng)域的新興技術(shù)主題。以期刊論文為數(shù)據(jù)源的學(xué)科主題探測(cè)研究相對(duì)較多,發(fā)文量和被引量是較為常用的外部特征[4,10-12]。學(xué)科主題在重要學(xué)術(shù)會(huì)議資料中的出現(xiàn)次數(shù)反映其在該領(lǐng)域中所受關(guān)注程度,研究者結(jié)合主題會(huì)議出現(xiàn)率、主題強(qiáng)度等內(nèi)部特征識(shí)別學(xué)科新興主題[13]。
綜上所述,相較于面向期刊論文的學(xué)科新興主題探測(cè),基金項(xiàng)目文本涉及較少,而專(zhuān)利文獻(xiàn)和會(huì)議資料有待研究。各類(lèi)科技文獻(xiàn)具有獨(dú)特的內(nèi)、外部文本特征,相較于外部特征,科技文獻(xiàn)的內(nèi)部特征具有較高的相似性,一般包含標(biāo)題(title)、摘要(abstract)、內(nèi)容(content)等[14],這為多源科技文獻(xiàn)融合提供了條件。
學(xué)科大數(shù)據(jù)環(huán)境下,單數(shù)據(jù)源科技文獻(xiàn)難以滿足科技信息挖掘、科技智能決策對(duì)數(shù)據(jù)完整性的要求。融合多源科技文獻(xiàn)是科技信息挖掘智能化的重要步驟,也是全面、深入探測(cè)學(xué)科新興主題的必要保障。
雖然多源信息融合的研究取得一些成果[15-16],但是仍處于發(fā)展階段。多源信息融合可劃分為前期融合、中期融合和后期融合[17]。其中,前期融合是將不同數(shù)據(jù)源匯聚到同一對(duì)象。目前,多源科技文獻(xiàn)融合研究正處于探索的前期階段,研究者正探索不同的科技文獻(xiàn)融合策略,力求優(yōu)化新興主題探測(cè)方案。徐路路等[6]分析基金項(xiàng)目文本、期刊論文、專(zhuān)利文獻(xiàn)發(fā)展趨勢(shì)的相關(guān)性,進(jìn)而探究基金項(xiàng)目文本與期刊論文、專(zhuān)利文獻(xiàn)間的滯后性趨勢(shì)。周群等[18]融合相同時(shí)間跨度內(nèi)科技部機(jī)構(gòu)用戶數(shù)據(jù)、大眾媒體數(shù)據(jù)等多源數(shù)據(jù),準(zhǔn)確識(shí)別細(xì)粒度的用戶需求主題。白如江等[7]從主題層次通過(guò)相似度計(jì)算融合科技規(guī)劃文本和基金項(xiàng)目文本所蘊(yùn)含的學(xué)科主題,再匯聚、識(shí)別學(xué)科新興主題。劉自強(qiáng)等[19]采用自回歸分布滯后模型,從外部數(shù)量特征、內(nèi)部主題特征兩個(gè)層面分析基金項(xiàng)目文本和學(xué)術(shù)論文主題的擴(kuò)散滯后效應(yīng),并計(jì)算出兩者之間滯后期為2年。
因此,多源科技文獻(xiàn)融合仍處于前期階段。為滿足新興主題探測(cè)所需數(shù)據(jù)的全面性,研究者將相同時(shí)間跨度內(nèi)的科技文獻(xiàn)與特定分析目標(biāo)相融合,忽略了科技文獻(xiàn)間存在時(shí)滯性。隨著學(xué)科新興主題探測(cè)研究的不斷深入,部分研究者逐漸關(guān)注不同種類(lèi)科技文獻(xiàn)間存在明顯的時(shí)滯問(wèn)題。不同種類(lèi)科技文獻(xiàn)之間的時(shí)滯分析計(jì)算逐步成為當(dāng)下重要的研究點(diǎn)。
為探索多源科技文獻(xiàn)時(shí)滯性、尋求多源數(shù)據(jù)融合新方案,本文以學(xué)科主題為知識(shí)單元設(shè)計(jì)時(shí)滯計(jì)算方案。首先,從浩繁的學(xué)術(shù)數(shù)據(jù)中獲取多源科技文獻(xiàn)數(shù)據(jù)集,抽取科技文獻(xiàn)摘要,基于主題模型識(shí)別學(xué)科主題,計(jì)算學(xué)科主題相似度構(gòu)建學(xué)科主題相似矩陣;其次,采用匈牙利算法尋求科技文獻(xiàn)最優(yōu)匹配組合,以最優(yōu)匹配組合數(shù)據(jù)為依據(jù)構(gòu)建線性方程,擬合計(jì)算多源科技文獻(xiàn)時(shí)滯程度;最后,探討多源科技文獻(xiàn)時(shí)滯性對(duì)多源科技文獻(xiàn)數(shù)據(jù)融合的啟示。時(shí)滯計(jì)算方案流程如圖1所示。
本文獲取基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、期刊論文和會(huì)議論文共4種多源科技文獻(xiàn)數(shù)據(jù)集。科技文獻(xiàn)內(nèi)部特征源于內(nèi)容結(jié)構(gòu),主要包含標(biāo)題(title)、摘要(abstract)、內(nèi)容(content)等,相較于外部特征,多源科技文獻(xiàn)內(nèi)部結(jié)構(gòu)特征相似度較高。本文從微軟學(xué)術(shù)(MAG)、中國(guó)知網(wǎng)(CNKI)、美國(guó)國(guó)家科學(xué)基金(NSF)、中國(guó)國(guó)家基金(CNSF)等數(shù)據(jù)集抽取農(nóng)業(yè)學(xué)科領(lǐng)域2009—2016年基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、期刊論文、會(huì)議論文摘要語(yǔ)料數(shù)據(jù)集,具體內(nèi)容如表1所示。
圖1 時(shí)滯計(jì)算方案流程
表1 多源科技文獻(xiàn)數(shù)據(jù)集
學(xué)科主題識(shí)別是多源科技文獻(xiàn)?;幚淼闹匾椒ǎ黝}模型是一種語(yǔ)義降維技術(shù),可將文獻(xiàn)所表達(dá)的含義作為隱含變量,借助文檔建模,發(fā)掘文檔所含主題。本文學(xué)科主題識(shí)別過(guò)程包含以下步驟:抽取摘要文本、跨語(yǔ)言摘要翻譯、去除停用詞、抽取詞干生成詞袋,然后輸入主題模型識(shí)別多源科技文獻(xiàn)學(xué)科主題。
本文利用困惑度確定LDA主題模型的超參數(shù)K值(預(yù)設(shè)主題數(shù))。困惑度(perplexity)是衡量一個(gè)語(yǔ)言模型優(yōu)劣常用指標(biāo),其計(jì)算方法[20]為
其中,p(wd)表示LDA模型生成d篇文檔的概率;M代表文檔數(shù);N是第d篇文檔的單詞個(gè)數(shù)。
目前,多源數(shù)據(jù)融合領(lǐng)域的相似度計(jì)算方法多采用余弦相似度算法[6,21]、word2vec詞向量算法、Jaccard系數(shù)[18]等。其中,Jaccard系數(shù)利用詞共現(xiàn)比率表示主題相似度,其值越大,相似度越高。對(duì)于LDA生成概率模型難以避免高頻詞對(duì)主題詞共現(xiàn)比率的影響,Lu等[22]驗(yàn)證了主題詞中高頻詞占比越高,學(xué)科主題特殊性(topic distinctiveness)越低。為了避免低特殊性情況下高相似度對(duì)時(shí)滯計(jì)算的影響,本文采用Jaccard系數(shù)計(jì)算學(xué)科主題共詞強(qiáng)度,同時(shí)融合主題特殊性指標(biāo)優(yōu)化學(xué)科主題相似度計(jì)算過(guò)程,具體方法如下。
(1)Modified Jaccard's Coefficient(MJC)。MJC主題相似度計(jì)算方法改進(jìn)于Jaccard系數(shù)(J=|A∩B||A∪B|)。本文以LDA抽取主題的主題詞概率為權(quán)重計(jì)算學(xué)科主題共詞強(qiáng)度,以此表達(dá)主題相似度,表達(dá)式構(gòu)造為其中,αq表示主題q中主題詞wq的概率權(quán)重;βr表示主題r中主題詞wr的概率權(quán)重。
(2)Jensen-Shannon Divergence(JSD)。鑒 于LDA抽取的學(xué)科主題難以避免高頻詞對(duì)主題詞共現(xiàn)比率的影響,本文利用主題特殊性(topic distinctiveness)指標(biāo)降低高頻詞的影響,計(jì)算公式[23]為
其中,q和r分別代表兩個(gè)分布,D(q1(V)||q2(V))表示q1(V)和q2(V)概率分布的相對(duì)熵。
多源科技文獻(xiàn)時(shí)滯性是一種科技文獻(xiàn)的學(xué)科主題相對(duì)于另一種文獻(xiàn)學(xué)科主題的滯后程度。如果X表示一種科技文獻(xiàn)的年份,Y表示另一種科技文獻(xiàn)的年份,普遍存在連續(xù)多年Y-X=B,那么B表示兩種科技文獻(xiàn)之間存在的時(shí)滯程度。
首先,計(jì)算學(xué)科主題相似度,構(gòu)建相似矩陣;其次,借助匈牙利最優(yōu)匹配算法尋求相似矩陣二分圖最優(yōu)匹配組合;最后,采取線性規(guī)劃思想,通過(guò)計(jì)算點(diǎn)到直線距離最小,擬合線性方程(Y-X=B),計(jì)算多源科技文獻(xiàn)時(shí)滯程度,主要內(nèi)容如下:
1)匈牙利最優(yōu)匹配算法。
本文考慮數(shù)據(jù)噪聲的影響,采用匈牙利算法[24]尋求科技文獻(xiàn)間充分相似條件下的最優(yōu)匹配組合,構(gòu)建學(xué)科主題相似矩陣為(si,j)n×n,si,j表示i年科技文獻(xiàn)學(xué)科主題與j年科技文獻(xiàn)學(xué)科主題的相似度,n表示科技文獻(xiàn)時(shí)間跨度,結(jié)合匈牙利算法基本思想構(gòu)建多源科技文獻(xiàn)充分相似最優(yōu)匹配數(shù)學(xué)模型,
其中,Los表示相似度損耗最小,即表達(dá)最大充分相似;n表示科技文獻(xiàn)的時(shí)間跨度;sij表示多源科技文獻(xiàn)i,j年對(duì)應(yīng)的相似度;xij表示對(duì)i年對(duì)應(yīng)j年的匹配標(biāo)記。
2)線性方程模型構(gòu)建及擬合方法
本文的研究問(wèn)題是計(jì)算兩種科技文獻(xiàn)的時(shí)滯程度,若X表示一種科技文獻(xiàn)的年份值,Y表示另一種科技文獻(xiàn)的年份值,存在連續(xù)多年Y-X=B,那么B表示對(duì)應(yīng)于兩種科技文獻(xiàn)的年份之間存在的固定差值,即時(shí)滯程度。同時(shí),考慮到年份值為整數(shù),且各年份相似矩陣為方形對(duì)稱(chēng)矩陣,結(jié)合理論分析確定線性方程模型為y=x+b,且b為整數(shù),具體推演如圖2所示。
圖2 線性方程模型推演圖
針對(duì)線性方程y=x+b模型,考慮到b值為整數(shù),本文通過(guò)最優(yōu)匹配組合的坐標(biāo)點(diǎn)到直線方程的距離和最小來(lái)求得此模型的參數(shù)b值,計(jì)算公式為
其中,n表示數(shù)據(jù)的時(shí)間跨度;yo和xo表示多源科技文獻(xiàn)的年份值;b為多源科技文獻(xiàn)的時(shí)滯程度值。
衡量數(shù)據(jù)擬合模型好壞的程度稱(chēng)為擬合優(yōu)度,R2是擬合優(yōu)度的一個(gè)重要統(tǒng)計(jì)量,也稱(chēng)為決定系數(shù)。R2計(jì)算公式為
其中,y表示觀測(cè)值;y^表示線性方程的擬合值;yˉ表示觀測(cè)值的平均值。
首先,從獲取的基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、期刊論文、會(huì)議論文中抽取摘要文本,按年份拆分2009—2016年摘要文檔,共分為32份數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)的具體情況如表2所示。
本文對(duì)科技文獻(xiàn)摘要語(yǔ)料進(jìn)行分詞、提取詞干,將摘要的原始表達(dá)轉(zhuǎn)化為稀疏向量,然后在LDA主題模型中輸入稀疏向量的語(yǔ)料,通過(guò)困惑度指標(biāo)計(jì)算預(yù)設(shè)主題數(shù),最后識(shí)別學(xué)科主題。
表2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
為了提高主題識(shí)別的準(zhǔn)確度,本文通過(guò)實(shí)驗(yàn)確定主題數(shù)據(jù)K值和困惑度perplexity(Dt)的對(duì)應(yīng)關(guān)系,如圖3所示,以2009—2016年期刊論文8份數(shù)據(jù)集為例,其中橫坐標(biāo)代表主題數(shù)(number of topic),縱坐標(biāo)為困惑度(perplexity)。
本文分別計(jì)算基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、期刊論文、會(huì)議論文各年份困惑度,以主題數(shù)和困惑度所構(gòu)成曲線的拐點(diǎn)處的主題數(shù)作為L(zhǎng)DA參數(shù)K的值,抽取的多源科技文獻(xiàn)學(xué)科主題數(shù)量如表3所示。
本文利用第3.2節(jié)中的MJC和JSD計(jì)算方法,從主題共詞相似和主題特殊性角度計(jì)算學(xué)科主題相似度,以構(gòu)建多源科技文獻(xiàn)年相似矩陣。本文以同年學(xué)科主題相似度的均值來(lái)表達(dá)該年份對(duì)應(yīng)的相似度,并以求積的方式MJC×JSD×100計(jì)算學(xué)科主題相似度,計(jì)算結(jié)果如表4~表6所示。
由于匈牙利最優(yōu)匹配是以組合和最小為條件尋求最優(yōu)匹配組合,本文采用定值取反(0.5-MJC×JSD×100)轉(zhuǎn)換矩陣輸入匈牙利最優(yōu)匹配算法從40320種組合中探尋出損耗最小組合?;痦?xiàng)目文本-期刊論文、專(zhuān)利文獻(xiàn)-期刊論文、會(huì)議論文-期刊論文科技文獻(xiàn)組合的最優(yōu)匹配組合,分別如表7~表9中灰色加粗標(biāo)記所示。
根據(jù)最優(yōu)匹配組合得出xo、yo觀測(cè)值并清除異常值,通過(guò)利用第3.4節(jié)中公式(5)計(jì)算觀測(cè)值到線性方程模型的距離。在使得距離和最小的條件下,計(jì)算出時(shí)滯程度b的值,如表10所示(灰色加粗表示距離和最小值)。
圖3 以“期刊論文”為例的困惑度圖
表3 學(xué)科主題數(shù)量
最后,利用R2計(jì)算公式衡量線性方程模型的擬合程度,擬合結(jié)果如圖4所示。
從圖4可知,時(shí)滯計(jì)算結(jié)果為基金項(xiàng)目文本-期刊論文、專(zhuān)利文獻(xiàn)-期刊論文、會(huì)議論文-期刊論文的時(shí)滯值分別為1、-1、1,即基金項(xiàng)目文本的學(xué)科主題一般早于期刊論文1年呈現(xiàn),專(zhuān)利文獻(xiàn)中的學(xué)科主題滯后于期刊論文1年,會(huì)議論文中的學(xué)科主題普遍早于期刊論文1年發(fā)布。該實(shí)證結(jié)果分別與文獻(xiàn)[6]得出的在石墨烯領(lǐng)域“基金項(xiàng)目文本與期刊論文間存在正相關(guān)”和“專(zhuān)利數(shù)據(jù)與基金項(xiàng)目文本呈現(xiàn)明顯的滯后性”,文獻(xiàn)[19]計(jì)算出在人工智能領(lǐng)域“期刊論文對(duì)基金項(xiàng)目文本的滯后期為2年”,文獻(xiàn)[4]統(tǒng)計(jì)發(fā)現(xiàn)的“we find that conferences lead journals by 87.64%”等結(jié)果趨勢(shì)相互印證,同時(shí)也說(shuō)明了本文時(shí)滯性計(jì)算方法可行且有效。
表4 基金項(xiàng)目文本-期刊論文主題相似矩陣
表5 專(zhuān)利文獻(xiàn)-期刊論文主題相似矩陣
表6 會(huì)議論文-期刊論文主題相似矩陣
表7 基金項(xiàng)目文本-期刊論文最優(yōu)組合
表8 專(zhuān)利文獻(xiàn)-期刊論文相似矩陣最優(yōu)組合
表9 會(huì)議論文-期刊論文相似矩陣最優(yōu)組合
表10 時(shí)滯程度b對(duì)應(yīng)的距離和最小值
圖4 擬合后的線性方程圖
多源科技文獻(xiàn)是新興主題探測(cè)的重要數(shù)據(jù)來(lái)源,以往匯聚同年份多源科技文獻(xiàn)抽取學(xué)科主題的方式缺乏考慮多源科技文獻(xiàn)間的時(shí)滯性。信息的載體形式、信息生產(chǎn)方式、傳播途徑等因素都可帶來(lái)多源科技文獻(xiàn)之間的時(shí)滯性問(wèn)題。多源科技文獻(xiàn)時(shí)滯計(jì)算方法的探索為新興主題探測(cè)過(guò)程中的數(shù)據(jù)獲取、學(xué)科主題識(shí)別提供新思路、新啟示,具體如下:
(1)學(xué)科新興主題探測(cè)的基本任務(wù)是獲取全面、完整的多源數(shù)據(jù),及時(shí)探測(cè)學(xué)科領(lǐng)域未來(lái)科學(xué)研究與技術(shù)的發(fā)展趨勢(shì)。單一來(lái)源科技文獻(xiàn)數(shù)據(jù)難以保證數(shù)據(jù)的完整性,但多源科技文獻(xiàn)在提升數(shù)據(jù)完整性的同時(shí),也帶來(lái)了多源數(shù)據(jù)融合問(wèn)題。
(2)新穎性(novelty)是新興主題判定的重要依據(jù),多源科技文獻(xiàn)時(shí)滯計(jì)算將指引學(xué)科新興主題探測(cè)過(guò)程中數(shù)據(jù)集的獲取方向,掌握前沿?cái)?shù)據(jù)。同時(shí),探究不同地域、科研體制對(duì)多源科技文獻(xiàn)之間時(shí)滯性的影響,以便緊跟國(guó)際科技前沿。
(3)學(xué)科主題識(shí)別是學(xué)科新興主題探測(cè)的基礎(chǔ),影響多源科技文獻(xiàn)融合策略的制定。融入時(shí)滯計(jì)算的多源科技文獻(xiàn)融合策略包括兩種方式:其一,從學(xué)科主題知識(shí)單元層面,根據(jù)學(xué)科主題知識(shí)關(guān)聯(lián)強(qiáng)度設(shè)定關(guān)聯(lián)強(qiáng)度閾值,以此對(duì)不同數(shù)據(jù)源的學(xué)科主題進(jìn)行融合;其二,以時(shí)滯程度為歸類(lèi)標(biāo)準(zhǔn),直接匯聚不同年份多源科技文獻(xiàn)數(shù)據(jù)集,然后識(shí)別學(xué)科主題。
本文面向新興主題探測(cè)領(lǐng)域探究多源科技文獻(xiàn)時(shí)滯性,以基金項(xiàng)目文本、專(zhuān)利文獻(xiàn)、期刊論文、會(huì)議論文摘要數(shù)據(jù)為驅(qū)動(dòng),構(gòu)建科技文獻(xiàn)時(shí)滯計(jì)算流程:首先,選取主題模型借助困惑度評(píng)價(jià)指標(biāo),以年為單位識(shí)別科技文獻(xiàn)學(xué)科主題,然后綜合利用MJC和JSD方法計(jì)算相似度,構(gòu)建多源科技文獻(xiàn)學(xué)科主題相似矩陣;其次,在相似矩陣二分圖匹配和最大條件下,利用匈牙利最優(yōu)匹配算法求得最優(yōu)匹配組合;再次,通過(guò)線性回歸與推演分析,構(gòu)建線性方程y=x+b,進(jìn)而擬合計(jì)算多源科技文獻(xiàn)的時(shí)滯程度;最后,與前人研究結(jié)論進(jìn)行對(duì)比分析,盡管面向不同的學(xué)科領(lǐng)域,但不同種類(lèi)科技文獻(xiàn)間的時(shí)滯趨勢(shì)相同,即期刊論文滯后于基金項(xiàng)目文本和會(huì)議論文,專(zhuān)利文獻(xiàn)滯后于期刊論文。
多源科技文獻(xiàn)時(shí)滯性將影響多源科技文獻(xiàn)融合效果,同時(shí)也為多源科技文獻(xiàn)融合策略的制定提供新思路和新方法。本文引入多源科技文獻(xiàn)時(shí)滯性計(jì)算方法,對(duì)多源科技文獻(xiàn)數(shù)據(jù)集獲取方向以及學(xué)科主題融合策略的制定有所啟示。