馬 艷 ,韓英昆 ,齊達(dá)立 ,劉 科
(1.山東電力研究院,山東 濟(jì)南 250003;2.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院,山東 濟(jì)南 250003)
科技情報(bào)對(duì)國(guó)家、社會(huì)、企業(yè)的戰(zhàn)略、計(jì)劃的制定以及實(shí)施都發(fā)揮了重要作用??蒲袩狳c(diǎn)預(yù)測(cè)是科技情報(bào)領(lǐng)域較新的應(yīng)用需求??蒲泄ぷ髡?、科研項(xiàng)目管理者在選題、立項(xiàng)必須有一定的前瞻性,即立足于當(dāng)前科學(xué)技術(shù)現(xiàn)狀與社會(huì)發(fā)展情況,對(duì)未來(lái)可能產(chǎn)生的新理論或者產(chǎn)生應(yīng)用價(jià)值的新技術(shù)做出判斷[1-2]。
按照研究主體,科研熱點(diǎn)預(yù)測(cè)分為對(duì)網(wǎng)絡(luò)文章和學(xué)術(shù)文獻(xiàn)的研究。PageRank算法是由Google提出的較為經(jīng)典的網(wǎng)絡(luò)文章熱點(diǎn)預(yù)測(cè)算法[3]。基于文本分析的網(wǎng)絡(luò)文章熱點(diǎn)預(yù)測(cè)也取得了較好的效果[4]。
在沒(méi)有引入機(jī)器學(xué)習(xí)算法以前,對(duì)學(xué)術(shù)文獻(xiàn)的熱點(diǎn)預(yù)測(cè)嚴(yán)重依賴(lài)于本領(lǐng)域高級(jí)專(zhuān)業(yè)人員通過(guò)文獻(xiàn)查閱與市場(chǎng)調(diào)研的方法確定。比如,根據(jù)科學(xué)引文索引數(shù)據(jù)庫(kù)對(duì)論文的文獻(xiàn)分類(lèi)分別統(tǒng)計(jì)每個(gè)分類(lèi)中的論文數(shù)量,用數(shù)字來(lái)說(shuō)明文獻(xiàn)科研熱點(diǎn)集中在哪些領(lǐng)域;還可以根據(jù)文獻(xiàn)分類(lèi)分別統(tǒng)計(jì)每個(gè)分類(lèi)中的研究作者數(shù)量,用客觀(guān)的數(shù)值來(lái)表明科研熱點(diǎn)的研究熱度所在和科研力量集中點(diǎn)[5]。
近年來(lái),利用機(jī)器學(xué)習(xí)技術(shù)對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行科研熱點(diǎn)的預(yù)測(cè)分析得到普遍關(guān)注[6]。2003年著名的LDA(Latent Dirichlet Allocation)算法在 pLSI基礎(chǔ)上被提出[7],既是一種文檔主題生成模型,又是一個(gè)包含詞、主題和文檔三層結(jié)構(gòu)的貝葉斯概率模型。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。
然而,國(guó)內(nèi)外目前建立的科研熱點(diǎn)預(yù)測(cè)模型,從應(yīng)用效果上分析還存在以下問(wèn)題:1)當(dāng)一個(gè)新的理論與技術(shù)誕生后,其關(guān)聯(lián)應(yīng)用領(lǐng)域還需要大量的工作去發(fā)掘。2)科研領(lǐng)域中,科研熱點(diǎn)詞匯數(shù)量巨大,每種熱點(diǎn)呈現(xiàn)的走勢(shì)不盡相同,基于標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)模型擬合熱點(diǎn)走勢(shì)準(zhǔn)確率不高。
因此,亟須設(shè)計(jì)一種考慮時(shí)序關(guān)系的科研熱點(diǎn)預(yù)測(cè)算法和系統(tǒng),可對(duì)未來(lái)一段時(shí)間的科學(xué)研究熱點(diǎn)較為快速準(zhǔn)確地預(yù)測(cè)出來(lái),輔助科研工作者及科研項(xiàng)目管理者的工作。
目前,每種科研熱點(diǎn)呈現(xiàn)各種各樣的時(shí)序走勢(shì)。以某熱點(diǎn)科研詞匯的點(diǎn)擊量為例,其隨著時(shí)間變化的趨勢(shì)完全不同,如圖1所示。不同的時(shí)序走勢(shì),導(dǎo)致標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法在直接使用時(shí)預(yù)測(cè)準(zhǔn)確度不高。這就須設(shè)計(jì)一種可適應(yīng)多樣時(shí)序趨勢(shì)的預(yù)測(cè)模型和框架。
圖1 科研詞匯的點(diǎn)擊量時(shí)序趨勢(shì)
基于上述問(wèn)題,提出一種基于標(biāo)準(zhǔn)時(shí)序生成的科研熱點(diǎn)預(yù)測(cè)框架,使得用戶(hù)可以及時(shí)獲得未來(lái)一段時(shí)間科研熱點(diǎn)主題預(yù)測(cè)推薦??蚣芊譃?個(gè)模塊,如圖2所示,包括時(shí)序數(shù)據(jù)爬取模塊、熱點(diǎn)數(shù)據(jù)標(biāo)記模塊、時(shí)序聚類(lèi)模塊、熱點(diǎn)預(yù)測(cè)模塊、預(yù)測(cè)加速模塊。
時(shí)序數(shù)據(jù)爬取模塊利用爬蟲(chóng)技術(shù)在科技新聞網(wǎng)站、文獻(xiàn)數(shù)據(jù)庫(kù)爬取科技信息文章;熱點(diǎn)數(shù)據(jù)標(biāo)記模塊負(fù)責(zé)標(biāo)記1個(gè)周期的所有熱點(diǎn)關(guān)鍵詞,并且生成關(guān)鍵詞的歷史時(shí)序數(shù)據(jù);時(shí)序聚類(lèi)模塊負(fù)責(zé)對(duì)熱點(diǎn)時(shí)序進(jìn)行聚類(lèi),并且根據(jù)聚類(lèi)結(jié)果生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序;熱點(diǎn)預(yù)測(cè)模塊負(fù)責(zé)對(duì)各關(guān)鍵詞的權(quán)重TF-IDF時(shí)序進(jìn)行檢測(cè),找出熱點(diǎn)關(guān)鍵詞;預(yù)測(cè)加速模塊負(fù)責(zé)對(duì)熱點(diǎn)預(yù)測(cè)任務(wù)進(jìn)行加速。
圖2 科研熱點(diǎn)預(yù)測(cè)與推送框架
基于上述框架,給出基于標(biāo)準(zhǔn)時(shí)序生成的科研熱點(diǎn)預(yù)測(cè)方法的實(shí)施過(guò)程,如圖3所示。
圖3 基于標(biāo)準(zhǔn)時(shí)序的科研熱點(diǎn)預(yù)測(cè)方法流程
時(shí)序數(shù)據(jù)爬取模塊將爬取的文章文本化,設(shè)一段時(shí)間內(nèi)抓取的科技信息文章集合為T(mén)t,其中t表示周期序號(hào)?;跈?quán)重TF-IDF算法獲得Tt的關(guān)鍵詞向量,記為 at={bi|i∈Q},Q 為科技詞庫(kù)中詞的數(shù)量。設(shè)ai為詞庫(kù)中詞匯分量第i個(gè)關(guān)鍵詞,bi為對(duì)應(yīng)關(guān)鍵詞ai所得權(quán)重TF-IDF值。
計(jì)算bi的具體步驟為:
1)設(shè)tj是 Tt的一篇文章,基于標(biāo)準(zhǔn) TF-IDF算法獲得tj第i個(gè)詞匯的TF-IDF值,設(shè)為
2)設(shè)tj的下載量或閱讀量為nj,引用量為mj。那其中分別表示該周期內(nèi)所有文章nj與mj的平均值。
在具體實(shí)施過(guò)程中,bi的計(jì)算可以基于下載量、閱讀量、引用量,也可以基于瀏覽時(shí)長(zhǎng)、轉(zhuǎn)發(fā)率。
熱點(diǎn)數(shù)據(jù)標(biāo)記模塊負(fù)責(zé)標(biāo)記一個(gè)周期的所有熱點(diǎn)關(guān)鍵詞、生成關(guān)鍵詞的歷史時(shí)序數(shù)據(jù),并將這些時(shí)序數(shù)據(jù)加入樣本庫(kù),用以模型訓(xùn)練。具體方法如下:
1)設(shè)置bi的熱點(diǎn)閾值,當(dāng)bi>時(shí),則標(biāo)記bi對(duì)應(yīng)的ai為熱點(diǎn)關(guān)鍵詞。
2)生成 ai的 權(quán) 重 TF-IDF 時(shí) 間 序 列 Bi={bi,t,t=1,2,…,n},其中 bi,t表示第 t個(gè)周期 bi的值。 bi,t應(yīng)從歷史數(shù)據(jù)中獲取。
3)篩選首次熱點(diǎn)出現(xiàn)序列。首次熱點(diǎn)出現(xiàn)序列是指之前關(guān)鍵詞ai不是熱點(diǎn)詞匯,而本周期變?yōu)闊狳c(diǎn)詞匯,基于此序列訓(xùn)練預(yù)測(cè)模型可以有效感知未來(lái)的熱點(diǎn)關(guān)鍵詞。設(shè)當(dāng)前周期為t,若bi,t≥且bi,t-1<,則標(biāo)記Bi為首次熱點(diǎn)出現(xiàn)序列。
4)設(shè) Bi,(t-s+1,t)為首次熱點(diǎn)出現(xiàn)序列的一個(gè)截取樣本,Bi,(t-s+1,t)={bi,x,x=t-s+1, …,t-1,t},s 為截取長(zhǎng)度,所有的樣本長(zhǎng)度固定為s。
5)將該樣本加入樣本集,供時(shí)序聚類(lèi)使用。
該模塊通過(guò)對(duì)熱點(diǎn)時(shí)序進(jìn)行聚類(lèi)[8]生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序。通過(guò)聚類(lèi)一組時(shí)序數(shù)據(jù)生成一個(gè)標(biāo)準(zhǔn)熱點(diǎn)時(shí)序的示意見(jiàn)圖4。模塊的具體流程如下:
1)對(duì)樣本庫(kù)的時(shí)序數(shù)據(jù)樣本聚類(lèi)。
首先,基于動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)計(jì)算兩個(gè)時(shí)序樣本 Bi,(t-s+1,t)、Bj,(x-s+1,x)的距離,x、t表示起止時(shí)間可不同。公式如下:
式中:D(t1,t2)為兩個(gè)時(shí)序分別在 t1周期與 t2周期的DTW 距離;Dist(t1,t2)=|bi,t1-bi,t2|。
其次,基于DBSCAN聚類(lèi)算法對(duì)樣本庫(kù)的時(shí)序數(shù)據(jù)樣本進(jìn)行聚類(lèi),設(shè)生成的聚類(lèi)為 Cβ|β=1,2,…,n。
2)生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序,即基于一個(gè)時(shí)序聚類(lèi)中所有時(shí)序數(shù)據(jù)樣本計(jì)算出一個(gè)標(biāo)準(zhǔn)時(shí)序,作為該聚類(lèi)的標(biāo)準(zhǔn)示例。 用 Bβ(t-s+1,t)表示標(biāo)準(zhǔn)熱點(diǎn)時(shí)序,其計(jì)算公式如下為 Bi在 t周期的值,t=1,2,…,S。S為周期的數(shù)量。每個(gè)時(shí)序聚類(lèi)對(duì)應(yīng)生成一個(gè)標(biāo)準(zhǔn)熱點(diǎn)時(shí)序,設(shè)Z為生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序的集合,Z={Bβ|β=1,2,…,n}。
3)計(jì)算每個(gè)聚類(lèi)中的時(shí)序樣本與其標(biāo)準(zhǔn)熱點(diǎn)時(shí)序最遠(yuǎn)DTW距離。Cβ的最遠(yuǎn)DTW距離設(shè)為mβ。
圖4 標(biāo)準(zhǔn)熱點(diǎn)時(shí)序生成
該模塊負(fù)責(zé)對(duì)各關(guān)鍵詞的權(quán)重TF-IDF時(shí)序進(jìn)行檢測(cè),找出熱點(diǎn)關(guān)鍵詞。方法如下:
1)過(guò)濾掉過(guò)低 bi,t的關(guān)鍵詞 ai,以減少檢測(cè)數(shù)量。設(shè)置過(guò)濾閾值 γ,若當(dāng)前周期其中bi表示近s′個(gè)周期bi,x的平均值,則認(rèn)為關(guān)鍵詞ai有可能成為熱點(diǎn)關(guān)鍵詞,進(jìn)行檢測(cè)。反之,則不進(jìn)行檢測(cè)。
2)設(shè) ai通過(guò)第 1)步過(guò)濾,則生成 ai檢測(cè)序列Bi,Bi={bi,t,t=1,2,…,n}。
過(guò)低的γ會(huì)導(dǎo)致過(guò)多的檢測(cè)樣本,預(yù)測(cè)效率降低;而過(guò)高的γ會(huì)導(dǎo)致一些熱點(diǎn)關(guān)鍵詞被過(guò)濾掉,降低熱點(diǎn)關(guān)鍵詞查全率。在具體實(shí)施過(guò)程中,可設(shè)置
本模塊負(fù)責(zé)對(duì)熱點(diǎn)預(yù)測(cè)任務(wù)進(jìn)行加速。在熱點(diǎn)預(yù)測(cè)模塊,每個(gè)關(guān)鍵詞都要與每個(gè)標(biāo)準(zhǔn)熱點(diǎn)時(shí)序進(jìn)行DTW距離計(jì)算,因此其時(shí)間復(fù)雜度為w·|Z|,其中w為模塊4(熱點(diǎn)預(yù)測(cè)模塊)步驟1)過(guò)濾后關(guān)鍵詞的數(shù)量,|Z|為Z標(biāo)準(zhǔn)熱點(diǎn)時(shí)序的數(shù)量。此方法比較耗時(shí),本模塊基于時(shí)序特征前置比較的方式,加快預(yù)測(cè)時(shí)間。方法如下:
1)提取每個(gè) Bβ|Bβ∈Z的時(shí)序特征。 這些時(shí)序特征包括均值、方差、最大值、最小值等,Bβ的時(shí)序特征用Vβ表示。
2)初步檢測(cè)ai檢測(cè)序列Bi與Bβ的距離。提取Bi的時(shí)序特征Vi,基于歐氏距離計(jì)算Vi與Vβ的距離,若此距離小于閾值v·,則再進(jìn)行模塊4的熱點(diǎn)預(yù)測(cè);若大于v·則放棄Bi與DTW距離計(jì)算。
本節(jié)驗(yàn)證提出科研熱點(diǎn)預(yù)測(cè)及加速方法的實(shí)驗(yàn)性能。提出的算法簡(jiǎn)稱(chēng)為PASSG(Prediction and Acceleration based on Standard Sequence Generation);無(wú)加速模塊的算法簡(jiǎn)稱(chēng)為PSSG算法,即PSSG算法僅包含前4個(gè)模塊?;鶞?zhǔn)算法使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作對(duì)比分析,性能指標(biāo)使用查全率、查準(zhǔn)率及預(yù)測(cè)時(shí)間實(shí)施評(píng)價(jià)。
圖5 算法查全率和查準(zhǔn)率對(duì)比分析
首先,驗(yàn)證PASSG和RNN算法對(duì)不同樣本數(shù)量情況下的查全率和查準(zhǔn)率,如圖5所示。樣本數(shù)據(jù)是指隨機(jī)抽取熱點(diǎn)關(guān)鍵詞的樣本數(shù)量。樣本數(shù)量分別選定 500、1 500、2 500、3 500。 從圖 5 看出,PASSG算法比RNN算法查全率平均提高25.75%,查準(zhǔn)率平均提高28.25%,特別是在樣本數(shù)量較大時(shí)。RNN方法將所有樣本放入模型進(jìn)行訓(xùn)練,然而時(shí)序具有多樣性,其用一個(gè)樣本擬合,效果不佳。
其次,設(shè)置樣本數(shù)量為3 500,考察參數(shù)γ值對(duì)PASSG算法查全率與預(yù)測(cè)時(shí)間的影響,如圖6所示。橫軸為γ大于任意熱點(diǎn)標(biāo)準(zhǔn)時(shí)序均值的百分比。從圖中看出,查全率和預(yù)測(cè)時(shí)間都隨著γ的增大遞減。因此,算法需要根據(jù)實(shí)際需求,折中的設(shè)置γ值。當(dāng)對(duì)耗時(shí)敏感時(shí),應(yīng)選擇較高的γ,而對(duì)查全率要求較高時(shí),應(yīng)選擇較低的γ。
圖6 γ值對(duì)查全率與預(yù)測(cè)時(shí)間的影響
最后考察預(yù)測(cè)加速模塊的性能表現(xiàn),如圖7所示。設(shè)置樣本3 500。PSSG是指不用第2.5節(jié)的模塊5進(jìn)行加速,直接用第2.4節(jié)模塊4進(jìn)行預(yù)測(cè)。結(jié)果表明,使用加速方法的PASSG算法較PSSG算法不僅可以大幅提高預(yù)測(cè)效率,而且預(yù)測(cè)的精度損失較小。
圖7 加速方法查全率和消耗時(shí)間性能分析
提出一種科研熱點(diǎn)預(yù)測(cè)及加速框架,該框架基于權(quán)重TF-IDF獲取爬取信息的特征向量,兼顧信息的時(shí)序變化關(guān)系,并基于時(shí)序特征前置比較的方式提高預(yù)測(cè)效率。實(shí)驗(yàn)表明,提出框架和方法不僅具有較高的查全率和查準(zhǔn)率,預(yù)測(cè)時(shí)間亦在可接受范圍內(nèi),且隨著樣本數(shù)量的增大,查全率、查準(zhǔn)率和預(yù)測(cè)時(shí)間優(yōu)勢(shì)明顯。