基于標(biāo)準(zhǔn)時(shí)序生成的科研熱點(diǎn)預(yù)測(cè)及加速方法

2020-09-02 04:23韓英昆齊達(dá)立

山東電力技術(shù) 2020年8期

馬艷，韓英昆，齊達(dá)立，劉科

（1.山東電力研究院，山東濟(jì)南 250003；2.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院，山東濟(jì)南 250003）

0 引言

科技情報(bào)對(duì)國(guó)家、社會(huì)、企業(yè)的戰(zhàn)略、計(jì)劃的制定以及實(shí)施都發(fā)揮了重要作用?？蒲袩狳c(diǎn)預(yù)測(cè)是科技情報(bào)領(lǐng)域較新的應(yīng)用需求?？蒲泄ぷ髡?、科研項(xiàng)目管理者在選題、立項(xiàng)必須有一定的前瞻性，即立足于當(dāng)前科學(xué)技術(shù)現(xiàn)狀與社會(huì)發(fā)展情況，對(duì)未來(lái)可能產(chǎn)生的新理論或者產(chǎn)生應(yīng)用價(jià)值的新技術(shù)做出判斷［1-2］。

按照研究主體，科研熱點(diǎn)預(yù)測(cè)分為對(duì)網(wǎng)絡(luò)文章和學(xué)術(shù)文獻(xiàn)的研究。PageRank算法是由Google提出的較為經(jīng)典的網(wǎng)絡(luò)文章熱點(diǎn)預(yù)測(cè)算法［3］。基于文本分析的網(wǎng)絡(luò)文章熱點(diǎn)預(yù)測(cè)也取得了較好的效果［4］。

在沒(méi)有引入機(jī)器學(xué)習(xí)算法以前，對(duì)學(xué)術(shù)文獻(xiàn)的熱點(diǎn)預(yù)測(cè)嚴(yán)重依賴(lài)于本領(lǐng)域高級(jí)專(zhuān)業(yè)人員通過(guò)文獻(xiàn)查閱與市場(chǎng)調(diào)研的方法確定。比如，根據(jù)科學(xué)引文索引數(shù)據(jù)庫(kù)對(duì)論文的文獻(xiàn)分類(lèi)分別統(tǒng)計(jì)每個(gè)分類(lèi)中的論文數(shù)量，用數(shù)字來(lái)說(shuō)明文獻(xiàn)科研熱點(diǎn)集中在哪些領(lǐng)域；還可以根據(jù)文獻(xiàn)分類(lèi)分別統(tǒng)計(jì)每個(gè)分類(lèi)中的研究作者數(shù)量，用客觀(guān)的數(shù)值來(lái)表明科研熱點(diǎn)的研究熱度所在和科研力量集中點(diǎn)［5］。

近年來(lái)，利用機(jī)器學(xué)習(xí)技術(shù)對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行科研熱點(diǎn)的預(yù)測(cè)分析得到普遍關(guān)注［6］。2003年著名的LDA（Latent Dirichlet Allocation）算法在 pLSI基礎(chǔ)上被提出［7］，既是一種文檔主題生成模型，又是一個(gè)包含詞、主題和文檔三層結(jié)構(gòu)的貝葉斯概率模型。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)，可用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。

然而，國(guó)內(nèi)外目前建立的科研熱點(diǎn)預(yù)測(cè)模型，從應(yīng)用效果上分析還存在以下問(wèn)題：1）當(dāng)一個(gè)新的理論與技術(shù)誕生后，其關(guān)聯(lián)應(yīng)用領(lǐng)域還需要大量的工作去發(fā)掘。2）科研領(lǐng)域中，科研熱點(diǎn)詞匯數(shù)量巨大，每種熱點(diǎn)呈現(xiàn)的走勢(shì)不盡相同，基于標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)模型擬合熱點(diǎn)走勢(shì)準(zhǔn)確率不高。

因此，亟須設(shè)計(jì)一種考慮時(shí)序關(guān)系的科研熱點(diǎn)預(yù)測(cè)算法和系統(tǒng)，可對(duì)未來(lái)一段時(shí)間的科學(xué)研究熱點(diǎn)較為快速準(zhǔn)確地預(yù)測(cè)出來(lái)，輔助科研工作者及科研項(xiàng)目管理者的工作。

1 科研熱點(diǎn)預(yù)測(cè)與推送框架

目前，每種科研熱點(diǎn)呈現(xiàn)各種各樣的時(shí)序走勢(shì)。以某熱點(diǎn)科研詞匯的點(diǎn)擊量為例，其隨著時(shí)間變化的趨勢(shì)完全不同，如圖1所示。不同的時(shí)序走勢(shì)，導(dǎo)致標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法在直接使用時(shí)預(yù)測(cè)準(zhǔn)確度不高。這就須設(shè)計(jì)一種可適應(yīng)多樣時(shí)序趨勢(shì)的預(yù)測(cè)模型和框架。

圖1 科研詞匯的點(diǎn)擊量時(shí)序趨勢(shì)

基于上述問(wèn)題，提出一種基于標(biāo)準(zhǔn)時(shí)序生成的科研熱點(diǎn)預(yù)測(cè)框架，使得用戶(hù)可以及時(shí)獲得未來(lái)一段時(shí)間科研熱點(diǎn)主題預(yù)測(cè)推薦?？蚣芊譃?個(gè)模塊，如圖2所示，包括時(shí)序數(shù)據(jù)爬取模塊、熱點(diǎn)數(shù)據(jù)標(biāo)記模塊、時(shí)序聚類(lèi)模塊、熱點(diǎn)預(yù)測(cè)模塊、預(yù)測(cè)加速模塊。

時(shí)序數(shù)據(jù)爬取模塊利用爬蟲(chóng)技術(shù)在科技新聞網(wǎng)站、文獻(xiàn)數(shù)據(jù)庫(kù)爬取科技信息文章；熱點(diǎn)數(shù)據(jù)標(biāo)記模塊負(fù)責(zé)標(biāo)記1個(gè)周期的所有熱點(diǎn)關(guān)鍵詞，并且生成關(guān)鍵詞的歷史時(shí)序數(shù)據(jù)；時(shí)序聚類(lèi)模塊負(fù)責(zé)對(duì)熱點(diǎn)時(shí)序進(jìn)行聚類(lèi)，并且根據(jù)聚類(lèi)結(jié)果生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序；熱點(diǎn)預(yù)測(cè)模塊負(fù)責(zé)對(duì)各關(guān)鍵詞的權(quán)重TF-IDF時(shí)序進(jìn)行檢測(cè)，找出熱點(diǎn)關(guān)鍵詞；預(yù)測(cè)加速模塊負(fù)責(zé)對(duì)熱點(diǎn)預(yù)測(cè)任務(wù)進(jìn)行加速。

圖2 科研熱點(diǎn)預(yù)測(cè)與推送框架

2 科研熱點(diǎn)預(yù)測(cè)過(guò)程

基于上述框架，給出基于標(biāo)準(zhǔn)時(shí)序生成的科研熱點(diǎn)預(yù)測(cè)方法的實(shí)施過(guò)程，如圖3所示。

圖3 基于標(biāo)準(zhǔn)時(shí)序的科研熱點(diǎn)預(yù)測(cè)方法流程

2.1 時(shí)序數(shù)據(jù)爬取模塊

時(shí)序數(shù)據(jù)爬取模塊將爬取的文章文本化，設(shè)一段時(shí)間內(nèi)抓取的科技信息文章集合為T(mén)t，其中t表示周期序號(hào)?；跈?quán)重TF-IDF算法獲得Tt的關(guān)鍵詞向量，記為 at＝｛bi｜i∈Q｝，Q 為科技詞庫(kù)中詞的數(shù)量。設(shè)ai為詞庫(kù)中詞匯分量第i個(gè)關(guān)鍵詞，bi為對(duì)應(yīng)關(guān)鍵詞ai所得權(quán)重TF-IDF值。

計(jì)算bi的具體步驟為：

1）設(shè)tj是 Tt的一篇文章，基于標(biāo)準(zhǔn) TF-IDF算法獲得tj第i個(gè)詞匯的TF-IDF值，設(shè)為

2）設(shè)tj的下載量或閱讀量為nj，引用量為mj。那其中分別表示該周期內(nèi)所有文章nj與mj的平均值。

在具體實(shí)施過(guò)程中，bi的計(jì)算可以基于下載量、閱讀量、引用量，也可以基于瀏覽時(shí)長(zhǎng)、轉(zhuǎn)發(fā)率。

2.2 熱點(diǎn)數(shù)據(jù)標(biāo)記模塊

熱點(diǎn)數(shù)據(jù)標(biāo)記模塊負(fù)責(zé)標(biāo)記一個(gè)周期的所有熱點(diǎn)關(guān)鍵詞、生成關(guān)鍵詞的歷史時(shí)序數(shù)據(jù)，并將這些時(shí)序數(shù)據(jù)加入樣本庫(kù)，用以模型訓(xùn)練。具體方法如下：

1）設(shè)置bi的熱點(diǎn)閾值，當(dāng)bi＞時(shí)，則標(biāo)記bi對(duì)應(yīng)的ai為熱點(diǎn)關(guān)鍵詞。

2）生成 ai的權(quán) 重 TF-IDF 時(shí) 間序列 Bi=｛bi，t，t=1，2，…，n｝，其中 bi，t表示第 t個(gè)周期 bi的值。 bi，t應(yīng)從歷史數(shù)據(jù)中獲取。

3）篩選首次熱點(diǎn)出現(xiàn)序列。首次熱點(diǎn)出現(xiàn)序列是指之前關(guān)鍵詞ai不是熱點(diǎn)詞匯，而本周期變?yōu)闊狳c(diǎn)詞匯，基于此序列訓(xùn)練預(yù)測(cè)模型可以有效感知未來(lái)的熱點(diǎn)關(guān)鍵詞。設(shè)當(dāng)前周期為t，若bi，t≥且bi，t-1＜，則標(biāo)記Bi為首次熱點(diǎn)出現(xiàn)序列。

4）設(shè) Bi，（t-s+1，t）為首次熱點(diǎn)出現(xiàn)序列的一個(gè)截取樣本，Bi，（t-s+1，t）=｛bi，x，x=t-s+1， …，t-1，t｝，s 為截取長(zhǎng)度，所有的樣本長(zhǎng)度固定為s。

5）將該樣本加入樣本集，供時(shí)序聚類(lèi)使用。

2.3 時(shí)序聚類(lèi)模塊

該模塊通過(guò)對(duì)熱點(diǎn)時(shí)序進(jìn)行聚類(lèi)［8］生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序。通過(guò)聚類(lèi)一組時(shí)序數(shù)據(jù)生成一個(gè)標(biāo)準(zhǔn)熱點(diǎn)時(shí)序的示意見(jiàn)圖4。模塊的具體流程如下：

1）對(duì)樣本庫(kù)的時(shí)序數(shù)據(jù)樣本聚類(lèi)。

首先，基于動(dòng)態(tài)時(shí)間規(guī)整算法（DTW）計(jì)算兩個(gè)時(shí)序樣本 Bi，（t-s+1，t）、Bj，（x-s+1，x）的距離，x、t表示起止時(shí)間可不同。公式如下：

式中：D（t1，t2）為兩個(gè)時(shí)序分別在 t1周期與 t2周期的DTW 距離；Dist（t1，t2）=｜bi，t1-bi，t2｜。

其次，基于DBSCAN聚類(lèi)算法對(duì)樣本庫(kù)的時(shí)序數(shù)據(jù)樣本進(jìn)行聚類(lèi)，設(shè)生成的聚類(lèi)為 Cβ｜β=1，2，…，n。

2）生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序，即基于一個(gè)時(shí)序聚類(lèi)中所有時(shí)序數(shù)據(jù)樣本計(jì)算出一個(gè)標(biāo)準(zhǔn)時(shí)序，作為該聚類(lèi)的標(biāo)準(zhǔn)示例。用 Bβ（t-s+1，t）表示標(biāo)準(zhǔn)熱點(diǎn)時(shí)序，其計(jì)算公式如下為 Bi在 t周期的值，t=1，2，…，S。S為周期的數(shù)量。每個(gè)時(shí)序聚類(lèi)對(duì)應(yīng)生成一個(gè)標(biāo)準(zhǔn)熱點(diǎn)時(shí)序，設(shè)Z為生成標(biāo)準(zhǔn)熱點(diǎn)時(shí)序的集合，Z=｛Bβ｜β＝1，2，…，n｝。

3）計(jì)算每個(gè)聚類(lèi)中的時(shí)序樣本與其標(biāo)準(zhǔn)熱點(diǎn)時(shí)序最遠(yuǎn)DTW距離。Cβ的最遠(yuǎn)DTW距離設(shè)為mβ。

圖4 標(biāo)準(zhǔn)熱點(diǎn)時(shí)序生成

2.4 熱點(diǎn)預(yù)測(cè)模塊

該模塊負(fù)責(zé)對(duì)各關(guān)鍵詞的權(quán)重TF-IDF時(shí)序進(jìn)行檢測(cè)，找出熱點(diǎn)關(guān)鍵詞。方法如下：

1）過(guò)濾掉過(guò)低 bi，t的關(guān)鍵詞 ai，以減少檢測(cè)數(shù)量。設(shè)置過(guò)濾閾值 γ，若當(dāng)前周期其中bi表示近s′個(gè)周期bi，x的平均值，則認(rèn)為關(guān)鍵詞ai有可能成為熱點(diǎn)關(guān)鍵詞，進(jìn)行檢測(cè)。反之，則不進(jìn)行檢測(cè)。

2）設(shè) ai通過(guò)第 1）步過(guò)濾，則生成 ai檢測(cè)序列Bi，Bi=｛bi，t，t=1，2，…，n｝。

過(guò)低的γ會(huì)導(dǎo)致過(guò)多的檢測(cè)樣本，預(yù)測(cè)效率降低；而過(guò)高的γ會(huì)導(dǎo)致一些熱點(diǎn)關(guān)鍵詞被過(guò)濾掉，降低熱點(diǎn)關(guān)鍵詞查全率。在具體實(shí)施過(guò)程中，可設(shè)置

2.5 預(yù)測(cè)加速模塊

本模塊負(fù)責(zé)對(duì)熱點(diǎn)預(yù)測(cè)任務(wù)進(jìn)行加速。在熱點(diǎn)預(yù)測(cè)模塊，每個(gè)關(guān)鍵詞都要與每個(gè)標(biāo)準(zhǔn)熱點(diǎn)時(shí)序進(jìn)行DTW距離計(jì)算，因此其時(shí)間復(fù)雜度為w·｜Z｜，其中w為模塊4（熱點(diǎn)預(yù)測(cè)模塊）步驟1）過(guò)濾后關(guān)鍵詞的數(shù)量，｜Z｜為Z標(biāo)準(zhǔn)熱點(diǎn)時(shí)序的數(shù)量。此方法比較耗時(shí)，本模塊基于時(shí)序特征前置比較的方式，加快預(yù)測(cè)時(shí)間。方法如下：

1）提取每個(gè) Bβ｜Bβ∈Z的時(shí)序特征。這些時(shí)序特征包括均值、方差、最大值、最小值等，Bβ的時(shí)序特征用Vβ表示。

2）初步檢測(cè)ai檢測(cè)序列Bi與Bβ的距離。提取Bi的時(shí)序特征Vi，基于歐氏距離計(jì)算Vi與Vβ的距離，若此距離小于閾值v·，則再進(jìn)行模塊4的熱點(diǎn)預(yù)測(cè)；若大于v·則放棄Bi與DTW距離計(jì)算。

3 性能驗(yàn)證

本節(jié)驗(yàn)證提出科研熱點(diǎn)預(yù)測(cè)及加速方法的實(shí)驗(yàn)性能。提出的算法簡(jiǎn)稱(chēng)為PASSG（Prediction and Acceleration based on Standard Sequence Generation）；無(wú)加速模塊的算法簡(jiǎn)稱(chēng)為PSSG算法，即PSSG算法僅包含前4個(gè)模塊?；鶞?zhǔn)算法使用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）作對(duì)比分析，性能指標(biāo)使用查全率、查準(zhǔn)率及預(yù)測(cè)時(shí)間實(shí)施評(píng)價(jià)。

圖5 算法查全率和查準(zhǔn)率對(duì)比分析

首先，驗(yàn)證PASSG和RNN算法對(duì)不同樣本數(shù)量情況下的查全率和查準(zhǔn)率，如圖5所示。樣本數(shù)據(jù)是指隨機(jī)抽取熱點(diǎn)關(guān)鍵詞的樣本數(shù)量。樣本數(shù)量分別選定 500、1 500、2 500、3 500。從圖 5 看出，PASSG算法比RNN算法查全率平均提高25.75%，查準(zhǔn)率平均提高28.25%，特別是在樣本數(shù)量較大時(shí)。RNN方法將所有樣本放入模型進(jìn)行訓(xùn)練，然而時(shí)序具有多樣性，其用一個(gè)樣本擬合，效果不佳。

其次，設(shè)置樣本數(shù)量為3 500，考察參數(shù)γ值對(duì)PASSG算法查全率與預(yù)測(cè)時(shí)間的影響，如圖6所示。橫軸為γ大于任意熱點(diǎn)標(biāo)準(zhǔn)時(shí)序均值的百分比。從圖中看出，查全率和預(yù)測(cè)時(shí)間都隨著γ的增大遞減。因此，算法需要根據(jù)實(shí)際需求，折中的設(shè)置γ值。當(dāng)對(duì)耗時(shí)敏感時(shí)，應(yīng)選擇較高的γ，而對(duì)查全率要求較高時(shí)，應(yīng)選擇較低的γ。

圖6 γ值對(duì)查全率與預(yù)測(cè)時(shí)間的影響

最后考察預(yù)測(cè)加速模塊的性能表現(xiàn)，如圖7所示。設(shè)置樣本3 500。PSSG是指不用第2.5節(jié)的模塊5進(jìn)行加速，直接用第2.4節(jié)模塊4進(jìn)行預(yù)測(cè)。結(jié)果表明，使用加速方法的PASSG算法較PSSG算法不僅可以大幅提高預(yù)測(cè)效率，而且預(yù)測(cè)的精度損失較小。

圖7 加速方法查全率和消耗時(shí)間性能分析

4 結(jié)語(yǔ)

提出一種科研熱點(diǎn)預(yù)測(cè)及加速框架，該框架基于權(quán)重TF-IDF獲取爬取信息的特征向量，兼顧信息的時(shí)序變化關(guān)系，并基于時(shí)序特征前置比較的方式提高預(yù)測(cè)效率。實(shí)驗(yàn)表明，提出框架和方法不僅具有較高的查全率和查準(zhǔn)率，預(yù)測(cè)時(shí)間亦在可接受范圍內(nèi)，且隨著樣本數(shù)量的增大，查全率、查準(zhǔn)率和預(yù)測(cè)時(shí)間優(yōu)勢(shì)明顯。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡