李靜 徐路路
摘要:[目的/意義]細粒度分析學科領域熱點主題發(fā)展脈絡并對利用機器學習算法對未來發(fā)展趨勢進行準確預測研究。[方法/過程]提出一種基于機器學習算法的研究熱點趨勢預測方法與分析框架,以基因工程領域為例利用主題概率模型識別WOS核心集中論文摘要數(shù)據(jù)研究熱點主題并進行主題演化關聯(lián)構建,然后選取BP神經(jīng)網(wǎng)絡、支持向量機及LSTM模型等3種典型機器學習算法進行預測分析,最后利用RE指標和精準度指標評價機器學習算法預測效果并對基因工程領域在醫(yī)藥衛(wèi)生、農業(yè)食品等方面研究趨勢進行分析。[結果/結論]實驗表明基于LSTM模型對熱點主題未來發(fā)展趨勢預測準確度最高,支持向量機預測效果次之,BP神經(jīng)網(wǎng)絡預測效果較差且預測穩(wěn)定性不足,同時結合專家咨詢和文獻調研表明本文方法可快速識別基因領域研究主題及發(fā)展趨勢,可為我國學科領域大勢研判和架構調整提供決策支持和參考。
關鍵詞:熱點主題;發(fā)展趨勢;機器學習;LSTM模型;支持向量機模型
DOI:10.3969/j.issn.1008-0821.2019.04.003
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2019)04-0023-11
Comparison and Analysis of Research Trend Prediction
Models Based on Machine Learning Algorithm
——BP Neural Network,Support Vector Machine and LSTM Model
Li Jing1Xu Lulu2*
(1.School of Economics and Management,Tongji University,Shanghai 200092,China;
2.Department of Information Resources Management,Business School,Nankai University,
Tianjin 300071,China)
Abstract:[Purpose/Signficance]Fine-grained analysis of the development context of hot topics in the subject field and accurate prediction of future development trends using machine learning algorithms.[Method/Process]This paper proposed a research hotspot prediction method and analysis framework based on machine learning algorithm.Taking the field of genetic engineering as an example,it used the topic probability model to identify the hot topics of the WOS core summary data and constructed the theme evolution association.Then selected three typical machine learning algorithms,such as BP neural network,support vector machine and LSTM model to predict and analyze.Finally,the prediction results of the machine learning algorithm were evaluated by using RE index and precision index,and analysed the research trend in the fields of medicine and health and agricultural food in the field of genetic engineering.[Result/Conclusion]The experiment showed that the LSTM model had the highest prediction accuracy for the future development trend of hot topics,the prediction effect of support vector machine was the second,the prediction effect of BP neural network was poor and the prediction stability was insufficient.At the same time,combining expert consultation and literature research,it showed that this method could quickly identify the topic and development trend of gene field.It could provide decision support and reference for the judgement and adjustment of the discipline in China.
Key words:hot topics;development trend;machine learning;LSTM model;support vector
21世紀以來,面對日益加劇的科技創(chuàng)新演變和國際科技競爭態(tài)勢,如何有效識別科學領域研究前沿熱點并對未來科技發(fā)展態(tài)勢進行預判至關重要?;诳萍嘉墨I的研究前沿熱點探測一直是科技戰(zhàn)略情報的重點內容,宏觀層面來講可對國家學科架構規(guī)劃、智庫建設及基金規(guī)劃制定提供決策支持,中觀層面對于地區(qū)、高校、院系等體系的雙一流建設和學科帶頭點培養(yǎng)起指導作用,而從個體微觀角度來講,研究熱點的把握和趨勢追蹤對于科研工作者提升科研效率和科研產出意義顯著[1]。因此,有效捕捉當前活躍的科研活動信息,從而追蹤研究熱點趨勢成為一直以來關注的焦點。
目前,很多學者圍繞科學研究前沿及領域熱點態(tài)勢等進行了有效研究并取得了豐碩的成果。但與此同時,研究熱點探測多基于引文分析方法存在時間滯后問題[2],同時存在詞頻統(tǒng)計分析語義不足、演化分析較為充分但預測分析不足以及粗粒度時間切片不能有效揭示熱點主題的發(fā)展演化脈絡等諸多問題[3],使得研究熱點探測和趨勢分析科學性存在不足。
基于指數(shù)平滑、自回歸模型、神經(jīng)網(wǎng)絡模型等方法的時間序列預測模型基于歷史數(shù)據(jù)相空間重構和反饋傳播從而把握事物演變態(tài)勢并對下一時間段的發(fā)展進行預測,在金融證券、風電荷載及企業(yè)治理等領域應用廣泛。但預測研究在情報學應用較少,存在場景融合力度不足以及預測方法傳統(tǒng)單一等問題,因此,本文提出基于機器學習算法的研究熱點預測模型,利用主題概率模型識別領域主題強度并以表征研究熱點,嘗試分析和對比不同機器學習算法預測效果以確定最優(yōu)預測模型選擇,對未來一段時間內的發(fā)展趨勢進行定量分析。本文嘗試尋求機器學習預測模型與研究前沿熱點的應用結合點,也為情報學領域的前沿識別追蹤領域提供一種新思路、新方法。
1相關研究
11研究熱點梳理
目前在情報學和科學學研究熱點及前沿熱點識別中主要分為兩大類方法:引文分析方法(如共被引、文獻耦合)和文本內容分析(詞頻分析、共詞以及主題概率模型分析)。
1973年,Small H等[4]首次提出利用共被引聚類方法識別研究前沿熱點主題。1994年,Carfield S L等[5]利用共被引強度表征當前研究活動前沿信息并進一步對研究前沿熱點內涵分析定義。Kessler M M[6]最早將文獻耦合分析方法引入到前沿熱點識別中來,該方法有效揭示文獻間內在聯(lián)系和學科架構變化,圍繞該方法的研究逐步開展。如Persson[7]利用施引文獻—被引文獻二維矩陣揭示熱點研究主題,Morris S A等[8]基于文獻耦合方法進一步可視化展示熱點主題分布、演變與衰老動態(tài)時序變化。
基于共被引和文獻耦合等引文分析方法存在時間探測的滯后性,同時存在未深入文本內容、欠缺語義關系等問題一定程度上制約了熱點主題探測的科學性。因此,目前基于詞頻分析、共詞分析以及主題模型成為熱點識別的主流先驅。2003年,Blei D M等[9]提出LDA模型從概率統(tǒng)計層面定量分析和識別出科技文獻動態(tài)研究主題。2004年,Mane K K等[10]利用詞頻分析方法對生物醫(yī)學領域文獻進行結構分層并繪制研究熱點主題地圖。2012年,楊星等[11]提出基于主題模型的熱點及趨勢自動識別方法并在時間軸上對熱點主題進行動態(tài)演化分析,相關研究學者還有傅柱等[12]、徐路路等[13]。目前基于研究熱點和前沿探測的方法取得了顯著的研究成果,演化分析較為充分但存在前瞻預測不足、預測方法單一老化等問題,因此本文將結合當前機器學習相關算法對識別出的研究熱點主題進行預測分析。
12基于機器學習預測方法梳理
1970年,美國科學家博克斯首次提出利用時間序列建模分析實現(xiàn)事物發(fā)展趨勢預測對模型設計、診斷、檢驗以及控制等進行了闡明。之后圍繞時序建模的思想和方法逐漸完善并在經(jīng)濟趨勢預測、國家產值預判及輿情風險評估等諸多方面取得了方法的應用。目前傳統(tǒng)的時序預測方法主要有自回歸、Kalman濾波法、滑動平均模型等。
基于傳統(tǒng)的時間序列預測方法側重于數(shù)理統(tǒng)計,不具備自學習、自組織、自適應能力,尤其對于非線性及多特征維度的數(shù)據(jù)類型不能有效擬合和函數(shù)表達。隨著萬物互聯(lián)和大數(shù)據(jù)生態(tài)環(huán)境的構建,基于神經(jīng)網(wǎng)絡、支持向量機回歸及隨機森林等模型的多種機器學習算法的時間序列預測模型日益發(fā)揮重要作用。
2004年,張烈平等[14]提出一種基于BP神經(jīng)網(wǎng)絡的自學習預測建模系統(tǒng),利用其并行結構和處理能力將仿真實驗精準度有效提高。2008年,侯亞麗等[15]針對BP神經(jīng)預測模型收斂慢且易局部收斂等缺陷,提出一種基于改進LM(Levenberg-Marquardt)優(yōu)化算法的神經(jīng)網(wǎng)絡預測模型,修正后向傳播權重調整策略和偏置優(yōu)化有效提出模型運行效率,圍繞BP神經(jīng)網(wǎng)絡及其他模型算法研究的還有夏玫等[16]、孫文俊等[17]及饒浩等[18]。2015年,羅知林等[19]提出基于隨機森林算法的微博信息傳播預測算法,利用隨機算法的高維度特征抽取能力對微網(wǎng)絡結構及等特征進行有效提取預測。2016年,李杰[20]提出改進粒子群算法的支持向量機預測模型有效克服其參數(shù)收斂及優(yōu)化問題,并以工程造價領域進行實證預測研究。2017年,張宇航等[21]針對小樣本電力荷載提出一種基于LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡)模型的短期負荷預測方法有效逼近其預測函數(shù)機制。
基于機器學習相關算法的預測模型在諸多領域取得廣泛應用但在情報學研究領域尤其是前沿預測分析、熱點狀態(tài)追蹤等方面相關研究尚未開展。因此,本文將嘗試利用BP網(wǎng)絡、支持向量機及LSTM模型對熱點前沿主題進行預測分析并尋找最優(yōu)預測效果。
2方法框架
為有效對研究熱點進行趨勢預測分析,本文提出一種基于機器學習算法的研究熱點預測模型,首先以基因工程領域為例獲取WOS核心合集摘要數(shù)據(jù),然后利用LDA主題模型實現(xiàn)科技文獻中信息抽取和主題強度表征熱點度,進而利用余弦相似度定理建立主題關聯(lián)構建,最后利用機器學習算法對其未來發(fā)展趨勢進行預測分析并對不同機器學習算法預測能力進行評估驗證。實驗框架如圖1所示。
21研究熱點主題探測
擬選用LDA模型為研究熱點主題探測工具。LDA主題模型可以表達主題、主題詞與文檔3層語義結構,利用無監(jiān)督機器學習方式抽取隱藏的主題信息并對主題詞進行權重表示。研究熱點表示一定時期內某一學科研究熱情及研究主題強度,可用關鍵詞或主題詞的權重表示,權重越大表示研究主題越熱門。利用機器學習算法進行研究熱度預測首先需要得出每子時期主題強度值。本文提出熱點研究前沿主題強度指標如下:
TIIzt=∑ni=1weight(ki)(1)
其中,weight(ki)表示主題詞權重比值;∑ni=1weight(ki)反映該主題累計主題詞權重值,TIIzt即為該主題權重值,越大表示研究主題越熱門,越代表當前研究的重心和科技競爭點。該指標的有效探測和預測可對熱門研究前沿主題發(fā)展脈絡準確把握和定位。
22主題關聯(lián)構建
細粒度識別子時期研究主題熱度后需探索不同時間片段主題集群內部與外部關聯(lián)關系,從而得到不同主題在不同時期的前驅與后繼關系形成動態(tài)主題鏈。本文基于余弦相似度的方法計算時序主題的相似度,構建基于時間序列發(fā)展的主題發(fā)展脈絡,為后續(xù)基于機器學習算法做預測分析提供實驗準備和基礎。設定固定閾值進行相似度判定,相似度大于閾值則說明兩個時間維度的熱點主題為同一主題的演進與變化,公式如下所示:
Sim(Topici,Topicj)=cosθ=∑nk=1wk(Topici)×wk(Topicj)∑nk=1w2k(Topici)×∑nk=1w2k(Topicj)(2)
其中,分子表示兩個主題向量的點乘積,分母表示兩個主題向量的模的積。
23機器學習算法預測模型對比分析
選取目前時間序列預測研究中常用且準確度較高的3種機器學習算法作為本實驗研究熱點趨勢預測模型,分別為BP神經(jīng)網(wǎng)絡、支持向量機和LSTM模型。
231BP神經(jīng)網(wǎng)絡結構預測模型分析
1986年,Rumelhart首次提出誤差逆向修正多層反饋的BP神經(jīng)網(wǎng)絡,憑借其優(yōu)越復雜模式分類能力和多維函數(shù)映射能力而取得了廣泛應用。BP神經(jīng)網(wǎng)絡主要分為輸入層、隱含層和輸出層3層神經(jīng)結構,采用經(jīng)驗風險最小和梯度下降法來計算目標函數(shù)最優(yōu)值從而逼近函數(shù)表達,BP神經(jīng)網(wǎng)絡網(wǎng)絡結構如圖2所示。
其中,{x1,x2,x3,…,xn}表示n維的模型輸入單元,{y1,y2,y3,…,yn}表示模型輸入,從輸入到輸出對應權重值w和偏置項b用于前向和后向傳播參數(shù)調整。對于神經(jīng)節(jié)點i輸入可表示為:
Hui=∑Jj=1WijVj=∑Jj=1Wijg∑Kk=1wjkxi(3)
經(jīng)過隱層節(jié)點得到模型輸入為:
Oui=g(Hui)=g∑Jj=1Wijg∑Kk=1WjkXi(4)
對于任意輸入模式u和輸入單元定義誤差函數(shù)為:
Eu(w)=12(xui-yui)2=12[xui-g(∑jWii) g(∑Wijxui)]2(5)
進而對神經(jīng)元結構進行誤差平均處理得到模型預測器的誤差,使得隱層前向網(wǎng)絡結構能夠逼近定義在Rn一個密集任意非線性函數(shù)得出模型最優(yōu)解。BP神經(jīng)網(wǎng)絡作為機器學習算法的一種具有較好的自學習、自適應能力和一定的推廣能力。但BP神經(jīng)網(wǎng)絡面對復雜優(yōu)化目標函數(shù)神經(jīng)元輸出逼近真實值時期訓練效果較差且易陷入局部最優(yōu),其網(wǎng)絡結構和神經(jīng)元需人為設定具有較強的主觀性,而該模型預測的推廣能力和泛化能力也有待于進一步提升。
232支持向量機(SVM)預測模型分析
20世紀90年代科學家Vapnik等提出支持向量機(Support Vector Machine,SVM)算法,基于結構風險最小化尋找歸納統(tǒng)計設計模型以實現(xiàn)最小風險泛函,利用核函數(shù)將數(shù)據(jù)從低維度映射高維度空間降低了維度災難和計算復雜度而具有較好的推廣能力,在電力預測、文本分類等諸多領域取得了廣泛應用。支持向量機采用核函數(shù)原理,將數(shù)據(jù)從低維空間映射到高維空間,有效避免“維數(shù)災難”,提高了非線性數(shù)據(jù)的擬合能力(如圖1左側圖所示),利用核函數(shù)計算值K(xi,x)表達多維向量內積計算時間t時間段內前m數(shù)據(jù)(即數(shù)據(jù)時間窗口為m)預測結果輸出,如圖3右側圖所示。
相比于BP神經(jīng)網(wǎng)絡等傳統(tǒng)神經(jīng)網(wǎng)絡算法,SVM模型采用結構風險最優(yōu)而其推廣能力一直是該模型的優(yōu)點之一。對于給定樣本(xi,yi)(i=1,2,3,…,N),N為樣本容量,xi為輸入向量,yi為輸出目標,SVM模型采用高維映射特征空間Rn到Rm再在特征空間利用線性函數(shù)進行函數(shù)逼近:
y=f(X)=[W,φ(X)]+b(6)
式中,W、f(X)為m維矢量數(shù)據(jù),b為函數(shù)閾值,y表示點積處理后函數(shù)值。根據(jù)統(tǒng)計學理論SVM最小化目標函數(shù)得到擬合回歸函數(shù)公式:
minW,b∶12W2+c∑ni=1yi-[W,φ(xi)-bI](7)
式中c表示控制模型損失1/2w2和訓練模型復雜度的懲罰系數(shù),i=1,2,…,n表示支持向量機點數(shù)。利用核函數(shù)可實現(xiàn)數(shù)據(jù)高維映射特征空間,進而在不影響計算復雜度的前提下輸出模型預測時序結果。
g(xi)=wTΦ(xi)+b=∑mi=1αi[Φ(xi)Φ(x)]+b=∑αik(xi,x)+b(8)
支持向量機具有較強小樣本學習能力和非線性擬合能力,不容易陷入局部最優(yōu)同時參數(shù)設置相對簡易,因此在機器學習時序預測領域取得了較為普遍的應用,但在情報學科學研究前沿探測和預測分析中的應用較少,因此本文選用支持向量機模型作為機器學習算法的一類展開論述分析。
233長短期記憶網(wǎng)絡(LSTM)預測模型分析
長短期記憶網(wǎng)絡(Long Short Term Memory Networks,LSTM)作為特殊的RNN,有效克服了其在機器學習中梯度消失和梯度爆炸的缺陷,對于間隔和延遲相對較長的時序數(shù)據(jù)具有強度處理能力。LSTM預測模型結構包括:輸入序列X={x1,x2,x3,…,xn}、時序步長及相應輸入xt以及控制信息傳遞的遺忘門ft、輸入門it和輸出門ot,如圖4所示,在t時刻時t-1時刻輸入ht-1及記憶細胞狀態(tài)Ct-1到達并結合此時刻輸入通過輸入門并由遺忘門f過濾后得到該時刻模型輸出。
圖4LSTM模型預測模型結構分析
對于LSTM輸入:
zt=∑Ii=1wxixti+∑Hh=1whiht-1i+∑Cc=1wsist-1c+bi(9)
yt=f(zt)(10)
式中,wxi、whi、wsi分別代表不同細胞機制權重分布,第一項表示與輸入門相關的外部信息變量,第三項表示cell中的輸入部分,第二項表示t-1時刻泛指狀態(tài),因為LSTM模型單元相關關聯(lián)其隱層節(jié)點信息共享,則它可視為外部輸入的一部分,b為偏置向量,f表示sigmoid激活函數(shù)。遺忘門和輸出門機構機理和相關參數(shù)與輸入相似,最終隱層單元狀態(tài)值由tanh激活函數(shù)得到輸入預測值。
t=σ(w*h+b)(11)
3實證研究
31實驗平臺
硬件:Window10操作系統(tǒng)、Genuine Intel(R)CPU @ 170GHz、8GRAM
軟件:Anaconda、基于Tensorflow(GPU版本)后端的Keras深度學習框架、Rapidminer
32數(shù)據(jù)集及預處理
數(shù)據(jù)庫:Wos核心論文集中基因工程領域論文數(shù)據(jù)
時間跨度:1965年至2017年
檢索式:Keyword=“Genetic Engineering”
檢索結果:2 764項。
自1965發(fā)表第一篇以基因工程為主題的文章但受限于當時科研條件和理論基礎該研究后續(xù)未廣泛展開。1998年圍繞基因工程主題論文的研究相繼展開,科研產出數(shù)量逐年增加,自2003年開始相關研究呈現(xiàn)高度發(fā)展狀態(tài),后續(xù)科技年代維持高熱情、高產出的發(fā)展態(tài)勢。本文利用LDA模型識別大規(guī)模文檔數(shù)據(jù)集中主題分布,因此為保證數(shù)據(jù)樣本充足性選用2003年為起始年份,以年為基本處理時間區(qū)間共計15年子區(qū)間。
33主題識別實驗
331LDA相關參數(shù)設置
本文選用LDA模型進行主題識別。LDA(Latent Dirichlet Allocation,隱含狄利克雷分配)是包括文檔集層、主題層及特征詞層3層結構的貝葉斯概率分布模型,通過概率統(tǒng)計和參數(shù)擬合模擬大規(guī)模文檔生成過程,抽取科技文獻中具有代表實際意義的主題詞進而可以深度挖掘文本數(shù)據(jù)蘊含的隱含主題信息拓撲結構。
文檔集中主題數(shù)為超參數(shù),在進行主題識別前需確定多源信息數(shù)據(jù)主題數(shù)目。復雜度(Perplexity)是衡量一個語言模型優(yōu)劣常用的一個指標,David等提出復雜度指標并定義一個有M篇文檔的文檔集的主題模型的復雜度為:
perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1logNd(12)
其中,M是文檔集中文檔的數(shù)目,P(Wd)是PLDA模型生成第d篇文檔的概率,Nd是單詞的個數(shù),當perplexity(Dtest)最小時,主題具有較好的語義表達效果,建立主題文檔映射,確定文檔集中的主題數(shù)。本文對主題數(shù)目及復雜度動態(tài)對應關系進行實驗,經(jīng)實驗主題步長最終主題數(shù)選擇100。
332主題表征
利用余弦相似度定量建立不同子時期主題關聯(lián)關系,進而在時間序列維度上建立一整條動態(tài)時序主題鏈,時間跨度為2003-2017年間。經(jīng)實驗相似度閾值取05時,主題演化和關聯(lián)度較好,可以較為完整地表達不同主題類型在時間窗口的躍遷和演化特征。表2中相似度計算可以選擇相似度閾值大于05的主題類型建立關聯(lián),即2014年中Topic_1在2015年發(fā)展為Topic_2進而成為Topic_7(2016),同理則可得到10個主題的主題發(fā)展變化。
建立主題動態(tài)時序鏈為后續(xù)進行機器學習算法預測研究提供理論基礎,而具體主題強度值利用LDA模型實驗可以得到主題詞權重表征研究熱度,進而探測不同主題研究熱度在時間序列上的發(fā)展變化規(guī)律,對未來基因工程領域發(fā)展趨勢進行研判。
34機器學習算法研究熱點預測與對比
341實驗設置
選用BP神經(jīng)網(wǎng)絡、支持向量機模型以及LSTM預測模型為本文研究熱點預測器。本文熱點主題探測區(qū)間為15年,選擇前10年為訓練數(shù)據(jù)集,后5年為測試數(shù)據(jù)集,選擇相對誤差作為模型預測評估指標。時間序列數(shù)據(jù)標簽化處理,滑動時間窗口為1,時間步長為1年,即t年研究熱點預測未來t+1年的發(fā)展情況。BP神經(jīng)網(wǎng)絡選用三層神經(jīng)元結構,神經(jīng)元為1-20-10-1分布,m表示相空間重構數(shù)為1,訓練迭代次數(shù)為50,神經(jīng)網(wǎng)絡學習率為常數(shù)001。支持向量機模型中參數(shù)Gamma決定數(shù)據(jù)映射高維度特征空間分布,設置為15,內存大小Cache參數(shù)為400,懲罰函數(shù)中系數(shù)C設置為12,終止判據(jù)Epsilion設為0001,支持向量機和BP神經(jīng)網(wǎng)絡利用Rapidminer機器學習算子實現(xiàn),LSTM預測模型則利用Python35中的Keras框架下搭建兩層10維神經(jīng)元層和一層Dense預測輸出,訓練批量Epochs設置為50共迭代實驗50經(jīng)后向傳播參數(shù)調整后結果趨于穩(wěn)定收斂,評價模型為相對誤差。
342實驗結果
選用相對誤差指標(RE,Relative Error)描述模型預測效果。公式如下,其中表示相對誤差,yt表示真實值,yt表示模型預測值。本文測試集共分10個主題及每個主題下后5年的主題強度值,對每個主題不同子時期求得相對誤差RE并對其均值處理得到該主題的平均預測精度。部分基于不同機器學習算法預測精度比較見表5,以Topic0為例對2013-2017年主題熱度值分別利用BP神經(jīng)網(wǎng)絡、支持向量機及LSTM模型進行預測分析并最終得到該主題平均相對誤差分別為1569%、1298%和1075%,可見對于該主題LSTM模型預測精度較高,支持向量機預測效果低于LSTM模型但高于BP神經(jīng)網(wǎng)絡預測模型,但對于Topic2而言預測精度最高的為支持向量機(1096%),LSTM模型和BP神經(jīng)網(wǎng)絡預測精度相差較小分別為1308%和1425%。
BP神經(jīng)網(wǎng)絡模型預測準確度為8364%,在機器學習算法預測模型中預測效果最差,基于支持向量機預測模型和LSTM模型的預測準確度分別為8828%和8910%,預測效果相近,其中基于LSTM模型預測精準度略高,同時基于長短記憶神經(jīng)網(wǎng)絡和支持向量機模型預測穩(wěn)定性相對較好,可視化分析如圖6所示,10個圓環(huán)圖分別表示10個主題類型,每圓環(huán)從內而外分別表示BP神經(jīng)網(wǎng)絡、支持向量機和LSTM模型預測模型,可較為清晰表達預測結果差異性。
35趨勢分析
基因工程是通過外源基因載入并經(jīng)復制、轉錄、翻譯而對基因形狀正常的復制和表達的生物分子技術手段,具有廣泛的發(fā)展前景和應用價值。利用本實驗探測得到主題詞及主題發(fā)展演變,未來一段時間內基金工程領域熱點主題趨勢上升并呈現(xiàn)穩(wěn)步增長的態(tài)勢,主要學科主題按權重詞分布可分為醫(yī)藥、農業(yè)和環(huán)境及食品基礎研究四大主題維度。
基因工程在醫(yī)藥衛(wèi)生方面熱點與趨勢分析(Topic0、Topic5和Topic9):該主題主要圍繞基因工程在醫(yī)療檢驗、基因診斷(Diagnosis)以及基因健康治療(Health)等方面展開,如利用同源重組基因剔、核苷酸基因合成及靶向藥物治療等手段提升基因工程診斷及治療藥物作用;采用基因工程胰島素及干擾素(Leading)等相關疫苗增強天然疫苗在人體良化反應;利用核酸分子和聚合酶鏈反應進行片段化基因檢測,改良傳統(tǒng)特異性差靈敏度低級診斷誤差高等醫(yī)學診斷方式;利用代替性治療和抑制性(轉錄水平和mRNA翻譯水平)開展基因治療(Inherited)等。該領域是基因工程領域的研究熱點,但也面臨著技術缺陷及實驗臨床驗證不足等問題,未來一段時間內圍繞該領域布局可進一步拓展,具有較好的發(fā)展趨勢。
基因工程在農業(yè)方面熱點與趨勢分析(Topic4、Topic6和Topic8):該主題主要圍繞利用先進基因工程(Engineering)手段進行農業(yè)作物改良、
作物制藥與微生物農業(yè)控制等方面展開,如對氮代謝調節(jié)基因及攜帶固氮酶的微生物(Microbe)進行基因改良以滿足植物肥料需求、改良自然菌株并對熒光假單胞菌等殺蟲防病細菌遺傳因子進行試驗以減少農藥使用;植物基因改良增強光合作用及新品種培育增加作物產量等以及將毒蛋白基因導入煙草、棉花及楊樹等農林作物以培養(yǎng)出抗蟲(Insect)特性;利用外部基因如磷酸乙酰轉移酶基因(Protein)等以培養(yǎng)抗逆性強農作物。該主題主要圍繞基因工程在農作物品種改良、抗蟲抗病等方面展開,我國作為傳統(tǒng)農業(yè)大國,在政策部署和市場需求上具有較好的前景,因此圍繞該主題下的產業(yè)布局和學科架構調整具有積極意義。
基因工程在環(huán)境及環(huán)境保護(Topic1、Topic3)熱點與發(fā)展趨勢較好,主要圍繞水體與土壤污染治理、石油污染及塑料降解等方面展開,如利用改良基因工程菌絮凝性能及生長迅速等特點對有毒有害污染物(Pollutant)進行降解處理;利用雜交技術與質粒載體重組優(yōu)化抗菌去污能力以及提升微生物特異性DNA編碼轉換能力(Allele)進行石油降解等。該主題研究力度和主題強度相對較小,未來有待于進一步發(fā)展。主題Topic2和Topic7主要圍繞基因工程在食品工藝及果蔬產品優(yōu)化等方面的研究,如利用基因工程加入脫氫酶義基因等提升植物油硬脂酸含量等,加入淀粉合成酶使得直鏈淀粉合成抑制以提高食品(Food)質量增加焙烤特性等;圍繞發(fā)酵食品品質、產率及風味(Flavor)特性的基因工程改良也是未來重要發(fā)展趨勢之一。受限于政策支持、市場調節(jié)和食品安全性等諸多因素,圍繞上述主題研究熱點發(fā)展相對較為緩慢,但未來該主題發(fā)展趨勢仍值得期待,具有良好的市場和環(huán)境保護價值,科技政策制定者需加大基金投入和政府引導以期發(fā)揮更大作用。
4討論
本文以基因工程領域為分析數(shù)據(jù)源,利用主題概率模型識別其主題強度并對其發(fā)展演化關系進行分析和關聯(lián)構建,在此基礎上注重主題趨勢的預測分析,利用BP神經(jīng)網(wǎng)絡、支持向量機及LSTM模型等代表性機器學習算法對基因工程領域的熱點主題未來發(fā)展趨勢進行預測分析,實驗表明基于長短記憶神經(jīng)網(wǎng)絡預測模型預測精準度最高且穩(wěn)定性較好,支持向量機次于LSTM模型但優(yōu)于采用經(jīng)驗風險最優(yōu)的BP神經(jīng)網(wǎng)絡,以期為后期情報學預測研究展開提供實證基礎和論證思路。同時,本實驗采用文獻調研法[22-25]和具有生物醫(yī)學等基因工程背景專家咨詢,認為本實驗研究熱點識別及趨勢分析具有較好的科學性和準確度。
本文不足之處在于采用了論文數(shù)據(jù)分析源,對于論文數(shù)據(jù)時間滯后性等問題未進行充分分析,未來考慮加入基金數(shù)據(jù)、規(guī)劃文本等多源數(shù)據(jù)進行充分驗證與對比分析,以準確識別基因工程領域熱點主題及趨勢;同時本文在機器學習算法上選用了3種代表性學習算法,未來將進一步考慮增加相關算法的分析驗證同時在步長選擇、相空間重構等方面進行多維度驗證分析以提供預測模型的推廣能力和預測能力。本文注重對未來學科發(fā)展趨勢預測分析并結合情報學熱點探測等技術,以期為我國學科領域及科研發(fā)展提供決策支撐和參考。
參考文獻
[1]趙蓉英,余波.國際數(shù)據(jù)挖掘研究熱點與前沿可視化分析[J].現(xiàn)代情報,2018,38(6):128-137.
[2]逯萬輝,馬建霞,趙迎光.爆發(fā)詞識別與主題探測技術研究綜述[J].情報理論與實踐,2012,35(6):125-128.
[3]魏曉俊.基于科技文獻中詞語的科技發(fā)展監(jiān)測方法研究[J].情報雜志,2007,26(3):34-36.
[4]Small H,Griffith B C.The Structure of Scientific Literatures I:Identifying and Graphing Specialties[J].Science Studies,1974,4(1):17-40.
[5]Garfield S L,Bergin A E.Handbook of Psychotherapy and Behavior Change[M].JWiley,1994.
[6]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].Journal of the American Society for Information Science & Technology,1963,14(1):10-25.
[7]Persson O.The Intellectual Base and Research Fronts of JASIS 1986-1990[J]. Journal of the Association for Information Science & Technology,1994,45(1):31-38.
[8]Morris S A,Yen G,Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.
[9]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].J Machine Learning Research Archive,2003,3:993-1022.
[10]Mane K K,B Rner K.Mapping topics and Topic Bursts in PNAS[J].Proc Natl Acad Sci U S A,2004,101(Suppl 1):5287-5290.
[11]楊星,李保利,金明舉.基于LDA模型的研究領域熱點及趨勢分析[J].計算機技術與發(fā)展,2012,(10):66-69.
[12]傅柱,王曰芬,關鵬.以分類主題抽取為視角的學科主題挖掘——基于LDA模型的國外知識流研究結構探討[J].情報理論與實踐,2016,39(8):96-102.
[13]徐路路,王效岳,白如江.基于PLDA模型與多數(shù)據(jù)源融合相關性分析的新興主題探測研究——以石墨烯領域為例[J].情報理論與實踐,2018,41(4):63-69.
[14]張烈平,周德儉,牛秦洲.基于BP神經(jīng)網(wǎng)絡的預測建模系統(tǒng)的研究與實現(xiàn)[J].計算機仿真,2004,21(9):48-50.
[15]侯亞麗,李鐵.基于LM優(yōu)化算法的BP神經(jīng)網(wǎng)絡目標識別方法[J].探測與控制學報,2008,30(1):53-57.
[16]夏玫,陳立潮,王新波.一種提高BP神經(jīng)網(wǎng)絡泛化能力的改進算法[J].計算機技術與發(fā)展,2009,19(9):62-64.
[17]孫文俊,杜娟.基于詞同現(xiàn)網(wǎng)絡與支持向量機的論文甄別[J].現(xiàn)代情報,2010,30(7):87-92.
[18]饒浩,文海寧,林育曼,等.改進的支持向量機在微博熱點話題預測中的應用[J].現(xiàn)代情報,2017,37(3):46-51.
[19]羅知林,陳挺,蔡皖東.一個基于隨機森林的微博轉發(fā)預測算法[J].計算機科學,2014,41(4):62-64.
[20]李杰.改進粒子群算法優(yōu)化支持向量機的工程造價預測[J].計算機系統(tǒng)應用,2016,25(6):202-206.
[21]張宇航,邱才明,賀興,等.一種基于LSTM神經(jīng)網(wǎng)絡的短期用電負荷預測方法[J].電力信息與通信技術,2017,(9):19-25.
[22]劉一杰,薛永常.植物抗蟲基因工程的研究進展[J].浙江農業(yè)科學,2016,57(6):873-878.
[23]申夢雅,張永清,王德國,等.基因工程在食品工業(yè)中的應用[J].廣東化工,2016,43(10):99-100.
[24]田立平,趙亞飛.基因工程技術對藥物發(fā)展的影響分析[J].臨床醫(yī)藥文獻電子雜志,2018,(16).
[25]王得華,馬義,韓磊,等.新型基因重組PACAP衍生物MPL-2的制備及其抗2型糖尿病作用研究[J].中國生物工程雜志,2017,37(5):59-65.
(責任編輯:陳媛)