靳 楊 徐路路
(首都醫(yī)科大學附屬北京安貞醫(yī)院 北京100029) (南開大學信息資源管理系 天津 300071)
分析醫(yī)學領域科技文獻研究前沿主題信息可有效揭示出該領域新材料、新技術和新方法,從而優(yōu)化布局發(fā)展[1]。如何從海量醫(yī)學科技文獻中識別研究前沿并對未來發(fā)展方向進行預測分析成為亟需解決的問題。但目前科學研究前沿存在諸多問題,如數(shù)據(jù)源單一(論文為主)、語義理解不足、多數(shù)據(jù)源無法交叉融合等,制約文本內容主題探測的有效性和準確度[2],論文數(shù)據(jù)主題豐富但其研究前沿探測的前瞻性受到廣泛質疑,規(guī)劃文本等蘊含更多前瞻價值信息但主題粒度較大[3]。本文分析醫(yī)學科學研究前沿中存在的主要問題和不足,提出WordNet本體語義增強和多源數(shù)據(jù)主題貢獻度分析,識別論文、基金項目數(shù)據(jù)以及專利文獻中的石墨烯材料在醫(yī)學領域的前沿主題。利用本體庫WordNet豐富和拓展主題詞語義信息,基于不同文本特征要素分析進行主題貢獻度融合,構造多源數(shù)據(jù)融合的科學研究前沿探測公式,從而揭示石墨烯新材料領域競爭發(fā)展態(tài)勢,為優(yōu)化戰(zhàn)略部署和重點領域大勢研判提供情報支撐[4]。
WordNet是普林斯頓大學Miller于1985年組織語言及心理學相關領域專家開發(fā)的大型英文詞匯數(shù)據(jù)庫[5],采用語義網絡作為其詞匯概念本體的基本組成形式,將不同詞匯以不同分類組織形式關聯(lián)融合,形成語義本體。多年來眾多學者基于WordNet豐富的語義描述能力及詞匯覆蓋度展開相關研究。1998年Fellbaum C等基于基準語義消歧方法與融合WordNet相關詞語進行語義相似度計算,實驗證明該方法使排歧準確度有所提高[6]。2011年王瑞琴等將WordNet本體和WordNet Domains擴展庫作為消歧數(shù)據(jù)源,利用查詢擴展技術建立查詢關鍵詞和本體概念的映射,提高信息檢索準確度,滿足多樣化檢索需求[7]。2013年張澤宇等針對語義標注效率低下的問題提出基于WordNet語義知識的文檔標注方法,實現(xiàn)對科技文獻的有效標注與識別[8]。2015年X Zhu利用WordNet在線語義詞典提出基于語義和邊權重的相似度計算方法,MC30和RG65測試集實驗分析表明該方法在計算性能和效率的優(yōu)越性[9]。針對主題粒度較大的文本,如規(guī)劃文本、基金項目數(shù)據(jù)等,利用WordNet拓展其語義信息作為主題內容的補充,進而利用主題概率識別模型識別其蘊含的前沿主題是未來前沿探測的有效方法之一。
1965年Price從引用次數(shù)維度首次定義科學研究前沿[10]。1973年H.Small將同被引文獻的聚類分布結果定義為科學研究前沿[11],圍繞研究前沿內涵展開研究的還有O.Persson提出的高同被引文獻關聯(lián)的施引文獻群以及E.Garfield提出的被引聚類的核心文獻和引用該論文的最新文獻研究前沿的概念[12-13]。2011年張士靖等利用共被引分析和共詞聚類分析方法對醫(yī)學健康領域研究熱點和前沿主題進行追蹤并利用Ucinet進行可視化分析[14]。2012年冷伏海等提出基于案例分析的科學前沿探測新方法,利用因子分析、戰(zhàn)略坐標等多種方法綜合分析學科領域研究前沿[15],相關研究者還有白如江[16]、牟冬梅[17]等。研究前沿的有效探測對于學科未來發(fā)展規(guī)劃具有重要指導意義。
為更加準確前瞻地識別出多種科技文本中蘊含的科學研究主題,本文提出基于WordNet語義增強和多源信息主題貢獻度分析的科學研究前沿探測方法,對基金項目、論文、專利等數(shù)據(jù)進行主題貢獻度分析并利用本體語義研究技術對探測得到的主題信息進行語義增強以提高主題探測的科學性和準確度。
主題概率識別模型可模擬科技文獻生成過程,通過參數(shù)估計和先驗概率抽取其主題信息,實現(xiàn)文本內容深度挖掘,是目前前沿識別中重要方法。然而該方法也存在不足,側重于量化統(tǒng)計和概率分布研究,忽略科技文本語義理解和詞匯語義關聯(lián),如對energies和energy、application和using等詞形不同但詞義相同的主題詞無法有效識別并權重疊加,另外也產生較多的噪音數(shù)據(jù),降低前沿準確性和科學性。語義角色標注可對科技文獻內容信息進行分析及解讀,增強語義信息理解,目前主要方法有語義角色標注(句子粒度淺層語義分析)和基于本體語義增強研究(詞語粒度概念映射)兩種?;诒倔w語義分析方法可將表征研究前沿信息的主題詞語義映射,進而識別其上位詞(hypernym)、近義詞(homoionym)等語義信息,歸類同語義信息關鍵詞并調整權重分配,深入挖掘概念語義類型,其中WordNet是較為成熟的英文語義本體庫。本文提出基于主題概率識別模型的語義增強方法,將主題詞袋概念映射為概念詞袋以增強其語義信息,調整主題詞分布及權重,以提高科學研究探測的準確度。基于主題概率模型語義增強處理,見圖1。
圖1 基于主題概率模型語義增強處理
科學研究前沿蘊含在不同的科技文本數(shù)據(jù)源中,如基金項目、專利文本、論文數(shù)據(jù)等,且不同數(shù)據(jù)源具有不同文本特征和要素,因此不應以單一論文數(shù)據(jù)為分析數(shù)據(jù)源,擴展數(shù)據(jù)源類型進行多源數(shù)據(jù)主題交叉融合識別是重要發(fā)展趨勢。基金項目是由國家組織部署相關研究機構實施的科技創(chuàng)新任務,其經過專家論壇探討往往代表相關學科優(yōu)先領域,研究主題具有“將來時”屬性,利用基金項目進行科學研究前沿分析在主題新穎度和前瞻性方面貢獻權重大,但同時基金項目數(shù)據(jù)文本量較小,主題較為宏觀,粒度較大而主題豐富度不足。專利文獻數(shù)據(jù)龐大且蘊含著豐富的技術信息,是進行情報分析和前沿識別的重要數(shù)據(jù)源,反映某學科領域的關鍵技術和方法流程,專利可視為基金項目當前階段的具體部署和解決方案,具有“現(xiàn)在時”屬性,其前瞻信息價值較高,主題較為豐富。而論文數(shù)據(jù)從產生到發(fā)表再到引用需要一定時間,存在一定的滯后性,其“過去時”特征使其在前沿識別中前瞻性較低,但論文數(shù)量較多,主題豐富度較高。因此有效融合多源數(shù)據(jù)提高研究前沿水平十分必要。
本文分析研究前沿相關研究,利用不同階段的主題發(fā)展特性可以對科學研究前沿多主題類型進行區(qū)分,即分為新興研究、熱點研究和未來研究前沿主題3種多源數(shù)據(jù)分析主題類型。主題強度是指學科主題的主題研究熱度及發(fā)展程度,可通過主題內部關鍵詞頻次及權重表征學科主題強度。融合多源數(shù)據(jù)特征首先識別其主題強度并根據(jù)上述分析進行貢獻度分析融合。主題強度指標如下:
(1)
考慮多源數(shù)據(jù)主題豐富度和新穎度兩個參量,在主題粒度可利用主題概率模型予以表征,粒度大的主題其識別出的數(shù)值較大;主題前瞻價值則是根據(jù)上述分析設定相應的主題前瞻價值系數(shù)。因此本文提出針對多源數(shù)據(jù)類型的科學研究前沿探測公式:
(2)
公式中α,β,λ為不同數(shù)據(jù)源的主題貢獻度系數(shù)以表征基金數(shù)據(jù)及專利論文在前沿探測中的主題貢獻度大小,3個子項分別為基金項目、專利及論文主題強度指標,利用貢獻度系數(shù)調諧統(tǒng)一,最終得到科學研究前沿探測公式(Research Front Detection Formula,RFDFz)。
石墨烯具有獨特的蜂窩納米結構,目前在分子化學、航空航天等領域取得廣泛應用,分散性、生物相容性、親水性等特質使其在生物醫(yī)學領域具有廣闊的應用前景和價值。因此本文利用科學研究前沿探測方法識別石墨烯在生物醫(yī)學領域研究動向。石墨烯生物醫(yī)學領域數(shù)據(jù)檢索,見表1。
表1 石墨烯生物醫(yī)學領域數(shù)據(jù)檢索
新興主題探測在于第一時間發(fā)現(xiàn)具有較大潛力而未引起廣泛關注的主題,因此將子時期單位設置為1年可較早識別短時間內突發(fā)主題詞。為保證足夠數(shù)據(jù)進行主題分析,本文以2008年為時間起始,以每年為時間單位進行細粒度時間切片處理,得到10個子時期。實驗發(fā)現(xiàn)權重系數(shù)α取0.4,β取0.35,λ取0.25效果最好。
4.3.1 參數(shù)設置與主題表征 選用Kmine實驗平臺的LDA模型進行主題識別。相關參數(shù)設置:No of topic主題數(shù)40;No of words per topic每個主題的詞數(shù)10;Alpha 0.5;Beta 0.1;No of iteration迭代次數(shù)2 000;No of thread線程數(shù)8;復雜度為100。對10個子時期(2008-2017年)的基金項目數(shù)據(jù)集進行主題建模,得到主題-主題詞-項目序號的多維映射關系。對利用LDA模型得到的文檔-主題及主題-主題詞映射進行語義處理,將主題詞袋概念映射為概念詞袋以增強其語義信息,合并同語義信息主題詞并調整主題詞分布及權重,使主題識別實驗更為準確和科學。WerdNet語義增強處理,見表2。選取2011年度主題識別對基于傳統(tǒng)主題概率模型方法和語義增強處理主題識別方法進行對比,由表2中Topic0相關主題詞可知該主題主要描述石墨烯生物化學相關特性與納米級衍生物材料研究,其中材料(material)和材質(materials)以及電子(electronic)和電流(electro)存在語義相關,將同語義主題詞權重疊加使主題表達更為準確,同時一定程度上增加低權重主題詞的識別效果,語義處理可細化主題識別效果。
表2 WordNet語義增強處理
續(xù)表2
4.3.2 石墨烯生物醫(yī)學前沿分析 其識別出3個熱門研究前沿主題,即兩個新興科學研究前沿主題及1個未來科學研究前沿主題。本部分結合探測主題詞及強度值進行生物醫(yī)學領域應用分析。(1)熱門研究前沿主題topic 0、topic 4和topic 8。該主題目前階段的重要研發(fā)熱點和科技競爭區(qū)域主要圍繞氧化石墨烯生物探測器設備研發(fā)用于多肽蛋白質等生物分子檢測;分析羧基、羥基等諸多功能基團對于熒光淬滅效率以及信號自動放大等石墨烯生物應用方面的探索。該領域目前研究成果較多、主題強度較多,是目前及未來一段時間內的科技競爭領域。(2)新興科學研究主題topic 2、topic 9。該主題屬于新興、具有較大未來發(fā)展?jié)摿Φ那罢翱茖W研究前沿主題,主要圍繞氧化石墨烯光學特性、生物光熱治療以及光儲存和數(shù)據(jù)保存等方面展開:光敏劑的載體對于腫瘤等細胞的周期作用機制探索以及石墨烯與亞甲藍等多種復合物光數(shù)據(jù)的保存等相關研究。該研究主題未來發(fā)展?jié)摿薮螅芯恐鸩介_展在未來有望成為熱門主題。(3)未來科學研究主題topic 5。目前該主題的主題探測值低于平均水平,相關研究有待于進一步開展,但在未來有較大的研究潛在價值和應用場景。主要圍繞石墨烯氧化抗菌性能、細胞膜結構破壞以及石墨烯生物安全性和毒性作用機理研究,探究石墨烯顆粒大小、狀態(tài)以及其氧含量在生物毒性響應研究;石墨烯材料對于紅細胞的脂質雙分子層破壞作用研究。
本文針對目前研究中主要利用論文數(shù)據(jù)進行科學研究前沿識別中存在的時滯性問題以及在主題識別中欠缺語義理解而導致探測準確度不足的問題,提出基于本體WordNet語義增強和多源數(shù)據(jù)主題貢獻度分析的科學研究前沿探測方法,利用石墨烯生物醫(yī)學領域的實證研究,采用文獻調研方法,驗證本文提出多源數(shù)據(jù)分析的科學研究前沿識別方法的可行性和有效性。未來將圍繞石墨烯生物醫(yī)學應用研究展開進一步研究,拓展分析數(shù)據(jù)源并構建針對多源數(shù)據(jù)的綜合研究前沿識別框架,為我國科學研究提供決策支撐和部署建議。