王 山
(中國社會科學(xué)院經(jīng)濟(jì)研究所,北京 100836)
在當(dāng)前數(shù)據(jù)化與智能化的社會背景下,數(shù)據(jù)量呈指數(shù)趨勢發(fā)展,面對海量增加的數(shù)據(jù)信息,傳統(tǒng)的以卷/冊或篇為單元的文獻(xiàn)服務(wù)已遠(yuǎn)不能滿足用戶的需求。多數(shù)情況下,用戶感興趣的可能只是專利文獻(xiàn)或科技論文全文中的某一數(shù)值信息。中國科學(xué)院文獻(xiàn)情報中心劉細(xì)文[1]指出,未來情報工作的戰(zhàn)略選擇應(yīng)該重視發(fā)展基于數(shù)值的情報研究,建立以智能情報為核心的決策支持系統(tǒng),進(jìn)而充分發(fā)揮情報研究的決策咨詢作用。國防科技大學(xué)羅威等[2]認(rèn)為,數(shù)據(jù)驅(qū)動的技術(shù)預(yù)測需要綜合利用科技文獻(xiàn)的元數(shù)據(jù)、全文數(shù)據(jù)等,因數(shù)據(jù)涉及的內(nèi)容紛繁復(fù)雜,層次不一,文章從數(shù)據(jù)、流程和系統(tǒng)3種視角對數(shù)據(jù)驅(qū)動的技術(shù)預(yù)測進(jìn)行了梳理,提出了開展數(shù)據(jù)驅(qū)動的技術(shù)預(yù)測需要重點關(guān)注的六大關(guān)鍵技術(shù)問題。Mckeown K等認(rèn)為,在進(jìn)行技術(shù)預(yù)測時,引入基于全文的指標(biāo),抽取出全文中所蘊含的有價值的數(shù)值信息將顯著提升技術(shù)預(yù)測的結(jié)果[3]。鑒于數(shù)值信息所具有的研究價值和實際應(yīng)用價值,基于數(shù)值信息的知識服務(wù)相關(guān)研究越來越受到眾多科研人員的關(guān)注與重視。但文獻(xiàn)中的數(shù)值信息一般以非結(jié)構(gòu)化形式存在,如何對這些數(shù)值信息進(jìn)行結(jié)構(gòu)化表示并逐漸提高信息抽取的準(zhǔn)確率,成為了知識服務(wù)中重要的研究內(nèi)容。
數(shù)值信息的結(jié)構(gòu)化表示是簡化數(shù)值信息描述與實現(xiàn)信息準(zhǔn)確抽取的基礎(chǔ),因為信息抽取的目標(biāo)是從海量無規(guī)則數(shù)值信息中通過自動化的技術(shù)提取出計算機(jī)能夠理解、計算的結(jié)構(gòu)化信息。由于科技文獻(xiàn)中數(shù)值信息所蘊含的價值巨大,增值應(yīng)用前景廣闊,近年來國內(nèi)外學(xué)者依據(jù)各自研究領(lǐng)域的特點,從不同的視角對數(shù)值信息的知識表示方法進(jìn)行了積極有效的探索。數(shù)值型知識元作為數(shù)值信息的一種,因詞匯表達(dá)、句法特征與表達(dá)方式的復(fù)雜性和多樣性,知識表示方式更加靈活多樣。然而,數(shù)值型知識元在知識表示方面的實踐遠(yuǎn)落后于理論方面的研究,迄今為止還未見有學(xué)者對電化學(xué)領(lǐng)域科技文獻(xiàn)中表征技術(shù)發(fā)展水平的性能指標(biāo)數(shù)值信息進(jìn)行知識表示與抽取,且已有數(shù)值型知識元表示較多局限于數(shù)字表達(dá),在抽取結(jié)果中難以呈現(xiàn)出與命名實體之間的邏輯關(guān)系。因此,本文創(chuàng)新性地提出一種“研究對象(Object)—屬性(Attribute)—數(shù)值(Value)—單位(Unit)”(以下簡稱OAVU)四元組的數(shù)值型知識元知識表示結(jié)構(gòu),根據(jù)數(shù)值型知識元的詞匯表達(dá)、句法特征構(gòu)建領(lǐng)域數(shù)值型知識元四元組結(jié)構(gòu),然后編寫相對應(yīng)的正則表達(dá)式實現(xiàn)領(lǐng)域數(shù)值型知識元的抽取,最大化利用隱藏在無序信息載體中大量有價值的數(shù)值信息,滿足科研工作者數(shù)據(jù)驅(qū)動型研究的信息需求,實現(xiàn)數(shù)據(jù)統(tǒng)計分析、學(xué)術(shù)論文評價、知識挖掘與技術(shù)發(fā)展趨勢預(yù)測等高層次的數(shù)值信息增值服務(wù),為科學(xué)知識傳承、科研方向選擇、技術(shù)路徑確定與科研創(chuàng)新等提供高效支撐。
當(dāng)今大數(shù)據(jù)環(huán)境下,情報信息的采集往往交由計算機(jī)自動完成,如關(guān)鍵核心技術(shù)的指標(biāo)數(shù)據(jù)監(jiān)測、軍事武器裝備的監(jiān)測等,這些工作的其中一個焦點就是對數(shù)值信息進(jìn)行采集監(jiān)測。科技文獻(xiàn)中的數(shù)值是一種有價值的信息,它存在于一定的上下文中。從表達(dá)形式上看,數(shù)值信息多以“數(shù)字”表達(dá)為構(gòu)成主體,基數(shù)類數(shù)值信息是未與量詞結(jié)合的相對“單純”的數(shù)字,如序數(shù)詞、分?jǐn)?shù)、小數(shù)等,構(gòu)成比較簡單,所含信息量較少,且數(shù)據(jù)本身沒有較大的實際意義;數(shù)量類數(shù)值信息是在基數(shù)類數(shù)值信息的基礎(chǔ)上加上量詞或者特定符號組成,以數(shù)詞開頭、量詞結(jié)束,結(jié)構(gòu)比較穩(wěn)定,雖較易抽取識別,但數(shù)量類數(shù)值信息一般沒有具體的對象,難以表達(dá)出事物本身的客觀事實;數(shù)值型知識元是在數(shù)量類數(shù)值信息的基礎(chǔ)上加上句子其他組分組成的,含有的信息更加完整,能夠獨立描述事物本身數(shù)值信息的知識單元。另外,在ACE(Automatic Content Extraction)測評會議中,特定情景下的事件名稱也作為數(shù)值信息研究的主要內(nèi)容,如“北京奧運會的贊助單位為聯(lián)想公司”“小明在阿里巴巴擔(dān)任總經(jīng)理”,其中的單位信息、職位信息也被視為數(shù)值信息的一種[4-6]。數(shù)值信息主要分類如表1所示。因基數(shù)類、數(shù)量類數(shù)值信息難以展現(xiàn)出與研究主體或研究對象之間的邏輯關(guān)系,文章主要圍繞數(shù)值型知識元展開知識表達(dá)與實踐方面的研究。
肖洪等認(rèn)為,數(shù)值型知識元是代表客觀事物或事件本身數(shù)值方面的屬性,如長度、銷售額、利潤等,依據(jù)經(jīng)濟(jì)學(xué)領(lǐng)域特點,將數(shù)值型知識元劃分為宏觀數(shù)值知識元與微觀數(shù)值知識元,并用六元組表示經(jīng)濟(jì)學(xué)領(lǐng)域數(shù)值型知識元結(jié)構(gòu),即{時間、主題、指標(biāo)、謂詞、數(shù)值、單位}[7],例:{2005年、盤龍區(qū)、工業(yè)總產(chǎn)值、完成、62.93、億元}。溫有奎等認(rèn)為,數(shù)值型知識元是以數(shù)值形式存在,能夠表達(dá)一個獨立的事實,并用{時間、地域、領(lǐng)域、對象、對象數(shù)值、單位、上屬對象、相關(guān)對象、數(shù)據(jù)來源}來表達(dá)數(shù)值型知識,并提出數(shù)值型知識元的抽取是建立知識元庫的先導(dǎo)和基石。他研究了數(shù)值知識元的特征和抽取規(guī)則,開發(fā)出一套數(shù)值知識元抽取軟件,用于從年鑒、網(wǎng)頁文本中自動抽取數(shù)值知識元并將抽取結(jié)果自動存入庫中[8-10]。Roy S等認(rèn)為,數(shù)值信息包含數(shù)字、單位、變化性3個語義槽,并提出數(shù)量—值二元模型嘗試對數(shù)值信息的內(nèi)部結(jié)構(gòu)進(jìn)行語義分析,但這種模型粒度較粗,難以向下游應(yīng)用提供更多豐富信息[11]。Lamm M等提出了適用于金融領(lǐng)域的數(shù)值語義角色標(biāo)注模型(Quantitative Semantic Role Labels),根據(jù)金融領(lǐng)域的需求設(shè)計了包括7個顯式語義角色和5個上下文相關(guān)的語義角色[12]。吳超等認(rèn)為,數(shù)值型知識元是一個含有數(shù)值信息并能夠完整表達(dá)事實的信息單元,并將數(shù)值型知識元分為基礎(chǔ)數(shù)據(jù)知識元、過程數(shù)據(jù)知識元與結(jié)果數(shù)據(jù)知識元,并對計算機(jī)科學(xué)、情報學(xué)、計算語言學(xué)、醫(yī)學(xué)與管理科學(xué)與工程學(xué)科領(lǐng)域數(shù)值信息抽取相關(guān)內(nèi)容進(jìn)行了分析[13]。周和玉討論了一種適用于知識工程領(lǐng)域的“研究對象—屬性—數(shù)值”三元組知識標(biāo)引法,該方法不僅可以表達(dá)文獻(xiàn)主題內(nèi)容,還能表達(dá)其所含知識。每一組“研究對象—屬性—數(shù)值”三元組構(gòu)成一個知識單元,多組“研究對象—屬性—數(shù)值”可以充分表達(dá)一篇文獻(xiàn)的研究特點及所含數(shù)據(jù)和知識[14]。
表1 數(shù)值信息主要分類表
通過學(xué)者們對數(shù)值型知識元的定義可知,數(shù)值型知識元是從數(shù)值角度描述客觀事物或事件本身數(shù)值方面的知識單元,包括數(shù)據(jù)類知識和科學(xué)數(shù)據(jù),具有數(shù)值分析與知識推理的功能。在知識表示層面,因研究領(lǐng)域的差異性與詞匯、句法特征表達(dá)的多樣性,數(shù)值型知識元具有不同粒度的知識表示結(jié)構(gòu),一般以多元組形式呈現(xiàn),且結(jié)構(gòu)元素具有明確的描述對象、具體的主題、確切的數(shù)值和單位量詞等。但數(shù)值型知識元涉及到的學(xué)科領(lǐng)域不夠豐富,表達(dá)結(jié)構(gòu)比較復(fù)雜,移植性較差,迄今為止還未見有學(xué)者針對自然科學(xué)領(lǐng)域科技文獻(xiàn)中的數(shù)值型知識元進(jìn)行知識表達(dá)與抽取。已有知識工程“研究對象—屬性—數(shù)值”三元組法雖可用于評價文獻(xiàn)的知識量及創(chuàng)新程度,利于提高文獻(xiàn)庫的使用效率與情報分析精度,但該種方法使用的前提是需要先建立一個由“研究對象—屬性—數(shù)值”三元組法標(biāo)引的文獻(xiàn)知識庫,因研究領(lǐng)域的差異性特定領(lǐng)域大規(guī)模已標(biāo)注的數(shù)據(jù)事實語料庫較少,因此篩選出用戶所需要的數(shù)據(jù)與事實,定位用戶感興趣的片段實屬困難,且該方法在技術(shù)發(fā)展水平評價和趨勢預(yù)測方面缺乏真正的實踐應(yīng)用。
信息抽取領(lǐng)域,數(shù)值型信息的抽取始于2000年12月美國組織的ACE評測會議,而中文數(shù)值信息的識別和抽取則始于2005年。數(shù)值信息抽取的目標(biāo)是從海量的數(shù)據(jù)中,通過自動化的技術(shù)提取出計算機(jī)能夠理解、計算的結(jié)構(gòu)化信息,并以此幫助下游應(yīng)用[6]。通過研讀已有文獻(xiàn)可了解到數(shù)值信息抽取所采用的數(shù)據(jù)源較多集中在報紙、新聞?wù)Z料與Web網(wǎng)頁上[5],且抽取的對象以基數(shù)類與數(shù)量類數(shù)值信息為主,對于數(shù)值型知識元抽取的研究工作主要有:Roy S等學(xué)者針對數(shù)值信息的內(nèi)部結(jié)構(gòu)提出了數(shù)量—值二元表示模型,并通過Semi-CRF序列標(biāo)注模型定位到原始文本中表達(dá)數(shù)值的連續(xù)字串,然后運用基于規(guī)則的方法對字串中的語義成分進(jìn)行了抽取和標(biāo)準(zhǔn)化[11]。Collobert R等利用前向神經(jīng)網(wǎng)絡(luò),使用固定大小的窗口獲取每個單詞的上下文信息,提出了基于窗口和句子方法兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實體識別[15]。Lample G等首次使用一種小規(guī)模監(jiān)督數(shù)據(jù)集并結(jié)合大量無標(biāo)注語料進(jìn)行訓(xùn)練,通過反向傳播算法調(diào)整訓(xùn)練模型的參數(shù)與使用Dropout提高模型泛化能力后取得了不錯的識別效果[16]。綜上,關(guān)于數(shù)值型知識元抽取的方法主要有兩種:一是規(guī)則與指標(biāo)構(gòu)建相結(jié)合的方法。該方法抽取準(zhǔn)確率高,但需要投入較多的人力和時間;二是基于機(jī)器學(xué)習(xí)自動抽取的方法。雖然近年來機(jī)器學(xué)習(xí)抽取方法不斷完善,效率較高,但目前尚未開發(fā)出大規(guī)模已標(biāo)注的數(shù)值型知識元語料庫,采用機(jī)器學(xué)習(xí)的方法對數(shù)值型知識元進(jìn)行自動抽取有一定的困難,且抽取的準(zhǔn)確率不盡人意。因此,為了提高數(shù)值型知識元抽取的準(zhǔn)確率,本研究擬采用人工構(gòu)建規(guī)則與指標(biāo)構(gòu)建相結(jié)合的方式實現(xiàn)數(shù)值型知識元的抽取,抽取流程示意圖如圖1所示。
圖1 數(shù)值型知識元四元組抽取流程
首先在確定研究對象的基礎(chǔ)上建立目標(biāo)研究領(lǐng)域數(shù)值型知識元特征詞集,對所下載的文獻(xiàn)摘要進(jìn)行文本預(yù)處理,提取含有技術(shù)性能特征數(shù)值型知識元(屬性、數(shù)值、單位)的語句;選擇對文獻(xiàn)摘要中的數(shù)值型知識元進(jìn)行處理主要考慮以下3個方面:一是數(shù)據(jù)層面,與摘要相比,科技文獻(xiàn)全文數(shù)值型知識元的獲取難度較大;二是技術(shù)層面,科技論文一般是PDF格式,將PDF格式轉(zhuǎn)化為計算機(jī)可讀的文本形式Bug較多,分析處理起來耗時耗力;三是內(nèi)容層面,為了展現(xiàn)科技論文實驗結(jié)果的優(yōu)越性,自然科學(xué)領(lǐng)域表征技術(shù)性能指標(biāo)發(fā)展水平的數(shù)值型知識元較多出現(xiàn)在文獻(xiàn)摘要中。因此,本研究選擇文獻(xiàn)摘要進(jìn)行文本預(yù)處理。文本預(yù)處理后運用Python編寫代碼對該語句進(jìn)行切分,然后通過對所切分的句子集進(jìn)行總結(jié)歸納,記錄技術(shù)性能指標(biāo)“屬性—數(shù)值—單位”的規(guī)律性描述,繼而構(gòu)建候選規(guī)則集;最后運用Python構(gòu)建數(shù)值型知識元“屬性—數(shù)值—單位”三元組結(jié)構(gòu)的正則表達(dá)式,實現(xiàn)“屬性—數(shù)值—單位”的抽取。其中,正則表達(dá)式是對字符串操作的一種邏輯公式,是運用事先定義好的一些特定字符、或特定字符的組合組成一個“規(guī)則字符串”,來檢索、替換那些符合某個模式(規(guī)則)的文本。
考慮到上文所述數(shù)值型知識元在知識表示方面的研究局限,本研究設(shè)計了一種適用于自然科學(xué)領(lǐng)域的,用于技術(shù)發(fā)展水平評價和趨勢預(yù)測的四元組表示結(jié)構(gòu),即“研究對象—屬性—數(shù)值—單位”。在這種知識表達(dá)方法中,O代表對象(Object),既可以指物理實體,也可以指概念上的實體,如鋰離子電池正極材料磷酸鐵鋰、船舶的運輸業(yè)務(wù)等;A代表屬性(Attribute),指與對象有關(guān)的一般特征或性質(zhì),如磷酸鐵鋰正極材料振實密度、放電容量、鋰離子擴(kuò)散系數(shù)、電導(dǎo)率與能量密度等;V代表值(Value),是指屬性在一定條件下的數(shù)值,如磷酸鐵鋰正極材料振實密度、放電容量、鋰離子擴(kuò)散系數(shù)、電導(dǎo)率與能量密度的具體數(shù)值等,其中,值并不一定是具體的數(shù)值,也可以是描述語,如顏色屬性的值可以是紅、黃、藍(lán);U代表單位(Unit),指計量屬性的名稱,如航空發(fā)動機(jī)運轉(zhuǎn)時內(nèi)部溫度能夠達(dá)到2000℃,其中單位指的是℃。例如:某篇文獻(xiàn)的一段文字:在鋰離子電池正極材料中,磷酸鐵鋰(LiFePO4)因較低的電子導(dǎo)電率(10-7~10-10S·cm-1)和鋰離子擴(kuò)散系數(shù)(10-12~10-16cm2·S-1)導(dǎo)致其倍率性能不佳,難以滿足迅猛發(fā)展的電動汽車鋰離子電池對功率密度的需求。OAVU四元組結(jié)構(gòu)可以表達(dá)為(磷酸鐵鋰、理論比容量,170,mAh/g)、(磷酸鐵鋰、電子導(dǎo)電率,10-7~10-10,S·cm-1)與(磷酸鐵鋰、鋰離子擴(kuò)散系數(shù),10-12~10-16,cm2·S-1)。本文所設(shè)計的數(shù)值型知識元四元組表達(dá)結(jié)構(gòu)在確定研究對象Object基礎(chǔ)上,不僅可以建立起屬性A與單位U之間的對應(yīng)關(guān)系,還可以呈現(xiàn)出與研究對象之間的邏輯關(guān)系,拓展了科技文獻(xiàn)大數(shù)據(jù)內(nèi)容挖掘的粒度和深度,彌補(bǔ)了數(shù)值型知識元在自然科學(xué)領(lǐng)域科技文獻(xiàn)中數(shù)值型知識元表示方法的不足。
查全率與查準(zhǔn)率是信息檢索領(lǐng)域檢驗信息抽取結(jié)果的重要指標(biāo),在對數(shù)值型知識元抽取結(jié)果檢驗方面,僅僅通過效仿信息檢索領(lǐng)域的查全率與查準(zhǔn)率,引入正確率、召回率與綜合指標(biāo)F值。雖然信息抽取結(jié)果評價指標(biāo)比較單一,不能全面反映抽取結(jié)果的好壞,但正確率、召回率與綜合指標(biāo)F值仍為目前結(jié)果評價中比較有效的指標(biāo)。因此,本研究擬采用精確率、召回率與F值對抽取出的實驗結(jié)果進(jìn)行評價,計算公式如下:
正確率(P)=正確抽取的信息數(shù)/需要抽取的信息數(shù)×100%
(1)
召回率(R)=正確抽取的信息數(shù)/所有的信息數(shù)×100%
(2)
F={P×R×(β2+1)}/(R+β2×P)×100%
(3)
β是正確率(P)與召回率(R)重要性的加權(quán)系數(shù),本研究取均衡權(quán)重,將正確率與召回率視為同等重要,取β=1。
正極材料作為鋰離子電池最關(guān)鍵的功能材料,是鋰離子電池鋰離子之源,也是鋰離子電池能量密度的基礎(chǔ),決定著鋰離子電池整體的電化學(xué)性能及其成本。鋰離子電池正極材料(表達(dá)式為LiFePO4)因鐵資源豐富、價格低、無污染等優(yōu)點成為一種大型能源所需的具有良好發(fā)展前景的材料[17-18]。本文以鋰離子電池正極材料LiFePO4為研究對象,探討數(shù)值型知識元四元組表達(dá)方法在該領(lǐng)域的應(yīng)用。
論文及專利文獻(xiàn)數(shù)據(jù)來源分別選擇收錄自然科學(xué)、工程技術(shù)領(lǐng)域最具影響力的SCI Expanded數(shù)據(jù)庫及覆蓋全球?qū)@畔⒈容^全面、權(quán)威的Derwent World Patents Index數(shù)據(jù)庫。通過調(diào)研大量文獻(xiàn)及結(jié)合專家建議制定鋰離子電池正極材料磷酸鐵鋰研究領(lǐng)域的檢索式為:TS=((“Lithium iron phosphate” OR “LiFePO4” OR “LFP” OR “LiFePO4/C” OR “LiFePO4@C”) AND (“batter*” OR “cell*” OR “polymer battery” OR “dop*”)),檢索時間段為PY=2016,數(shù)據(jù)采集樣本量如表2所示。
表2 數(shù)據(jù)采集信息表
通過大量研讀鋰離子電池磷酸鐵鋰正極材料相關(guān)文獻(xiàn)可知,表征磷酸鐵鋰電化學(xué)性能的屬性主要有倍率放電容量、鋰離子擴(kuò)散系數(shù)、電導(dǎo)率、振實密度與比表面積等?;谥笜?biāo)的代表性、動態(tài)性、科學(xué)性及可量化性,本研究選取了7個技術(shù)屬性,分別為正極材料振實密度、0.1C放電倍率下放電量、5C放電倍率下放電量、10C放電倍率下放電量、離子電導(dǎo)率、鋰離子擴(kuò)散系數(shù)與電池質(zhì)量能量密度[19-20]。其中,材料振實密度是表征正極材料顆粒間相互作用常用的指標(biāo);0.1C放電倍率下放電量、5C放電倍率下放電量與10C放電倍率下放電量可在一定程度上反映出低、中、高倍率下電池正極材料放電狀況;離子電導(dǎo)率可以體現(xiàn)正極材料電荷流動難易程度;鋰離子擴(kuò)散系數(shù)可以考察出鋰離子在電解液中的擴(kuò)散能力;質(zhì)量能量密度在一定程度上可以反映出電池儲存能量的能力。
結(jié)合科技文獻(xiàn)中磷酸鐵鋰正極材料屬性、數(shù)值與單位表達(dá)方式,磷酸鐵鋰研究領(lǐng)域數(shù)值型知識元四元組結(jié)構(gòu)表達(dá)式如下,以離子電導(dǎo)率為例,因數(shù)值型知識元四元組英文結(jié)構(gòu)表達(dá)式較多,現(xiàn)僅展示部分,如(lithium iron phosphate,ionic conductivity,value,S/m)、(lithium iron phosphate,ion conductivities,value,S cm(-1))、(lithium iron phosphate,ion conductivities,value,mS cm(-1))、(lithium iron phosphate,ion conductivities,value,S CM(-1))、(lithium iron phosphate,electric conductivity,value,S CM(-1))、(lithium iron phosphate,electronic conductivity,value,S/m)、(lithium iron phosphate,electronic conductivity,value,S CM(-1))。表3展示了磷酸鐵鋰正極材料“研究對象—屬性—數(shù)值—單位”四元組在科技文獻(xiàn)中的主要出現(xiàn)形式。
表3 磷酸鐵鋰數(shù)值型知識元四元組每組主要的出現(xiàn)形式
為了驗證本研究所設(shè)計的“研究對象—屬性—數(shù)值—單位”四元組知識表達(dá)結(jié)構(gòu)在數(shù)值型知識元抽取方面的優(yōu)越性,本研究選擇能夠充分表達(dá)文獻(xiàn)主題內(nèi)容的知識工程“研究對象—屬性—數(shù)值”三元組標(biāo)引法,因為知識工程“研究對象—屬性—數(shù)值”三元組知識表達(dá)法自提出以來,主要應(yīng)用于特定領(lǐng)域的知識標(biāo)引與科技項目的查新咨詢,以解決科研主題、成果評審中的創(chuàng)新性評價問題,在篩選用戶感興趣的數(shù)據(jù)或事實方面可以起到有效的作用。因此,本研究通過數(shù)值型知識元四元組法與知識工程三元組法的對比分析來驗證本文所設(shè)計的數(shù)值型知識元四元組知識表達(dá)結(jié)構(gòu)的有效性。兩種知識表達(dá)結(jié)構(gòu)抽取結(jié)果如表4所示。實驗結(jié)果表明,數(shù)值型知識元四元組中單位這一增量對科技文獻(xiàn)數(shù)值型知識元的抽取產(chǎn)生較大的影響,主要體現(xiàn)在數(shù)值抽取更加全面,通過屬性與單位所建立的對應(yīng)關(guān)系使得數(shù)值型知識元抽取的準(zhǔn)確率、召回率與F值均高于知識工程三元組法。在研究對象、屬性一致的情況下,采用知識工程三元組法所抽取出來的數(shù)值不一定是特定屬性下所對應(yīng)的準(zhǔn)確數(shù)值,而通過本研究所設(shè)計的知識表達(dá)方法所建立的屬性與單位共存的正則表達(dá)式能夠迅速定位到用戶感興趣的數(shù)值型知識元,不僅提高了數(shù)值型知識元抽取的準(zhǔn)確率,也使得抽取出的數(shù)值型知識元更加接近于需要抽取的數(shù)值型知識元。
表4 不同知識表示方法抽取結(jié)果比較 %
自然科學(xué)領(lǐng)域數(shù)值型知識元知識表達(dá)與抽取方面的研究對技術(shù)發(fā)展規(guī)律掌握與發(fā)展趨勢預(yù)測等具有重要的現(xiàn)實意義與實用價值。本研究系統(tǒng)梳理了已有學(xué)者對數(shù)值型知識元知識表示與數(shù)值型知識元抽取方面的研究成果,發(fā)現(xiàn)數(shù)值型知識元表達(dá)結(jié)構(gòu)比較復(fù)雜,移植性較差,涉及的學(xué)科領(lǐng)域不夠豐富,難以迅速篩選出用戶感興趣的數(shù)據(jù)或事實,在技術(shù)發(fā)展水平評價和趨勢預(yù)測方面缺乏真正的實踐應(yīng)用。針對以上研究局限,本文創(chuàng)新性地設(shè)計了“研究對象—屬性—數(shù)值—單位”數(shù)值型知識元四元組結(jié)構(gòu),在一定程度上提高了數(shù)值型知識元抽取結(jié)果的準(zhǔn)確率與召回率,彌補(bǔ)了電化學(xué)學(xué)科領(lǐng)域表征技術(shù)發(fā)展水平指標(biāo)的數(shù)值型知識元知識表達(dá)方法的不足。本研究的主要貢獻(xiàn)在于:①本研究所提出的“研究對象—屬性—數(shù)值—單位”四元組結(jié)構(gòu)可以較為準(zhǔn)確地抽取出電化學(xué)研究領(lǐng)域表征技術(shù)發(fā)展水平的數(shù)值型知識元知識,拓展了科技文獻(xiàn)內(nèi)容挖掘的粒度和深度,有助于科研人員密切跟蹤技術(shù)發(fā)展態(tài)勢,識別、掌握和突破關(guān)鍵核心技術(shù)中處于“卡脖子”短板位置的技術(shù)性能指標(biāo);②本研究所提出的知識表達(dá)結(jié)構(gòu)可建立研究對象、屬性與單位之間的索引,豐富了自然科學(xué)領(lǐng)域數(shù)值型知識元的知識表示方法體系,不僅可以深度解析科技文獻(xiàn)內(nèi)容,為文本內(nèi)容挖掘的成果輸出提供了新形態(tài),也為科技文獻(xiàn)大數(shù)據(jù)的開發(fā)利用奠定了數(shù)據(jù)基礎(chǔ)。
本研究所提出的數(shù)值型知識元四元組結(jié)構(gòu)也存在一定的研究局限。首先是技術(shù)屬性層面,數(shù)值型知識元四元組結(jié)構(gòu)更適應(yīng)于研究對象屬性易量化的技術(shù)領(lǐng)域,對于較難量化的安全性、可靠性等技術(shù)屬性知識表達(dá)則有待進(jìn)一步考察;其次是通用性層面,文章考察了數(shù)值型知識元四元組結(jié)構(gòu)在電化學(xué)領(lǐng)域的知識表達(dá)與實踐應(yīng)用,對于自然科學(xué)領(lǐng)域中其他研究領(lǐng)域適用性如何,有待進(jìn)行更深入的研究。