錢力+張曉林+王茜
摘要 提出用于描述科技文獻(xiàn)核心知識(shí)的“研究設(shè)計(jì)指紋”概念,綜合研究分析了相關(guān)的科技文獻(xiàn)規(guī)范描述框架,創(chuàng)建“基于科技文獻(xiàn)的研究設(shè)計(jì)指紋描述框架”,以增強(qiáng)科技文獻(xiàn)的機(jī)器計(jì)算可執(zhí)行性、知識(shí)粒度性、知識(shí)關(guān)聯(lián)性、結(jié)構(gòu)的擴(kuò)展性以及研究設(shè)計(jì)思路的可視性,為科研人員快速發(fā)現(xiàn)研究設(shè)計(jì)方法、研究設(shè)計(jì)工具等指紋提供了新的思路與方法。
關(guān)鍵詞 科技文獻(xiàn) 研究設(shè)計(jì)指紋 知識(shí)組織 語(yǔ)義出版 知識(shí)骨干
l 引言
科技文獻(xiàn)是科學(xué)技術(shù)發(fā)展的重要戰(zhàn)略資源,但隨著信息技術(shù)的快速發(fā)展,數(shù)字出版速度加快,海量科技文獻(xiàn)也帶來(lái)一些現(xiàn)實(shí)問題:對(duì)某一具體研究領(lǐng)域或研究方向,無(wú)法快速追蹤與了解相關(guān)的研究方法、研究設(shè)備等核心知識(shí)對(duì)象,也無(wú)法快速客觀評(píng)估相關(guān)知識(shí)對(duì)象對(duì)研究問題的有效性。特別對(duì)一個(gè)剛剛踏人科研領(lǐng)域的工作者來(lái)說(shuō),會(huì)出現(xiàn)無(wú)從下手的局面。
針對(duì)上述問題,筆者在調(diào)研了科技文獻(xiàn)描述規(guī)范以及相關(guān)寫作指南之后,提出利用研究設(shè)計(jì)指紋對(duì)科技文獻(xiàn)進(jìn)行結(jié)構(gòu)化描述,提升科技文獻(xiàn)的計(jì)算機(jī)可識(shí)別性、可執(zhí)行性,幫助科研人員快速了解科技文獻(xiàn)的研究方法、算法、工具及結(jié)論等,并為未來(lái)的科學(xué)出版(即語(yǔ)義化出版)提供相應(yīng)的出版規(guī)范參照。論文結(jié)構(gòu)如下:第二部分提出“研究設(shè)計(jì)指紋”的概念,第三部分就此展開相關(guān)研究分析,第四部分提出科技文獻(xiàn)的“研究設(shè)計(jì)指紋描述框架”,第五部分探析其潛在應(yīng)用。
2 研究設(shè)計(jì)指紋概念的提出
科技文獻(xiàn)從本質(zhì)上看是科研人員開展科學(xué)研究思路的文本化,也是科研成果發(fā)布與傳播的重要載體,還是掌握某一研究主題的研究概貌的核心資料。在面對(duì)海量科技文獻(xiàn)的情況下,如何快速了解文獻(xiàn)的研究框架、采用的研究方法以及講述的研究?jī)?nèi)容成為圖書情報(bào)領(lǐng)域關(guān)注與研究的主題。論文提出“研究設(shè)計(jì)指紋”概念,嘗試從科學(xué)研究設(shè)計(jì)的視角去解決上述問題,通過(guò)對(duì)一篇科技文獻(xiàn)的知識(shí)骨干網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)化描述,揭示出相關(guān)研究方法、算法等研究設(shè)計(jì)指紋,幫助科研人員快速了解研究設(shè)計(jì)過(guò)程以及各個(gè)過(guò)程中的重要研究設(shè)計(jì)指紋對(duì)象。
目前,“研究設(shè)計(jì)指紋”沒有一個(gè)明確的界定,但是“基于本體標(biāo)引文獻(xiàn)的工具”(An Ontology BasedTool for Preparation of Articles)項(xiàng)目組在2007年開展全文挖掘與標(biāo)引工作中,抽象出“科技文獻(xiàn)核心信息(Core Information Scientific Papers, CISP)”概念,一定程度上也是對(duì)科技文獻(xiàn)所包含的重要知識(shí)對(duì)象的揭示,其定義如下:CISP是來(lái)自于知識(shí)本體類的一個(gè)已定義好的集合,包含的關(guān)鍵類有:調(diào)研目標(biāo)、調(diào)研對(duì)象、研究方法、結(jié)果以及結(jié)論等。另外,其他研究項(xiàng)目也提出“核心知識(shí)對(duì)象”、“科學(xué)知識(shí)組織體系”、“科技核心”等類似概念。
基于上述描述與概念,本文給出“研究設(shè)計(jì)指紋”的定義為:描述一個(gè)科學(xué)研究設(shè)計(jì)實(shí)現(xiàn)過(guò)程中擁有多個(gè)核心設(shè)計(jì)元素特征的知識(shí)對(duì)象。它具有三個(gè)主要特征:(l)精煉地“揭示科學(xué)研究的設(shè)計(jì)思路”;(2)結(jié)構(gòu)化地“揭示科學(xué)研究方法、過(guò)程和結(jié)構(gòu)”;(3)可視化地“揭示科學(xué)研究中的骨干知識(shí)及其關(guān)系”。設(shè)計(jì)指紋的類型方面,本文主要參考科技文獻(xiàn)寫作指南(如侯賽因教授設(shè)計(jì)的“研究文獻(xiàn)寫作指南與要求”、巴達(dá)沙利設(shè)計(jì)的“寫作與出版科技文獻(xiàn)的指南”以及有機(jī)生物學(xué)實(shí)驗(yàn)室的“科技文獻(xiàn)寫作指南”等),定義了II種設(shè)計(jì)指紋,即研究假說(shuō)、研究場(chǎng)景、研究目的、研究背景、研究方法、研究數(shù)據(jù)、研究算法、研究設(shè)備、研究結(jié)果、研究結(jié)論和未來(lái)研究。
3 相關(guān)研究綜述
作為一種科研成果的傳播載體,科技文獻(xiàn)本身具有相應(yīng)的描述規(guī)范,如最初的經(jīng)典通用模型IM-RAD (Introduction-Methods-Result-And-Discus-sion,介紹一方法一結(jié)果一結(jié)論)、模塊化(Modular)模型、語(yǔ)義注解LaTeX(Semantically AnnotatedLaTeX,SALT)、W3C提出的科學(xué)篇章修辭塊本體(Ontology of Rhetorical Blocks,ORB)標(biāo)準(zhǔn)結(jié)構(gòu)模型、ABCDE模型(Annotation-Background-Contri-bution-Discussion-Entity,注解一背景一貢獻(xiàn)一討論一實(shí)體)、科技文獻(xiàn)核心信息(Core Information Sci-entific Papers,CISP)、關(guān)聯(lián)科學(xué)核心詞匯(LinkedScience Core Vocabulary,LSC)、納米出版物模式( Nanopublication)、面向模型的科學(xué)研究報(bào)告規(guī)范( Model-Oriented Scientific Research Report,MOSRR)以及Elsevier的未來(lái)論文模式(ElsevierArticle of the Future)等,以實(shí)現(xiàn)科技文獻(xiàn)或者資源信息的結(jié)構(gòu)化描述,使文獻(xiàn)或者資源具備自動(dòng)識(shí)別執(zhí)行性、自動(dòng)理解性等語(yǔ)義特征。本文從組織靈活性、擴(kuò)展性、粒度性(粗/細(xì))、關(guān)系性、結(jié)構(gòu)通用性、計(jì)算可執(zhí)行性以及研究設(shè)計(jì)指紋特征等七個(gè)角度對(duì)上述描述規(guī)范或者模型進(jìn)行比對(duì)分析,結(jié)果如下圖l所示,具體描述規(guī)范的內(nèi)容與特征如下。
3.1 IMRAD經(jīng)典模型
IMRAD經(jīng)典模式是在自然科學(xué)中基于科學(xué)實(shí)驗(yàn)報(bào)告的原型表示,即:要研究什么問題(lntro-duction),如何研究上述問題(Methods),通過(guò)研究發(fā)現(xiàn)了什么( Results),上述發(fā)現(xiàn)意味著什么(Dis-cussion)。IMRAD結(jié)構(gòu)被許多科學(xué)雜志認(rèn)可,并且是國(guó)際醫(yī)學(xué)期刊編輯委員會(huì)( International Commit-tee of Medical Journal Editors)發(fā)布的生物醫(yī)學(xué)類期刊的投稿統(tǒng)一要求,即生物醫(yī)學(xué)出版物的寫作與編輯中推薦的標(biāo)準(zhǔn)。IMRAD模型發(fā)展歷程如下圖2所示。
3.2 電子文獻(xiàn)的模塊化模型
基于標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的理論,提出電子文獻(xiàn)的模塊化結(jié)構(gòu),用標(biāo)簽來(lái)識(shí)別。一個(gè)模塊即是能夠表達(dá)概念的信息單元,劃分的依據(jù)是其包含信息的連續(xù)性與完整性。科技文獻(xiàn)的結(jié)構(gòu)本身可以劃分模塊,如:簡(jiǎn)介、方法、結(jié)果、討論與結(jié)論,這種順序代表著一篇科技敘述的規(guī)范流程。但是,這種敘述流程具有一個(gè)先決條件,即要對(duì)文獻(xiàn)從頭到尾進(jìn)行順序閱讀。但是知識(shí)豐富的讀者很少進(jìn)行順序閱讀,而是通過(guò)瀏覽來(lái)發(fā)現(xiàn)有用的信息點(diǎn)或者信息片。所以作為能夠獨(dú)立用于閱讀的模塊,其獨(dú)立性并不是指它能夠充分?jǐn)⑹稣麄€(gè)工作,而是能夠讓讀者瞬間縮小關(guān)注點(diǎn),快速獲取知識(shí)。
3.3 ABCDE模型
從敘述式閱讀到計(jì)算機(jī)理解的一種好方式是讓作者在科研寫作過(guò)程中,就按照一定的格式創(chuàng)造出具有豐富語(yǔ)義結(jié)構(gòu)的研究文獻(xiàn),基于這一目標(biāo),沃德(Anita de Waard)提出了ABCDE模型,以便研究人員集成、挖掘與分析研究成果:A( Annotation),基于DC元數(shù)據(jù)標(biāo)準(zhǔn)的文獻(xiàn)元數(shù)據(jù)描述,如標(biāo)題、作者等;B( Background),描述研究的定位,當(dāng)前持續(xù)性的問題以及相關(guān)的研究問題;C( Contributlon),描述作者已經(jīng)做過(guò)的工作,包括調(diào)研、實(shí)現(xiàn)等;D( Dis-cussion),描述已經(jīng)開展過(guò)的研究的討論結(jié)果,同時(shí)列出各個(gè)結(jié)果之間的對(duì)比分析;E( Entity),描述一個(gè)實(shí)體對(duì)象,例如人名、工程名稱、研究方法等。
3.4 SALT模型
SALT-是利用語(yǔ)義標(biāo)注原理豐富科學(xué)出版的一個(gè)語(yǔ)義創(chuàng)作框架。SALT提供了用來(lái)識(shí)別出版物的修辭結(jié)構(gòu)與論證內(nèi)容的方法,實(shí)現(xiàn)核心是創(chuàng)建三種本體即文檔本體、修辭本體與標(biāo)注本體,它們之間的關(guān)系結(jié)構(gòu)如圖3所示。利用SALT支持科學(xué)出版的過(guò)程大致分為兩個(gè)階段:第一階段是SALT過(guò)程,主要負(fù)責(zé)分析標(biāo)引和將本體實(shí)例嵌入到最終的PDF文檔中,分為綜合分析與標(biāo)引抽取、標(biāo)引與本體創(chuàng)建和PDF文檔編譯三個(gè)步驟;第二階段是出版過(guò)程,將第一階段生成的語(yǔ)義PDF文檔集作為輸入集合,生成一系列對(duì)應(yīng)且具有索引的HTML文件。目前SAILT不僅支持LaTeX的創(chuàng)作環(huán)境,其模型還可被用于其他環(huán)境來(lái)豐富科學(xué)出版,出版過(guò)程如下圖4所示。
3.5 ORB修辭模型
ORB是W3C于2011年發(fā)布的文獻(xiàn)修辭塊結(jié)構(gòu)描述標(biāo)準(zhǔn),目標(biāo)是提供一個(gè)規(guī)范化結(jié)構(gòu)來(lái)表示科技文獻(xiàn)中的所有描述知識(shí)項(xiàng),從而推動(dòng)科技文獻(xiàn)結(jié)構(gòu)表示的標(biāo)準(zhǔn)化、語(yǔ)義化及實(shí)用化。ORB不僅可以在新創(chuàng)作的科學(xué)文獻(xiàn)結(jié)構(gòu)中增加語(yǔ)義,也可以標(biāo)引已經(jīng)出版的科學(xué)文獻(xiàn)。它類似于利用插件式操作方式實(shí)現(xiàn)對(duì)科技文獻(xiàn)內(nèi)容結(jié)構(gòu)的靈活控制,主要有以下特征:融入修辭模塊粗粒度集合,如表示摘要、研究背景等段落;文檔內(nèi)容提供了細(xì)粒度語(yǔ)義人口,如具體的某一句話或者某一句話的某一部分、某一個(gè)詞等。ORB在內(nèi)容結(jié)構(gòu)的組織上分為頭部、主體和尾部。
3.6 CISP結(jié)構(gòu)模型
JISC于2007發(fā)布的大學(xué)研究報(bào)告介紹了科學(xué)文獻(xiàn)核心信息描述的一種新模式CISP,主要利用本體方法體系來(lái)開發(fā)與組織以科學(xué)實(shí)驗(yàn)為基礎(chǔ)的科技文獻(xiàn)的元數(shù)據(jù),挖掘與揭示其內(nèi)在的邏輯關(guān)系、語(yǔ)義關(guān)聯(lián)關(guān)系以及各個(gè)組成元素的清晰定義,如定義了調(diào)研目的、調(diào)查動(dòng)機(jī)、調(diào)查對(duì)象、研究方法、開展的實(shí)驗(yàn)、觀察發(fā)現(xiàn)、結(jié)果與結(jié)論等本體類別。
3.7 納米出版物計(jì)劃項(xiàng)目
為了解決發(fā)現(xiàn)、關(guān)聯(lián)與設(shè)計(jì)學(xué)術(shù)研究中特殊核心科學(xué)描述的困難,概念網(wǎng)絡(luò)聯(lián)盟啟動(dòng)了納米出版物計(jì)劃。它利用計(jì)算機(jī)作為輔助工具,從文獻(xiàn)和數(shù)據(jù)中抽取研究結(jié)論、研究事實(shí)或研究結(jié)果,以三元組的模式建立起語(yǔ)義關(guān)系,從而使文獻(xiàn)結(jié)構(gòu)的動(dòng)態(tài)性、機(jī)器計(jì)算可執(zhí)行性得到加強(qiáng),更好地支持后期的大數(shù)據(jù)處理與挖掘。雖然目前此計(jì)劃對(duì)于學(xué)科領(lǐng)域的依賴性、數(shù)據(jù)處理的針對(duì)性相對(duì)較強(qiáng),但是對(duì)相關(guān)研究來(lái)說(shuō)具有很好的借鑒意義。
3.8 MOSRR規(guī)范模型
雖然科學(xué)研究報(bào)告已經(jīng)結(jié)構(gòu)化了(比如上述的IMRD模型),但是知識(shí)單元的粒度相對(duì)還較大,仍然以自由文本表示為主。而MOSRR規(guī)范模型在一定程度上改進(jìn)了上述問題,能通過(guò)結(jié)構(gòu)化使信息具有更小粒度角色,可以更靈活嵌入到科研工作流中,幫助改善與提升科學(xué)研究報(bào)告的結(jié)構(gòu)化程度。同時(shí)此模型也可以支持?jǐn)?shù)據(jù)密集型的科學(xué)研究以及靈活的研究工作流設(shè)計(jì)等活動(dòng)。
3.9 Elsevier發(fā)起的“未來(lái)論文”項(xiàng)目
Elsevier的未來(lái)論文項(xiàng)目是2009年開始發(fā)起,目前超過(guò)150位研究人員進(jìn)行研發(fā),其目標(biāo)是使Elsevier期刊成為發(fā)現(xiàn)與探索科學(xué)研究最可能的地方,讓重新設(shè)計(jì)描述的文獻(xiàn)更具有可讀性、無(wú)縫導(dǎo)航性。此項(xiàng)目的深度研發(fā)遵循三個(gè)指導(dǎo)原則:一是可讀性,即讓新出版的文獻(xiàn)知識(shí)更容易在屏幕中得到有效揭示;二是可發(fā)現(xiàn)性,即實(shí)現(xiàn)引導(dǎo)式、工作流式的內(nèi)容與功能發(fā)現(xiàn);三是可擴(kuò)展性,即在不犧牲可讀性的基礎(chǔ)上,具有一個(gè)通用的功能層來(lái)揭示豐富的特殊主題內(nèi)容。這一項(xiàng)目的發(fā)展模式目前已經(jīng)初具雛形,在未來(lái)的語(yǔ)義化出版中值得借鑒與期待。
3. 10 LSC描述框架
LSC作為一種輕量級(jí)詞匯,由德國(guó)明斯特大學(xué)地理信息學(xué)院構(gòu)建,其底層框架技術(shù)主要依賴W3C的資源描述框架規(guī)范,同時(shí)借鑒了牛津大學(xué)趙軍編輯的開放源模型詞匯表(Open ProvenanceModel Vocabulary)描述規(guī)范。LSC詞匯為出版商和科研人員提供與時(shí)間、空間、主題相關(guān)的科學(xué)事件的術(shù)語(yǔ)詞匯,能夠結(jié)構(gòu)化描述科學(xué)資源,最終達(dá)到以機(jī)器可以理解的方式來(lái)關(guān)聯(lián)發(fā)現(xiàn)科學(xué)資源。此種以科學(xué)知識(shí)關(guān)聯(lián)為目的的描述框架,也為科技文獻(xiàn)中研究設(shè)計(jì)指紋之間的關(guān)聯(lián)關(guān)系提供了很好的借鑒。
4 研究設(shè)計(jì)指紋描述框架的設(shè)計(jì)
綜上發(fā)現(xiàn),各個(gè)規(guī)范描述框架都具有自身的研究環(huán)境與特殊目標(biāo),比如對(duì)理化領(lǐng)域知識(shí)的描述、對(duì)科學(xué)實(shí)驗(yàn)本體的創(chuàng)建、對(duì)開放科學(xué)資源的關(guān)聯(lián)以及對(duì)未來(lái)語(yǔ)義出版的支持等。但是,面向海量科技文獻(xiàn)的深度知識(shí)分析,使科技文獻(xiàn)可自動(dòng)計(jì)算執(zhí)行、自動(dòng)閱讀理解以及自動(dòng)創(chuàng)建知識(shí)之間的關(guān)聯(lián)等語(yǔ)義特征,仍然是需要深入研究的問題。本研究提出的研究設(shè)計(jì)指紋描述框架,即是一種描述科技文獻(xiàn)知識(shí)單元的標(biāo)準(zhǔn)規(guī)范,利用研究設(shè)計(jì)指紋將科技文獻(xiàn)知識(shí)單元以一種結(jié)構(gòu)化、語(yǔ)義化與關(guān)聯(lián)化的標(biāo)準(zhǔn)進(jìn)行組織,使科技文獻(xiàn)轉(zhuǎn)換成機(jī)器可計(jì)算與理解的智能文獻(xiàn)。
研究設(shè)計(jì)指紋描述框架的設(shè)計(jì)思路本質(zhì)依賴于科學(xué)研究方法,對(duì)于科技文獻(xiàn)撰寫者來(lái)說(shuō),它是規(guī)范與體現(xiàn)科研過(guò)程的一個(gè)流程框架,如下圖5所示;而對(duì)于閱讀科技文獻(xiàn)的用戶來(lái)說(shuō),它是幫助用戶了解科研成果的導(dǎo)航工具。下面從分類體系、構(gòu)建規(guī)則與框架結(jié)構(gòu)三個(gè)方面對(duì)此框架進(jìn)行介紹,并將在后續(xù)研究中對(duì)其應(yīng)用效果進(jìn)行驗(yàn)證與分析。
4.1 分類體系
科技文獻(xiàn)蘊(yùn)藏著豐富的知識(shí)單元類型,為了更清晰合理地識(shí)別與組織各種研究設(shè)計(jì)指紋,參照文獻(xiàn)修辭篇章結(jié)構(gòu),將研究設(shè)計(jì)指紋分為四種類型,如下圖6所示:一是基礎(chǔ)指紋,主要描述科學(xué)研究的知識(shí)基礎(chǔ),包括研究假設(shè)、研究背景和研究目標(biāo);二是技術(shù)指紋,主要描述實(shí)施解決研究問題的技術(shù)方案,包括研究方法、研究數(shù)據(jù)、研究算法、研究模型與研究設(shè)備;三是結(jié)論指紋,主要描述研究的成果或者效果,包括研究結(jié)果與研究結(jié)論;四是未來(lái)指紋,主要描述研究未來(lái)的研究方向或者重點(diǎn)。
4.2 構(gòu)建準(zhǔn)則
(l)將科技文獻(xiàn)表示為計(jì)算機(jī)可以自動(dòng)計(jì)算執(zhí)行與閱讀理解的智能載體;
(2)勾畫出一篇科技文獻(xiàn)或者一個(gè)研究主題的研究設(shè)計(jì)指紋的知識(shí)骨干網(wǎng)絡(luò)圖,幫助科研人員快速了解文獻(xiàn)的中心主題或者核心研究思路與內(nèi)容;
(3)關(guān)聯(lián)發(fā)現(xiàn)科技文獻(xiàn)的研究設(shè)計(jì)指紋之間的證據(jù)鏈,通過(guò)關(guān)鍵主題或者知識(shí)對(duì)象來(lái)支持相關(guān)的研究設(shè)計(jì)指紋,表明它的唯一性或者效率性能等;
(4)支持實(shí)現(xiàn)技術(shù)創(chuàng)新,通過(guò)發(fā)現(xiàn)較好的研究方法、研究設(shè)備、研究模型等研究設(shè)計(jì)指紋以及組合、擴(kuò)展等模式,實(shí)現(xiàn)科學(xué)研究設(shè)計(jì)的再創(chuàng)造,更好地解決研究問題。
4.3 框架結(jié)構(gòu)
研究設(shè)計(jì)指紋框架結(jié)構(gòu)是將研究設(shè)計(jì)指紋按照一種標(biāo)準(zhǔn)規(guī)范進(jìn)行結(jié)構(gòu)化組織,支持科技文獻(xiàn)的機(jī)器計(jì)算執(zhí)行性、語(yǔ)義計(jì)算與知識(shí)標(biāo)引等知識(shí)組織相關(guān)的研究活動(dòng)。下面從指紋類型與整體框架、指紋類設(shè)計(jì)和指紋的劃分粒度三個(gè)視角進(jìn)行研究與實(shí)現(xiàn),具體如下:
4.3.1 指紋類型與整體框架
研究設(shè)計(jì)指紋框架體系結(jié)構(gòu)以研究設(shè)計(jì)指紋來(lái)表示科技文獻(xiàn)研究成果,總體結(jié)構(gòu)分為兩個(gè)層次,第一個(gè)層次分為研究主題、研究方法、研究算法、研究結(jié)果、研究結(jié)論與未來(lái)研究六大部分,而第二個(gè)層次詳細(xì)描述科技文獻(xiàn),主要分為研究假說(shuō)、研究場(chǎng)景、研究目的、研究背景、研究方法、研究數(shù)據(jù)、研究算法、研究結(jié)果、研究結(jié)論、未來(lái)研究以及研究設(shè)備共11種設(shè)計(jì)指紋,兩個(gè)層次之間相互關(guān)聯(lián)、層次內(nèi)部相互關(guān)聯(lián),很好地支持科技資源之間的關(guān)聯(lián)計(jì)算與發(fā)行,具體框架描述如下圖7。
4.3.2 指紋類設(shè)計(jì)
從科技文獻(xiàn)的知識(shí)結(jié)構(gòu)性、可計(jì)算執(zhí)行性設(shè)計(jì),利用實(shí)體類與類屬性兩個(gè)角度來(lái)描述,如下表1所示,同時(shí)參考W3C發(fā)布的ORB即語(yǔ)義化組織的方式,將上述內(nèi)容進(jìn)行有機(jī)關(guān)聯(lián),一方面提升科技文獻(xiàn)所包含研究設(shè)計(jì)元素的可分析評(píng)估性與可計(jì)算性,另一方面增強(qiáng)它們之間的知識(shí)關(guān)聯(lián)性,同時(shí)也提高計(jì)算機(jī)處理效率。
4.3.3 指紋的劃分粒度
研究設(shè)計(jì)指紋的粒度方面,粗細(xì)結(jié)合,從科技文獻(xiàn)的物理修辭結(jié)構(gòu)角度出發(fā),分為四個(gè)層次,具體設(shè)計(jì)如下表2與下圖8所示:
5 應(yīng)用研究探析
以上介紹了基于科技文獻(xiàn)的研究設(shè)計(jì)指紋描述框架,但在科研成果數(shù)字化文本數(shù)量激增的信息環(huán)境下,如何應(yīng)用此框架幫助科研人員快速發(fā)現(xiàn)科技文獻(xiàn)中的重要知識(shí)以及相互之間的脈絡(luò)關(guān)系?此框架能否對(duì)未來(lái)科技文獻(xiàn)的出版提供標(biāo)準(zhǔn)規(guī)范的幫助?能否為科研人員提供一個(gè)寫作思路上的標(biāo)準(zhǔn)語(yǔ)義框架以最終實(shí)現(xiàn)與語(yǔ)義出版的無(wú)縫集成?下面主要從挖掘科技文獻(xiàn)中心主題、繪制科技文獻(xiàn)知識(shí)骨干網(wǎng)絡(luò)圖和支持語(yǔ)義出版三個(gè)視角對(duì)“研究設(shè)計(jì)指紋描述框架”的應(yīng)用優(yōu)勢(shì)進(jìn)行分析與論證。
5.1 挖掘科技文獻(xiàn)中心主題
如何快速準(zhǔn)確地識(shí)別出科技文獻(xiàn)的中心主題、一般主題以及分析出主題間的結(jié)構(gòu)關(guān)系,歷來(lái)是文本挖掘中的重要研究課題。隨著語(yǔ)言分析、信息抽取和社會(huì)網(wǎng)絡(luò)分析等方法的發(fā)展,一些新的解決思路和方法正在涌現(xiàn)。而通過(guò)科技文獻(xiàn)研究設(shè)計(jì)指紋描述規(guī)范框架,不僅可以將文獻(xiàn)主題從指紋特征的粒度進(jìn)行結(jié)構(gòu)化組織,而且也揭示了相互之間的關(guān)系,進(jìn)而快速創(chuàng)建科技文獻(xiàn)的主題結(jié)構(gòu)網(wǎng)絡(luò)圖,輔助科研人員快速了解所關(guān)注文獻(xiàn)論述的中心主題。
5.2 繪制科技文獻(xiàn)知識(shí)骨干網(wǎng)絡(luò)圖
研究設(shè)計(jì)指紋描述框架從“研究設(shè)計(jì)”的視角組織與揭示一篇科技文獻(xiàn),即識(shí)別它的具體研究?jī)?nèi)容以及研究背景、方法、算法、工具、數(shù)據(jù)集、結(jié)果以及結(jié)論等研究設(shè)計(jì)指紋(如圖5所示),形成科技文獻(xiàn)的知識(shí)骨干網(wǎng)絡(luò)圖,從而幫助科研人員迅速掌握該領(lǐng)域最新或者最有效的研究方法、工具等。
5.3 支持語(yǔ)義出版
語(yǔ)義出版2009年被首次提出,肖頓等將其概念界定為:提升期刊文章的語(yǔ)義,以促進(jìn)其自動(dòng)獲取為目的,通過(guò)構(gòu)建語(yǔ)義相關(guān)的文章之間的鏈接,提供多種獲取文章內(nèi)數(shù)據(jù)的可行途徑,也使文章之間的數(shù)據(jù)整合更容易實(shí)現(xiàn)。而肖頓又提出語(yǔ)義出版能夠極大地提高科學(xué)交流效率,其提供的增值服務(wù)能獲得合理的商業(yè)回報(bào),在學(xué)術(shù)出版領(lǐng)域?qū)⒌靡酝茝V實(shí)施。徐昊提到隨著語(yǔ)義出版研究的推進(jìn),目前科學(xué)出版領(lǐng)域關(guān)注的重點(diǎn)在于改善知識(shí)對(duì)象在產(chǎn)生、傳播、演進(jìn)、發(fā)布和重用這一生命周期中的語(yǔ)義。在上述語(yǔ)義出版發(fā)生與發(fā)展的背景下,研究設(shè)計(jì)指紋描述框架將科技文獻(xiàn)進(jìn)行語(yǔ)義化、結(jié)構(gòu)化組織,將以一種新的模式支持科技文獻(xiàn)內(nèi)核心知識(shí)內(nèi)容的識(shí)別、提取與計(jì)算,科技文獻(xiàn)之間知識(shí)關(guān)聯(lián)、整合以及研究成果的傳播,使科技文獻(xiàn)成為計(jì)算機(jī)可以自動(dòng)計(jì)算、自動(dòng)閱讀的智能產(chǎn)品。
6 小結(jié)
隨著現(xiàn)代信息技術(shù)的快速發(fā)展,科技文獻(xiàn)的數(shù)字化規(guī)模勢(shì)必繼續(xù)擴(kuò)大,從海量科技文獻(xiàn)中了解某一研究問題的最新研究方法、最有效的研究設(shè)備與模型等,成為科研人員面臨的巨大挑戰(zhàn)。因此,設(shè)計(jì)一套規(guī)范化的科技文獻(xiàn)描述框架指南,不但能夠?qū)σ殉霭娴目萍嘉墨I(xiàn)進(jìn)行知識(shí)的再創(chuàng)造,而且能對(duì)科技文獻(xiàn)寫作進(jìn)行知識(shí)的研究設(shè)計(jì)組織與關(guān)聯(lián)化組織,輔助科研人員快速了解研究進(jìn)展,掌握研究方法,洞察研究動(dòng)向。本課題將在下一階段研究中,對(duì)研究設(shè)計(jì)指紋描述框架進(jìn)行實(shí)驗(yàn)設(shè)計(jì),進(jìn)一步驗(yàn)證該框架對(duì)于科技文獻(xiàn)知識(shí)挖掘與分析的作用。