?
科技出版資源組織方式及其創(chuàng)新
李弘
電子工業(yè)出版社,北京100036
摘要分析了當(dāng)前科技出版資源組織方式及其存在的問題,歸納探討了科技出版資源組織方式創(chuàng)新的兩種趨勢——基于本體的資源組織模式、納米出版物和知識元出版模式,并闡述了其意義。
關(guān)鍵詞科技出版;內(nèi)容組織;本體;知識元;納米出版物
20世紀(jì)90年代末以來,在互聯(lián)網(wǎng)技術(shù)與現(xiàn)實需求的雙重推動下,科技出版經(jīng)歷了一輪數(shù)字化變革。但從本質(zhì)上講,科技出版的數(shù)字化變革并未改變其資源組織方式,主流學(xué)術(shù)出版商所提供的HTML網(wǎng)頁或者PDF文檔資源除了將傳統(tǒng)紙質(zhì)印刷版本搬運到數(shù)字環(huán)境中來以外,改變很少。與此同時,互聯(lián)網(wǎng)技術(shù)的進步也在改變著科學(xué)知識交流的環(huán)境,科學(xué)知識資源呈幾何級增長態(tài)勢,高效、快捷地獲取和利用知識資源成為了科研人員日益迫切的愿望和要求。然而,當(dāng)前科技出版資源組織方式卻存在著語義匱乏、線性組織、非結(jié)構(gòu)化數(shù)據(jù)等問題,使得科研人員較難從海量無序的相關(guān)資源中分析歸納出一條科學(xué)創(chuàng)新的線索,嚴重影響了科學(xué)交流的效率。為解決這一問題,滿足科研人員的需求,科技出版機構(gòu)正在醞釀著一輪出版資源組織方式的變革。
科技出版資源組織方式,是科技出版機構(gòu)在開展科技出版活動中所采用的內(nèi)容資源組織和存儲的方式。當(dāng)前主流的科學(xué)資源組織方式可以從兩個維度來看。從個體內(nèi)容的組織來看,當(dāng)前的科技出版資源主要以文獻為單位進行組織。HTML網(wǎng)頁資源或是成為了事實標(biāo)準(zhǔn)的PDF格式文檔資源,改變的都是科技出版資源的載體,而其內(nèi)容組織方式則仍是以傳統(tǒng)的專著或者論文形式存在。從海量內(nèi)容的組織方式來看,當(dāng)前的科技出版資源組織方式是基于信息的組織方式,即以知識的某些屬性特征,如題名、著者、摘要、關(guān)鍵詞、出版者、出版時間、參考文獻等內(nèi)容特征為基本單元的組織。
在信息資源規(guī)模及其增速尚未呈現(xiàn)爆炸式發(fā)展之前,基于文獻和信息的科學(xué)資源組織方式能夠較好地滿足科學(xué)交流的需要。但是隨著技術(shù)環(huán)境的改變以及科學(xué)知識更新?lián)Q代的加快,科研信息已經(jīng)越來越呈現(xiàn)出爆炸式增長的趨勢,傳統(tǒng)的科技資源組織方式顯然已經(jīng)無法適應(yīng)科研人員方便、快速獲取科研信息的要求,以及科學(xué)交流發(fā)展的需要。這主要表現(xiàn)在以下幾個方面。
1)缺乏足夠的語義揭示。當(dāng)前,學(xué)術(shù)期刊數(shù)據(jù)庫普遍采用元數(shù)據(jù),如都柏林核心元數(shù)據(jù)(DC),來對出版資源進行標(biāo)識。但這些元數(shù)據(jù)僅僅只是一個個孤立的詞匯,相互之間沒有建立語義關(guān)聯(lián),論文中大量的實體中蘊含的語義關(guān)系及其屬性,也沒有被標(biāo)識出來。計算機在面對這些沒有進行語義標(biāo)注的信息時,就像人類面對一門用幾乎看不懂的語言擬寫的文本,是難以處理的。當(dāng)讀者(特別是非領(lǐng)域?qū)<业钠胀ㄗx者)查找相關(guān)的資源時,計算機很難提供精準(zhǔn)的檢索信息,更不用說通過數(shù)據(jù)挖掘等技術(shù)從這些信息中發(fā)現(xiàn)隱含的科學(xué)創(chuàng)新點。語義信息的匱乏還使得當(dāng)前出版資源的組織方式停留在靜態(tài)的水準(zhǔn),無法滿足個性化重組和動態(tài)更新的需要。
2)組織粒度過粗,難以滿足碎片化知識獲取需求。在實際研究過程中,研究人員為了深入研究,往往需要完整地閱讀某篇文獻,但研究人員也很可能只需要了解論文中的某一部分,如其中的一個圖表、一個結(jié)論或者相關(guān)數(shù)據(jù)等。當(dāng)前,基于文獻的科技信息組織使得研究人員借助搜索工具得到的只能是一篇篇完整的文獻資源,研究人員想要獲得細粒度的知識信息,必須逐一瀏覽文獻。而且在搜索工具搜索能力不高的情況下,很可能讀完搜索到的所有文獻還是沒能找到所需的信息。由此,不僅影響了科學(xué)研究的進度,也降低了科學(xué)交流的效率。
3)僅關(guān)注內(nèi)容的線性層面。當(dāng)前,科技出版物內(nèi)容呈現(xiàn)的線性化特征較為明顯。一般而言,單個科技出版物的內(nèi)容往往分為若干章,每一章又分為若干節(jié),節(jié)里面還有若干段落、句子,其中還會插入圖表和公式等。如此,文章的邏輯結(jié)構(gòu)往往隱藏在文章內(nèi)容中,使得讀者很難獲取內(nèi)容深層次的語義信息及內(nèi)容本身之外的補充信息。但事實上,讀者在閱讀過程中很多時候需要跳出內(nèi)容本身的框架,查找相關(guān)信息,如論文中相關(guān)術(shù)語的解釋信息、某個觀點的補充論證等。這些很可能是這種線性結(jié)構(gòu)的內(nèi)容本身無法提供的,需要讀者自身花費大量的額外時間查找。這不僅增加了科研人員獲取科研信息的時間成本,也降低了科學(xué)交流的時效。
良好的資源組織能夠極大促進科研人員快捷高效地獲取所需的科研信息,當(dāng)前科技出版資源組織方式的諸多不足阻礙了高效的科學(xué)交流的形成,這也促使部分知名科技出版機構(gòu)思考、探索種種改進之法。在這些探索的過程中,一些新的出版資源組織方法也得以嘗試和實驗,其中,基于本體的出版資源組織方式、納米出版物和知識元出版等全新出版模式,得到了極大關(guān)注,并顯現(xiàn)出了未來廣闊的發(fā)展前景。
2.1基于本體的資源組織模式
數(shù)據(jù)的語義匱乏,計算機不能準(zhǔn)確識別用戶的需求,是致使科研人員無法快速準(zhǔn)確找到所需資源的重要原因。這就需要將內(nèi)容的組織由信息的線性結(jié)構(gòu)層面深入其語義結(jié)構(gòu)層面,從而使得計算機可以像人腦一樣理解信息的準(zhǔn)確含義,甚至進行自動的推理計算,提升信息的獲取效率及精度。而本體則能夠描述某一領(lǐng)域范圍內(nèi)的核心概念及這些概念之間復(fù)雜的語義關(guān)系和屬性,為人機交流(對話、互操作、共享等)提供一種語義基礎(chǔ)[1]。通過本體來標(biāo)識資源,建立資源的本體化描述,計算機就能夠準(zhǔn)確識別內(nèi)容資源的相關(guān)語義信息,進而能夠?qū)崿F(xiàn)對資源的自動化處理。正因此,近年來本體技術(shù)被引入到出版資源尤其是科技出版資源的組織過程中來,并取得了積極進展。如英國皇家化學(xué)會(RSC)已經(jīng)將本體技術(shù)納入其語義出版工作計劃之中,通過引入生命科學(xué)領(lǐng)域的本體對其旗下雜志《分子生物系統(tǒng)》的論文中的重要術(shù)語進行標(biāo)注,實現(xiàn)了當(dāng)點擊論文中出現(xiàn)的這些術(shù)語時,就會自動鏈接到這些術(shù)語在本體中的定義等,有效地提高了研究人員資源查找和吸收的效率[2]。
基于本體的資源組織模式,能夠推動內(nèi)容組織由信息深入到信息的語義。通過本體來組織資源,能夠賦予資源計算機可以理解的語義信息,建立不同系統(tǒng)、不同應(yīng)用程序、人與計算機之間相互溝通理解的橋梁,信息與信息之間、信息與人的需求之間可以自動地形成多方位的語義關(guān)聯(lián)。如此,計算機對海量資源找到用戶真正所需資源的能力將會極大提高,并進而提高科學(xué)交流的效率。正如有學(xué)者指出,語義標(biāo)記之于科技出版,就如同基礎(chǔ)設(shè)施對于城市未來發(fā)展的作用。而本體則是語義標(biāo)記得以實現(xiàn)的基礎(chǔ)工具。因此,探索基于本體的語義標(biāo)引手段和出版資源組織模式必將是科技出版資源組織模式革新的一個方向。
2.2納米出版物和知識元出版模式
當(dāng)前,基于文獻的資源組織方式是一種線性的、粗粒度的方式,計算機很難根據(jù)人們的偏好自動地完成對它們的重組和復(fù)用,嚴重制約了科學(xué)交流的效率。為此,知識管理學(xué)界與學(xué)術(shù)出版界均在嘗試打破資源粗糙、線性的組織方式,實現(xiàn)文獻資源的細粒度分割與非線性重組。
其中,概念網(wǎng)絡(luò)聯(lián)盟(Concept Web Alliance,CWA)就于2009年提出了一種“納米出版物”(Nanopublication)的新的資源組織形態(tài)的概念構(gòu)想。所謂納米出版物,按照nanopub網(wǎng)站的定義,是指最小單元的可出版信息:一個可以唯一識別和擁有作者歸屬的斷言[3]。它主要以概念或?qū)嶓w作為基本元素,描述科學(xué)文獻中的基本結(jié)論、科學(xué)事實或大量實驗數(shù)據(jù)中的實驗結(jié)果,并提供唯一標(biāo)識,描述結(jié)論的出處、原文作者、納米出版物的創(chuàng)建者等背景及語境信息,是科學(xué)文獻在細粒度上的語義表示、組織和出版形式[4]。納米出版物可以單獨出版、引用、采用標(biāo)準(zhǔn)的格式表示,還可以用RDF圖和本體進行序列化表示,由此叩開了機器可讀數(shù)據(jù)和互操作的大門,使得基于海量、異構(gòu)、分散數(shù)據(jù)的關(guān)聯(lián)發(fā)現(xiàn)變得簡單,獲得遠遠超過人類的推理能力。也正因此,納米出版物自提出之后,已在一些項目中得以應(yīng)用。如Open PHACTS項目將納米出版作為用于表示實驗數(shù)據(jù)和科學(xué)結(jié)論的標(biāo)準(zhǔn)格式;Queralt-Rosinach采用現(xiàn)有本體及可控詞匯集將基因疾病數(shù)據(jù)庫DisGeNET的數(shù)據(jù)由關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為納米出版模式的RDF數(shù)據(jù);等等。
目前,對納米出版物的研究應(yīng)用主要集中在國外,國內(nèi)鮮有相關(guān)的研究發(fā)表,但另一種同樣致力于實現(xiàn)細粒度資源表示的方法——知識元出版模式在國內(nèi)得到了重視。
按照溫有奎等人的定義,知識元是具有完整語義的最小的知識組成單位,是構(gòu)造知識結(jié)構(gòu)的最小元素(基元)[5]。如一段文字、一幅圖表、一個公式、一章或一節(jié)等。基于知識元的資源組織方式,能夠?qū)ΜF(xiàn)有數(shù)據(jù)中的細粒度知識單元進行表示和抽取,同時建立不同知識元之間以及知識元與原始文獻之間的語義鏈接。這一方面,目前,CNKI已經(jīng)構(gòu)建了一個具有一定規(guī)模的基于知識元庫的知識元搜索平臺,能夠?qū)崿F(xiàn)對學(xué)術(shù)定義、新概念、表格、圖片、數(shù)字等知識元的直接搜索,并且提供翻譯助手、學(xué)術(shù)趨勢、分析、熱點統(tǒng)計分析等功能,較好地滿足了科研人員碎片化、個性化需求。
納米出版物模式和基于知識元的資源組織模式突破了文獻組織方式粗粒度、線性化的局限,試能夠在更細粒度上實現(xiàn)資源的有效組織,提供全方位知識服務(wù)。在此種模式下,科研人員將不僅可以獲得基于文獻的粗粒度資源,也可以獲得基于知識元或者納米出版模式的細粒度資源,極大的增加了信息的可發(fā)現(xiàn)性與計算機可讀性,增強了知識交流高效率。
從手寫到印刷再到在線,人類科學(xué)交流的形式幾經(jīng)變革。但是從內(nèi)容組織的角度來看,過去的幾百年來,科研成果一直都是以文獻的方式呈現(xiàn)在科研人員面前。數(shù)字化浪潮下,信息越來越豐富、內(nèi)容越來越龐雜,科研人員獲取科研信息的過程卻變得繁冗不堪。突破紛繁信息的遮蔽,讓有價值的信息更精準(zhǔn)地被挖掘和發(fā)現(xiàn),成為一個日益凸顯價值的新課題。而改變傳統(tǒng)線性的、靜態(tài)的、語義匱乏的文獻組織方式,實現(xiàn)內(nèi)容組織方式的創(chuàng)新正是回答這一問題的關(guān)鍵。有志于此的出版機構(gòu)已經(jīng)先行在路途上,盡管長路漫漫,但至少它們已經(jīng)向我們指明了方向。
參考文獻
[1]杜小勇,李曼,王大治.語義Web與本體研究綜述[J].計算機應(yīng)用,2004(10):45-48.
[2]Shotton D,K Portwin,K Graham,M Alistair. Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article. PLoS Computational Biology,2009.
[3]Nano-Publication in the e-science era. http://www.w3.org/wiki/images/4/4a/HCLS$$ISWC2009$$Workshop$Mons.pdf.
[4]吳思竹,李峰,張智雄.知識資源的語義表示和出版模式研究——以Nanopublication為例[J].中國圖書館學(xué)報,2013(7):102-109
[5]溫有奎.基于知識元的知識發(fā)現(xiàn)[M].西安:西安電子科技大學(xué)出版社,2009:120.
作者簡介:李弘,電子工業(yè)出版社副總編。
基金項目:本文系文化產(chǎn)業(yè)發(fā)展專項資金項目“面向信息技術(shù)領(lǐng)域的動態(tài)出版平臺研發(fā)與應(yīng)用”的研究成果之一。
文章編號2096-0360(2015)06-0069-03
文獻標(biāo)識碼A
中圖分類號G2