王曉光
近幾年來,數(shù)字出版業(yè)正在向縱深發(fā)展,出版機構(gòu)特別是專業(yè)出版社,加快了出版內(nèi)容資源的數(shù)字化和深加工工作,部分單位也開始踏上從出版商向信息服務(wù)商或知識服務(wù)商的轉(zhuǎn)型之路,這其中專業(yè)知識庫建設(shè)正在成為一種新興的趨勢,而受到越來越多的出版機構(gòu)的關(guān)注。
對出版人來說,專業(yè)知識庫建設(shè)是一項新業(yè)務(wù),以往它主要屬于圖書館界和信息服務(wù)商的工作范疇。隨著出版人對數(shù)字出版理念認識的深化,越來越多的出版機構(gòu)開始意識到圖書除了單本發(fā)行外,還可以作為一種整體性內(nèi)容資源進行開發(fā)。對這種資源的開發(fā),挖掘其內(nèi)部蘊含價值逐漸成為專業(yè)出版機構(gòu)轉(zhuǎn)型發(fā)展的不二之選。
將圖書作為一種內(nèi)容資源,必須要打破圖書之間的界線。從數(shù)據(jù)庫的角度來看,專業(yè)性圖書就像一個個“知識孤島”,建立知識庫就是要打破知識孤島之間的間隔,使之成為“知識大陸”,讓用戶可以自由地在“知識大陸”上馳騁。這種變化給內(nèi)容資源帶來的增值效應(yīng)不是1+1的關(guān)系?;诙啾緢D書開發(fā)形成的知識庫價值遠大于單本圖書的知識存量之和。
這種增值效應(yīng)來源于兩個方面:首先是開發(fā)過程中的勞動增值,將圖書轉(zhuǎn)換成知識庫需要大量的編輯再加工工作,例如知識單元的切分、知識條目的標(biāo)引、知識關(guān)聯(lián)的建立、知識主題的再聚類、知識篇章的重組等,這些工作常常依賴專業(yè)編輯和領(lǐng)域?qū)<业膮⑴c,所以其勞動價值被轉(zhuǎn)移進知識庫內(nèi),形成了價值增值的源泉。其次是知識單元脫離了圖書的天然界線,形成了知識網(wǎng)絡(luò),帶來了網(wǎng)絡(luò)效應(yīng)。網(wǎng)絡(luò)經(jīng)濟的重要特點就是具有網(wǎng)絡(luò)效應(yīng),它不僅可以帶來正反饋,還為網(wǎng)絡(luò)內(nèi)的個體帶來指數(shù)效應(yīng),大大提高了單個知識片段的效用價值。
盡管開展知識庫建設(shè)和向知識服務(wù)商轉(zhuǎn)型已經(jīng)成為專業(yè)出版機構(gòu)的集體選擇,出版人對知識庫的認識依舊參差不齊。何謂知識庫,它與數(shù)據(jù)庫有何區(qū)別,它最大的特征是什么,如何才能最大限度地挖掘知識庫的價值?出版人必須認真思考這些具有挑戰(zhàn)性的新問題。
從字面意思來看,知識庫是一種存儲“知識”而非“數(shù)據(jù)”的系統(tǒng)組件。早期“知識庫”的概念是指一個智能決策系統(tǒng)的組成部分,包含某個特定領(lǐng)域的所有專家知識。由于“知識”概念的模糊性,以及常見的“數(shù)據(jù)-信息-知識-智慧”概念框架,人們常常無法準(zhǔn)確理解“知識庫”的概念。
自動化、人工智能領(lǐng)域的學(xué)者普遍認為知識庫是一種具有結(jié)構(gòu)化、層次化、模塊化等特征的特殊的機器可讀的數(shù)據(jù)庫,內(nèi)部存儲的知識常常是謂詞邏輯。而企業(yè)管理界、圖書情報和出版界則常常將知識庫當(dāng)作一種文檔庫,存儲人類可讀的各種原始的圖書文檔、案例手冊、企業(yè)數(shù)據(jù)或者學(xué)術(shù)論文、檔案資料等內(nèi)容。那么近些年來,出版領(lǐng)域的知識庫建設(shè)是否就是后一種理解呢?不完全是,出版領(lǐng)域的知識庫顯然不是第一種知識庫,但也不完全是第二種知識庫。
當(dāng)前知識庫建設(shè)正在向精細化、語義化、網(wǎng)絡(luò)化方向發(fā)展。知識庫建設(shè)的目的是提供知識服務(wù)和語義出版。知識庫內(nèi)部的知識單元不是一本書、一篇文章,而是更為精細的知識片段,如一個章節(jié)、一個段落、一個圖表,甚至一個句子。這種精細化的加工,要求出版商基于專業(yè)圖書進行結(jié)構(gòu)化切分和深度的語義標(biāo)注,進而建立跨域的知識網(wǎng)絡(luò)關(guān)聯(lián)。目前,國內(nèi)的中國知網(wǎng)、萬方數(shù)據(jù)以及多家專業(yè)出版社,如高等教育出版社、人民軍醫(yī)出版社、人民衛(wèi)生出版社、電子工業(yè)出版社、法律出版社、中華書局等都在朝這個方向發(fā)展。
從知識庫的內(nèi)容更新頻率來看,知識庫可以分為靜態(tài)的知識庫和動態(tài)的知識庫。靜態(tài)的知識庫指內(nèi)容更新頻率低或者幾乎沒有更新的情況,例如古籍知識庫,這種知識庫的內(nèi)容是一定歷史時期的古籍集合,沒有更新性,所以內(nèi)部結(jié)構(gòu)及關(guān)聯(lián)關(guān)系都是靜態(tài)的。動態(tài)知識庫是指內(nèi)容動態(tài)頻繁更新的知識庫,例如醫(yī)學(xué)知識庫,由于科研和實踐領(lǐng)域知識生產(chǎn)速度很快,所以知識庫內(nèi)的細粒度知識單元在不斷增長,知識關(guān)聯(lián)關(guān)系在不斷調(diào)整,知識主題聚類也在不斷更新?lián)Q代。從知識庫內(nèi)容單元類型看,知識庫可分為文本圖像型、視聽型以及混合型。相對而言,由于文本圖像加工較視頻和音頻容易,所以文本圖像型知識庫建設(shè)更為方便,投入相對較小。
新型知識庫建設(shè)除了依賴傳統(tǒng)的數(shù)據(jù)建設(shè)工具外,更依賴新型的語義技術(shù),包括文檔切分技術(shù)、語義標(biāo)注技術(shù)、知識鏈接技術(shù)、本體組織技術(shù)、主題詞表技術(shù)等。從知識庫建設(shè)流程和模塊來看,知識庫建設(shè)階段和涉及技術(shù)大概可以分為以下5個方面:
(1)知識源選擇與數(shù)字化
建設(shè)知識庫必須首選選擇合理的知識源,關(guān)鍵是保障版權(quán)的合理使用,沒有版權(quán)的內(nèi)容是無法進入知識庫內(nèi)部的。其次,還要選擇具有權(quán)威性的知識源,例如知名作者或機構(gòu)的圖書,經(jīng)典的專業(yè)圖書、善本或者機構(gòu)報告等,都可以作為知識性內(nèi)容的來源。確定了來源后,就要對內(nèi)容進行數(shù)字化轉(zhuǎn)換,關(guān)鍵是保證轉(zhuǎn)換的正確性??赡苡龅降膯栴}包括圖像表格的表示方式、稀有字體的編碼、公式定理的表示策略等等。
(2)知識的切分與標(biāo)注
在選定知識來源以后,就要對內(nèi)容進行切分。出版領(lǐng)域的知識庫建設(shè)與圖書館領(lǐng)域略有不同,出版領(lǐng)域的知識庫應(yīng)保證內(nèi)容切分完以后還可以重組為一本圖書,例如ePub格式的電子書,這就要求切分時不能只選擇圖書內(nèi)有價值的內(nèi)容,而忽略一切體例性內(nèi)容,如圖書前沿、后記等。圖書的切分要首先建立圖書結(jié)構(gòu)模型,然后確定內(nèi)部的知識單元類型,切分的粒度大小,知識單元的獨立性和可重用性。進而再確定不同粒度的知識單元如何進行語義標(biāo)注,設(shè)置何種屬性,如單元的適用領(lǐng)域、讀者特征等信息。
(3)知識網(wǎng)絡(luò)鏈接與存儲
在知識單元切分和標(biāo)注完成后就需要建立知識網(wǎng)絡(luò),網(wǎng)絡(luò)化組織是信息組織的前沿方向。這是知識庫與一般的文獻庫不同的地方,也是網(wǎng)絡(luò)效應(yīng)發(fā)揮的基礎(chǔ)。文獻庫內(nèi)的文章單元難于相互鏈接,而知識庫內(nèi)的知識單元存在天然的知識關(guān)聯(lián),所以為了最大限度地挖掘知識庫價值,必須在知識單元之間,利用DOI、URL、OpenURL等技術(shù)建立鏈接關(guān)系。這種關(guān)系的建設(shè)往往需要領(lǐng)域背景知識和領(lǐng)域本體技術(shù),如醫(yī)學(xué)領(lǐng)域本體用于指導(dǎo)醫(yī)學(xué)知識單元鏈接網(wǎng)絡(luò)建設(shè)。一般說來,知識庫網(wǎng)絡(luò)模型最后依賴于關(guān)系型數(shù)據(jù)庫存儲,所以必須考慮如何將知識網(wǎng)絡(luò)模型向關(guān)系型數(shù)據(jù)庫進行轉(zhuǎn)換。
(4)知識檢索與展示系統(tǒng)的開發(fā)
存儲好知識庫以后就要建設(shè)知識檢索系統(tǒng)和展示系統(tǒng)的開發(fā)。檢索系統(tǒng)常常需要借助全文檢索和半結(jié)構(gòu)化檢索技術(shù),進行檢索建模。展示系統(tǒng)也就是知識網(wǎng)絡(luò)的網(wǎng)站表示模型,如何借助信息構(gòu)建技術(shù)和XML語言實現(xiàn)知識網(wǎng)絡(luò)的展示是這一環(huán)節(jié)的關(guān)鍵。知識網(wǎng)絡(luò)不是一個檢索列表,而是網(wǎng)絡(luò)空間,支持用戶在知識網(wǎng)絡(luò)空間內(nèi)自由地瀏覽和發(fā)現(xiàn),所以知識網(wǎng)絡(luò)可視化技術(shù)必不可少,但如何迎合用戶的心智模型和瀏覽習(xí)慣是知識展示系統(tǒng)的關(guān)鍵。
(5)知識組織標(biāo)準(zhǔn)的建設(shè)
為了支持以上環(huán)節(jié)的進展,出版機構(gòu)必須首先開發(fā)建設(shè)知識組織基礎(chǔ)標(biāo)準(zhǔn),包括知識源選擇規(guī)范、領(lǐng)域主題詞表、領(lǐng)域本體、圖書結(jié)構(gòu)化規(guī)范、知識單元標(biāo)引規(guī)范、知識網(wǎng)絡(luò)鏈接規(guī)范、知識網(wǎng)絡(luò)導(dǎo)航展示規(guī)范等等。這些基礎(chǔ)性標(biāo)準(zhǔn)必須事前制定和動態(tài)更新,并嵌入知識庫加工的所有環(huán)節(jié),并且嚴格執(zhí)行,才能保證知識庫的質(zhì)量和效用。
出版領(lǐng)域的專業(yè)知識庫建設(shè)無法一蹴而就,它涉及到的技術(shù)較多,工程量大,對編輯再加工的能力要求高,需要較大的人財物投入。盡管前期投入較大,但在建立之后,可以樹立較高的進入門檻,同時也可以憑借先發(fā)優(yōu)勢占領(lǐng)一個專業(yè)領(lǐng)域的市場,進而形成一定的壟斷,保證長期獲益能力。
總的來說,出版領(lǐng)域的專業(yè)知識庫已經(jīng)成為一種成熟的商業(yè)模型。利用已有的圖書資源,開發(fā)建設(shè)專業(yè)知識庫正在推動專業(yè)出版向高級的語義出版和知識服務(wù)升級和轉(zhuǎn)型。出版商必須抓住機會,實現(xiàn)技術(shù)更新?lián)Q代以及產(chǎn)業(yè)變革。
(作者系武漢大學(xué)信息管理學(xué)院教授、博士生導(dǎo)師)