余敬春
摘 要:在原國家新聞出版廣電總局“專業(yè)數(shù)字內(nèi)容資源知識服務(wù)模式試點”工作倡導(dǎo)下,專業(yè)出版社基于自有優(yōu)質(zhì)資源,開展知識庫建設(shè)為行業(yè)提供基于知識圖譜的服務(wù),是傳統(tǒng)出版向知識服務(wù)轉(zhuǎn)型的必由之路。本文總結(jié)國防工業(yè)出版社“雷達與探測知識圖譜”項目實施經(jīng)驗,介紹了出版行業(yè)專業(yè)領(lǐng)域知識圖譜建設(shè)研究;探索了從資源遴選、結(jié)構(gòu)化加工、本體模型構(gòu)建、知識元提取、關(guān)聯(lián)關(guān)系構(gòu)建的知識圖譜建設(shè)全過程;探討了知識圖譜的評價與審核方法。
關(guān)鍵詞:知識元 知識圖譜 知識服務(wù) 知識本體
目前,知識圖譜的建設(shè)已成為國內(nèi)外出版社的必要工作。Springer Nature推出了SciGraph(科研圖譜)服務(wù),把自有和來自合作伙伴的資源,如期刊、論文、圖書、專利,以及機構(gòu)、作者等關(guān)聯(lián)。Elsevier開發(fā)的知識圖譜,把資源和軟件工具關(guān)聯(lián),形成知識管理系統(tǒng)。電子工業(yè)出版社的數(shù)字產(chǎn)品“E知元”和人民法院出版社的“法信”數(shù)字網(wǎng)絡(luò)服務(wù)平臺,也創(chuàng)新性地利用了知識圖譜技術(shù)。
一、知識圖譜的內(nèi)涵
專業(yè)出版社積累了豐富的內(nèi)容資源,其涵蓋范圍較廣,且大多是非結(jié)構(gòu)化的不斷更新的數(shù)據(jù)。知識圖譜是知識間關(guān)系的最有效表示形式,通過提取知識元,建立知識元之間的關(guān)聯(lián)關(guān)系,從內(nèi)容資源中提煉知識元實體信息,從而打通資源內(nèi)在脈絡(luò),支持內(nèi)容的計算、重組、聚合、再創(chuàng)造形成新的知識對象,達到優(yōu)化知識檢索、共享和傳承的目的。專業(yè)出版社通過構(gòu)建行業(yè)知識圖譜,可探索實現(xiàn)以“知識圖譜+知識化內(nèi)容資源”為主體的新型知識服務(wù)模式。
知識圖譜在工業(yè)領(lǐng)域剛剛起步,很難找到現(xiàn)成的知識圖譜為出版社所用,且建設(shè)耗時長,出版社需綜合分析內(nèi)容資源、智力儲備和行業(yè)應(yīng)用,選擇最優(yōu)質(zhì)資源、最豐富內(nèi)容、最迫切需要的細分專業(yè)領(lǐng)域,采用“逐點構(gòu)建、連點成面”的方式,完成專業(yè)領(lǐng)域知識圖譜建設(shè)。
為了使知識圖譜能服務(wù)實際應(yīng)用,出版社建設(shè)的知識圖譜需滿足三項原則:①面向應(yīng)用。以實際應(yīng)用為出發(fā)點,進行資源遴選、本體模型設(shè)計,以及技術(shù)和規(guī)范的制定等。②與內(nèi)容資源結(jié)合。確保知識圖譜通過標(biāo)引能與內(nèi)容資源緊密結(jié)合。③尊重著作權(quán)人學(xué)術(shù)觀點。專業(yè)領(lǐng)域存在學(xué)術(shù)分歧,知識圖譜的構(gòu)建不在學(xué)術(shù)觀點上厚此薄彼,盡量全面反映學(xué)術(shù)研究現(xiàn)狀。
二、知識圖譜建設(shè)研究
知識圖譜建設(shè)的技術(shù)路徑是構(gòu)建本體模型,對本體進行實體擴充。其建設(shè)主要任務(wù)是知識元的提取與關(guān)聯(lián)關(guān)系的構(gòu)建,實施流程包括資源遴選、結(jié)構(gòu)化加工、本體模型構(gòu)建、知識元提取、關(guān)聯(lián)關(guān)系構(gòu)建等5個環(huán)節(jié),如圖1所示。
圖1 知識圖譜建設(shè)流程
1.資源遴選。知識圖譜基于資源建設(shè),只有優(yōu)質(zhì)的資源才能保證知識圖譜的質(zhì)量。出版社需組織領(lǐng)域?qū)<一蛴胸S富經(jīng)驗的編輯,通過分析資源的經(jīng)典和時效性,以及對領(lǐng)域知識覆蓋的廣度和深度,從海量資源中挑選出與選定領(lǐng)域最相關(guān)的資源;同時,根據(jù)專業(yè)深度和應(yīng)用目的,對這些資源進行分類,確定核心資源、輔助資源。例如,國防工業(yè)出版社“雷達與探測知識圖譜”項目,遴選100多種近幾年出版的重點圖書或叢書,涉及原理、技術(shù)、系統(tǒng)、設(shè)備等。其中核心資源40余種,即成熟的教材、手冊和工具書,對知識圖譜的貢獻度超過70%;科技專著則在專業(yè)縱深方向進行補充,屬于輔助資源。
2.結(jié)構(gòu)化加工。結(jié)構(gòu)化加工的任務(wù)是:統(tǒng)一資源格式;標(biāo)識內(nèi)容中的標(biāo)題、段落、圖片和表格等(因為出現(xiàn)在不同位置的關(guān)鍵詞,在知識圖譜中的重要程度有明顯的區(qū)別);規(guī)范元數(shù)據(jù)結(jié)構(gòu)。內(nèi)容資源經(jīng)過結(jié)構(gòu)化加工形成符合標(biāo)準(zhǔn)的XML文件和Epub文件。
3.本體模型構(gòu)建。本體是知識元和知識元關(guān)聯(lián)關(guān)系的集合,本體模型需構(gòu)建一個完整、簡潔、規(guī)范、結(jié)構(gòu)清晰的描述規(guī)則或框架,清楚地描述知識元及其關(guān)系的類型、層級和結(jié)構(gòu),定義元數(shù)據(jù)即知識元實體信息描述規(guī)則。例如,“雷達與探測知識圖譜”本體模型提取知識元類型10余類,包括:設(shè)備、方法、技術(shù)、產(chǎn)品、原理等;知識元元數(shù)據(jù)30余項,如圖2所示;知識元關(guān)聯(lián)關(guān)系20余種,如圖3所示。
4.知識元提取。知識元提取是通過人工或程序輔助方法將資源中的專業(yè)知識提煉出來并完善元數(shù)據(jù),實現(xiàn)本體模型到知識圖譜建設(shè)的過程。目前,計算機技術(shù)的自動提取功能,對于語料匱乏的小領(lǐng)域而言,其提取效率還達不到使用需要,人工提取知識元是更加實用、可行的方式。知識元的提取包括:內(nèi)容閱讀、知識元提取、元數(shù)據(jù)編輯、知識元修正等4個環(huán)節(jié),如圖4所示。
(1)內(nèi)容閱讀:分為通讀和精讀。通讀時了解圖書的內(nèi)容和編寫風(fēng)格,關(guān)注圖書的結(jié)構(gòu)和可提取的知識元,知識元描述信息從何處摘取等。精讀時需分析圖書中主要論述、附加描述以及涉及的各層級知識點。專業(yè)圖書內(nèi)容組織的特點一般是以章/節(jié)為一個相對獨立的知識范圍進行編寫,所以,精讀一般以章/節(jié)為基本單元進行。
(2)知識元提?。褐R元的提取就是找到書中的知識點和相關(guān)描述,大部分在內(nèi)容精讀時可完成??萍紙D書通常表述比較嚴(yán)謹(jǐn)、規(guī)范,可以通過總結(jié)知識的表述形式來提高提取的速度和質(zhì)量,常見的表達形式包括:定義型、引用型和舉例型。例如:
定義型:
引用型:
舉例型:
知識元提取應(yīng)把握以下原則:是領(lǐng)域?qū)I(yè)詞匯、術(shù)語;是圖書主要講述或涉及的知識點;以名詞或名詞短語為主,避免使用動詞,一般不用形容詞或副詞;提取的詞出現(xiàn)頻率較高;概念明確,敘述簡練。如果提交時系統(tǒng)提示已經(jīng)存在相同的詞條,需仔細查看已有詞條的詳細信息,判斷是否為相同概念。如果概念相同則放棄提交;如果概念不同則強制提交(此情況一般為“一詞多義”)。
(3)元數(shù)據(jù)編輯:需要編輯的元數(shù)據(jù)項包括分類、詳細描述、詞條出處、詞條位置等?!霸敿毭枋觥弊侄渭粗R條目是對知識元定義性或描述性的內(nèi)容,包括純文本、圖表或公式等。這些信息通常出現(xiàn)在提取位置附近,也有的需要從不同的位置分別提取、編輯、整合。其內(nèi)容要求在任何語境中閱讀時,均有完整的意義,不能帶有“綜上所述”“見××頁”等承接前后文的文字。出現(xiàn)此類情況,需要加工人員對內(nèi)容進行摘取、調(diào)整和補充。
(4)知識元修正:由于不同圖書或加工人員對相似概念理解不一致,需對提取的知識元進行橫向比較并修正。主要問題包括提取粒度、知識元名稱和元數(shù)據(jù)的一致性。提取粒度的一致性是指同級概念下提取的子概念的細化粒度應(yīng)一致。知識元名稱的一致性主要考查詞組或短語的一致性,例如,與“雷達功率”同級別或并列的概念“雷達波段”“雷達天線”也要用詞組描述,不能僅用“波段”和“天線”。元數(shù)據(jù)的一致性是指同級或并列知識元的元數(shù)據(jù)的“詳細描述”等需要二次編輯的項目應(yīng)保持質(zhì)量與程度一致。除了一致性問題,還需要考慮的是同義詞的合并以及一詞多義的判斷。通過對比,確定概念是否相同,如果相同或相似則進行合并;如果不同則需修改元數(shù)據(jù)以做區(qū)分,使其差異盡可能清晰。
5.關(guān)聯(lián)關(guān)系構(gòu)建。通常,在知識元提取過程中建立與鄰近資源相關(guān)知識元間的關(guān)聯(lián)關(guān)系之后,還需設(shè)置專門的建立關(guān)聯(lián)關(guān)系的環(huán)節(jié),使更廣泛的資源間建立關(guān)聯(lián)。這個環(huán)節(jié)需系統(tǒng)整理、規(guī)范和挖掘廣泛資源中知識元間的關(guān)聯(lián)關(guān)系,同時形成對關(guān)聯(lián)關(guān)系的數(shù)量及分布是否合理的評價指標(biāo)。
(1)關(guān)系空間:關(guān)系空間包括關(guān)系的名稱及元數(shù)據(jù)屬性。關(guān)系空間在確定時應(yīng)規(guī)范、統(tǒng)一。通常敘詞表中有五類標(biāo)準(zhǔn)的關(guān)系名稱,即用、代、屬、分、參。在這五類關(guān)系之上,還需增加“擴展關(guān)系”和“自定義關(guān)系”。擴展關(guān)系是根據(jù)應(yīng)用需要,在基本關(guān)系的基礎(chǔ)上分解或細化出的關(guān)系名稱,這些關(guān)系名稱能夠更加清晰、準(zhǔn)確地表現(xiàn)兩個知識元之間的關(guān)系。在工程技術(shù)中,常用的擴展關(guān)系包括:“相關(guān)原理”“由……部件組成”“有……方法”“被替代”等。當(dāng)增加了擴展關(guān)系,還存在沒有合適的名稱來描述的關(guān)系時,則允許加工人員自行命名新的關(guān)系名稱,經(jīng)過整理和規(guī)范,符合條件時納入“擴展關(guān)系”。
(2)關(guān)系的判斷:兩個知識元之間的關(guān)系通過閱讀圖書內(nèi)容、分析層次結(jié)構(gòu)完成,找不到具體語境則依據(jù)加工人員專業(yè)知識或查找輔助資料來判斷。例如:從上下級標(biāo)題中分別提取的知識元,一般以屬分關(guān)系為主,其次是相關(guān)關(guān)系以及其他關(guān)系;一般情況下,“×××又叫(也叫/又稱)×××”這種句型的句子中知識元之間大多是用代關(guān)系。有些知識元之間的關(guān)系并不明顯,不能簡單地從標(biāo)題層級、句型結(jié)構(gòu)上分析出來,這時需要依據(jù)內(nèi)容判斷,尤其是擴展關(guān)系和自定義關(guān)系,需要認真理解知識元的含義及其邏輯關(guān)系,找到最適合的關(guān)系名稱。
三、知識圖譜的評價與審核
在知識圖譜建設(shè)過程中,可通過量化度量的評價圖譜,及時了解實施的進度和質(zhì)量,示例如圖5所示(圖中每一個黑點為一個知識元,中間的連線為關(guān)聯(lián)關(guān)系),其中包括核心集合、知識簇和孤立詞。中心是核心集合,由具有關(guān)聯(lián)關(guān)系的知識元構(gòu)成;外層是知識簇,由若干有關(guān)聯(lián)關(guān)系的知識元構(gòu)成,對外沒有關(guān)聯(lián)關(guān)系;最外層是孤立詞,與其他知識元沒有關(guān)聯(lián)關(guān)系。同時,引入了知識元/關(guān)系比和全局關(guān)系比兩個概念來評價知識圖譜的質(zhì)量,知識元/關(guān)系比是一個知識元的關(guān)聯(lián)關(guān)系的值,反映知識元的重要程度;全局關(guān)系比是全部關(guān)聯(lián)關(guān)系與知識元個數(shù)的比,反映關(guān)聯(lián)關(guān)系建設(shè)的合理性。一個健康的知識圖譜應(yīng)該只有少量孤立詞、較少的知識簇和龐大的核心集合;知識元/關(guān)系比通常最大不宜超過50;全局關(guān)系比一般應(yīng)大于2。
知識圖譜構(gòu)建階段性工作完成后,必須由領(lǐng)域?qū)<乙罁?jù)相關(guān)規(guī)范,對知識元及元數(shù)據(jù)、關(guān)聯(lián)關(guān)系及元數(shù)據(jù)進行審核,包括其科學(xué)性、專業(yè)性、準(zhǔn)確性和規(guī)范性等。審核發(fā)現(xiàn)的常見問題包括:知識元名稱不規(guī)范,或內(nèi)涵較大,需要修正或拆分;知識元間關(guān)聯(lián)關(guān)系漏建等,需進行補充。
綜上所述,知識圖譜以可視化圖譜的形式建立非結(jié)構(gòu)化資源的內(nèi)在聯(lián)系,使傳統(tǒng)出版社基于圖書資源提供知識服務(wù)得以實現(xiàn)。專業(yè)領(lǐng)域知識圖譜建設(shè)對出版行業(yè)而言,是一項新技術(shù),也是一個新挑戰(zhàn);同時,它又是一個需要逐步更新、進化的大工程,是無法回避、必須跨越的壁壘。本文在總結(jié)“雷達與探測知識圖譜”項目實施經(jīng)驗的基礎(chǔ)上,討論了知識圖譜建設(shè)中資源遴選、人員組織、質(zhì)量保障需要注意的問題,重點介紹了專業(yè)知識圖譜建設(shè)中知識元抽取這個最關(guān)鍵環(huán)節(jié)的特點、方法,希望對出版社同行有所助益。
參考文獻:
1. 張曉林.顛覆性變革與后圖書館時代——推動知識服務(wù)的供給側(cè)結(jié)構(gòu)性改革[J].中國圖書館學(xué)報,2018(1).
2. 張德政,謝永紅,李曼,石川.基于本體的中醫(yī)知識圖譜構(gòu)建[J].情報工程,2017,3(1).
(作者單位系國防工業(yè)出版社)