蔣 勛 徐緒堪
(1.南京大學(xué)信息管理學(xué)院 江蘇南京 210093)
(2.無錫城市職業(yè)技術(shù)學(xué)院 江蘇無錫 214153)
知識服務(wù)對信息組織有很高的要求,強調(diào)數(shù)據(jù)間的有機關(guān)聯(lián),尤其要求通過數(shù)據(jù)間的聯(lián)系從而形成相關(guān)知識。而如何有效存儲、管理、組織和更新大規(guī)模的知識,如何有效利用存儲的知識進行推理和問題求解,并更有效地支持知識服務(wù),這是目前圖書情報領(lǐng)域一個重要研究課題。實現(xiàn)知識服務(wù)的途徑有多種,其中基于專家系統(tǒng)提供的專家級知識,能實現(xiàn)一種高端的知識服務(wù)。專家系統(tǒng)中知識獲取的核心組成部分是知識庫,盡管計算機與人工智能技術(shù)的迅猛發(fā)展支撐著知識獲取手段的提升,但“知識匱乏”與“信息海洋”的對峙局面仍然存在。
為解決“知識匱乏”這一瓶頸問題,本文將從知識服務(wù)的角度架構(gòu)知識庫的內(nèi)在邏輯結(jié)構(gòu)模型,使得健全、合理的結(jié)構(gòu)模型支撐起用戶不同的服務(wù)需求,并使資源和服務(wù)有效整合,消除知識組織與知識利用之間的鴻溝。
從知識組織的研究視角關(guān)注承載知識的知識庫研究,王知津等全面、系統(tǒng)、深入地分析了知識組織的理論、方法及應(yīng)用,首次對知識組織的環(huán)境進行了考究,對知識組織的十個方面加以論述,其中就指出實現(xiàn)知識的有序化是知識組織的重要目標之一,而知識有序化包括了承載知識環(huán)境的有序化,并給出了支持知識環(huán)境有序化的技術(shù)手段。賴茂生等深入研究了知識組織領(lǐng)域的幾個前沿問題:本體與傳統(tǒng)知識組織工具改造的研究、受控語言與自然語言融合的研究、網(wǎng)絡(luò)環(huán)境下知識組織研究及Web2.0與自由分類法,這些前沿問題的研究為進一步展開知識庫的探索奠定了堅實的基礎(chǔ)。賀德方從知識組織體系 (Knowledge Organization Systems,KOS) 的應(yīng)用角度,梳理了知識組織的主要成果,歸納了知識組織體系之間的轉(zhuǎn)化、映射、標準化等方面,這些研究理清了從知識組織角度研究知識庫結(jié)構(gòu)的思路。王軍教授的研究則從網(wǎng)絡(luò)環(huán)境下對知識結(jié)構(gòu)進行系統(tǒng)化描述與說明,以此為基礎(chǔ)推動信息組織、信息表示和基于內(nèi)容的信息檢索等應(yīng)用發(fā)展。從知識服務(wù)的研究角度,畢強縱觀了國內(nèi)外學(xué)者關(guān)于知識服務(wù)研究側(cè)重點不同,并揭示了信息資源只有定位描述而缺少資源內(nèi)容的確切描述的不足,提出了知識庫是實現(xiàn)知識服務(wù)的基礎(chǔ)和核心,通過知識庫將提高知識利用和共享效果。董慧深入研究了本體知識表示的知識庫,避免了不同數(shù)據(jù)源中知識異構(gòu)帶來的問題,在這基礎(chǔ)上并首次提出了歷史領(lǐng)域的專家系統(tǒng)模型。王曰芬等研究了面向個性化服務(wù)的知識組織機制,形成了個性化服務(wù)的知識組織并將知識服務(wù)瞄準了科技咨詢,給出了將社會網(wǎng)絡(luò)分析與社會網(wǎng)絡(luò)可視化的先進技術(shù)引入專家?guī)斓慕ㄔO(shè)中,提高了科技咨詢決策效果。李廣建指出在分布式環(huán)境下為適應(yīng)OpenURL需要,知識庫的有效利用是關(guān)鍵問題,知識庫不僅是整個系統(tǒng)的核心,也是整個過程的中樞并且為構(gòu)造擴展服務(wù)鏈接提供規(guī)則,認為只有健全、合理的知識庫才能提供用戶盡可能合適的知識服務(wù)。知識庫的應(yīng)用遠不局限在圖書情報領(lǐng)域,對于醫(yī)療、制造等行業(yè),以及對其他學(xué)科的科學(xué)研究都起著重要的支撐作用。錢平等具體針對鱖魚疾病的診斷中,利用了知識表示與語義推理等相關(guān)技術(shù),積累了相關(guān)病例,搭建了針對診療需求的知識庫,為魚病診斷專家系統(tǒng)建立高智能、可共享與復(fù)用的診斷推理應(yīng)用模型。李少波等分析了中藥制藥行業(yè)對制造執(zhí)行系統(tǒng)的需求,提煉出各流程的知識庫,包括設(shè)備知識庫、過程經(jīng)驗知識庫、生產(chǎn)管理知識庫、原材料知識庫等,并利用每個應(yīng)用知識庫進行了知識的獲取、融合和重用,最終給出系統(tǒng)的功能模型以實現(xiàn)生產(chǎn)過程的最優(yōu)計劃與調(diào)度。孫勇等在其科研過程中發(fā)現(xiàn)了基本蟻群算法易陷入局部極值且收斂速度慢等問題,將知識庫引入該算法中,其貢獻在于知識庫囊括了算法知識、規(guī)則知識和案例知識,存儲了定性或定量的算法參數(shù)、參數(shù)選擇方法及歷史數(shù)據(jù),最終提出了基于知識庫的動態(tài)蟻群算法,經(jīng)過理論分析和實驗驗證,該算法在優(yōu)化性能、時間性能和魯棒性等均有一定優(yōu)勢。
國外關(guān)于知識組織、知識服務(wù)、知識庫的研究更重于實踐方面,知識組織研究主要是以NKOS(Networked Knowledge Organization Systems/Services)作為主要的研究領(lǐng)域開展相關(guān)研究。隨著數(shù)字圖書館的研究與發(fā)展,NKOS已經(jīng)成為圖書館和信息科學(xué)領(lǐng)域最重要的研究課題。特別針對語義化描述的分類表、敘詞表、主題詞表、地名辭典等已經(jīng)在國際圖書情報界有較多的研究和實踐,如美國國會圖書館發(fā)布的《國會圖書館主題詞表》的SKOS語義描述版本。進一步基于 NKOS向機器和各類智能應(yīng)用提供服務(wù),通過構(gòu)建 NKOS的目標是為搜索引擎、學(xué)科門戶、內(nèi)容導(dǎo)航、自動分類等應(yīng)用程序提供知識服務(wù),其途徑是提供開放的、統(tǒng)一的查詢接口和訪問協(xié)議,如典型的SKOS API。國外關(guān)于知識庫的研究正探索進一步發(fā)揮其專業(yè)化知識服務(wù)的特色。典型的是雪城大學(xué)、華盛頓大學(xué)開展的Reference Extract研究,試圖將知識庫中專家參引的網(wǎng)站作為高可信度的信息源,從而為用戶提供高可信度的搜索體驗;并基于知識庫研究知識挖掘和知識發(fā)現(xiàn)等服務(wù),已開發(fā)出能提供熱點知識群導(dǎo)航知識庫系統(tǒng)。圍繞知識庫架構(gòu)與建設(shè)方法、知識組織與分類方法、知識庫的檢索服務(wù)、知識挖掘與發(fā)現(xiàn),并從參考咨詢服務(wù)的用戶需求出發(fā),對聯(lián)合參考咨詢知識庫的發(fā)展趨勢進行了探討,更好地利用知識庫的功能以提升圖書館的參考咨詢服務(wù)能力。
值得注意的是,目前在圖書情報領(lǐng)域關(guān)于知識庫的研究主要聚焦在機構(gòu)知識庫(Institutional Repository,IR)。國際上注冊IR超過2200個,中國科學(xué)院也有超過70個研究所的IR,IR正成為機構(gòu)知識基礎(chǔ)設(shè)施和社會學(xué)術(shù)信息交流體系的重要成員。以張曉林教授領(lǐng)銜的中國科學(xué)院國家科學(xué)圖書館研究團隊圍繞IR的技術(shù)支撐、資源支持、研究與咨詢支持、法律支持、環(huán)境支撐等各方面來管理知識成果,形成對知識成果使用進行許可的框架。張旺強等側(cè)重IR的技術(shù)層面進行研究,利用OpenKOS的開放服務(wù)接口對IR中知識產(chǎn)出進行主題標引和自動分類,方便用戶使用主題詞瀏覽和檢索知識產(chǎn)出。
通過上述已有研究成果分析可以看出,知識庫的研究對支持與完善知識服務(wù)的整體性至關(guān)重要。目前,在圖書情報領(lǐng)域,知識庫的理念和方法基本貫徹在整個知識服務(wù)過程的始終,語義關(guān)系計算使用了語義知識庫、動態(tài)知識點的生成是基于專有術(shù)語知識庫開展的、知識地圖的描繪是在相關(guān)知識庫的基礎(chǔ)上進行的。知識庫的根基在知識組織,通過對知識組織的研究希望數(shù)據(jù)庫存儲的數(shù)據(jù)、信息和知識能夠滿足用戶解決問題和進行決策的需求,所以,對知識組織的研究不是將知識停留在數(shù)據(jù)庫中組織,而是注重如何將數(shù)據(jù)在數(shù)據(jù)庫中通過某種關(guān)聯(lián)產(chǎn)生出知識并服務(wù)于用戶。針對知識庫的相關(guān)研究歸納起來,呈現(xiàn)如下現(xiàn)狀:①目前,在圖書情報領(lǐng)域關(guān)于知識庫的研究主要聚焦在機構(gòu)知識庫。國外在機構(gòu)知識庫方面起步較早,已經(jīng)有大批機構(gòu)知識庫建成并投入使用,而國內(nèi)還比較薄弱。對機構(gòu)知識庫的關(guān)注大多數(shù)是研究其對外能實現(xiàn)的應(yīng)用,如提供的知識瀏覽、數(shù)據(jù)統(tǒng)計、為科技類公共服務(wù)活動提供文化氛圍、以多種形式向讀者推送專題資源等等。概括起來,關(guān)于機構(gòu)知識庫的探討基本圍繞在信息資源長期保存能力、提升信息獲取效率、促進學(xué)術(shù)交流與知識共享等三個方面。②圖書情報領(lǐng)域近期也出現(xiàn)了一系列關(guān)于專業(yè)知識庫的研究。譬如詞匯語義知識庫正在被應(yīng)用于信息檢索、信息提取、問答系統(tǒng)、自動文摘等方面,逐步成為自然語言處理的基礎(chǔ)資源。專業(yè)知識庫的研究也圍繞具體應(yīng)用為主,但不同的專業(yè)知識庫表現(xiàn)出不同的需求和不同的解決方案。如詞匯語義知識庫迎合了本體化與多語化的大趨勢,關(guān)于它的研究都從不同方面彌補了其共通的知識共享與知識交流上的不足,體現(xiàn)出知識庫的發(fā)展朝著應(yīng)用多元化的趨勢。從以上兩個現(xiàn)狀不難看出:現(xiàn)階段關(guān)于知識庫的研究偏向于應(yīng)用,應(yīng)用的多元化必然促使知識庫的完善,知識庫的發(fā)展,其瓶頸在于自身的結(jié)構(gòu),而關(guān)鍵更在知識組織水平。目前,在圖書情報領(lǐng)域涉及知識庫一般規(guī)律的研究很少,關(guān)于知識庫結(jié)構(gòu)的研究更少。已有的研究中沒有系統(tǒng)地去研究其知識組織模式和具體結(jié)構(gòu)問題,或者說沒有從知識服務(wù)的角度去深刻地考察知識組織體系和構(gòu)成,沒有仔細地去研究過哪些知識服務(wù)需要用到知識庫,其中這些服務(wù)對知識組織有哪些特殊的要求,并根據(jù)這些要求,應(yīng)該如何組織知識庫。大部分關(guān)于知識庫模型的研究還處在框架搭建的初級階段,還在不斷探索和完善中,離知識服務(wù)的應(yīng)用平臺還有很大距離。
知識組織目標是為了向用戶提供更高效、更有針對性的知識,以實現(xiàn)知識服務(wù)??梢哉f知識組織是知識服務(wù)的支撐。因此,知識組織的設(shè)計來自于用戶需求的驅(qū)動,需要遵循從宏觀到微觀的設(shè)計理念,確保知識組織實現(xiàn)知識服務(wù)、提升服務(wù)效率。針對“大數(shù)據(jù)”時代的信息泛濫、信息無序,大量過剩等特點,迫切需要能夠?qū)⑵淇茖W(xué)處理、整序、關(guān)聯(lián),最終形成能夠解決用戶問題的知識。實現(xiàn)這樣的目標需要將雜亂的信息蛻變、升華,使之有序、關(guān)聯(lián)和可用,也就是說知識組織必須保證信息知識化、知識有序化、知識服務(wù)化,知識庫是這項工作的落實載體之一??梢?,知識庫的工作與知識組織、知識服務(wù)是密不可分的。
知識庫與知識組織、知識服務(wù)在工作上是緊密關(guān)聯(lián)的,并且三者在邏輯上嚴密相關(guān),從宏觀上將三者抽象表達成圖1所示關(guān)系模型,每一層都為其上一層服務(wù),層層相扣。知識組織將知識源提供的各類信息,經(jīng)過數(shù)據(jù)清洗、加工處理,提煉成可供知識庫存儲并管理的知識;知識庫將針對某一領(lǐng)域問題求解的需要,采用某種知識表示方式在計算機中存儲、組織、管理,使互相聯(lián)系的知識片集合邏輯上可推理,可進行復(fù)雜問題的求解;最終面向知識服務(wù)提供有針對性、高質(zhì)量的知識,可以說知識的質(zhì)量、知識間的語義關(guān)系決定知識的價值。
圖1 知識組織、知識庫、知識服務(wù)三者關(guān)系模型
知識庫在層次模型中處于中間層,既面向知識服務(wù)也基于知識組織,為此,更需要從知識服務(wù)的角度去深刻地考察知識組織體系和構(gòu)成,必須仔細地去研究哪些知識需求需要用到知識庫,這些知識需求對知識組織有哪些特殊的要求,并根據(jù)這些要求,該如何設(shè)計知識庫結(jié)構(gòu)。知識庫的構(gòu)建不是一次性完成的,隨著知識服務(wù)要求不斷提高,將反饋促使知識庫更新,知識庫的結(jié)構(gòu)也需不斷的優(yōu)化。
知識庫結(jié)構(gòu)研究就是研究知識庫的架構(gòu),研究如何建立知識結(jié)點之間的語義關(guān)系,研究如何構(gòu)造知識庫內(nèi)部結(jié)構(gòu)更便于問題求解和邏輯推理。因此,知識庫能否快速且準確地響應(yīng)用戶問題,解決多領(lǐng)域、多學(xué)科的協(xié)同決策過程帶來的復(fù)雜多源知識獲取和融合問題,完成跨平臺、跨系統(tǒng)進行的大規(guī)模知識共享、重用、管理等問題,這些問題均對知識庫的結(jié)構(gòu)提出了更高的要求。
在課題“面向知識服務(wù)的知識庫結(jié)構(gòu)研究”中研究的著眼點主要考察面對上述不同的知識需求來架構(gòu)知識庫結(jié)構(gòu)的一般規(guī)律,使之具備一定的通用性。為此,課題從框架結(jié)構(gòu)和邏輯結(jié)構(gòu)兩個視角來研究知識庫的結(jié)構(gòu),而本文探討的是知識庫邏輯結(jié)構(gòu)。知識庫邏輯結(jié)構(gòu)是根據(jù)推理范疇的結(jié)構(gòu)決定的,而范疇是由對象及彼此間的映射關(guān)系決定,所以知識庫的邏輯結(jié)構(gòu)可以形象地描述成知識點之間存在的映射關(guān)系的集合。可以預(yù)見:一方面,知識庫中知識結(jié)點數(shù)目是龐大的,且結(jié)點間的映射關(guān)系的數(shù)目是知識結(jié)點的冪指數(shù)形式,數(shù)目更是巨大;另一方面,知識庫中的很多新規(guī)則是新產(chǎn)生的且為暫時的,這些不能通過既定的基礎(chǔ)知識庫的挖掘獲得。
知識庫邏輯結(jié)構(gòu)決定了知識服務(wù)的角度和潛能,科學(xué)合理的知識庫邏輯結(jié)構(gòu)對知識服務(wù)的能力提升具有很大的推動作用。對知識庫邏輯結(jié)構(gòu)中所涉及各環(huán)節(jié)要素進行理論及實踐上的探討,這種探討有助于解決從知識源到知識獲取過程中的瓶頸問題,為最大限度地克服海量數(shù)據(jù)增加引起的算法失效及固有的知識庫實時維護困難的問題。這一系統(tǒng)化的研究緊緊圍繞知識庫邏輯結(jié)構(gòu)并凝練了知識組織的相關(guān)理論,呈現(xiàn)出知識庫是實現(xiàn)知識服務(wù)的基礎(chǔ)和核心,最終還以知識服務(wù)為落腳點,為拓展知識服務(wù)奠定了基礎(chǔ)。
知識存在知識庫中,數(shù)據(jù)存在數(shù)據(jù)庫中,兩者“對接”將會促進知識庫理論機理的發(fā)展。針對數(shù)據(jù)子類結(jié)構(gòu)形式構(gòu)成的數(shù)據(jù)庫與基于屬性間語義關(guān)系的知識庫,需要在這兩者之間建立對應(yīng)關(guān)系,通過數(shù)據(jù)庫的子類結(jié)構(gòu)和知識庫的結(jié)點網(wǎng)絡(luò)結(jié)構(gòu),可以構(gòu)建兩者之間的邏輯等價關(guān)系,這種關(guān)系打破了傳統(tǒng)數(shù)據(jù)庫知識獲取的封閉系統(tǒng),當其與知識庫相結(jié)合,從知識庫的高度,可以更深層次的理解數(shù)據(jù)庫的價值,拓展知識庫的效能。這種邏輯結(jié)構(gòu)在功能上形成了相對于基礎(chǔ)知識庫是一個開放、優(yōu)化的可擴體,有助于實現(xiàn)知識推理和知識挖掘。
知識庫邏輯結(jié)構(gòu)的研究,實際上可以歸結(jié)為知識點間存在關(guān)系的研究。知識點及其相互關(guān)系希望通過一種簡約的表示方法來描述這些關(guān)系,并支持知識的推理活動。衡量知識的簡約表示效用需要考量其概念效率與計算效率兩個維度,這兩個維度的特點是“厚此薄彼”,各知識點表示是否統(tǒng)一且準確,由底層的核心工作數(shù)據(jù)清洗決定,數(shù)據(jù)清洗是關(guān)系建立、推理質(zhì)量、計算效率的保證,只有高質(zhì)量的數(shù)據(jù)清洗,才會有高質(zhì)量的知識庫服務(wù)水平(研究思路可概括見圖2)。
圖2 知識庫邏輯結(jié)構(gòu)的研究思路
(1)數(shù)據(jù)庫與知識庫的對應(yīng)關(guān)系。建立數(shù)據(jù)庫與知識庫間的對應(yīng)關(guān)系,也是一個知識發(fā)現(xiàn)過程。知識發(fā)現(xiàn)(Knowledge Discovery)是從大量的數(shù)據(jù)中挖掘潛在有用的、用戶可能感興趣的并能被其理解的知識的過程。知識發(fā)現(xiàn)是知識點及其相互間邏輯關(guān)系的原始積累過程。為此,揭示數(shù)據(jù)庫與知識庫在各自特定構(gòu)造下的一一對應(yīng),構(gòu)建數(shù)據(jù)庫與知識庫的內(nèi)在“通道”,并將數(shù)據(jù)庫和知識庫統(tǒng)一在一個知識發(fā)現(xiàn)系統(tǒng)中,這是構(gòu)建知識庫邏輯結(jié)構(gòu)首先要關(guān)注的問題。
不能孤立地看待知識庫結(jié)構(gòu),知識庫結(jié)構(gòu)和所關(guān)聯(lián)的數(shù)據(jù)庫是密切相關(guān)的,也就是說隨著數(shù)據(jù)庫中數(shù)據(jù)的積累,對應(yīng)的知識庫結(jié)構(gòu)也將隨之發(fā)生變化,數(shù)據(jù)庫與知識庫間的對應(yīng)關(guān)系決定了知識庫中各知識點之間的邏輯關(guān)系。所以,構(gòu)造知識庫結(jié)構(gòu)必須將相關(guān)數(shù)據(jù)庫及其所有數(shù)據(jù)綜合起來考慮。
在真實的數(shù)據(jù)庫中,根據(jù)數(shù)據(jù)子類結(jié)構(gòu)形式構(gòu)成的發(fā)掘數(shù)據(jù)庫的可達范疇與基于屬性間關(guān)系的挖掘知識庫的推理范疇,兩者之間建立等價關(guān)系,這一等價關(guān)系為數(shù)據(jù)庫與知識庫間定向的知識挖掘與知識搜索奠定了理論基礎(chǔ)。進一步可認為,依據(jù)子類結(jié)構(gòu)構(gòu)建的數(shù)據(jù)庫和根據(jù)知識點網(wǎng)絡(luò)構(gòu)建的知識庫邏輯等價。由此可以給出,知識庫中的知識點與數(shù)據(jù)庫中的數(shù)據(jù)子類結(jié)構(gòu)之間存在一一對應(yīng)關(guān)系。這一對應(yīng)關(guān)系打破了傳統(tǒng)數(shù)據(jù)庫的知識發(fā)現(xiàn)的封閉系統(tǒng),使數(shù)據(jù)挖掘從知識庫的高度、從語義關(guān)聯(lián)角度去發(fā)現(xiàn)更深層次的知識,也保證了知識發(fā)現(xiàn)成果直接用于知識服務(wù)。
(2)知識庫中知識點間的映射。知識庫與數(shù)據(jù)庫最本質(zhì)的區(qū)別在于知識庫中記錄有大量規(guī)則,以保證能夠?qū)χR庫進行更深層次的知識挖掘與提煉,這些規(guī)則通常通過能夠反映各知識點之間關(guān)系的二維數(shù)組來表示。因此,從微觀層面考慮知識庫中存儲結(jié)構(gòu)的規(guī)則必須能支持二維數(shù)組的體現(xiàn)。
定義 1:規(guī)則 r[s,d]=(s→d)中的知識結(jié)點 s為規(guī)則 r下的起始知識點,d為規(guī)則r下的目標知識點。
這樣我們最初考慮的一個簡約知識庫的結(jié)構(gòu)如表1所示。
表1 數(shù)組型簡約知識庫的結(jié)構(gòu)
從表1可以看出,每個規(guī)則對應(yīng)一個固定的數(shù)組位置。每當挖掘出或增加一個新的基礎(chǔ)知識時,對其進行簡約分解后,即可確定其在數(shù)組中的位置。對相應(yīng)位置規(guī)則的參數(shù)進行修正即可。顯然,如果建立這樣一個知識庫,完成知識庫的一致性校驗是十分方便的。
知識庫邏輯結(jié)構(gòu)是根據(jù)推理范疇的結(jié)構(gòu)決定的,而范疇是由對象及彼此間的映射關(guān)系決定,所以知識庫的邏輯結(jié)構(gòu)可以由定義1形象地描述成(si→dj)的集合。符號“→”表示知識點之間存在的推理關(guān)系??梢灶A(yù)見:一方面,知識庫中知識點數(shù)目是龐大的,且知識點間的推理關(guān)系的數(shù)目是關(guān)于知識點的冪指數(shù)形式,數(shù)目更是巨大;另一方面,知識庫中的很多規(guī)則是新產(chǎn)生的且為暫時的,這些不能通過既定的基礎(chǔ)知識庫的挖掘獲得。由此來看,定義1的描述方式顯得比較樸素,且用這樣的方式描述知識庫的邏輯結(jié)構(gòu)將會較為復(fù)雜,需要進一步進行優(yōu)化。
表1也反映出,這樣的知識庫存儲在軟件上是很難實現(xiàn)的。首先,這將是一個龐大的數(shù)組。其中的m與n是全體屬性程度詞(語言變量值)的組合問題,有可能造成組合“爆炸”。其次,由于其中的很多規(guī)則暫時的,是不能通過基礎(chǔ)知識或由挖掘產(chǎn)生的知識分解產(chǎn)生的,因此在某種程度上可以將表1看成是一個稀疏矩陣,以數(shù)組的形式存儲將浪費極大的空間。因此,這樣的數(shù)組型簡約知識庫的結(jié)構(gòu)還不完美,但要考慮的知識庫結(jié)構(gòu)應(yīng)相似于該結(jié)構(gòu),同時考慮三個因素:
其一,由用戶根據(jù)自己的需求提出知識庫的主題設(shè)計,不同的主題有一套相互映射的知識子庫。
其二,根據(jù)知識的成熟程度,對各個主題下的知識庫劃分三個層次:基礎(chǔ)知識庫、派生知識庫和臨時知識庫,其中:基礎(chǔ)知識庫:存放用戶感興趣某一主題下成熟的知識,這些知識來源用戶自己輸入或經(jīng)數(shù)據(jù)挖掘后由用戶確認的知識;派生知識庫:同樣存放為用戶針對某一主題感興趣的知識,而這些知識源為挖掘出的用戶認為有一定價值,但不夠成熟的知識;臨時知識庫:存放那些未經(jīng)過用戶識別過的臨時知識。
其三,針對一個主題設(shè)置知識點鏈接表,將現(xiàn)有的起始知識點與目標知識點的組成和語義環(huán)境的關(guān)系記錄下來,形成一幅完整的知識地圖。
知識庫劃分為三個層次后,優(yōu)化了知識庫的結(jié)構(gòu),也縮小了用戶的知識查詢范圍,對于任意一個層次的知識庫邏輯結(jié)構(gòu)更加清晰。知識點鏈接表中各結(jié)點與分解后的規(guī)則保持一致,便于規(guī)則的存儲。并且基礎(chǔ)知識庫與派生知識庫的表示方式直接反映起始知識點與目標知識點的關(guān)系,這在具體實現(xiàn)SQL語言進行推理非常便利。多層次知識庫為進行基于知識庫的知識發(fā)現(xiàn)提供了知識保證。
(3)知識點鏈接的形成。知識庫中知識獲取的一種有效方法:根據(jù)產(chǎn)生式規(guī)則,按逆向推理方式鏈接相關(guān)知識點,在知識庫中形成了一幅完整的知識地圖。從某領(lǐng)域問題的總目標結(jié)點,逐層向下擴展樹的分枝和下層結(jié)點,從中提取規(guī)則知識,從而有效地獲取解決該目標問題的全部規(guī)則知識。產(chǎn)生式規(guī)則的知識表示的特點體現(xiàn)在:一方面,它是基于邏輯推理的演繹推理,這樣保證了推理結(jié)果的正確性;另一方面,大量產(chǎn)生式規(guī)則所連成的知識樹,可以是多棵樹。從樹的寬度看,反映了實際問題的范圍,從樹的深度看,反映了問題的難度。
前文勾勒出知識庫與數(shù)據(jù)庫在知識發(fā)現(xiàn)過程中彼此內(nèi)在結(jié)構(gòu)的對應(yīng),以及適應(yīng)該結(jié)構(gòu)下知識點之間的邏輯關(guān)系,以及前面章節(jié)中所介紹的知識表示方法,這些都是知識發(fā)現(xiàn)的前提和基礎(chǔ)。不同的知識需求所應(yīng)對的知識表示格式也是不同的。對知識庫中的知識需求可以從兩方面著手:面向人類的信息需求與面向機器的信息需求。更確切的說較粗粒度的自然語言表示的知識可以滿足知識問答、知識教學(xué)等方面的需要而較細粒度的基于一階邏輯完全形式化的內(nèi)容滿足機器推理的需要。充分考慮和融入知識表示的多粒度性,并通過粒度概念分析(Granularity Concept Analysis,GCA)評價知識表示的形式是否清楚地反映內(nèi)容實質(zhì),同時考慮到知識表示最大作用是有效地支持知識的推理活動,因此知識表示產(chǎn)生的概念效率與計算效用將是重要評價指標。
(1)粒度概念分析。一個可共享的知識庫應(yīng)該滿足不同背景的用戶對知識的需求,不同的需求對應(yīng)粗細粒度不同的知識表示(見圖3)。為此必然需要有一種評價方法來衡量針對知識庫中知識的粗細粒度的表示,本節(jié)通過粒度概念分析(GCA)對粗細不同粒度知識的挖掘,揭示和呈現(xiàn)領(lǐng)域相關(guān)知識的結(jié)構(gòu)和內(nèi)在聯(lián)系。
圖3 知識庫中知識的多粒度表示體系
如果說關(guān)聯(lián)概念分析(RCA)是在形式概念分析的基礎(chǔ)上著重于在概念橫向關(guān)聯(lián)方面的延伸,那么粒度概念分析(GCA)則強調(diào)在概念縱向細節(jié)方面的拓展。粒度概念分析法的基本指導(dǎo)思想是根據(jù)知識所包含的概念粒度由細到粗對知識從縱向進行迭代。粒度概念分析分兩個過程,第一階段是構(gòu)建粗粒度形式背景,由于形式背景中的要素粒度線條粗闊,在一定程度上減輕了對領(lǐng)域?qū)<业囊蕾?,就像區(qū)分有毒蘑菇和無毒蘑菇(細粒度)往往需要一定的專業(yè)知識,而區(qū)分蘑菇和竹筍(粗粒度)則相對容易得多。由粗粒度形式背景誘導(dǎo)出的知識粗粒度表示除了降低了知識表示的復(fù)雜性,減少了計算量,增強了面向人類信息的可讀性,還能夠很好地把握全局范圍內(nèi)的知識間的語義關(guān)系,在領(lǐng)域全局視角下提供粗粒度概念的相關(guān)信息,并有助于用戶選擇相應(yīng)的高頻關(guān)鍵詞類做進一步深入分析。粒度概念分析法的第二階段就是針對某類高頻關(guān)鍵詞(熱點知識)構(gòu)建細粒度形式背景,即在原粗粒度的知識表示基礎(chǔ)上,進一步細化部分知識點的描述粒度,這部分知識點往往是關(guān)注度比較高或內(nèi)涵比較豐富,通過細粒度的表示更清晰地勾勒出該知識點的內(nèi)涵。由細粒度形式背景誘導(dǎo)的知識細粒度表示在運算量和復(fù)雜程度都將增加,使得機器推理的效率降低,但能夠通過概念間的偏序關(guān)系呈現(xiàn)更多的數(shù)據(jù)細節(jié),從而提高機器推理的準確度,為用戶提供了更加準確的文獻信息。
(2)概念效用。知識的數(shù)量和質(zhì)量決定了知識庫所能提供知識服務(wù)的廣度和深度,以及解決問題的能力。在知識庫內(nèi)的邏輯結(jié)構(gòu)中考慮知識表示方式的概念效用主要體現(xiàn)在兩個方面:一方面,概念的一致性應(yīng)有利于知識庫以自然的方式吸收新知識,新知識的加入與老知識的更新不會引起知識庫結(jié)構(gòu)發(fā)生變化。這樣更有利于知識庫大量吸收并儲備各方面的知識;第二方面,概念的有效性應(yīng)便于機器的知識推理,高效地挖掘出人們所需要的顯性化知識,而這些知識賦予的概念內(nèi)涵又要易于被人們理解。進一步說,面向機器推理的知識包含的概念粒度更細膩,有利于從更深度挖掘數(shù)據(jù),組織成精準度更高的知識;而面向人類的知識包含的概念粒度更粗廣,使得知識的表示更豐富,更具內(nèi)涵。但值得注意的是,不論是面向機器的信息需求還是面向人類的信息需求,知識表示粒度都不能過小或過大,否則將形成不確定性知識,而應(yīng)遵循適度的原則。
(3)計算效用。知識表示的不同粒度是針對知識服務(wù)的需求所確定的,針對知識庫中知識表示的粒度粗細沒有好壞、優(yōu)劣之分,只有是否適應(yīng)知識需求之別。但從響應(yīng)各類知識服務(wù)的能力、對知識庫中的知識推理等角度,就必須提出針對知識表示的計算效用,既能滿足知識表示表達完整的概念內(nèi)涵,又保證適宜的顆粒度組合能支持面向知識服務(wù)的各種推理需要,更關(guān)鍵的是知識之間及知識所包含的概念粒度之間有嚴格的邏輯關(guān)聯(lián),從而鞏固知識庫內(nèi)在邏輯結(jié)構(gòu),為知識推理搭建嚴密的邏輯基礎(chǔ),提高推理結(jié)論的正確性與速度,提升計算效用。
知識表示效用是個兩難的復(fù)雜問題。面向機器的信息需求期望表示知識的概念粒度越細越好,更便于知識推理的準確性,但在提高概念效用的同時,降低了計算效用,即機器推理的效果提升了,效率降低了。面向人類的信息需求則知識的粒度要稍微大點,能呈現(xiàn)出豐富的語義,便于我們能檢索獲得準確的且能理解的知識,從計算效用的角度能保證推理的效率,卻不能保證推理的精準度,粒度的增大,知識間的邏輯關(guān)系將更加復(fù)雜,降低了知識表示的概念效用。概念效用與計算效用這兩個方面是相互制約的,往往提高一個方面的效用將犧牲另一個方面的效用。
兩難問題的瓶頸在于對知識源的技術(shù)性的基礎(chǔ)處理——數(shù)據(jù)清洗。
知識庫從數(shù)據(jù)的輸入到知識的輸出,最終目的是為知識服務(wù)提供滿足應(yīng)用所要求的合適的查詢結(jié)果,數(shù)據(jù)是信息的基礎(chǔ),數(shù)據(jù)質(zhì)量決定了信息的價值,信息價值又是知識價值的保障,而數(shù)據(jù)質(zhì)量問題是由非清潔數(shù)據(jù)引起的。為此,完整的知識庫邏輯結(jié)構(gòu)勢必對知識庫內(nèi)如何進行數(shù)據(jù)清洗考慮在其中。
(1)知識庫中數(shù)據(jù)清洗的范疇與方法。數(shù)據(jù)清洗(Data Cleaning)的范疇在微觀層面分為單數(shù)據(jù)源、多數(shù)據(jù)源,分別體現(xiàn)在模式層和實例層上。單數(shù)據(jù)源的問題集中體現(xiàn)在拼寫錯誤的數(shù)據(jù)、相似重復(fù)數(shù)據(jù)及非關(guān)聯(lián)數(shù)據(jù)(孤立數(shù)據(jù))等;多數(shù)據(jù)源的問題則反映在時間的不一致、粒度不一致(見圖4)。
針對知識庫中的非清潔數(shù)據(jù)(Dirty Data),從模式層的非清潔數(shù)據(jù)與實例層的非清潔數(shù)據(jù)分別提出了一些針對性的方法(見表2)。模式層針對知識庫設(shè)計過程的數(shù)據(jù)結(jié)構(gòu)的缺陷,如缺乏完整性約束的設(shè)計;實例層關(guān)注數(shù)據(jù)內(nèi)容的問題,如數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)等。
以表3所示的一個非清潔數(shù)據(jù)的片段為例,不難判斷:不完整的數(shù)據(jù)有:(ID:3、字段:歸屬城市)“NJ”;錯誤數(shù)據(jù)有:(ID:6、字段:超市名稱)“Mal-Mart”;重復(fù)數(shù)據(jù):(ID:1、3、6)表示同一個實體。
進一步分析可以發(fā)現(xiàn) (ID:4、字段:超市名稱)“Walmart”雖然不存在拼寫錯誤(該非清潔數(shù)據(jù)不是由單數(shù)據(jù)源導(dǎo)致的實例層錯誤),但表示方式與其他的“Wal-Mart”并不一致,還有(字段:商品編碼)與(字段:聯(lián)系電話)的表示也不一致,這些不一致究其原因是多數(shù)據(jù)源導(dǎo)致的數(shù)據(jù)結(jié)構(gòu)問題,但是這些非清潔數(shù)據(jù)閱讀者容易理解,可機器很難“理解”,這個問題回到了上一節(jié)4.2節(jié)中知識粒度表示的概念效用與計算效用的博弈。
圖4 數(shù)據(jù)清洗的范疇
表2 非清潔數(shù)據(jù)的分類及清洗方法
表3 非清潔數(shù)據(jù)的片段示例
這引發(fā)了另一個深層問題,對于非清潔數(shù)據(jù),是否需要徹底清洗?如果由機器進行更細膩的數(shù)據(jù)清洗,必然將出現(xiàn)數(shù)據(jù)蘊含的一部分知識丟失或失真,并且?guī)頇C器計算上的負擔。因此,數(shù)據(jù)清洗是必要的,但清洗過后,依然存在非清潔數(shù)據(jù)也是必然的。非清潔數(shù)據(jù)的辨識與清洗很難保證知識庫完全不具有非清潔數(shù)據(jù)。為此,需要容忍非清潔數(shù)據(jù)的存在,更要研究如何從包含非清潔數(shù)據(jù)的知識庫中得到滿足應(yīng)用所要求清潔度的查詢結(jié)果。
(2)非清潔數(shù)據(jù)的清潔度機制。清潔度反應(yīng)的是數(shù)據(jù)質(zhì)量的情況,清潔度可以用一種是概率的方法描述,即用非清潔數(shù)據(jù)片段中的元組的準確概率表述。如表3中,可以判斷ID為1、3和6表示同一個實體,因此,可以合并這3條數(shù)據(jù)片段,根據(jù)這個數(shù)據(jù)片段只能判斷 “超市名稱”取值更可能為 “Wal-Mart”,但機器無法完全排除“Mal-Mart”的可能性,為了描述每個可能取值的質(zhì)量,賦予每個值一個概率值,表示該值的清潔度。如“Wal-Mart”在同一個實體 (ID為1、3和6)3條數(shù)據(jù)片段中出現(xiàn)了2次,則清潔度為2/3,如表4所示。
表4 清潔度表示示例
在實際應(yīng)用中,數(shù)據(jù)片段的清潔度可以通過人工或者自動的方法獲取,考慮到隨著操作的進行數(shù)據(jù)清潔度是遞減的,因此根據(jù)查詢的需求,在操作執(zhí)行的過程中某些環(huán)節(jié)需要過濾掉清潔度不可能滿足查詢要求的中間結(jié)果,這樣可以減小中間結(jié)果的數(shù)據(jù)量,從而加速查詢的處理。例如,對于如果查詢要求結(jié)果中每條數(shù)據(jù)片段的清潔度在0.6以上,則在查詢處理的過程中可以過濾掉清潔度小于0.6的中間結(jié)果,因為由這些中間結(jié)果生成最終結(jié)果的清潔度一定小于0.6。
(3)基于閾值的相似連接算法。相似連接是在兩個元組集合中選擇出滿足相似性下界(閾值)的元組對。上文中概述了非清潔數(shù)據(jù)的分類及清洗方法,本節(jié)基于編輯距離的相似連接,對于給定的兩個字符串r和s,r和s的編輯距離ed(r,s)是指從r變?yōu)閟所需要的最少的編輯操作(包括:刪除、插入和替換)次數(shù)。如表 4中,ed(Wal-Mart,Mal-Mart)=1,ed(025-83786382,83786382)=4。 給出相似連接算法的定義。
定義1:相似連接。給定兩個屬性值集合R和S及編輯距離閾值k,R和S的相似連接是指選出所有的屬性值組合(r,s),其中 r∈R,s∈S,而且 r和 s 滿足至少存在一組可能取值 r和 s。 它們的編輯距離 ed(r,s)≤k。
以下表5為例,給出兩個集合R和S。若給定編輯距離閾值 k 為 3,則對應(yīng)相似連接結(jié)果僅為(r,s)與(r,s),因為 ed(Wal-Mart,Mal-Mart)=1≤3,ed(Jerry Strauss,Jerry Strauss)=0≤3。 其余相似連接中(r,s)、(r,s)顯然其編輯距離均超過閾值3,表6給出了對應(yīng)的連接結(jié)果。
表5 集合R和S
表6 集合R和S的相似連接結(jié)果
其中,第二條元組(ID=2),ed (Jerry Smith,Jerry Strauss)>3、ed(Jerry Smith,Jeff Strauss)>3,故第二條元組對應(yīng)清潔度為1/5*2/5+1/5*3/5=0.2。進一步給出基于閾值的相似連接算法的定義
定義2:基于閾值的相似連接。給定兩個屬性值集合R和S及編輯距離閾值k和清潔度閾值α,R和S的閾值相似連接是指選出所有的屬性值組合 (r,s),其中r∈R,s∈S,而且r和s連接結(jié)果的清潔度不低于α。
上例中,如果清潔度閾值α設(shè)為0.3,表5中兩個集合 R 和 S 的閾值的相似連接結(jié)果不再是(r,s)與(r,s),因為第二條元組對應(yīng)清潔度為1/5*2/5+1/5*3/5=0.2,該結(jié)果不滿足清潔度閾值要求。基于閾值的相似連接算法的特點是當編輯距離閾值k較大且清潔度閾值較小時,連接結(jié)果大小將接近于n(n是連接集合的大小),反之連接結(jié)果集比較大。
知識庫邏輯結(jié)構(gòu)直接決定著知識庫進行知識組織的模式,支撐著從傳統(tǒng)文獻服務(wù)到如今知識服務(wù)的轉(zhuǎn)變與升級。當前,知識服務(wù)還在面臨著大數(shù)據(jù)時代下日益膨脹的信息與紛繁錯亂的各類數(shù)據(jù),對知識庫的依賴更加緊密,迫切需要知識庫篩選出精確的數(shù)據(jù),進行嚴密且快速的知識推理,提供高效且準確的知識。本文梳理了知識服務(wù)、知識組織與知識庫的關(guān)系,并以知識服務(wù)為目標,構(gòu)建了知識庫的內(nèi)在邏輯結(jié)構(gòu)模型,順應(yīng)了知識經(jīng)濟的發(fā)展需求,但在實際構(gòu)建中仍有許多問題有待進一步研究解決,如知識庫與數(shù)據(jù)庫雙庫協(xié)同影響著知識的表示粒度、數(shù)據(jù)清洗影響著知識間的關(guān)聯(lián)等一系列問題都牽連著知識點之間的邏輯關(guān)聯(lián),從而帶動著知識庫內(nèi)在邏輯結(jié)構(gòu)模型。這些都有待在具體實施過程中進一步探索。
[1]鐘秀琴,劉忠,丁盤蘋.基于混合推理的知識庫的構(gòu)建及其應(yīng)用研究[J].計算機學(xué)報,2012,35(4):761-766.
[2]楊炳儒,宋威,徐章艷.基于知識發(fā)現(xiàn)創(chuàng)新技術(shù)的專家系統(tǒng)新構(gòu)造[J].中國科學(xué):信息科學(xué),2007,37(6):738-747.
[3]王知津,王璇,馬靖.論知識組織的十大原則[J].國家圖書館學(xué)刊,2012,(4):3-11.
[4]賴茂生,屈鵬,謝靜.知識組織最新研究與實踐進展[J].圖書情報工作,2009,(2):19-23.
[5]賀德方.國內(nèi)外知識組織體系的研究進展及應(yīng)對策略[J].情報學(xué)報,2010,(6):963-972.
[6]王軍,張麗.網(wǎng)絡(luò)知識組織系統(tǒng)的研究現(xiàn)狀和發(fā)展趨勢[J].中國圖書館學(xué)報,2008,(1):65-69.
[7]畢強,韓毅,劉昆.知識服務(wù)——現(xiàn)狀、進展及挑戰(zhàn)[J].中國圖書館學(xué)報,2007,(6):41-50.
[8]董慧,徐雷.基于本體知識表示的歷史領(lǐng)域?qū)<蚁到y(tǒng)模型[J].現(xiàn)代圖書情報技術(shù),2010,(7):72-78.
[9]王曰芬,熊銘輝,吳鵬.面向個性化服務(wù)的知識研究[J].情報理論與實踐,2008,(1):7-11.
[10]李廣建,李亞子.基于分布式知識庫的開放服務(wù)鏈接系統(tǒng)設(shè)計與實現(xiàn)[J].情報學(xué)報,2008,(2):244-249.
[11]宗南蘇,鄭業(yè)魯,錢平.基于SWRL的鱖魚疾病診斷知識表示與語義推理實現(xiàn)[J].情報學(xué)報,2010,(3):414-421.
[12]黃海松,謝慶生,李少波.基于知識的中藥制造企業(yè)MES[J].系統(tǒng)工程理論與實踐,2012,(1):164-172.
[13]孫勇,李妮,龔光紅.基于知識庫的動態(tài)蟻群算法[J].北京工業(yè)大學(xué)學(xué)報,2012,(3):374-379.
[14]Gail Hodge,Linda Hill,et al.Next generation knowledge organization systems:Integration challenges and strategies[C].Proceedings of the 5th ACM/IEEE-CS joint conference on Digital libraries,ACM New York,NY,USA 2005.
[15]Ed Summers,Antoine Isaac,Clay Redding and Dan Krech.LCSH,SKOS and linked data[C].Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications(DCMI'08).Dublin Core Metada ta Initiative,2008:25-33.
[16]Simon Jupp,Sean Bechhofer,Robert Stevens.A flexible API and editor for SKOS[C].6th Annual European Semantic Web Conference(ESWC2009),2009:506-520.
[17]張曉林,張冬榮,李麟,等.機構(gòu)知識庫內(nèi)容保存于傳播權(quán)利管理[J].中國圖書館學(xué)報,2012,(4):46-54.
[18]張旺強、祝忠明,盧利農(nóng).機構(gòu)知識庫集成OpenKOS主題標引與檢索聚類服務(wù)的實現(xiàn)及應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2012(3):1-7.
[19]王宏志,李建中,高宏.一種非清潔數(shù)據(jù)庫的數(shù)據(jù)模型[J].軟件學(xué)報,2012,23(3):539-548.
[20]張巖,楊龍,王宏志.劣質(zhì)數(shù)據(jù)庫上閾值相似連接結(jié)果大小估計[J].計算機學(xué)報,2012,35(10):2159-2168.