李 偉 趙衛(wèi)利 劉冠群 曹忠民
〔摘 要〕知識服務(wù)作為面向內(nèi)容的增值服務(wù),需要對知識進(jìn)行系統(tǒng)化、綜合化、深入化地加工、組織和處理。知識庫和知識發(fā)現(xiàn)是知識服務(wù)的關(guān)鍵技術(shù),在知識服務(wù)活動中發(fā)揮著重要作用。本文通過對知識庫和知識發(fā)現(xiàn)的探討,特別是知識發(fā)現(xiàn)在知識庫中應(yīng)用的研究,對其在知識服務(wù)中所發(fā)揮的作用進(jìn)行了闡述。
〔關(guān)鍵詞〕知識服務(wù);知識庫;知識發(fā)現(xiàn)
〔中圖分類號〕G250 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)07-0180-03
The Application of Knowledge Base and Knowledge
Discovery Technology in Knowledge ServiceLi Wei Zhao Weili Liu Guanqun Cao Zhongmin
(Library,Hebei University of Scientific and Technical,Shijiazhuang 050018,China)
〔Abstract〕Knowledge service,as a service-oriented content and value-added service,needs to carry out systematic,comprehensive,in-depth processing,and handling for service.Knowledge base and Knowledge discovery,which play an important role in the knowledge service activities,are the key technology of knowledge service.Through the discussion on knowledge base and knowledge discover,especially knowledge discover in the application of the knowledge base,the role of knowledge base and knowledge discover was described.
〔Key words〕knowledge services;knowledge base;knowledge discovery
作為重要的生產(chǎn)要素,知識存在于人們的頭腦中,并通過一定的方式向外界進(jìn)行表達(dá)。在傳播和分享的過程中,知識得到了擴散和增值。知識服務(wù)通過對知識的組織,使知識成為生產(chǎn)力的放大器,而知識庫和知識發(fā)現(xiàn)技術(shù)則是知識服務(wù)中所使用的關(guān)鍵技術(shù)。
1 知識與知識服務(wù)
知識是信息的內(nèi)容,它揭示了事物的規(guī)律。知識分為陳述性知識和過程性知識兩大類。陳述性知識是知識的描述表達(dá);過程性知識是說明性的,并使用陳述知識以確定動作[1]。
知識服務(wù)是指向用戶提供知識信息、知識挖掘手段及問題解決方案的服務(wù)。知識服務(wù)是為了適應(yīng)知識經(jīng)濟(jì)的發(fā)展和知識創(chuàng)新的需要,以解決用戶問題方案為直接目標(biāo),通過對用戶知識的需求和問題環(huán)境的分析,向用戶提供經(jīng)過智能化處理的符合用戶需求的知識產(chǎn)品[2]。
2 知識服務(wù)與知識庫
作為面向內(nèi)容的增值服務(wù),知識服務(wù)需要通過對原有信息和知識的系統(tǒng)化、綜合化、深入化,如何構(gòu)建集成化、智能化的知識庫以產(chǎn)生針對性和適用性更強的再生知識,以滿足用戶對知識服務(wù)的需求是知識服務(wù)體系研究中的重要課題。
知識庫是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。作為一種開發(fā)工具與環(huán)境,知識庫為用戶開發(fā)基于知識的系統(tǒng)提供支撐。知識庫系統(tǒng)具有下列特點:
(1)應(yīng)具有支持?jǐn)?shù)據(jù)庫的全部功能,包括對大批量數(shù)據(jù)的高效存取以及數(shù)據(jù)共享、數(shù)據(jù)的安全性、并發(fā)控制、故障恢復(fù)等功能。
(2)應(yīng)具有存取知識、管理知識的功能。
(3)知識庫系統(tǒng)的核心部分是一個推理機構(gòu),它完成對知識的處理。
(4)一般以關(guān)系數(shù)據(jù)庫管理系統(tǒng)為基礎(chǔ),外加一個規(guī)則庫與推理層,組成一個知識庫系統(tǒng)。
(5)一個知識庫系統(tǒng)一般應(yīng)能存儲與管理適量的事實與規(guī)則[3]。
知識庫系統(tǒng)的核心組成部分是知識庫和推理機構(gòu)。知識庫是以一致的形式存貯知識的機構(gòu),推理機構(gòu)則是為了使用知識庫藏內(nèi)的知識執(zhí)行推理的控制機構(gòu)。
3 知識發(fā)現(xiàn)
知識發(fā)現(xiàn),又稱數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)是從大量原始數(shù)據(jù)中挖掘出隱含的、有用的、尚未發(fā)現(xiàn)的信息和知識。Fayyad將數(shù)據(jù)庫知識發(fā)現(xiàn)定義為“KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。[4]”
數(shù)據(jù)庫知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出可信的、有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程?!皵?shù)據(jù)挖掘”是數(shù)據(jù)庫知識發(fā)現(xiàn)中專門負(fù)責(zé)發(fā)現(xiàn)知識的核心環(huán)節(jié),“數(shù)據(jù)庫知識發(fā)現(xiàn)”是一個交互式、循環(huán)反復(fù)的整體過程,除了包括數(shù)據(jù)挖掘外,還包括數(shù)據(jù)準(zhǔn)備和發(fā)現(xiàn)的結(jié)果解釋、評估等諸多環(huán)節(jié)[5]。
知識發(fā)現(xiàn)的技術(shù)基礎(chǔ)是統(tǒng)計學(xué)與人工智能。其特點是能對原有的數(shù)據(jù)進(jìn)行高度自動分析,歸納推理,從中挖掘出潛在的模式,預(yù)測用戶的行為,幫助決策者調(diào)整策略,做出正確的決策。知識發(fā)現(xiàn)的主要技術(shù)手段是統(tǒng)計方法,包括數(shù)理統(tǒng)計、多元統(tǒng)計方法、計量經(jīng)濟(jì)學(xué)和時間序列分析方法等。
3.1 知識發(fā)現(xiàn)的任務(wù)
知識發(fā)現(xiàn)是從數(shù)據(jù)集中抽取新的模式。知識發(fā)現(xiàn)的結(jié)果可以表示成為各種形式,包括規(guī)則、法則、科學(xué)規(guī)律、方程或概念網(wǎng)等。知識發(fā)現(xiàn)的任務(wù)包括數(shù)據(jù)總結(jié)、概念描述、分類、聚類、相關(guān)性分析、偏差分析。
3.2 知識發(fā)現(xiàn)的對象[6]
知識發(fā)現(xiàn)的范圍非常廣泛,涉及科學(xué)研究、社會科學(xué)、衛(wèi)星觀測以及商業(yè)數(shù)據(jù)等方方面面,數(shù)據(jù)結(jié)構(gòu)也各不相同,有層次的、網(wǎng)狀的、關(guān)系的和面向?qū)ο蟮臄?shù)據(jù)。知識發(fā)現(xiàn)的對象,主要包括數(shù)據(jù)庫、文本和Web信息。
3.2.1 數(shù)據(jù)庫
數(shù)據(jù)庫知識發(fā)現(xiàn)是在關(guān)系數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。
數(shù)據(jù)挖掘的基本目標(biāo)是預(yù)測和描述。預(yù)測性數(shù)據(jù)挖掘生成已知數(shù)據(jù)集所描述的系統(tǒng)模型。描述性數(shù)據(jù)挖掘是在可用數(shù)據(jù)集的基礎(chǔ)上生成新的、非同尋常的信息。根據(jù)挖掘目標(biāo)的不同,數(shù)據(jù)挖掘的任務(wù)分為分類、回歸、聚類、總結(jié)概括、關(guān)聯(lián)建模、變化和偏差檢測[30]。
3.2.2 文本
文本分析是知識發(fā)現(xiàn)對文本數(shù)據(jù)進(jìn)行挖掘的手段。文本分析的基本過程包括:語種識別、特征提取、聚類和分類。
語種識別工具用于自動發(fā)現(xiàn)文本使用的語種,根據(jù)不同的語種自動組織索引數(shù)據(jù),不同的語種有不同的查詢結(jié)果,并能將文本提交給文本翻譯器。
特征提取主要是識別文本中詞項的意義。特征識別工具在分析文本時一般采取兩種模式:一種是單獨分析該文本;另一種是先根據(jù)其他相似的文本自動建立一個詞典,然后在該文本中尋找詞典中出現(xiàn)的詞項。
聚類是將一個文本集合分成幾組的過程。聚類可以描述整個文本集的內(nèi)容,找到其中隱含的相似關(guān)系,從而更容易找到相似或相關(guān)的信息。
分類工具可將文本分配到已存在的類中。分類工具的使用降低分類人員的工作強度,通過自動組織,把文本分配到相應(yīng)的主題,使之容易瀏覽、查詢。分類是數(shù)據(jù)組織的有效手段。
3.2.3 Web信息
Web信息挖掘技術(shù)是根據(jù)面向Internet的分布式信息資源的特點的一種模式抽取過程,它不僅能查找到分布式信息資源中已存在的信息,還能識別出大量存在于數(shù)據(jù)中的隱含的、有效的規(guī)律。
3.3 數(shù)據(jù)挖掘任務(wù)的分類
數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)的核心部分。根據(jù)挖掘任務(wù)的不同,可分為分類知識發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常發(fā)現(xiàn)和趨勢預(yù)測等。
分類知識發(fā)現(xiàn)是數(shù)據(jù)挖掘中最常見的任務(wù),其目的在于根據(jù)樣本數(shù)據(jù)尋求相應(yīng)的分類規(guī)則,然后根據(jù)獲得的規(guī)則來確定某一非樣本個體或?qū)ο笫欠駥儆谀骋惶囟ǖ慕M或類。
數(shù)據(jù)聚類是用于發(fā)現(xiàn)在數(shù)據(jù)庫中未知的數(shù)據(jù)類。
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是在數(shù)據(jù)庫中尋找數(shù)據(jù)對象間的關(guān)聯(lián)模式。
數(shù)據(jù)總結(jié)是將數(shù)據(jù)庫中的大量相關(guān)數(shù)據(jù)從較低概念層次抽象到較高概念層次的過程。
序列模式發(fā)現(xiàn)是在數(shù)據(jù)庫中尋找基于一段時間區(qū)間的關(guān)聯(lián)模式。
依賴關(guān)系或依賴模型發(fā)現(xiàn)是通過對數(shù)據(jù)庫中數(shù)據(jù)的分析,獲取數(shù)據(jù)間的某種因果聯(lián)系。
異常發(fā)現(xiàn)用于在數(shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)中存在的偏差或異常。
趨勢預(yù)測是根據(jù)數(shù)據(jù)庫中的歷史信息對未來信息做出估計[7]。
4 知識發(fā)現(xiàn)在知識庫系統(tǒng)中的應(yīng)用
4.1 知識發(fā)現(xiàn)在知識庫系統(tǒng)構(gòu)建中的應(yīng)用
知識發(fā)現(xiàn)作為發(fā)現(xiàn)知識的完整過程,可分為數(shù)據(jù)準(zhǔn)備(Data Preparation)、數(shù)據(jù)挖掘(Data Mining)、挖掘結(jié)果的解釋與評估(Interpretation and Evaluation)3個階段。其中,數(shù)據(jù)準(zhǔn)備階段就是知識儲備和知識組織的過程。
數(shù)據(jù)準(zhǔn)備階段的工作包括四個方面的內(nèi)容;數(shù)據(jù)的凈化、數(shù)據(jù)的集成、數(shù)據(jù)的應(yīng)用變換和數(shù)據(jù)的精簡。在數(shù)據(jù)準(zhǔn)備階段,通過對數(shù)據(jù)的修正和縮減,使知識庫中的知識得以優(yōu)化,以提高知識服務(wù)的效率和質(zhì)量;通過數(shù)據(jù)的轉(zhuǎn)換、標(biāo)引,實現(xiàn)隱性知識到顯性知識的轉(zhuǎn)變。對于文本和Web知識,只有通過數(shù)據(jù)準(zhǔn)備,才能在知識庫系統(tǒng)中加以使用。
在數(shù)據(jù)挖掘階段,通過使用分類、聚類、相關(guān)性分析等智能模式,進(jìn)行知識分組,抽取數(shù)據(jù)模式,確定數(shù)據(jù)記錄結(jié)構(gòu)、數(shù)據(jù)存儲方式和不同數(shù)據(jù)表之間的數(shù)據(jù)關(guān)聯(lián)關(guān)系。
4.2 知識發(fā)現(xiàn)在知識推理中的應(yīng)用
知識庫系統(tǒng)通過對知識的組織,使知識在具體的運用環(huán)境中產(chǎn)生價值。作為知識發(fā)現(xiàn)的核心部分,數(shù)據(jù)挖掘通過在知識庫推理機構(gòu)中的運用,獲取數(shù)據(jù)模式,根據(jù)某種興趣度程度,識別知識的真正有趣部分,并向用戶描述挖掘出來的知識。
例如,通過數(shù)據(jù)分類區(qū)分不同樣本的類別歸屬;通過關(guān)聯(lián)規(guī)則發(fā)現(xiàn),根據(jù)數(shù)據(jù)對象之間關(guān)聯(lián)模式,從某一知識點作為入口,獲取與樣本有共同表征的知識;通過序列模式和趨勢預(yù)測分析,進(jìn)行歸納和估計。
5 結(jié)束語
作為知識服務(wù)活動中的關(guān)鍵技術(shù),知識庫和知識發(fā)現(xiàn)技術(shù)通過對數(shù)據(jù)的凈化、優(yōu)化、縮減,以及數(shù)據(jù)關(guān)聯(lián)模式的分析,實現(xiàn)對知識的有效組織,并通過對知識庫中知識的推理,向用戶提供感興趣的知識和知識模式,實現(xiàn)知識的增值服務(wù)。通過知識的增值服務(wù),實現(xiàn)知識創(chuàng)新是知識服務(wù)的根本目的所在。
參考文獻(xiàn)
[1]溫有奎,等.知識元挖掘[M].西安:西安電子科技大學(xué)出版社,2005-04:22.
[2]黎艷.信息服務(wù)向知識服務(wù)轉(zhuǎn)變的探析[J].圖書摘報工作,2003,(2):32-34.
[3]徐潔磐,王銀根,劉友華.知識庫系統(tǒng)的研究與應(yīng)用[J].微型計算機,1995,15(2):9-11.
[4]Fayyad U,Piatesky-Shapiro,Smyth,Uthurusamy.Advance in Knowledge Discovery and Data Mining.MIT Press,1996:1-10.
[5]Michalski RS,Kaufman K A.Data Mining and Knowledge Discovery:A Review of Issues and a Multistrategy Approach,Machine Learning and Data Mining Methods and Applications.New York:John & Sons Ltd,92-107.
[6]史忠植.知識發(fā)現(xiàn)[M].北京:清華大學(xué)出版社,2002:312-316.
[7]Mehmed Kantardzic.Data Mining Concepts,Models,Methods,and Algorithms.New York:IEEE Press,2002:1-14.