高國偉 王亞杰 李永先
[摘要]隨著數(shù)據(jù)和信息的日益增長,找到恰當(dāng)?shù)闹R(shí)已成為真正的挑戰(zhàn)和急待解決的任務(wù)。如何表示知識(shí)元?jiǎng)t是實(shí)現(xiàn)知識(shí)檢索的關(guān)鍵問題,這一問題一直困擾著人們從數(shù)據(jù)檢索、信息檢索向知識(shí)檢索跨越。本文在對(duì)現(xiàn)有知識(shí)元表示研究評(píng)述的基礎(chǔ)上,提出了“概念、關(guān)系、問題”三元組的知識(shí)元表示方法,介紹了該方法的特點(diǎn),并分別對(duì)概念、關(guān)系、問題表示進(jìn)行了形式化描述,最后通過應(yīng)用實(shí)例證明了該表示方法的有效性和實(shí)用性。
[關(guān)鍵詞]知識(shí)檢索;知識(shí)元;知識(shí)元表示;知識(shí)庫
DOI:10.3969/j.issn.1038-0821.2015.03.003
[中圖分類號(hào)]G302 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2015)03-0015-04
知識(shí)元的表示是一個(gè)符號(hào)化和形式化的過程,如何構(gòu)建相應(yīng)的知識(shí)元形式化描述方法和知操作方法是實(shí)現(xiàn)知識(shí)檢索的關(guān)鍵問題。隨著知識(shí)管理領(lǐng)域的不斷發(fā)展,眾多學(xué)者提出不同的知識(shí)元表示方法,并在知識(shí)元研究領(lǐng)域取得了一定進(jìn)展。文獻(xiàn)[2]提出用樹結(jié)構(gòu)來組織和表示知識(shí)元;文獻(xiàn)[3]采用了框架表示法,利用二元組標(biāo)記知識(shí)元;文獻(xiàn)[4]采用面向?qū)ο蠓?,利用三元組表示數(shù)值型知識(shí)元的結(jié)構(gòu);文獻(xiàn)[5]采用基于本體的知識(shí)表示方法建立文本知識(shí)元的抽取實(shí)驗(yàn)提出了四層知識(shí)元模型;文獻(xiàn)[6]采用謂詞邏輯表示法,利用五元組來表示知識(shí)元的結(jié)構(gòu);文獻(xiàn)[7]采用產(chǎn)生式表示法,利用六元組表示數(shù)值型知識(shí)元;文獻(xiàn)[8-9]定義了一個(gè)七元組知識(shí)元模型:KE:=(id,T,CT,st,tc,title,did);文獻(xiàn)[10]抽象地給出了一系列關(guān)于模型和知識(shí)的概念,進(jìn)而提出了模型知識(shí)元的概念;文獻(xiàn)[11]給出面向非常規(guī)突發(fā)事件演化分析的知識(shí)元表示模型;文獻(xiàn)[12]通過不同層次模型參數(shù)與知識(shí)元屬性之間的映射,實(shí)現(xiàn)通過模型組合網(wǎng)絡(luò)進(jìn)行模型組合。
以上研究為知識(shí)元表示方法提供了很好的研究思路和方法,但仍存在以下問題:(1)二元組、三元組表示方法局限于文本知識(shí)元的表示及建構(gòu),僅側(cè)重于對(duì)知識(shí)元客體的描述,忽略了對(duì)知識(shí)元之間關(guān)系的表達(dá);(2)四元組、六元組、七元組的表示方法,使得知識(shí)元的結(jié)構(gòu)化程度日益增高的同時(shí),表達(dá)方式顯得冗長,知識(shí)元之間關(guān)系的描述工作量大,造成推理不完備的隱患;也增加了計(jì)算機(jī)對(duì)自然語言處理的難度,造成在實(shí)際的中文文本知識(shí)元抽取過程中,計(jì)算機(jī)對(duì)語義內(nèi)容的誤解,使得知識(shí)元抽取的準(zhǔn)確率下降,造成文本結(jié)構(gòu)的破壞。
本文借鑒本體論和認(rèn)識(shí)論,從客觀知識(shí)世界本原角度出發(fā),從實(shí)體和關(guān)系層面約束知識(shí)元,進(jìn)而對(duì)這些約束的知識(shí)元進(jìn)行分析,在模型知識(shí)元的基礎(chǔ)上,進(jìn)行相應(yīng)擴(kuò)展,提出了“概念、關(guān)系、問題”的知識(shí)元表示方法。該表示方法主要揭示了知識(shí)元屬性間約束,以及知識(shí)元之間的關(guān)系,對(duì)知識(shí)元的粒度性做出形式化的描述,從根本上提高了計(jì)算機(jī)對(duì)文本知識(shí)元抽取的準(zhǔn)確率。endprint