房健,趙彥明
(河北民族師范學院數(shù)學與計算機系,河北承德067000)
一種語義信息網(wǎng)中構(gòu)建最大相關(guān)本體圖的新算法
房健,趙彥明
(河北民族師范學院數(shù)學與計算機系,河北承德067000)
表示和管理海量語義信息中所隱含領(lǐng)域知識的方法是制約數(shù)據(jù)挖掘技術(shù)發(fā)展和信息系統(tǒng)研發(fā)的核心問題。通過分析本體圖語義項特征和語義項之間的相關(guān)性對知識表示的影響,提出一種評價語義項重要度的新標準,建立一套度量語義項之間相關(guān)性的新策略,進而提出從語義信息網(wǎng)中構(gòu)建最大相關(guān)本體圖的新算法,運用此算法生成的本體圖能夠更加準確地表示領(lǐng)域知識,并且最小化本體生成過程中的人為交互。
語義項;最大相關(guān)性;本體圖;算法
使用本體(Ontology)[1]來學習語義網(wǎng)頁信息中隱含的領(lǐng)域知識起源于本世紀初。2001年,Karlsruhe大學的Maedche和Staab提出了一個構(gòu)建領(lǐng)域本體的半自動框架構(gòu)想[2],此框架構(gòu)想在理論層面上描述了如何導入、提取、剪枝、提純、以及評價領(lǐng)域本體。在Maedche和Staab工作的指引下,三種具有代表性的領(lǐng)域本體生成引擎被相繼提出,它們分別是:Protégé[3],Nto-Edit[4]和Onto-Builder[5]。然而,這些本體生成過程中的人為交互給領(lǐng)域本體的生成帶來運行時間過長的問題。為此,香港理工大學James教授于2008年首次提出了采用歸納學習的方式自動學習和構(gòu)建領(lǐng)域本體的觀點,并且以文章本體(Article-ontology),話題本體(Topic-ontology),以及詞典本體(Lexicon-ontology)相結(jié)合的方式來表示領(lǐng)域知識,最終所提取到的本體被視為是領(lǐng)域本體圖的雛形。2009年,James教授給出了領(lǐng)域本體圖的完整定義,較之已有的領(lǐng)域本體提取的方法,本體圖中的語義項是在通過對大量的語義網(wǎng)頁數(shù)據(jù)學習的基礎(chǔ)之上、采用統(tǒng)計詞頻的方法[6]提取到的,并且詳細地描述了兩兩語義項之間的相關(guān)程度以及相關(guān)的性質(zhì)。目前,James教授在其最新著作中,通過大量的仿真實驗驗證和證實了本體圖在語義網(wǎng)頁文本分類應(yīng)用中的優(yōu)良表現(xiàn),并詳細介紹了領(lǐng)域本體圖在商業(yè)應(yīng)用中所取得的巨大突破。然而,基于詞頻統(tǒng)計以及線性相關(guān)度量構(gòu)建的本體圖尚有改進和更新的余地,即通過重要度進行語義項提取以及采用更一般的相關(guān)度量標準衡量語義項之間的相關(guān),從而進一步提高和增強領(lǐng)域本體圖的準確度和應(yīng)用范圍。
目前,通過本體圖來表示領(lǐng)域知識以及構(gòu)建信息系統(tǒng)是解決海量信息管理問題的重要途徑。對基于本體圖的知識信息系統(tǒng)的構(gòu)建主要采用通過詞頻統(tǒng)計的方法從語義網(wǎng)中提取高頻語義項(Semantic term)、利用線性相關(guān)度量標準來衡量語義項之間的相關(guān)程度,在領(lǐng)域本體抽取的過程中通常也是通過人為交互的方法來實現(xiàn)的。這類方法在某些領(lǐng)域內(nèi)有較好表示,但存在一定欠缺:(1)在傳統(tǒng)的本體圖生成策略中,主要通過計算各語義項在網(wǎng)頁文本信息中出現(xiàn)的頻率從而挑選出高頻語義項作為本體圖的頂點,雖然依據(jù)此策略挑選的高頻語義項在知識表示時具有一定的代表性,然而,統(tǒng)計詞頻的方式卻忽略了各語義項與網(wǎng)頁文本信息主題(Topic)之間的關(guān)系。因此,網(wǎng)頁的類別有時往往由那些沒有被提取到的低頻語義項所決定;(2)傳統(tǒng)的本體圖生成過程僅采用線性相關(guān)度量兩個語義項之間的相互關(guān)系,而事實上在眾多的實際應(yīng)用中,相關(guān)通常存在于多個語義項之間,并且它們之間的相關(guān)亦多為非線性的;(3)在領(lǐng)域本體圖生成的過程中,過多的人為交互需要大量的運行時間,這意味著所生成的本體圖將不能夠準確地表示領(lǐng)域知識,并且構(gòu)建的知識信息系統(tǒng)也不能為用戶提供即時有效地在線服務(wù)。因此,如何利用本體圖準確地表示語義信息中所隱含的領(lǐng)域知識、并有效地降低或減少本體圖生成過程中的人為交互勢必成為語義網(wǎng)頁數(shù)據(jù)挖掘領(lǐng)域的一項重要內(nèi)容。
通過分析傳統(tǒng)本體圖生成過程中存在的問題,本研究試圖提出一種準確且智能的本體圖提取和生成策略并解決本體圖生成過程中的出現(xiàn)的問題。研究步驟如下。
3.1有針對性地收集語義網(wǎng)文本信息
3.2定義提取語義項重要度
3.3建立新的相關(guān)性度量標準衡量不同語義項之間的相關(guān)度
其中,
3.4建立一種構(gòu)建最大相關(guān)本體圖的啟發(fā)式算法
綜上所述,此項實驗研究提出了一種新的度量語義項重要度的標準,通過使用重要度較高的語義項來構(gòu)建本體圖可以替代已有的高頻語義項的選取準則,同時建立了新的語義項相關(guān)度量準則,使其可以度量語義項之間的非線性相關(guān)以及多語義項之間的相關(guān),最終提出了一種最大相關(guān)本體圖生成的新算法,使頂點語義項與文本主題之間的相關(guān)最大化以及頂點語義項之間的連接能夠?qū)崿F(xiàn)最簡化,能夠更加準確地表示領(lǐng)域知識,最小化本體生成過程中的人為交互。
[1]Buitelaar et al.O ntology Learning and Population:Bridging the G ap Betw een Text and K now ledge[J].IO S Press,2008,V ol.10:70-71.
[2]A edche et al.O ntology Learning for the Semantic W eb [J].IEEE Intelligent Systems,2001,V ol.16:72-79.
[3]F.N oy etal.Creating SemanticW ebContentsw ith Protégé-2000[J].IEEE IntelligentSystems,2001, V ol.16:60-71,.
[4]Y.Sureetal.G uidingO ntologyD evelopmentby M ethodology and Inference[J].Lecture N otes in Computer Science,2002,V ol.2519:1205-1222.
[5]H.Roitman et al.O nto Builder:Fully A utomatic Extraction and Consolidation ofO ntologies from W eb Sources U sing Sequence Semantics[J].Lecture N otes in Computer Science,2006,V ol.4254:573-576.
[6]Y.J.Li et al.TextClustering w ith Feature Selection by U sing Statistical D ata[J].IEEE Transaction on K now ledgeandD ataEngineering,2008,V ol.20:641-652.
[7]黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社,2005.
On New Algorithm in Building the Most Relevant Ontology Mapping in Semantic Web
FANG Jian,ZHAO Yan-ming
(Hebei Normal University for Nationalities,Chengde,Hebei 067000,China)
The approach of presenting and managing the massive semantic information in implied domain knowledge is the main factor restricting the technical development of data mining and the research on information systems.By analyzing the features of ontology semantic items and the impact of the correlative semantic items on the knowledge representation,this paper puts forward a new standard of evaluating the importance of semantic items,establishes a new strategy of measuring the correlation between semantic items and proposes a new algorithm in building the most relevant ontology mapping in semantic web.The ontology created by this algorithm can represent domain knowledge more accurately and minimize the human interaction.
semantic items;the largest correlation;ontology;algorithm
TP63
A
2095-3763(2015)02-0087-03
2014-10-18
房?。?979-),女,遼寧臺安人,河北民族師范學院數(shù)學與計算機系講師,研究方向為計算機教育與網(wǎng)絡(luò)技術(shù)。
2014年度河北省教育廳資助科研項目(Z2014082);2013年度河北民族師范學院科研基金項目(201302)。