高華玲 陸嬌嬌
摘要:基于本體的語義搜索將Web搜索帶入一個(gè)新時(shí)代。它使我們能夠在浩瀚的網(wǎng)頁中更加快速準(zhǔn)確地找到想要的信息。本體具有明確的概念描述,基于本體的搜索能夠評(píng)測(cè)關(guān)鍵詞之間的語義差異,從而在文檔或者查詢中找到更準(zhǔn)確的結(jié)果。因?yàn)樗x本體的不同,基于本體的語義搜索方法也會(huì)不同。該文總結(jié)了多種不同的研究方法,并根據(jù)搜索相關(guān)技術(shù)的分類標(biāo)準(zhǔn)進(jìn)行了比較。最后通過這些比較,找到今后進(jìn)一步研究的方向。
關(guān)鍵詞:本體;語義搜索;概念;關(guān)鍵詞
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)02-0153-03
1 引言
語義網(wǎng)的目標(biāo)是擴(kuò)展現(xiàn)有的Web標(biāo)準(zhǔn)和技術(shù),實(shí)現(xiàn)自動(dòng)化地處理Web語義[1]。傳統(tǒng)的搜索引擎使用關(guān)鍵詞檢索用戶需要的信息,實(shí)際上在網(wǎng)頁搜索過程中,可以使用多種方式來表達(dá)查詢,將關(guān)鍵詞映射要相關(guān)主題的語義層。在搜索過程中使用本體能夠加強(qiáng)用戶與計(jì)算機(jī)之間的語義溝通,使查詢結(jié)果更接近用戶的需求。
目前已經(jīng)公布的基于本體的搜索引擎有很多。它們的應(yīng)用領(lǐng)域和具體實(shí)現(xiàn)都有所不同,但是它們的目標(biāo)都是提高搜索的查全率和查準(zhǔn)率。基于本體的語義搜索能更加智能地在Web查詢過程中使用各種方法或結(jié)構(gòu)。研究人員常用領(lǐng)域本體表達(dá)特定領(lǐng)域知識(shí)的概念和關(guān)系。本文將介紹這些搜索引擎利用領(lǐng)域本體處理查詢請(qǐng)求所采用的不同方法。
1)相關(guān)術(shù)語
傳統(tǒng)的搜索依據(jù)的是關(guān)鍵詞是否在文檔中出現(xiàn)?;诒倔w的語義搜索定義為利用領(lǐng)域本體的背景知識(shí)庫進(jìn)行信息檢索的過程。
領(lǐng)域本體是具有層次結(jié)構(gòu)的術(shù)語集,這些術(shù)語是描述此領(lǐng)域知識(shí)庫的框架[2]。用實(shí)體、實(shí)例和屬性來表示詞語之間的關(guān)系或槽。基于本體的語義搜索的目的是最大化查準(zhǔn)率和查全率。
2 分類標(biāo)準(zhǔn)
本節(jié)介紹幾種不同的基于本體的搜索的分類標(biāo)準(zhǔn)。分類標(biāo)準(zhǔn)是在搜索過程中的重要步驟,包括:本體技術(shù),語義標(biāo)注,索引,排序,信息檢索模型(IR模型)和性能改進(jìn)。
1)本體技術(shù)
本體是實(shí)現(xiàn)語義Web的基礎(chǔ),相關(guān)技術(shù)包括推理機(jī),標(biāo)注工具,基于本體的爬蟲(2014屆國(guó)際智能計(jì)算的應(yīng)用會(huì)議中提出)和挖掘工具。在幾種不同的本體描述語言里,RDF和OWL得了廣泛的認(rèn)可。Java語言提供了Jena API和AJAX技術(shù),可以用來存儲(chǔ)和處理RDF數(shù)據(jù)。
2)語義標(biāo)注
概括地說,語義標(biāo)注是在文本中分配實(shí)體,用以鏈接到它們的語義描述[15]。語義標(biāo)注分為手動(dòng)語義標(biāo)注、半自動(dòng)語義標(biāo)注和自動(dòng)語義標(biāo)注三種類型。下面是語義標(biāo)注的先決條件:
(1)本體,定義實(shí)體類;語義標(biāo)注中可能涉及到這些類。
(2)實(shí)體標(biāo)識(shí),允許區(qū)分并鏈接到它們的語義描述。
(3)一個(gè)實(shí)體描述的知識(shí)庫。
3)索引
索引是為了更快的檢索信息而進(jìn)行的信息存儲(chǔ)。一個(gè)搜索引擎必須保留在抓取過程中獲得的所有內(nèi)容,并以索引的形式存儲(chǔ),以便下次更容易地查找。索引的目的是為了加快匹配過程。索引的分類:
(1)轉(zhuǎn)發(fā)索引:存儲(chǔ)每個(gè)文檔的單詞列表。
(2)倒排索引:為每個(gè)單詞存儲(chǔ)所有文檔的列表。
(3)圖索引:給定一個(gè)查詢圖,查找索引并檢索答案集,驗(yàn)證哪些圖包含查詢圖,返回查詢結(jié)果。
4)排名
排名取決于查詢結(jié)果的排序過程。搜索引擎會(huì)請(qǐng)求匹配和并為查詢結(jié)果進(jìn)行排名。匹配是選擇元素的子集進(jìn)行評(píng)分。排名是由相關(guān)概念的相似度決定的。排名是在句法/語義映射完成后,依據(jù)網(wǎng)頁的評(píng)分進(jìn)行計(jì)算得來的。最后將已經(jīng)排序好的網(wǎng)頁結(jié)果進(jìn)行索引之后返回給網(wǎng)頁的使用者。排名模型的類型如下:
(1)句法排序模型:是依據(jù)查詢關(guān)鍵詞與搜索引擎數(shù)據(jù)庫相匹配而進(jìn)行的搜索,從TF-IDF到谷歌PageRank,這些著名的信息檢索排名技術(shù)豐富了這種搜索的排名方法。
(2)語義排序模型:搜索是基于結(jié)果的相關(guān)性,縮小了語法和語義之間的差距,根據(jù)相關(guān)性得到的結(jié)果集,可以更好的滿足用戶的需求。
5)信息檢索模型(IR模型)
IR模型的作用是提供一個(gè)形式化的信息發(fā)現(xiàn)過程。下面是3種IR模型:
(1)布爾模型–一方面是基于關(guān)鍵詞的查詢,另一方面用關(guān)鍵詞的組合表示一個(gè)文檔,用關(guān)鍵詞的邏輯描述表示一個(gè)查詢
(2)矢量模型–表示用戶查詢和文檔中的所有關(guān)鍵詞形成的空間矢量。
(3) 概率模型–采用基于概率理論的數(shù)學(xué)模型。
6)性能改進(jìn)
基于本體的語義搜索方法的性能可以用一定的標(biāo)準(zhǔn)來衡量,如查準(zhǔn)率,查全率,F(xiàn)值和平均查準(zhǔn)率。查準(zhǔn)率和查全率的值介于0和1之間,最大值為1。應(yīng)用本體的背景知識(shí)庫進(jìn)行查詢,可以使查準(zhǔn)率和查全率得到提升。
3 不同的搜索方法
經(jīng)過大量文獻(xiàn)的閱讀,本文總結(jié)了14種不同的基于本體的搜索方法。依據(jù)上述分類標(biāo)準(zhǔn)進(jìn)行詳細(xì)分析,討論它們實(shí)現(xiàn)語義查詢的不同解決方案。
1)概念圖匹配方法
基于本體的搜索早期的方法是使用概念圖匹配的方法進(jìn)行語義搜索[3],這種方法定義了概念、關(guān)系和概念圖之間的語義相似度。這種語義匹配算法能夠計(jì)算資源CG(概念圖)和查詢CG之間的相似度。
2)XSEarch
它是一種基于XML的語義搜索引擎,能夠使用簡(jiǎn)單的查詢語言,適合于初級(jí)用戶,并且為XML文檔的語義搜索引擎發(fā)展奠定了基礎(chǔ)。它只返回語義標(biāo)識(shí),而不需要返回整個(gè)文檔[4]。它使用目前較為常用的TF-IDF技術(shù)進(jìn)行信息檢索,計(jì)算查詢?cè)~與文檔之間的相似度。它使用倒排索引,并根據(jù)語義相關(guān)性進(jìn)行排序。
3)本體驅(qū)動(dòng)的語義搜索
基于本體的語義搜索,使用現(xiàn)有的平臺(tái)進(jìn)行資源檢索和語義標(biāo)注,使用本體描述領(lǐng)域知識(shí)庫,并在知識(shí)庫中進(jìn)行查詢[5]。它還具有額外的功能,如使用本體導(dǎo)航進(jìn)行推理,從而在查詢中獲取更多的有意義的資源。在這里,文檔使用RDF三元組進(jìn)行語義標(biāo)注,RDF三元組能夠表示資源和本體概念結(jié)點(diǎn)之間的聯(lián)系。
4)基于本體的信息檢索中向量空間模型的適用性
這種方法包含一個(gè)基于本體的用于文檔半自動(dòng)語義標(biāo)注的模型和一個(gè)檢索系統(tǒng)[6]。在文檔中,通過多個(gè)領(lǐng)域本體的概念描述,創(chuàng)建了知識(shí)庫,并關(guān)聯(lián)到相關(guān)的信息資源或文檔。KIM是一個(gè)語義信息擴(kuò)展和檢索的平臺(tái)[17],在這個(gè)平臺(tái)上創(chuàng)建了KB系統(tǒng),能夠?qū)ξ臋n進(jìn)行自動(dòng)化的語義標(biāo)注。索引和排序是通過標(biāo)注權(quán)重并使用向量空間模型的信息檢索方法來實(shí)現(xiàn)。
5)基于本體的用戶配置文件的學(xué)習(xí):基于語義的個(gè)性化web搜索方法
該方法提出了一種基于本體配置文件的個(gè)性化搜索,本體配置文件給領(lǐng)域本體中的概念指派隱含的興趣得分[7]。該方法提出一個(gè)可擴(kuò)展的激活算法,根據(jù)用戶當(dāng)前的行為在用戶的配置文件中更改興趣得分。領(lǐng)域本體中的每一個(gè)概念都根據(jù)這一興趣得分而進(jìn)行標(biāo)注。通過所有子概念的文檔索引來建立概念的文檔索引。
6)SPARK:采用關(guān)鍵詞查詢的語義檢索
這是一種新方法,首先使用合適的關(guān)鍵詞查詢語義Web,然后將關(guān)鍵字查詢自動(dòng)轉(zhuǎn)換為形式邏輯查詢,最終使用戶可以使用關(guān)鍵詞進(jìn)行語義搜索[8]。概率查詢排序模型使用基于最小生成樹方法的SPARQL查詢算法,最小生成樹方法可以為查詢集合創(chuàng)建查詢圖。
7)使用本體對(duì)關(guān)鍵詞進(jìn)行解釋的語義查詢
此方法使用本體的背景知識(shí)庫將關(guān)鍵詞查詢轉(zhuǎn)化成描述邏輯關(guān)聯(lián)查詢[9]。用戶輸入的關(guān)鍵詞使用Lucene搜索引擎進(jìn)行處理。搜索引擎進(jìn)行查詢處理后返回本體實(shí)體,并考慮半徑為d的范圍內(nèi)的本體實(shí)體。它將與實(shí)體連接的子圖可視化地返回給用戶,并高亮顯示實(shí)體匹配了的關(guān)鍵詞。
8)Q2semantic:具有輕量級(jí)關(guān)鍵詞接口的語義搜索
這種方法類似于SPARK方法和使用本體對(duì)關(guān)鍵詞解釋的語義搜索方法,但它解決了可擴(kuò)展性問題,提出了一種新的聚類圖的結(jié)構(gòu)對(duì)應(yīng)于原始本體的概要[10]。它的查詢結(jié)果排序采用多種機(jī)制,比如查詢長(zhǎng)度、與查詢相關(guān)的本體元素相關(guān)性和本體元素重要性。索引采用的是倒排索引和查詢索引。排序是基于本體元素(是概念,而不是關(guān)系和屬性)的關(guān)鍵詞匹配。
9)對(duì)傳統(tǒng)的信息檢索和基于本體搜索模型進(jìn)行交叉比較的TREC方法
Fernandez等人比較了傳統(tǒng)的信息檢索模型和基于本體的搜索模型,使用的標(biāo)準(zhǔn)包括:
(1)一個(gè)文本文檔集
(2)查詢集和相應(yīng)文檔相關(guān)性的判斷集。
(3)本體集和覆蓋查詢主題的知識(shí)庫。
文檔集和查詢集、判斷集是信息檢索論壇和TREC(文本檢索會(huì)議)網(wǎng)站中使用最廣泛的數(shù)據(jù)集[11]。作為一個(gè)應(yīng)用案例,它所應(yīng)用的標(biāo)準(zhǔn)是基于本體的搜索模型和TREC 9、TREC 2001中最好的信息檢索系統(tǒng)。它使用RDF、OWL和DAML構(gòu)建本體,在背景知識(shí)庫中進(jìn)行自動(dòng)化語義標(biāo)注。
10)提高元數(shù)據(jù)庫的數(shù)據(jù)發(fā)現(xiàn)機(jī)率的語義搜索
帶Metacat元數(shù)據(jù)系統(tǒng)的語義搜索系統(tǒng)能夠存儲(chǔ)OWL-DL本體,另外語義標(biāo)注是將數(shù)據(jù)集屬性鏈接到本體元素中[12]。它是允許使用本體進(jìn)行語義標(biāo)注的關(guān)鍵詞搜索。本體進(jìn)行形式推理,更方便地通過科學(xué)的觀察進(jìn)行語義描述。
11)電子病歷的語義搜索和推理:基于概念的信息檢索方法
這種方法處理了概念之間的語義差異問題,利用了SNOMED-CT本體的醫(yī)學(xué)領(lǐng)域知識(shí)庫,提高了查詢的準(zhǔn)確度[13]。根據(jù)基于SNOMED-CT本體而定義的醫(yī)學(xué)概念,將查詢?cè)~和文檔進(jìn)行轉(zhuǎn)化。將超過平均精度基線25%的關(guān)鍵詞進(jìn)行倒排索引和語義相關(guān)度排名。
12)基于本體的WEB查詢結(jié)果的語義排序方法
這是一個(gè)新的基于語義的方法,提供了信息檢索系統(tǒng)的評(píng)價(jià)方法[14]。我們的目標(biāo)是增加搜索工具的選擇性和改善這些評(píng)價(jià)和證明,它是提高搜索引擎的性能和返回結(jié)果的相關(guān)性的有效途徑。WordNet本體用于提取查詢術(shù)語和語義預(yù)測(cè),并基于由概念(非單詞)組成的語義向量構(gòu)建向量模型。
13)使用RDF為同一類產(chǎn)品設(shè)計(jì)一個(gè)基于領(lǐng)域本體的特定網(wǎng)頁搜索引擎
這種方法使用一種新的搜索模型,可以存儲(chǔ)特定領(lǐng)域中的特定網(wǎng)頁的RDF信息,提供更完整、全面的信息輸出,搜索引擎可以從搜索結(jié)果頁面中得到產(chǎn)品的基本信息,而不需要訪問搜索結(jié)果鏈接,從而節(jié)省搜索時(shí)間以及網(wǎng)頁的下載的時(shí)間[15]。這個(gè)模型通過本體概念的語法和權(quán)重計(jì)算下載頁面的相關(guān)度,根據(jù)相關(guān)度大小為查詢結(jié)果排序。
14)OntDR:一個(gè)擴(kuò)充的基于本體的文檔檢索方法
這種方法提出了基于本體的文檔檢索的擴(kuò)充方法,這種本體帶有數(shù)組索引 [16]。數(shù)組索引有助于獲得文檔之間的關(guān)系。數(shù)組索引通過本體定義的概念所產(chǎn)生的值和文檔進(jìn)行比較而得到。
4 評(píng)價(jià)
按照分類標(biāo)準(zhǔn)比較文中所選的基于本體的搜索方法,并進(jìn)一步討論未來的研究方向。本文所得的結(jié)論對(duì)于文中沒有提到的其他方法也是有效的。
1)比較
本文大多數(shù)方法都使用了RDF和DL聯(lián)合查詢的本體技術(shù)。這些方法都使用RDF進(jìn)行半自動(dòng)或者自動(dòng)的語義標(biāo)注。語義標(biāo)注如果是正確的,它將會(huì)成為語義信息檢索最有效的一種方式。同時(shí)本文所選的搜索方法都提升了查全率和查準(zhǔn)率。
索引的評(píng)價(jià)標(biāo)準(zhǔn)能夠判斷出某種方法是否利用了合適的索引技術(shù)和排序技術(shù),并會(huì)判斷檢索過程是否會(huì)更快更容易。很多方法都是用的倒排索引。本文中絕大多數(shù)搜索使用的是基于相似度計(jì)算的語法級(jí)排序。
信息檢索方法絕大多數(shù)的方法是使用傳統(tǒng)的TF-IDF方法,這與排序標(biāo)準(zhǔn)相互依存。如果信息檢索是基于關(guān)鍵詞相關(guān)性的查詢,那么它就會(huì)減小語法和語義之間的差距。布爾模型和概率模型為語法級(jí)的信息檢索。向量空間模型為語義級(jí)的信息檢索模型。
基于本體的語義搜索方法的性能測(cè)試標(biāo)準(zhǔn)有查全率、查準(zhǔn)率、F值和平均精度。本文預(yù)想如果搜索系統(tǒng)能夠利用標(biāo)注、索引、排序和適當(dāng)?shù)男畔z索方法,查詢過程一定會(huì)提高查全率和查準(zhǔn)率。
2)未來的研究方向
本節(jié)總結(jié)了一些開放性問題。分類標(biāo)準(zhǔn)需要進(jìn)一步詳細(xì)地研究,研究方向可以為搜索詞映射到本體的元素,如屬性,關(guān)系,以及語義標(biāo)注和排序。基于本體的語義搜索未來更重要的研究方向如下:
(1)本體的構(gòu)建:特定領(lǐng)域本體的構(gòu)建是一個(gè)繁瑣的過程,有許多的本體編輯工具如protégé可以使用,但還需要掌握更深層次的本體概念關(guān)系的相關(guān)知識(shí)。
(2)本體導(dǎo)航:本體導(dǎo)航提供本體語義推理,使搜索請(qǐng)求獲取更加準(zhǔn)確的信息資源。聚焦和泛化的語義運(yùn)算符允許本體進(jìn)行導(dǎo)航,這值得進(jìn)一步研究。
(3)推理:目前只有在本體概念層的推理而沒有實(shí)現(xiàn)關(guān)系層和屬性層的推理[18],這需要進(jìn)一步研究。
5 總結(jié)
本文介紹了基于本體的語義搜索方法的分類標(biāo)準(zhǔn),并討論了一些常見的因素和指標(biāo)的優(yōu)點(diǎn)??偨Y(jié)14種不同的基于本體的語義搜索方法,并對(duì)其技術(shù)指標(biāo)進(jìn)行了比較。此外,明確了當(dāng)前需要解決的研究方向和開放性的問題。本文指出很多基于本體的信息檢索方法都是可用的,但是他們很少利用最有效的語義標(biāo)注、索引和檢索。為了更快地檢索到查詢結(jié)果,基于本體的語義檢索系統(tǒng),需要基于關(guān)鍵詞的含義而不是關(guān)鍵詞本身進(jìn)行語義標(biāo)注,索引和排名,這是必不可少的。
參考文獻(xiàn):
[1] Shadbolt, Nigel, Wendy Hall, Tim Berners-Lee. The semantic web revisited[J].Intelligent Systems, IEEE, 2006,21(3): 96-101.
[2] Swartout, Bill. Toward distributed use of large-scale ontologies[C]. Proc. of the Tenth Workshop on Knowledge Acquisition for Knowledge-Based Systems,1996.
[3] Zhong, Jiwei. Conceptual graph matching for semantic search[M].Conceptual Structures: Integration and Interfaces. Springer Berlin Heidelberg, 2002:92-106.
[4] Cohen, Sara. XSEarch: A semantic search engine for XML[C]. Proceedings of the 29th international conference on Very large data bases-Volume 29.VLDB Endowment, 2003.
[5] Bonino, Dario. Ontology driven semantic search[J]. WSEAS Transaction on Information Science and Application, 2004,1: 1597-1605.
[6] Castells, Pablo, Miriam Fernandez, David Vallet. An adaptation of the vector-space model for ontology-based information retrieval[J].Knowledge and Data Engineering, IEEE Transactions on, 2007, 19: 261-272.
[7] Sieg, Ahu, BamshadMobasher, Robin Burke. Learning ontology-based user profiles: A semantic approach to personalized web search[J].EEE Intelligent Informatics Bulletin, 2007: 7-18.
[8] Zhou Qi,SPARK: adapting keyword query to semantic search[M].The Semantic Web.Springer Berlin Heidelberg, 2007:694-707.
[9] Tran, Thanh.Ontology-based interpretation of keywords for semantic search[M].The Semantic Web.Springer Berlin Heidelberg, 2007:523-536.
[10] Wang, Haofen. Q2semantic: A lightweight keyword interface to semantic search[M].The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2008:584-598.
[11] Fernandez, Miriam. Using TREC for cross-comparison between classic IR and ontology-based search models at a Web scale.,2009.
[12] Berkley, Chad. Improving data discovery for metadata reposi
tories through semantic search." Complex, Intelligent and Software Intensive Systems[C], 2009 International Conference on.IEEE, 2009.
[13] Koopman, Bevan. Towards semantic search and inference in electronic medical records: An approach using concept-based information retrieval[J].The Australasian medical journal ,2012,5: 482.
[14] Bouramoul, Abdelkrim, Mohamed-KhireddineKholladi.An ontology-based approach for semanticsranking of the web search engines results[C].MultimediaComputing and Systems (ICMCS), 2012 International Conference on.IEEE, 2012.
[15] Sinha, Sukanta, Rana Dattagupta.Designing an ontology based domain specific web search engine for commonly used products using RDF[C].Proceedings of the CUBE International Information Technology Conference.ACM, 2012.
[16] Yadav, Poonam.OntDR: An Ontology-based Augmented Method for Document Retrieval[J].International Journal of Computer Applications, 2012.
[17] Kiryakov, Atanas. Semantic annotation, indexing, and retrieval." Web Semantics: Science, Services and Agents on the World Wide Web,2004: 49-79.
[18] Kr?tzsch, Markus. "Efficient rule-based inferencing for OWL EL[C].Proceedings of the Twenty-Second international joint conference on Artificial Intelligence-Volume Volume Three,AAAI Press, 2011.