国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析語義Web在信息檢索中的研究與實(shí)現(xiàn)

2010-09-05 00:53:36許紅梅
關(guān)鍵詞:信息檢索布什應(yīng)用程序

許紅梅

(武漢職業(yè)技術(shù)學(xué)院電信學(xué)院,湖北武漢430074)

淺析語義Web在信息檢索中的研究與實(shí)現(xiàn)

許紅梅

(武漢職業(yè)技術(shù)學(xué)院電信學(xué)院,湖北武漢430074)

語義Web是未來web的發(fā)展方向,是信息可以被機(jī)器理解和使用的新的信息環(huán)境,語義Web的出現(xiàn)徹底改變了web上信息的組織方式,對于各種網(wǎng)絡(luò)信息應(yīng)用都將產(chǎn)生巨大影響。本文首先對Semantic Web的概況進(jìn)行了簡要介紹,然后詳細(xì)分析了語義Web體系的主要支持技術(shù)(XML RDF),最后探討了語義Web技術(shù)對網(wǎng)絡(luò)信息檢索的影響。

語義Web;網(wǎng)絡(luò)信息檢索XML;RDF

1 語義Web及語義Web技術(shù)體系

語義Web(Semantic Web)是信息可以被機(jī)器理解和使用的新的信息環(huán)境。它最大的特點(diǎn)在于將語義嵌入到了web資源中,使得web上的一切資源都可以被應(yīng)用程序識別和利用,從而促進(jìn)全球知識的共享。

從技術(shù)角度看,Semantic Web是一個(gè)分層次結(jié)構(gòu),從下至上包含了Unicodev、URI、XML、RDF、Ontology、Logic、Proof、Trust等重要的技術(shù),圖1是該層次結(jié)構(gòu)的具體圖示[1]。

圖1 Semantic Web的分層結(jié)構(gòu)示意圖

在整個(gè)層次結(jié)構(gòu)最底層的是Unicode和URI:它們完成的功能是對整個(gè)WWW上的資源統(tǒng)一編碼,并用統(tǒng)一的標(biāo)準(zhǔn)給每個(gè)資源以唯一的標(biāo)識。Unicode是一種新的編碼標(biāo)準(zhǔn),支持世界上絕大多數(shù)語言。Unicode層將上層的數(shù)據(jù)轉(zhuǎn)換成與平臺無關(guān)的標(biāo)準(zhǔn)Unicode碼流。URI是統(tǒng)一資源標(biāo)識符,作為互聯(lián)網(wǎng)上信息資源的識別標(biāo)準(zhǔn)。依據(jù)它我們可以為互聯(lián)網(wǎng)上所有存在的資源指定一個(gè)唯一的標(biāo)識符,從而能夠從任何地方訪問它。

XML即可擴(kuò)展標(biāo)記語言(eXtensible Markup Language),它使用了一種簡單而靈活的語法,為web的應(yīng)用提供了一個(gè)描述數(shù)據(jù)和交換數(shù)據(jù)的有效手段,彌補(bǔ)了HTML的不足。XML最具魅力的地方是它的可擴(kuò)展性,XML允許使用者根據(jù)內(nèi)容需要,創(chuàng)建自己的標(biāo)記語言和自定義的標(biāo)簽,以準(zhǔn)確地對信息進(jìn)行描述。同時(shí)XML還實(shí)現(xiàn)了數(shù)據(jù)內(nèi)容和顯示格式分離,XML單單描述內(nèi)容,將數(shù)據(jù)顯示的任務(wù)交給XSL和CSS來完成,內(nèi)容和顯示的分離使得應(yīng)用程序可以更加專注的進(jìn)行數(shù)據(jù)處理工作。XML示例:

NS即名字空間(NameSpace)用來區(qū)分不同XML文檔中具有相同名稱的元素和屬性。NS以URI為基礎(chǔ),由于URI在互聯(lián)網(wǎng)上具有唯一性,通過在每個(gè)元素和屬性前添加名字空間前綴,可以使得不同XML中的元素和屬性都具有唯一性,從而區(qū)別不同XML文檔的元素和屬性。

盡管XML的出現(xiàn)大大地推動了互聯(lián)網(wǎng)上的數(shù)據(jù)互操作,但是對于達(dá)到語義Web要求的語義級互操作,XML的能力還是不夠。一方面,XML允許用戶自定義標(biāo)簽來描述數(shù)據(jù),這就可能造成對于同一概念,不同用戶使用不同標(biāo)簽來描述。另外, XML雖有嚴(yán)格的語法規(guī)則,但沒有對于語義描述的約束,所以對同樣的數(shù)據(jù),從不同的語義理解可以表示為不同的XML描述形式,比如上面的示例也可以寫成:

Web服務(wù)正在呈現(xiàn)為用于各種各樣分布式系統(tǒng)的一個(gè)有前途的計(jì)算平臺。Web服務(wù)中的3個(gè)核心標(biāo)準(zhǔn)是用于服務(wù)描述的WSDL、用于報(bào)文交換SOAP和用于服務(wù)注冊和發(fā)現(xiàn)的UDDI。Web服務(wù)的特征是它們對服務(wù)合成的支持。對Web服務(wù)來說,我們期望在合成的過程中自動得到另一個(gè)服務(wù),這要求Web服務(wù)用語義來豐富。

Web語義服務(wù)基礎(chǔ)結(jié)構(gòu)的一個(gè)突出特征是它的語義支持的缺乏。它專門地依賴XML的互操作性,但是僅保證語義互操作。用XML表述報(bào)文內(nèi)容,使Web服務(wù)解析其他的每個(gè)報(bào)文,但是這不便于報(bào)文內(nèi)容的理解。此外,在服務(wù)的注冊和發(fā)現(xiàn)中, UDDI自身不提供對Web服務(wù)的語義描述的任何支持。Web服務(wù)應(yīng)當(dāng)有語義的含義,這樣服務(wù)可根據(jù)語義匹配而不是句法匹配。

RDF的數(shù)據(jù)模型實(shí)質(zhì)上是一種二元關(guān)系的表達(dá),由于任何復(fù)雜的關(guān)系都可以分解為多個(gè)簡單的二元關(guān)系,因此RDF的數(shù)據(jù)模型可以作為其他任何復(fù)雜關(guān)系模型的基礎(chǔ)模型。下面我們來看一個(gè)簡單的RDF的例子:

(指明被描述資源的URI)

(被描述資源有一個(gè)叫Author的屬性其值是Paul)

穿刺及手術(shù)切除標(biāo)本10%中性甲醛固定,HE染色后在鏡下觀察。HEHE病理診斷標(biāo)準(zhǔn):HE染色切片顯示以纖維硬化區(qū)為中心,周邊富于細(xì)胞,腫瘤細(xì)胞呈上皮樣分化,腔內(nèi)含有紅細(xì)胞,免疫組織化學(xué)染色中Ⅷ因子相關(guān)抗原、CD31和CD34中的1項(xiàng)呈陽性。

htm>(被描述資源有一個(gè)叫 HomePage的屬性其值指向另一資源)

[3]

RDF和XML是互為補(bǔ)充的。RDF解決的是如何采用XML標(biāo)準(zhǔn)語法無二義性地描述資源對象的問題,使得所描述資源的元數(shù)據(jù)信息成為機(jī)器可理解的信息。如果把XML看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語法規(guī)范的話,那么RDF就可以看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語義描述規(guī)范。RDF希望以一種標(biāo)準(zhǔn)化,互操作的方式來規(guī)范XML語義。XML文檔可以通過簡單的方式實(shí)現(xiàn)對RDF的引用,兩者的合作使用如下所示:

在RDF技術(shù)的基礎(chǔ)上W3C又制定了RDFS規(guī)范,即資源描述框架定義集(Resource Description Framework Schema)。RDFS是RDF的詞匯描述語言(Vocabulary Description Language),RDF是為網(wǎng)上資源語義互連而制定的一個(gè)技術(shù)規(guī)范,而RDFS是為擴(kuò)充RDF數(shù)據(jù)而制定的一個(gè)規(guī)范,它制定了一系列標(biāo)準(zhǔn)的類和屬性,定義怎樣用RDF來描述詞匯集,可以在不同詞匯集間通過指定元數(shù)據(jù)關(guān)系來實(shí)現(xiàn)含義理解層次上的數(shù)據(jù)交換。

Ontology是關(guān)于領(lǐng)域內(nèi)共享概念的形式化的規(guī)范說明,獨(dú)立于具體的符號層表述方式,因而是具有不同知識表示的web應(yīng)用系統(tǒng)之間進(jìn)行數(shù)據(jù)或知識交換共享的基礎(chǔ)結(jié)構(gòu)。一般web上的Ontology包括分類和一套推理規(guī)則,分類定義對象的類別及其之間的關(guān)系[4]。

基于語義的web應(yīng)用應(yīng)該可以根據(jù)特定的規(guī)則從RDF/RDFS和ontology描述的知識中進(jìn)行推理,邏輯層的目標(biāo)就是提供一種方法來描述規(guī)則。針對語義網(wǎng)上各種不同類型的應(yīng)用,邏輯層可能會采用多種邏輯語言的實(shí)現(xiàn)形式,這一點(diǎn)就和互聯(lián)網(wǎng)中的TCP/IP協(xié)議模型中的每一層都會針對不同的硬件和軟件系統(tǒng)采用不同的實(shí)現(xiàn)類似。

2 語義Web對網(wǎng)絡(luò)信息檢索的影響

語義Web的出現(xiàn)將徹底改善web上信息的組織方式,對于各種網(wǎng)絡(luò)應(yīng)用都將是巨大的促進(jìn)。對于網(wǎng)絡(luò)信息檢索而言,其影響主要體現(xiàn)在以下幾個(gè)方面。

現(xiàn)在的關(guān)鍵字搜索引擎通常只能搜索與所輸入關(guān)鍵字精確匹配的網(wǎng)頁,而不能根據(jù)所輸入關(guān)鍵字的意思進(jìn)行擴(kuò)展,搜索同義的和相關(guān)的網(wǎng)頁。

在未來的語義Web環(huán)境下,由于使用了ontology,概念被更加行式化的規(guī)范說明,應(yīng)用程序可以利用ontology提供的概念關(guān)系網(wǎng)擴(kuò)展用戶輸入的關(guān)鍵詞進(jìn)行檢索,也能夠利用ontology和logic等技術(shù)推理理解網(wǎng)頁里包含的各個(gè)概念及其關(guān)系,從而更加全面地返回用戶想要的結(jié)果。

2.2 查準(zhǔn)率的提高

傳統(tǒng)網(wǎng)頁由于缺乏對網(wǎng)頁內(nèi)容的語義描述,所以應(yīng)用程序很難準(zhǔn)確理解發(fā)布者要表達(dá)的意思,只能通過字面猜測。所以就算某些網(wǎng)頁里明顯出現(xiàn)了“本文提到的布什不是美國總統(tǒng)布什”這樣的話,用戶在輸入“美國總統(tǒng)布什”進(jìn)行搜索時(shí)搜索引擎還是會將這些頁面作為正確結(jié)果返回給用戶。但是在語義Web環(huán)境下,網(wǎng)頁的作者為了表示“本文提到的布什不是美國總統(tǒng)布什”,就會給”布什“加上語義標(biāo)記,如“布什”,并且在網(wǎng)頁其他地方注明,這樣應(yīng)用程序就可以根據(jù)http://www.bush.com/information的信息知道這里所提到的布什并非美國總統(tǒng)。

2.3 搜索深度更深

傳統(tǒng)網(wǎng)頁標(biāo)記語言由于只控制了網(wǎng)頁內(nèi)容的顯示形式,沒有提供基于語義的對內(nèi)容的區(qū)分標(biāo)記,所以對于搜索引擎而言,很難將一個(gè)網(wǎng)頁按內(nèi)容拆分為更小的語義單元,只能將整個(gè)網(wǎng)頁作為最小的檢索對象,不能像數(shù)據(jù)庫檢索一樣深入到表格的字段,直接得到想要的數(shù)據(jù)。

顯然,這樣的檢索方式非常的不方便而且效果也不令人滿意。在未來的語義Web環(huán)境里,由于網(wǎng)頁的制作者對于網(wǎng)頁內(nèi)每一項(xiàng)有意義的內(nèi)容都會進(jìn)行基于語義的標(biāo)記。所以,搜索引擎可以直接深入網(wǎng)頁文檔內(nèi)部,將每一項(xiàng)標(biāo)記的內(nèi)容作為檢索對象,從而直接返回用戶想要的東西。

例如,對于剛才的情況通常語義Web會這樣描述網(wǎng)頁:

于是我們就可以通過SQL構(gòu)造查詢式 select文章的作者 where文章的標(biāo)題=Semantic Web roadmap進(jìn)行檢索然后搜索引擎就會直接返回Tim Berners-Lee。

2.4 多媒體搜索更有效

當(dāng)今的自動搜索引擎雖然也有某些能對圖片、音頻、視頻等多媒體文件進(jìn)行搜索,但主要依據(jù)的都是文件名、周圍的文字信息以及文件本身的屬性特征。這幾種搜索依據(jù)都有很大的缺點(diǎn)。文件名雖然常常描述了文件的內(nèi)容,但是網(wǎng)上的大多數(shù)多媒體文件都不是按照這種方式命名的,而是用數(shù)字加字母命名,文件名并沒有任何實(shí)際含義[5]。因此,現(xiàn)在網(wǎng)上的各種多媒體搜索引擎的效果非常不理想也是可以理解的。

不過在未來的語義Web環(huán)境下,多媒體的檢索將會變得簡單而準(zhǔn)確。語義Web具有的強(qiáng)大的對資源語義進(jìn)行描述的功能,并且這些描述都可以被其他應(yīng)用程序所理解和使用。另外,語義Web的資源間語義關(guān)系的描述能力,更使得多媒體資源與文字描述能很好的融合為一體。

2.5 實(shí)現(xiàn)系統(tǒng)性檢索

Web是一個(gè)由眾多單個(gè)網(wǎng)頁相互鏈接形成的統(tǒng)一空間。HTML語言及其鏈接技術(shù)實(shí)現(xiàn)的網(wǎng)頁間的連接,僅使得我們可以從一個(gè)網(wǎng)頁到達(dá)另一個(gè)網(wǎng)頁而已,相互鏈接的兩個(gè)網(wǎng)頁之間的關(guān)系并沒有給出描述。比如,我們想查詢《Semantic Web roadmap》的作者的出生日期,在現(xiàn)在的web條件下,因?yàn)檫@些信息通常不會出現(xiàn)在同一個(gè)網(wǎng)頁上,所以我們不得不先查出《Semantic Web roadmap》的作者是誰,然后再查詢他的出生日期。但是在語義Web條件下,利用RDF等技術(shù)所描述的語義關(guān)系,應(yīng)用程序可以將各個(gè)有關(guān)聯(lián)的網(wǎng)頁聯(lián)系起來,利用ontology logic等技術(shù)推理返回用戶想要的結(jié)果。

3 總結(jié)語

語義Web的出現(xiàn)適應(yīng)了網(wǎng)絡(luò)知識化、智能化的要求,對于網(wǎng)絡(luò)資源的組織架構(gòu)和應(yīng)用都將產(chǎn)生深刻的影響。從上面的分析我們可以清楚地看到,語義Web的各種技術(shù)通過給網(wǎng)上資源賦予語義,使計(jì)算機(jī)能理解網(wǎng)上信息,從而使精準(zhǔn)、便捷、智能化的網(wǎng)絡(luò)信息搜索變得可能,為智能信息檢索的實(shí)現(xiàn)創(chuàng)造了條件。然而,要實(shí)現(xiàn)真正智能的信息檢索,我們還要解決人機(jī)交互過程中的理解和溝通問題。只有當(dāng)機(jī)器與資源,人與機(jī)器這兩方面都實(shí)現(xiàn)了完美的溝通,真正智能化的搜索服務(wù)才能實(shí)現(xiàn)。

[1]潘小進(jìn),林子禹,張?jiān)聫?qiáng),賀春輝.語義Web的標(biāo)記語言和體系結(jié)構(gòu)[J].計(jì)算機(jī)工程,2003(4):79.

[2]李衛(wèi)華.語義 Web及層次結(jié)構(gòu)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2002(7):46.

[3]瞿裕忠,張劍鋒,陳崢王,叢 剛.xml語言及相關(guān)技術(shù)綜述[J].計(jì)算機(jī)工程,2006(12):106.

[4]盧巧云.XML:數(shù)字圖書館信息組織的基礎(chǔ)技術(shù)[J].情報(bào)科學(xué),2003(9):33.

[5]羅 威.RDF(資源描述框架)Web數(shù)據(jù)集成的元數(shù)據(jù)解決方案[J].情報(bào)學(xué)報(bào),2003(2):48.

Analysis of Semantic Web Application in Information Retrieval Research and Implementation

XIU Hong-mei
(Telecommunications Dept.of Wuhan Technical Institute,Wuhan 430074,China)

Semantic Web is the future of today’s web,which is a new space where the information inside can be understood and used by machines.Semantic Web will change the way of organizing information on web and make a significant influence on lots of web information applications.This paper,firstly,presents a brief introduction to Semantic Web,and then analyzes in detail the main technologies supporting Semantic Web such as XML and RDF.Finally,the influence of Semantic Web on web information retrieval is discussed.

semantic web;web information retrieval;XML;RDF

book=107,ebook=47

TP391

A

1008-4738(2010)02-0107-03

2010-02-20

許紅梅(1968-),女,武漢職業(yè)技術(shù)學(xué)院電信學(xué)院副教授,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)及多媒體應(yīng)用。

猜你喜歡
信息檢索布什應(yīng)用程序
刪除Win10中自帶的應(yīng)用程序
引領(lǐng)美國結(jié)束冷戰(zhàn)的前總統(tǒng)H.W.布什去世,享年94歲
英語文摘(2019年2期)2019-03-30 01:48:30
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
關(guān)閉應(yīng)用程序更新提醒
電腦迷(2012年15期)2012-04-29 17:09:47
三星電子將開設(shè)應(yīng)用程序下載商店
微軟軟件商店開始接受應(yīng)用程序
布什卸任 奧巴馬接招
临西县| 福建省| 凤庆县| 博白县| 宝应县| 遂溪县| 永济市| 花莲市| 仙桃市| 镇坪县| 高淳县| 定陶县| 巫溪县| 文山县| 新和县| 内江市| 商南县| 游戏| 玛沁县| 高尔夫| 南华县| 河南省| 平山县| 潮州市| 梁山县| 安新县| 钦州市| 开鲁县| 大英县| 新疆| 吉木萨尔县| 台安县| 南郑县| 容城县| 湖北省| 天全县| 兰坪| 侯马市| 怀仁县| 乌什县| 双桥区|