国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

本體驅(qū)動(dòng)的數(shù)字圖書(shū)館信息資源語(yǔ)義互操作研究

2010-08-31 11:26:48鞠彥輝渤海大學(xué)信息科學(xué)與工程學(xué)院遼寧錦州121000
圖書(shū)館理論與實(shí)踐 2010年1期
關(guān)鍵詞:本體語(yǔ)義概念

●鞠彥輝(渤海大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 錦州 121000)

近年來(lái),數(shù)字圖書(shū)館作為一個(gè)綜合的研究領(lǐng)域在許多方面得到了很大的發(fā)展,然而在對(duì)于如何保證在分布式網(wǎng)絡(luò)環(huán)境下,人們能夠更準(zhǔn)確地獲得其所需要的信息方面并沒(méi)有突破性的進(jìn)展。“互操作”試圖通過(guò)建立信息資源之間的互操作機(jī)制來(lái)解決這一問(wèn)題。所謂數(shù)字圖書(shū)館互操作是指數(shù)字圖書(shū)館系統(tǒng)之間交換和共享數(shù)據(jù)的能力,具體分為結(jié)構(gòu)互操作、語(yǔ)法互操作和語(yǔ)義互操作 (semantic interoperability)三種類(lèi)型,[1]其中語(yǔ)義互操作作為一種高層的互操作理念,是數(shù)字圖書(shū)館信息服務(wù)的目的。以前人們提出的互操作技術(shù)由于缺乏可理解的語(yǔ)義和共享的形式化基礎(chǔ),異構(gòu)信息資源間難以共享和互操作。目前在計(jì)算機(jī)異構(gòu)應(yīng)用系統(tǒng)集成、地理信息系統(tǒng)圖形信息共享、電子商務(wù)管理、數(shù)字圖書(shū)館等領(lǐng)域,本體技術(shù)已成為建立領(lǐng)域共識(shí)、實(shí)現(xiàn)語(yǔ)義互操作的研究熱點(diǎn)。因此,本文提出本體驅(qū)動(dòng)的數(shù)字圖書(shū)館信息資源語(yǔ)義互操作解決方案,以解決分布式數(shù)字圖書(shū)館之間異構(gòu)信息資源的語(yǔ)義互操作問(wèn)題。

1 本體對(duì)數(shù)字圖書(shū)館信息資源語(yǔ)義互操作的驅(qū)動(dòng)作用分析

本體的本質(zhì)是通過(guò)概念模型對(duì)信息作完全的形式化描述,使計(jì)算機(jī)可以理解網(wǎng)上的信息,建立本體的目的是為了實(shí)現(xiàn)領(lǐng)域知識(shí)的共享與重用。本體對(duì)數(shù)字圖書(shū)館信息資源語(yǔ)義互操作的驅(qū)動(dòng)作用包括:(1)本體是依靠人的智慧而創(chuàng)建的工程化產(chǎn)品,可在用戶(hù)間或軟件代理間達(dá)成對(duì)于信息組織結(jié)構(gòu)的共同理解和認(rèn)識(shí)。(2)提供與描述型元數(shù)據(jù)有關(guān)語(yǔ)義描述的知識(shí)地圖。(3)在本體的幫助下可以實(shí)現(xiàn)獨(dú)立于人工干預(yù)的信息互操作,在機(jī)器—機(jī)器的環(huán)境中,本體采用機(jī)器可讀的方式進(jìn)行領(lǐng)域概念的表示,這些特點(diǎn)可以用來(lái)構(gòu)建自動(dòng)化的信息處理機(jī)制。(4)本體是數(shù)字圖書(shū)館系統(tǒng)之間信息通信的中介。通過(guò)為不同的領(lǐng)域構(gòu)建領(lǐng)域本體,然后再在這些領(lǐng)域本體之間建設(shè)上層本體,結(jié)合其他技術(shù)來(lái)實(shí)現(xiàn)這些系統(tǒng)間的互操作和通信。

2 本體驅(qū)動(dòng)的數(shù)字圖書(shū)館異構(gòu)信息資源語(yǔ)義互操作框架

通過(guò)上面的分析,本節(jié)構(gòu)建一個(gè)本體驅(qū)動(dòng)的數(shù)字圖書(shū)館信息資源語(yǔ)義互操作框架,主要包括三個(gè)部分:(1)數(shù)字圖書(shū)館各種類(lèi)型信息資源本體的建立;(2)本體間的映射及合并;(3)語(yǔ)義互操作服務(wù)。如圖1所示。

2.1 數(shù)字圖書(shū)館信息資源本體的建立

圖1 本體驅(qū)動(dòng)的數(shù)字圖書(shū)館信息資源語(yǔ)義互操作框架

數(shù)字圖書(shū)館信息資源類(lèi)型多樣,包括文本文獻(xiàn)信息資源、多媒體信息資源及知識(shí)管理倉(cāng)庫(kù)等,因此,數(shù)字圖書(shū)館信息資源本體的構(gòu)建包括以下三個(gè)層次:(1)基于本體的文本文獻(xiàn)信息資源構(gòu)建,其實(shí)質(zhì)是建立文獻(xiàn)之間的等級(jí)結(jié)構(gòu),并定義文獻(xiàn)之間的關(guān)系。因?yàn)槲谋疚墨I(xiàn)的等級(jí)關(guān)系在MARC上有較好的體現(xiàn),所以在MARC數(shù)據(jù)的基礎(chǔ)上構(gòu)建本體具有較強(qiáng)的可行性和實(shí)用性。構(gòu)建本體的最終目的是實(shí)現(xiàn)推理,利用文獻(xiàn)的等級(jí)結(jié)構(gòu)和定義的屬性可以在轉(zhuǎn)化后的MARC上實(shí)現(xiàn)推導(dǎo)文獻(xiàn)間關(guān)系的目標(biāo)。構(gòu)建文本文獻(xiàn)本體的最后一步是將推理的結(jié)果生成知識(shí)庫(kù)。[2](2)基于本體的多媒體信息資源構(gòu)建。針對(duì)多媒體信息所固有的異構(gòu)性、多分布性、增長(zhǎng)性和變化性等特點(diǎn),語(yǔ)義方法是當(dāng)前多媒體信息資源本體構(gòu)建研究的重點(diǎn)。基于本體的語(yǔ)義網(wǎng)(Semantic Web)由于其分層結(jié)構(gòu)的特點(diǎn),可以滿(mǎn)足不同用戶(hù)群的需要,提供簡(jiǎn)單的分類(lèi)方法和關(guān)系,附加層的表達(dá)性、功能性和復(fù)雜性可根據(jù)不同的用戶(hù)需求增加,從而實(shí)現(xiàn)可擴(kuò)展性和語(yǔ)言的表達(dá)性之間的平衡。(3)基于本體的知識(shí)管理知識(shí)庫(kù)構(gòu)建。數(shù)字圖書(shū)館的最終目標(biāo)是實(shí)現(xiàn)對(duì)知識(shí)的管理。在知識(shí)管理的全過(guò)程中構(gòu)建本體,可以實(shí)現(xiàn)對(duì)知識(shí)本身的揭示,實(shí)現(xiàn)數(shù)字圖書(shū)館中信息資源最高層次的構(gòu)建。在知識(shí)管理的過(guò)程中構(gòu)建本體主要由三項(xiàng)工作構(gòu)成:① 獲取知識(shí),根據(jù)“知網(wǎng)”建立等級(jí)結(jié)構(gòu);② 按本體規(guī)則對(duì)知識(shí)進(jìn)行描述、存儲(chǔ),以形成知識(shí)庫(kù);③ 在推理基礎(chǔ)上提供知識(shí)的智能檢索,以實(shí)現(xiàn)知識(shí)重用。[3]

2.2 數(shù)字圖書(shū)館信息資源本體間的映射

在網(wǎng)絡(luò)環(huán)境下,數(shù)字圖書(shū)館信息資源之間的語(yǔ)義互操作實(shí)際上是實(shí)現(xiàn)信息資源本體間的映射。本體映射是解決不同本體間的知識(shí)共享和重用問(wèn)題的主要技術(shù),它是指在已生成的本體上建立語(yǔ)義級(jí)的概念關(guān)聯(lián),以便雙方能使用通用接口,對(duì)同一事物有共同的理解。數(shù)字圖書(shū)館信息資源本體映射的一般過(guò)程為:(1)本體的輸入。這里假設(shè)只輸入描述同一或相似領(lǐng)域的兩個(gè)不同本體O1和O2,它們可以用不同語(yǔ)言說(shuō)明,為了能夠準(zhǔn)確映射,需要把它們轉(zhuǎn)換為相同格式。(2)特征提取。提取用于計(jì)算相似度的特征,如概念、屬性的名稱(chēng)等。(3)選擇用于映射的概念對(duì)。(4)進(jìn)行相似度計(jì)算。很多系統(tǒng)使用匹配操作器(半)自動(dòng)地發(fā)現(xiàn)不同本體或模式間的相似度,如果映射過(guò)程完全是手動(dòng)的,這一過(guò)程可以略過(guò)。相似度的計(jì)算是本體映射過(guò)程中一個(gè)至關(guān)重要的步驟,主要包括語(yǔ)義相似度的計(jì)算、描述相似度的計(jì)算、鄰近層次概念相似度的計(jì)算等。(5)相似度整合。有多種方法用來(lái)衡量本體實(shí)體之間的相似度,得出多種相似度值,因此要對(duì)各相似度進(jìn)行綜合考慮,從而得到一個(gè)整體上的相似度。(6)優(yōu)化。第(4)步結(jié)束后,已經(jīng)得到待映射的各個(gè)實(shí)體之間的初始相似度,這時(shí)一般需要人工的干預(yù),利用領(lǐng)域知識(shí),對(duì)其進(jìn)行調(diào)節(jié)。(7)迭代第(2)步到第(6)步,直到得到滿(mǎn)意的結(jié)果。[4](8)輸出映射后的本體。如圖2所示。

圖2 數(shù)字圖書(shū)館信息資源本體映射的一般過(guò)程

目前有多種本體映射方法,按照本體定義模型進(jìn)行分類(lèi),可以分為:(1)基于通用公共上層本體庫(kù)的本體概念映射。領(lǐng)域本體庫(kù)基于某個(gè)公共上層本體庫(kù)(如DOLCE)為基礎(chǔ)所構(gòu)建,通過(guò)分析領(lǐng)域本體庫(kù)與公共上層本體庫(kù)之間的關(guān)系來(lái)計(jì)算本體概念之間的相似度。(2)基于本體概念相似度的本體映射。直接計(jì)算概念之間的相似度。其具體的計(jì)算方法有多種,如基于自然語(yǔ)言處理的計(jì)算方法、基于本體代數(shù)的方法等。(3)基于本體概念層次結(jié)構(gòu)相似度的本體映射。以圖論方法和本體語(yǔ)言的結(jié)構(gòu)特點(diǎn)來(lái)進(jìn)行相似度分析,如果兩個(gè)概念的相鄰節(jié)點(diǎn)(子概念、父概念)是相似的,那么它們的相似性程度增加。[5](4)基于(2)(3)兩種方法的擴(kuò)展映射方法,是這兩種方法的加權(quán)綜合,基于概念及概念的相關(guān)內(nèi)容來(lái)綜合加權(quán)計(jì)算概念間的相似度,從而最大限度地提高本體映射的質(zhì)量。此外還有基于語(yǔ)義的方法、基于概念實(shí)例的方法、基于概念定義的方法等。由于數(shù)字圖書(shū)館信息資源類(lèi)型多樣,所以為了提高映射準(zhǔn)確率,本體映射往往是若干方法的綜合運(yùn)用。經(jīng)過(guò)本體間的映射,把數(shù)字圖書(shū)館系統(tǒng)A中信息資源的本體表達(dá)轉(zhuǎn)換為等同語(yǔ)義的數(shù)字圖書(shū)館系統(tǒng)B中應(yīng)用的本體表達(dá),A的應(yīng)用系統(tǒng)可以像處理其他系統(tǒng)內(nèi)部信息一樣處理B系統(tǒng)的信息。

2.3 數(shù)字圖書(shū)館信息資源語(yǔ)義互操作服務(wù)

完成了數(shù)字圖書(shū)館信息資源本體間的映射后,可以進(jìn)行本體合并集成,構(gòu)建領(lǐng)域本體服務(wù)器,領(lǐng)域本體服務(wù)器是進(jìn)行信息互操作與集成的核心,是提供語(yǔ)義互操作服務(wù)的基礎(chǔ)?;诒倔w的數(shù)字圖書(shū)館信息資源語(yǔ)義互操作服務(wù)的整個(gè)過(guò)程即信息資源的語(yǔ)義化分析、表達(dá)、集成與管理的工作。主要包括以下幾方面內(nèi)容:(1)用戶(hù)請(qǐng)求分析處理服務(wù)。對(duì)用戶(hù)的請(qǐng)求進(jìn)行分析處理,使本體服務(wù)能夠被正確地解析。(2)語(yǔ)義沖突消除服務(wù)。在領(lǐng)域本體服務(wù)器的支持下進(jìn)行數(shù)字圖書(shū)館信息資源語(yǔ)義沖突的智能化識(shí)別和處理,消除語(yǔ)義沖突和語(yǔ)義分歧的問(wèn)題。(3)智能推理服務(wù)。在已經(jīng)建立的語(yǔ)義化信息或知識(shí)及相關(guān)算法的支持下,針對(duì)基于RDF(S)/XML與OWL及其擴(kuò)展描述的信息資源或語(yǔ)義模型,進(jìn)行數(shù)字圖書(shū)館信息資源聚類(lèi)、分類(lèi)和學(xué)習(xí)等算法研究;進(jìn)行信息與知識(shí)本體模型的生成、重用、演化(采用軟件演化和重用的方法)機(jī)制探索工作,并進(jìn)行相應(yīng)信息推理引擎的可重配置與重用技術(shù),以及推理任務(wù)描述與分解技術(shù)研究。為了對(duì)語(yǔ)義Web中RDF(S)/XML與OWL及其擴(kuò)展等元本體所描述的信息資源進(jìn)行查詢(xún),可以在面向XML描述信息的類(lèi)SQL語(yǔ)言基礎(chǔ)上,擴(kuò)展定義推理查詢(xún)公式的描述原語(yǔ),從而構(gòu)成相應(yīng)的語(yǔ)義查詢(xún)機(jī)制。[6](4)信息分析處理服務(wù)。其任務(wù)是完成各種與信息有關(guān)的分析處理的服務(wù)。它不直接訪(fǎng)問(wèn)信息資源,側(cè)重于向用戶(hù)提供計(jì)算資源。它遵循一定的通信機(jī)制,提供一定的處理能力,一次服務(wù)可以有若干輸入、輸出。(5)信息獲取與一致化服務(wù)。信息獲取服務(wù)的主要任務(wù)是訪(fǎng)問(wèn)一個(gè)信息內(nèi)容實(shí)例,并且把該內(nèi)容以指定的中介格式反饋給用戶(hù)。一致化服務(wù)是將信息獲取服務(wù)得到的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的XML中介格式數(shù)據(jù),即將異構(gòu)數(shù)據(jù)同構(gòu)化。[7]

3 結(jié)語(yǔ)

本文針對(duì)網(wǎng)絡(luò)環(huán)境下人們較難準(zhǔn)確地獲取存儲(chǔ)在分布式數(shù)字圖書(shū)館中的信息資源的問(wèn)題,提出本體驅(qū)動(dòng)的數(shù)字圖書(shū)館信息資源語(yǔ)義互操作方案,將信息資源互操作和共享的問(wèn)題轉(zhuǎn)化為本體間的映射問(wèn)題,從而能有效解決數(shù)字圖書(shū)館異構(gòu)信息資源互操作問(wèn)題,為人們提供更好的信息服務(wù)。

[1]劉煒.語(yǔ)義互操作與Linked Data[EB/OL].[2008-12-23].http://www.lib.sjtu.edu.cn/adls/download/12-18/1218AM-C2.pdf.

[2]李培,孫琳.數(shù)字圖書(shū)館信息資源本體論的構(gòu)建[J].圖書(shū)情報(bào)工作,2003(6):25.

[3]張敏勤.基于本體的數(shù)字圖書(shū)館信息資源構(gòu)建[J].大學(xué)圖書(shū)館學(xué)報(bào),2007(3):44-45.

[4]MarcEhrig,SteffenStaab.QOM-QuickOntologyMapping[C]//ISWC2004,LNCS3298:686.

[5]潘玉娥,等.基于分類(lèi)的本體映射方法及映射工具實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):214.

[6]張維明.語(yǔ)義信息模型及應(yīng)用[M].北京:電子工業(yè)出版社,2003.

[7]楊昆,等.基于本體(Ontology)的空間信息互操作與集成方法研究[J].云南地理環(huán)境研究,2006,18(3):23.

猜你喜歡
本體語(yǔ)義概念
Abstracts and Key Words
Birdie Cup Coffee豐盛里概念店
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
語(yǔ)言與語(yǔ)義
幾樣概念店
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
認(rèn)知范疇模糊與語(yǔ)義模糊
简阳市| 张家界市| 保德县| 东海县| 凌源市| 潞西市| 五莲县| 廊坊市| 绥阳县| 镇江市| 会同县| 阜新| 当涂县| 昭平县| 兴文县| 德江县| 平陆县| 扶余县| 鹰潭市| 汝南县| 临颍县| 长汀县| 龙江县| 吉木萨尔县| 福安市| 鄂托克前旗| 桦川县| 阿坝| 武功县| 永仁县| 靖江市| 威信县| 行唐县| 清水河县| 沂水县| 中西区| 锡林浩特市| 瑞昌市| 江源县| 尤溪县| 乌拉特中旗|