国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

特色數(shù)據(jù)庫(kù)本體構(gòu)建研究——以“嘉興地方文獻(xiàn)”數(shù)據(jù)庫(kù)為例

2010-04-26 09:07:06張莉萍嘉興學(xué)院圖書館浙江嘉興314001
圖書館理論與實(shí)踐 2010年2期
關(guān)鍵詞:信息檢索本體論嘉興

●張莉萍 (嘉興學(xué)院 圖書館,浙江 嘉興 314001)

嘉興地處杭嘉湖平原,環(huán)境優(yōu)美,人杰地靈。先秦以來(lái)受吳越文化影響,自明清時(shí)即有“文化之邦”的美譽(yù),傳統(tǒng)文化底蘊(yùn)深厚,崇文重學(xué),名人輩出,群星璀璨,嘉興籍文人的作品是祖國(guó)文化寶庫(kù)中一顆耀眼的明珠?;I建“嘉興地方文獻(xiàn)”數(shù)據(jù)庫(kù),對(duì)嘉興籍文人的文獻(xiàn)進(jìn)行系統(tǒng)的加工整理,還本正源,知往鑒來(lái),有利于嘉興地方文獻(xiàn)資源的有效利用和長(zhǎng)期保存。數(shù)據(jù)庫(kù)將以大量不同資源類型展現(xiàn)嘉興地方文獻(xiàn)的豐富多彩,從一個(gè)側(cè)面還原嘉興優(yōu)秀歷史文化的傳承和輝煌歷史文化成果。對(duì)弘揚(yáng)嘉興優(yōu)秀的地方文化成果,促進(jìn)文化大市的建設(shè)有重要作用。[1]

網(wǎng)絡(luò)環(huán)境下,特色化是決定圖書館未來(lái)命運(yùn)的關(guān)鍵問(wèn)題,要想在眾多的圖書館中爭(zhēng)得一席之地,就必須突出自己的特色,強(qiáng)化自己的優(yōu)勢(shì),凸現(xiàn)自己的品牌,樹立自己的形象,因而特色化信息資源建設(shè)就顯得舉足輕重。

1 數(shù)據(jù)庫(kù)資源組織模式

1.1 資源組織模式

如何籌建特色數(shù)據(jù)庫(kù),采用什么樣的信息資源組織模式,是關(guān)系到特色庫(kù)質(zhì)量的關(guān)鍵問(wèn)題。資源組織體系包括數(shù)據(jù)組織、信息組織和知識(shí)組織三個(gè)層次。數(shù)據(jù)組織僅解決了異構(gòu)數(shù)據(jù)庫(kù)中信息實(shí)體的合并問(wèn)題,無(wú)法反映信息實(shí)體間客觀存在著的多種聯(lián)系。如何在異構(gòu)資源系統(tǒng)集成的基礎(chǔ)上,揭示客觀存在于不同資源系統(tǒng)中的信息實(shí)體之間的關(guān)系便成為信息組織要完成的任務(wù)。但信息組織的深度僅限于信息實(shí)體和文獻(xiàn)層面,沒(méi)有揭示信息實(shí)體內(nèi)部的概念和語(yǔ)義,因而從信息組織系統(tǒng)中所獲取的還是文獻(xiàn)(信息)的集合,而不是知識(shí)的集合。[2]實(shí)現(xiàn)知識(shí)的有效獲取,滿足用戶的知識(shí)需求,便成為知識(shí)組織要完成的任務(wù)。知識(shí)組織基于數(shù)據(jù)集成和信息集成,是對(duì)信息的優(yōu)化,側(cè)重于概念和關(guān)系(本體),是數(shù)字資源組織的高級(jí)階段,是數(shù)據(jù)組織、信息組織發(fā)展的必然。它不僅能夠?qū)崿F(xiàn)數(shù)字圖書館異構(gòu)系統(tǒng)局部資源的功能優(yōu)化,而且可使數(shù)字圖書館眾多的資源集合成一張巨大的知識(shí)網(wǎng)絡(luò),使數(shù)字圖書館的最終目標(biāo)——面向用戶的知識(shí)檢索與知識(shí)服務(wù)成為可能。

1.2 知識(shí)組織內(nèi)涵

所謂知識(shí)組織,是以知識(shí)組織方法為指導(dǎo),以數(shù)據(jù)組織、信息組織為基礎(chǔ),以知識(shí)組織體系為支撐,組織資源結(jié)構(gòu)中概念及概念關(guān)系的一種組織方式。任何領(lǐng)域的知識(shí)成果,都要以概念的形式固定下來(lái),概念是知識(shí)的基本單元。概念間存在著多種復(fù)雜關(guān)系,通過(guò)各種邏輯關(guān)系聯(lián)系起來(lái)的概念集合,就形成概念系統(tǒng),有它特有的、不同于其他知識(shí)體系的概念集合。知識(shí)組織的主要對(duì)象是內(nèi)在于知識(shí)體系中的知識(shí)結(jié)構(gòu)和概念及關(guān)系。知識(shí)體系不是各種知識(shí)內(nèi)容的匯集,而是相互間具有邏輯關(guān)系,具有一定層次結(jié)構(gòu),結(jié)構(gòu)性是知識(shí)體系的基本本質(zhì)。

2 基于本體論的知識(shí)組織

2.1 本體論與知識(shí)組織

知識(shí)組織的重點(diǎn)和精髓在于對(duì)知識(shí)及知識(shí)的關(guān)聯(lián)進(jìn)行有效描述、處理和表示。圍繞知識(shí)組織的精髓,產(chǎn)生了本體、主題圖、概念圖、詞網(wǎng)等新型知識(shí)組織體系。由于本體作為一種有效表示概念層次結(jié)構(gòu)和語(yǔ)義的理論和方法,具有良好的概念層次和對(duì)邏輯推理的支持,能在語(yǔ)義和知識(shí)層面上描述信息系統(tǒng)的概念建模工具,有知識(shí)組織體系的功能,能夠?qū)崿F(xiàn)對(duì)知識(shí)結(jié)構(gòu)的描述與揭示,從而成為知識(shí)組織的主流技術(shù),被廣泛應(yīng)用于計(jì)算機(jī)科學(xué)和信息管理領(lǐng)域,并且被成功應(yīng)用于構(gòu)建新的智能信息組織和檢索系統(tǒng)。[3]

2.2 知識(shí)本體實(shí)質(zhì)

知識(shí)本體的實(shí)質(zhì)即概念及其之間的關(guān)系。概念包含著特殊和單一的屬性,在邏輯上形成“種—屬—具體個(gè)體”范疇,這三類屬性范疇是密切相關(guān)的。概念之間的各種關(guān)系使人類知識(shí)形成一個(gè)相互關(guān)聯(lián)的立體網(wǎng)狀體系。因此,我們可以這樣理解本體:知識(shí)本體是反映概念及概念之間關(guān)系的知識(shí)整體。從形式上,一個(gè)本體論可以用語(yǔ)義網(wǎng)格來(lái)表示;在語(yǔ)義網(wǎng)格中,每個(gè)結(jié)點(diǎn)表示一個(gè)概念,而結(jié)點(diǎn)之間的聯(lián)系表示概念之間的關(guān)系。在實(shí)現(xiàn)上,可以用關(guān)系數(shù)據(jù)庫(kù)來(lái)存放和管理一個(gè)本體論。本體是一種技術(shù),它可以在許多涉及知識(shí)表示與共享的環(huán)境下應(yīng)用。[4]

2.3 基于本體論的知識(shí)組織模式

“嘉興地方文獻(xiàn)”特色數(shù)據(jù)庫(kù)的本體屬于領(lǐng)域本體,首先要在領(lǐng)域?qū)<业膸椭拢⑾嚓P(guān)領(lǐng)域的本體;收集信息源中的數(shù)據(jù),參考本體論對(duì)異構(gòu)信息進(jìn)行標(biāo)引,并參照已建立的本體把收集來(lái)的數(shù)據(jù)規(guī)定格式存儲(chǔ)在元數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)異構(gòu)信息的組織。

首先要構(gòu)建一個(gè)形式本體,也就是能進(jìn)行形式化表達(dá)的本體論模型,然后用計(jì)算機(jī)軟件形式表達(dá)出來(lái),其一般構(gòu)造方法可以設(shè)計(jì)成三段法。這樣構(gòu)造的形式本體論是一個(gè)動(dòng)態(tài)系統(tǒng),其概念、關(guān)系和軟件均可根據(jù)發(fā)展的需要而不斷更新。

第一段:概念化。所謂概念化就是確定某一領(lǐng)域的元概念。概念之間的關(guān)系可以包括同義關(guān)系、反義關(guān)系、屬種關(guān)系、交叉關(guān)系、全異關(guān)系等。這與分類法和主題表有一定類似,但卻沒(méi)有分類法和主題表體系固定的限制,也不像分類法和主題表那樣龐大。

第二段:模型化。在本體概念確定后,所謂模型化就是用圖示法將某領(lǐng)域的元概念和元關(guān)系表示出來(lái),構(gòu)筑成形式本體論的關(guān)系模型,用網(wǎng)絡(luò)聯(lián)絡(luò)。與普通樹型數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)不同的是,形式本體論允許各級(jí)概念的交叉滲透。

第三段:軟件化。所謂軟件化就是用適當(dāng)?shù)能浖ぞ邔⒈倔w論模型轉(zhuǎn)化為能在計(jì)算機(jī)上運(yùn)行的軟件。由于形式本體論可以軟件化,故適合用計(jì)算機(jī)處理,這是其特點(diǎn)和優(yōu)點(diǎn)。一旦確定了本體論模型,就可以用程序設(shè)計(jì)語(yǔ)言將形式本體論表示出來(lái),制成軟件界面。而通過(guò)該軟件界面皆可以將世界所有與該領(lǐng)域相關(guān)的信息資源、知識(shí)資源和研究資源聯(lián)絡(luò)起來(lái),構(gòu)筑成具有特定功能的系統(tǒng)。

3 基于本體論的知識(shí)檢索

3.1 傳統(tǒng)信息檢索機(jī)制的局限性

傳統(tǒng)檢索技術(shù)多采用詞切分、單漢字以及詞切分和單漢字相結(jié)合,檢索主要借助與目錄、索引和關(guān)鍵詞等方法來(lái)實(shí)現(xiàn)。此技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單、快捷,但缺點(diǎn)是無(wú)法挖掘信息之間的內(nèi)在聯(lián)系,無(wú)法理解用戶的需求,無(wú)法有效地處理互聯(lián)網(wǎng)上的海量異構(gòu)信息。[5]

傳統(tǒng)的基于關(guān)鍵詞匹配是基于學(xué)科分類的檢索工具,之所以不能令人滿意,最主要的原因之一就是由于在信息資源的組織和查詢中,沒(méi)有考慮到信息資源所蘊(yùn)涵的語(yǔ)義關(guān)系,無(wú)法挖掘概念之間的內(nèi)在聯(lián)系,搜索出更深層的信息聯(lián)系,導(dǎo)致了信息檢索效果的查全率和查準(zhǔn)率比較低。因此,基于信息組織的關(guān)鍵詞匹配的信息檢索技術(shù)無(wú)法達(dá)到對(duì)知識(shí)的檢索和利用。

3.2 基于本體的信息資源檢索

由于本體具有良好的概念層次結(jié)構(gòu),并且支持邏輯推理,這使得本體在信息檢索,特別是知識(shí)檢索中得到了更廣泛的應(yīng)用。借助于本體論的信息檢索技術(shù)能夠挖掘出信息之間的內(nèi)在聯(lián)系,使得信息檢索的結(jié)果能更準(zhǔn)確、更全面地反映用戶的要求,可以實(shí)現(xiàn)知識(shí)檢索的目的。

3.3 基于本體論的知識(shí)檢索實(shí)現(xiàn)

針對(duì)當(dāng)前信息檢索工具難以滿足知識(shí)獲取的需求,在檢索機(jī)制中引入本體,使檢索系統(tǒng)能對(duì)查詢請(qǐng)求和信息源進(jìn)行語(yǔ)義分析,實(shí)現(xiàn)基于語(yǔ)義理解的知識(shí)檢索。檢索時(shí),可以借助本體論將用戶的需求轉(zhuǎn)換成規(guī)定的格式,并在元數(shù)據(jù)庫(kù)中進(jìn)行匹配,然后通過(guò)符合要求的元數(shù)據(jù)從異構(gòu)信息源中查找到原始信息,并將結(jié)果反饋用戶,這樣用戶與信息系統(tǒng)的溝通效率便得到了很大的提高。

另一方面,本體論可以在用戶檢索的過(guò)程中為其提供多個(gè)檢索入口。由于本體論是對(duì)概念之間關(guān)系的深層次揭示,可以形成龐大而有效的本體網(wǎng)絡(luò)。因此,它能夠?yàn)橛脩籼峁└嗟臋z索點(diǎn),比如可以提供某一事物在分類法、中圖法、科圖法、敘詞表和不同語(yǔ)種的表示,這樣,用戶只需從自己最熟悉的檢索點(diǎn)進(jìn)入,而且還可以檢索到所有相關(guān)信息,而不用去熟悉各種不同的異構(gòu)信息庫(kù)及其檢索策略。此外,還可以提供某一概念的上位詞、下位詞、同義詞、反義詞等來(lái)方便用戶擴(kuò)大或縮小檢索范圍,提高檢索效率?;诒倔w的信息檢索系統(tǒng)的一般模型如圖1所示。

圖1 基于本體的信息檢索系統(tǒng)的一般模型。

4 “嘉興地方文獻(xiàn)”特色數(shù)據(jù)庫(kù)的本體構(gòu)建

4.1 籌建基于本體的“嘉興地方文獻(xiàn)”特色數(shù)據(jù)庫(kù)

“嘉興地方文獻(xiàn)”特色數(shù)據(jù)庫(kù)的籌建,就是要借助于本體論的知識(shí)組織和知識(shí)檢索功能,借助現(xiàn)代計(jì)算機(jī)技術(shù),改變以往基于信息的資源組織和檢索的不足,采用全新的知識(shí)組織和檢索模式,解決信息系統(tǒng)語(yǔ)義異構(gòu)的問(wèn)題,構(gòu)建一個(gè)基于本體的知識(shí)管理系統(tǒng),實(shí)現(xiàn)基于知識(shí)的數(shù)據(jù)組織與檢索?!凹闻d地方文獻(xiàn)”特色數(shù)據(jù)庫(kù)不僅僅是建立一個(gè)存放各種數(shù)據(jù)的結(jié)構(gòu),關(guān)鍵是要利用本體論揭示領(lǐng)域內(nèi)嚴(yán)謹(jǐn)豐富的理論和表達(dá)的豐富知識(shí),把形式多樣、來(lái)源廣泛或特殊收藏的、關(guān)于“嘉興地方文獻(xiàn)”這一主題的數(shù)字化資源,按照客觀事物存在的本質(zhì)和組成關(guān)系進(jìn)行知識(shí)的組織,對(duì)這一領(lǐng)域的知識(shí)內(nèi)容和資源的相互關(guān)系進(jìn)行揭示,形成有序的、便于利用和長(zhǎng)期保存的特色資源集合,爭(zhēng)取實(shí)現(xiàn)在對(duì)特色領(lǐng)域內(nèi)的信息資源進(jìn)行組織時(shí),進(jìn)行本體論理論應(yīng)用于數(shù)據(jù)庫(kù)建設(shè)的有益嘗試,將特色庫(kù)建設(shè)成為具有系統(tǒng)性、學(xué)術(shù)性、有一定深度和廣度的學(xué)術(shù)資源數(shù)據(jù)庫(kù)。

4.2 數(shù)據(jù)庫(kù)籌建模式

(1)“嘉興地方文獻(xiàn)”元概念確定。在搜集和整理嘉興文獻(xiàn)資源時(shí),確定“嘉興地方文獻(xiàn)”這一領(lǐng)域的元概念,并以數(shù)字化的表現(xiàn)形式提供資源。

(2)構(gòu)建文獻(xiàn)本題論模型。為了能構(gòu)建出適合的地方文獻(xiàn)本體,本體論的構(gòu)建需地方文獻(xiàn)方面的專家、語(yǔ)言學(xué)家和信息學(xué)專家等的跨學(xué)科領(lǐng)域合作“嘉興地方文獻(xiàn)”本體構(gòu)建如圖2所示:

圖2 “嘉興地方文獻(xiàn)”本體構(gòu)建

[1]馬文峰,杜小勇.數(shù)字資源整合的發(fā)展趨勢(shì)[J].圖書情報(bào)工作,2007(7):66-70.

[2]楊建林.基于本體的文本信息檢索研究[J].情報(bào)理論與實(shí)踐,2006(5):598-601.

[3]朱慶生,鄒景華.基于本體論的論文檢索[J].計(jì)算機(jī)科學(xué),2005(5):172-176.

[4]花開明,等.基于本體與元數(shù)據(jù)的語(yǔ)義檢索[J].計(jì)算機(jī)工程,2007(12):220-224.

[5]宋煒,張銘.語(yǔ)義網(wǎng)簡(jiǎn)明教程[M].北京:高等教育出版社,2004.

[6] TBerners-Lee,JHendler,O Lassila.The Semantic Web[J].Scientific American,2001.

猜你喜歡
信息檢索本體論嘉興
《初心》
嘉興學(xué)院
浙江嘉興卷
CP論題能為本體論論證提供辯護(hù)嗎?
張栻的本體論建構(gòu)及其體用邏輯探析
張載哲學(xué)的本體論結(jié)構(gòu)與歸宿
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
微電影本體論辨析
電影新作(2016年1期)2016-02-27 09:16:25
嘉興:兩條底線之間的平衡
信丰县| 铜鼓县| 涪陵区| 阿城市| 丰镇市| 和平区| 昭通市| 西华县| 德惠市| 广西| 宜宾市| 赤峰市| 桑植县| 安龙县| 乌拉特后旗| 浪卡子县| 上蔡县| 家居| 洛宁县| 壤塘县| 庆阳市| 洛扎县| 定兴县| 龙岩市| 杨浦区| 睢宁县| 象山县| 徐汇区| 麟游县| 柘荣县| 西青区| 天峨县| 岳西县| 保亭| 常宁市| 丘北县| 逊克县| 德保县| 乐亭县| 东乌珠穆沁旗| 英德市|