白 銀 劉 宏
〔摘 要〕本文對現(xiàn)有各網(wǎng)站的網(wǎng)絡(luò)信息資源的分類目錄進(jìn)行了對比研究,采用了分類—主題一體化和本體論相結(jié)合的方法,擬定了一個(gè)網(wǎng)絡(luò)信息資源的分類目錄,豐富了網(wǎng)絡(luò)信息資源組織的分類方法,進(jìn)一步促進(jìn)了基于本體論的分類組織方法的實(shí)現(xiàn)。
〔關(guān)鍵詞〕網(wǎng)絡(luò)信息資源;分類目錄;本體論
中圖分類號:F713.51文獻(xiàn)標(biāo)識碼:A文
章編號:1008-4096(2009)02-0028-04
因特網(wǎng)的出現(xiàn)為人類開辟了新的更加廣闊的信息空間。它的無國界性和使用的便利性,使它迅速地集聚了億萬各種各樣的用戶。網(wǎng)絡(luò)的發(fā)展導(dǎo)致了一大批以網(wǎng)絡(luò)為依托的電子化信息資源的產(chǎn)生。與傳統(tǒng)的信息資源相比,網(wǎng)絡(luò)信息資源呈現(xiàn)出許多新的類型和特點(diǎn),并在管理方面有了更為豐富的內(nèi)容。如今因特網(wǎng)已經(jīng)成為全球規(guī)模最大、用戶最多、資源最豐富的廣域網(wǎng)。如何讓海量的、無序的網(wǎng)絡(luò)信息資源為人類服務(wù),這就是網(wǎng)絡(luò)信息組織的內(nèi)容。本文采用了分類—主題一體化和本體論相結(jié)合的方法,擬定了一個(gè)網(wǎng)絡(luò)信息資源的分類目錄,豐富了網(wǎng)絡(luò)信息資源組織的分類方法。
一、信息資源的分類組織方法
目前,信息資源的分類組織方法主要包括分類法、主體法、分類—主題一體化的方法?,F(xiàn)存的方法對信息的描述大多局限在語法和語句層面,不能完全有效地表述信息。描述的信息中存在名稱相同、語義不同或名稱不同、語義相同的情況,會降低信息檢索的查全率和查準(zhǔn)率。本體描述概念以及概念之間的關(guān)系,可以從語義層面對信息進(jìn)行描述。本文利用本體實(shí)現(xiàn)從語義層面上描述網(wǎng)絡(luò)信息資源的分類組織,從而提高網(wǎng)絡(luò)檢索的查全率和查準(zhǔn)率。
關(guān)于本體,目前尚無一個(gè)明確的形式化定義,較為認(rèn)同的是1998年Rstuter的解釋[1]:“本體是對概念體系的明確的、形式化的、可共享的規(guī)范說明?!北倔w通過對概念的嚴(yán)格定義和概念與概念之間的關(guān)系來確定概念精確定義,表示共同認(rèn)可的、可共享的知識。基于本體的網(wǎng)絡(luò)信息資源分類組織是通過構(gòu)建網(wǎng)絡(luò)信息資源的領(lǐng)域本體來實(shí)現(xiàn)的,領(lǐng)域本體是用于描述特定領(lǐng)域中概念與概念之間的關(guān)系的本體。
二、現(xiàn)有的分類法在網(wǎng)絡(luò)信息資源分類組織中的應(yīng)用
圍繞傳統(tǒng)的文獻(xiàn)分類法在Internet的應(yīng)用,國外進(jìn)行過不少實(shí)驗(yàn)研究,目前已進(jìn)入實(shí)用階段。一些大的萬維網(wǎng)站或搜索引擎就采用現(xiàn)有文獻(xiàn)分類組織Internet信息資源。
(1)杜威十進(jìn)分類法(DDC)[2]?,F(xiàn)有一些站點(diǎn)以DDC為分類體系,這些站點(diǎn)以圖書館和大學(xué)為主。資源類型既有綜合性全球資源,也有專題性資源、國別資源。有些目錄在各層次的類目前均標(biāo)記了標(biāo)準(zhǔn)的十進(jìn)制分類號,而大多數(shù)沒有分類號,只是利用DDC體系建立了瀏覽結(jié)構(gòu)。
(2)國際十進(jìn)分類法(UDC)。UDC具有分面組配分類法的一些特點(diǎn),可以通過符號組配獲得概念的組合,因此這種分類法較適用于機(jī)檢[3]。一些網(wǎng)絡(luò)目錄利用了UDC的這些優(yōu)點(diǎn),建起自己的分類系統(tǒng)。
(3)國會圖書館分類法(LCC)。使用LCC的網(wǎng)絡(luò)目錄如:CYBERSTACKS,由依阿華大學(xué)開發(fā),主要提供6大部類的資源,包括:科學(xué)、醫(yī)學(xué)、農(nóng)業(yè)、工業(yè)技術(shù)、軍事科學(xué)、海洋科學(xué)[4]。
網(wǎng)絡(luò)信息資源分類在國際上以及各個(gè)國家沒有一個(gè)特定的分類標(biāo)準(zhǔn),許多搜索引擎采用自編的分類系統(tǒng)進(jìn)行信息組織,具體表現(xiàn)為網(wǎng)站分類目錄和網(wǎng)頁分類索引。用于網(wǎng)絡(luò)信息組織的自編分類系統(tǒng)主要有以下三種[5]:
(1)等級式主題分類法系統(tǒng)。是指在分類中,基本上采用等級結(jié)構(gòu),一個(gè)主題充當(dāng)一個(gè)類目,類目按字順或人為次序,類目不采用標(biāo)記符號表示,一個(gè)類目可以細(xì)分為若干個(gè)細(xì)目,同位類的細(xì)目多按字順排列。這是一種主題分類法形式的分類體系,依事物分類,可以將相關(guān)事物的網(wǎng)絡(luò)信息資源集中。目前的大多數(shù)網(wǎng)絡(luò)檢索分類系統(tǒng)就是采用這種分類系統(tǒng)。
(2)分面組配分類系統(tǒng)。是由若干個(gè)分面組成,每一個(gè)分面的類目可以與其他分面的類目組配,表達(dá)專指的概念。
(3)學(xué)科分類法系統(tǒng)。這是將各個(gè)學(xué)科、領(lǐng)域及其分支設(shè)為類目的分類法系統(tǒng)。中文搜索引擎“網(wǎng)絡(luò)指南針”就提供了一個(gè)學(xué)科分類系統(tǒng)。
三、采用自編分類系統(tǒng)的網(wǎng)絡(luò)信息資源分類實(shí)例
Yahoo是WWW上最早、最著名的網(wǎng)絡(luò)分類目錄,它是由美國斯坦福大學(xué)的兩位博士研究生David Filo和Jerry Yang(楊致遠(yuǎn))于1994年創(chuàng)建的。目前,其分類目錄成為網(wǎng)絡(luò)自編分類系統(tǒng)的標(biāo)準(zhǔn)模式。
Yahoo將所收錄的信息分為16大類,每一個(gè)基本類目下會細(xì)分出不同層次的次一級類目,級別越低的類目中的網(wǎng)站主題越明確。Yahoo網(wǎng)站分類見圖1。
搜狐網(wǎng)站將信息資源分為16大類,每個(gè)大類下又細(xì)分了各個(gè)子類。和Yahoo的分類目錄相比較,兩者有相同的分類,也有不同的分類。不同之處是把Yahoo的某些大類又細(xì)分了子類作為搜狐一級類目。采用自編分類系統(tǒng)的搜索引擎多采用了等級式主題分類法系統(tǒng)和分面組配分類法系統(tǒng)相集合的方法[6]。類目既突出了主題,又可以與其他詞互相結(jié)合,產(chǎn)生出一個(gè)上下文關(guān)系,具有了更深層的含義。
通過對比各個(gè)網(wǎng)站的分類目錄(這里不再詳細(xì)例舉)發(fā)現(xiàn),由于網(wǎng)絡(luò)信息資源的無序性、學(xué)科交叉性、種類多樣性以及所面對的對象的層次性,它不可能完全以傳統(tǒng)的信息組織方式和現(xiàn)有的網(wǎng)絡(luò)分類體系進(jìn)行聚類和類目設(shè)置,那么,就要對傳統(tǒng)和現(xiàn)有的網(wǎng)絡(luò)分類目錄相互借鑒和改造,不斷完善網(wǎng)絡(luò)信息資源的分類目錄體系,旨在制定出一部網(wǎng)絡(luò)信息分類法。
四、基于本體論的信息資源分類組織研究
按照本體論的內(nèi)容來劃分,可分為:領(lǐng)域本體論、通用本體論和任務(wù)本體論。領(lǐng)域本體是本體在具體領(lǐng)域中的應(yīng)用,本文是本體論在網(wǎng)絡(luò)信息資源領(lǐng)域中的應(yīng)用,屬于領(lǐng)域本體。
領(lǐng)域本體是對某個(gè)具領(lǐng)域的知識和特征的描述,通用的領(lǐng)域本體不可能窮盡所有的知識,要想使信息檢索尤其是某個(gè)專業(yè)領(lǐng)域的信息檢索達(dá)到較高的標(biāo)準(zhǔn),就需要建立并合理地使用領(lǐng)域本體論。
開發(fā)一個(gè)領(lǐng)域本體包括如下的步驟:(1)考察現(xiàn)有的領(lǐng)域本體的可復(fù)用性,定義本體中的類;(2)設(shè)定類和子類的合理層次結(jié)構(gòu);(3)定義類的屬性和描述對屬性值的限制;(4)為實(shí)例中的屬性設(shè)定具體屬性值。
定義類和類的等級體系是構(gòu)建網(wǎng)絡(luò)信息資源本體的關(guān)鍵步驟,對類的等級體系的確定,需要體現(xiàn)分類—主題一體化的方法[7]。定義類的屬性也是本體構(gòu)建的重要組成。在定義類的屬性時(shí),體現(xiàn)元數(shù)據(jù)表示方法的思想,從多角度多層次對類進(jìn)行描述。完善類的等級體系和定義類的屬性是密不可分的,兩個(gè)環(huán)節(jié)必須同時(shí)進(jìn)行,而且,在實(shí)現(xiàn)過程中會出現(xiàn)不斷的循環(huán)往復(fù),直到合理、滿意為止。基于本體論的網(wǎng)絡(luò)信息資源檢索模型見圖2。
在本體的構(gòu)建過程中,如果存在著現(xiàn)有的本體資源,應(yīng)將其導(dǎo)入并在其基礎(chǔ)上進(jìn)行添加和完善,這樣可以減少不必要的工作量,提高本體構(gòu)建的效率,促進(jìn)資源共享。目前,對于網(wǎng)絡(luò)信息資源而言,沒有一個(gè)標(biāo)準(zhǔn)的本體資源可以復(fù)用。但是各個(gè)網(wǎng)站已經(jīng)有了自己的網(wǎng)站分類目錄,可以為網(wǎng)絡(luò)信息資源本體的構(gòu)建提供參考。通過參考和比較搜狐、網(wǎng)易、Yahoo、新浪、Google等網(wǎng)站的分類目錄,在本體的分類組織思想的基礎(chǔ)上,符合概念邏輯,采用綜合法對網(wǎng)絡(luò)信息資源做如下的一級分類(表1):オ
其中,每一個(gè)一級子類包含著不同層數(shù)的次級子類[8]。網(wǎng)絡(luò)信息資源本體中類的關(guān)系包括:(1)每一個(gè)子類由其下級子類構(gòu)成;(2)子類完全繼承其上一類的屬性;(3)同一層次的類互為不相交類;(4)每個(gè)類的個(gè)體不能成為其同級類的個(gè)體,但可以存在關(guān)聯(lián)。
類目劃分一般須遵守相應(yīng)的概念邏輯規(guī)則[5]:(1)每次劃分只能按一個(gè)分類標(biāo)準(zhǔn),一般不得同時(shí)采用兩個(gè)或兩個(gè)以上的標(biāo)準(zhǔn)。(2)劃分以后所得的子類的外延之和應(yīng)等于母類的外延。(3)劃分出來的各個(gè)子類應(yīng)該相互排斥,不能交叉重疊,界限分明,類目之間不應(yīng)存在相互交叉現(xiàn)象。
因?yàn)橹袊求w育大國,所以把體育從休閑娛樂中分離出來,成為一級類。越來越多的人走出了國門,出國成為人們越來越關(guān)注的話題,所以把出國列為一級類。一級類中的參考,是就目前最新出現(xiàn)的事物、概念進(jìn)行的匯總,歸為參考類。這樣在網(wǎng)絡(luò)上查找所需的信息資源時(shí)就會明確歸類,直接到所需內(nèi)容的類去查找,提高了查全率與查準(zhǔn)率。
類目設(shè)置充分體現(xiàn)了網(wǎng)絡(luò)信息組織的動態(tài)性,要根據(jù)網(wǎng)絡(luò)信息資源數(shù)量的分布情況、信息的用戶訪問率,隨時(shí)進(jìn)行類目結(jié)構(gòu)的調(diào)整或類目的增、刪、改,并根據(jù)網(wǎng)絡(luò)的需求進(jìn)行改造。例如,對于新生的事物,網(wǎng)絡(luò)類目就要及時(shí)增加其內(nèi)容,這樣才能完善自身的網(wǎng)絡(luò)信息資源。此外,對各自網(wǎng)站來說,用戶是不盡相同的,那么不同的用戶對網(wǎng)站的不同內(nèi)容,興趣程度也不同,這也需要對網(wǎng)絡(luò)類目做出調(diào)整,要把大多數(shù)用戶感興趣的類目劃分出一個(gè)一級類目,以便于用戶查找。分類的層次也不要太多,不應(yīng)該出現(xiàn)轉(zhuǎn)換十多次還找不到所需信息的情況。各個(gè)網(wǎng)站要結(jié)合自己的分類特點(diǎn),分類對象要擴(kuò)大到網(wǎng)站所包含內(nèi)容的一切可利用的資源,讓各種類型的網(wǎng)絡(luò)信息資源都能在分類法中找到相應(yīng)的位置。
基于本體論的網(wǎng)絡(luò)信息資源分類組織方法與其他的分類組織方法相比較,其優(yōu)點(diǎn)是:(1)突出大多數(shù)用戶感興趣的類目,通用性強(qiáng);(2)把網(wǎng)絡(luò)資源分成若干個(gè)一級類,類名是網(wǎng)絡(luò)資源的本源,也就是本體,用戶進(jìn)行檢索時(shí),就歸屬到對檢索內(nèi)容所屬的類進(jìn)行查找,提高了查全率與查準(zhǔn)率;(3)網(wǎng)站可以隨時(shí)對領(lǐng)域本體進(jìn)行補(bǔ)充、刪減,具有較強(qiáng)的動態(tài)性及實(shí)用性;(4)采用本體對網(wǎng)絡(luò)資源進(jìn)行分類,是以知識分類、概念邏輯為基礎(chǔ)的,具有較強(qiáng)的完整性和邏輯性。
五、結(jié)論和展望
基于本體的網(wǎng)絡(luò)信息資源分類目錄的實(shí)現(xiàn),有助于提高網(wǎng)絡(luò)信息資源的查準(zhǔn)率和查全率。本體構(gòu)建從語義層面上對網(wǎng)絡(luò)信息資源進(jìn)行了描述,在對網(wǎng)絡(luò)信息資源進(jìn)行搜索時(shí),可以確保具有相同語義的信息被搜索到,同時(shí)排除名稱相同、語義不同的信息,從而提高搜索的查全率和查準(zhǔn)率?;诒倔w的網(wǎng)絡(luò)信息資源分類組織的實(shí)現(xiàn),還需要不斷地完善和改進(jìn),因?yàn)殡S著社會的不斷發(fā)展、進(jìn)步,新事物、新概念也不斷在產(chǎn)生,舊的事物也會被取而代之,要不斷對網(wǎng)絡(luò)信息資源的分類進(jìn)行補(bǔ)充和調(diào)整。此外,在今后的研究中還應(yīng)對分類方法進(jìn)行評價(jià),這樣才能使領(lǐng)域本體在網(wǎng)絡(luò)信息資源分類中更加完善。
參考文獻(xiàn):
[1] 喬燕鴻.基于本體論的信息組織研究[D].鄭州:鄭州大學(xué)博士學(xué)位論文集,2007.
[2] 曹樹金,羅春榮.信息組織的分類法與主題法[M].北京:北京圖書館出版社,2000.
[3] 張燕飛.信息組織的主題語言[M].武漢:武漢大學(xué)出版社,2005.
[4] 馬張華,侯漢清.文獻(xiàn)分類法主題法導(dǎo)論[M].北京:北京圖書館出版社,2002.
[5] 游春山,狄九鳳.信息組織理論與實(shí)踐[M].北京:北京大學(xué)出版社,2001.
[6] 馬費(fèi)城,李剛,查先進(jìn).信息資源管理[M].武漢:武漢大學(xué)出版社,2000.
[7] 譚華軍.知識分類[M].南京:東南大學(xué)出版社,2003.
[8] 艾偉.本體的構(gòu)造及其研究[D].武漢:武漢理工大學(xué),2005.
(責(zé)任編輯:楊 放)