国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

書目數(shù)據(jù)庫中的數(shù)據(jù)冗余及檢測(cè)算法的設(shè)計(jì)

2018-12-24 09:40趙嘉凌
現(xiàn)代計(jì)算機(jī) 2018年15期
關(guān)鍵詞:字段編目書目

趙嘉凌

(肇慶學(xué)院信息中心,肇慶 526021)

0 引言

眾所周知,對(duì)于書目數(shù)據(jù)庫而言,其最理想的設(shè)置狀態(tài)是,每個(gè)書目實(shí)體都對(duì)應(yīng)著唯一的書目記錄。然而,因?yàn)榉N種原因,書目數(shù)據(jù)庫存在記錄冗余的問題,具體表現(xiàn)在,即使在數(shù)據(jù)庫的檢索提示已經(jīng)很明確清晰的情況下,目前絕大多數(shù)的書目數(shù)據(jù)庫還未做到,精確定位到某一項(xiàng)用戶真正需要的書目實(shí)體上來。

冗余數(shù)據(jù)降低了書目數(shù)據(jù)庫的索引進(jìn)度,增加了數(shù)據(jù)存儲(chǔ)和管理成本,更別提用戶的檢索時(shí)間被延遲了。最終導(dǎo)致了整個(gè)書目數(shù)據(jù)庫的效能被拉低,數(shù)據(jù)庫涉及的各方人員(包括數(shù)據(jù)庫使用者、編目人員、技術(shù)支持機(jī)構(gòu)等)的用戶體驗(yàn)度受到影響。

因此,如何改善書目數(shù)據(jù)庫的用戶體驗(yàn)度,最大程度減輕冗余數(shù)據(jù)的問題,成為每個(gè)書目數(shù)據(jù)庫管理者需要深入研究的方向[1]。

1 關(guān)于冗余數(shù)據(jù)

1.1 冗余情況介紹

冗余數(shù)據(jù)其中一個(gè)典型代表就是WorldCat.org數(shù)據(jù)庫(世界圖書館目錄檢索平臺(tái)數(shù)據(jù)庫)。該數(shù)據(jù)庫是通過成千上萬的OCLC、圖書館員工和合作伙伴組織的編目人員45年來,對(duì)其輸入各種著錄信息,并從WorldCat平臺(tái)讀取大量的數(shù)據(jù)并進(jìn)行合并,而形成的數(shù)據(jù)庫。該庫其主要通過整合來自WorldCat平臺(tái)和其他渠道的海量書目記錄而聞名,其收錄的數(shù)據(jù)涵蓋了世界各地圖書館的電子、印刷和數(shù)字化信息資源。

但在這個(gè)漫長(zhǎng)的歷史過程中,由于數(shù)據(jù)輸入規(guī)則曾經(jīng)含糊不清,編目人員忽視或誤讀了編目規(guī)則,導(dǎo)致了書目記錄出現(xiàn)了冗余的情況。

根據(jù)OCLC關(guān)于Worldcat的質(zhì)量報(bào)告顯示:“對(duì)于WorldCat數(shù)據(jù)滿意度的統(tǒng)計(jì),在人們反映的問題中,重復(fù)數(shù)據(jù)和最少內(nèi)容的記錄(minimal record)是普遍存在的問題。

WorldCat數(shù)據(jù)庫的快速增長(zhǎng)加劇了數(shù)據(jù)質(zhì)量的問題。問題首先是各國國家圖書館的導(dǎo)入數(shù)據(jù),新的書目數(shù)據(jù)超過了之前自動(dòng)處理重復(fù)數(shù)據(jù)的工具的能力。但是這也讓OCLC通過新進(jìn)入數(shù)據(jù)庫的多語種的數(shù)據(jù),獲得了進(jìn)行多語種服務(wù)的機(jī)會(huì)(1998年,WorldCat數(shù)據(jù)庫里的英文內(nèi)容占64%;2010年,這個(gè)數(shù)字變成了43%)。其次是OCLC自2008年以來大量導(dǎo)入廠商數(shù)據(jù)(目前占書目數(shù)據(jù)庫的1.59%),這一部分的數(shù)據(jù)內(nèi)容比較少,而且會(huì)造成匹配、合并的問題。

OCLC從1991年就開始使用重復(fù)檢測(cè)和分解(Du?plicate Detection and Resolution,DDR)軟件來處理重復(fù)記錄。2010年9月,DDR對(duì)WorldCat數(shù)據(jù)庫完成了一次完整的檢測(cè),刪除了510萬條重復(fù)記錄。(從我個(gè)人的感覺來說,現(xiàn)在WorldCat的冗余數(shù)據(jù)確實(shí)比大概一年前要少了。)

2003年開始,OCLC開始允許“并列記錄”(parallel records,即相同資源使用不同編目語種進(jìn)行編目的記錄。之前作為重復(fù)記錄處理)。而重印的資源的記錄,根據(jù)AACR2,要作為單獨(dú)的記錄來處理。但是對(duì)于終端用戶來說,這種單獨(dú)的展示是讓人困惑的甚至于是失敗的。

繼而OCLC提出了一種新的通用標(biāo)識(shí)符的概念:“全球圖書館載體表現(xiàn)標(biāo)識(shí)符”(Global Library Manifes?tation Identifier,GLIMIR),這是OCLC自2009年開始的項(xiàng)目,用以解決上述問題。新的標(biāo)識(shí)符希望能夠克服編目語種、資源格式或者其他方面的問題,實(shí)現(xiàn)記錄更好的聚合。”

1.2 冗余數(shù)據(jù)的不良影響

(1)從數(shù)據(jù)庫角度看

①信息超載

冗余數(shù)據(jù)勢(shì)必導(dǎo)致用戶每次檢索系統(tǒng)都要查詢海量的文件,而檢索結(jié)果反饋的記錄項(xiàng),也勢(shì)必超過了用戶實(shí)際需要的數(shù)量。

②系統(tǒng)性能被降低

冗余導(dǎo)致數(shù)據(jù)庫記錄的增加,因而加大了數(shù)據(jù)庫有效索引的復(fù)雜度。

③增加了數(shù)據(jù)庫維護(hù)成本

表現(xiàn)在維護(hù)數(shù)據(jù)庫需花費(fèi)更多的時(shí)間。

(2)從用戶角度看

①普通用戶

對(duì)于使用書目數(shù)據(jù)庫進(jìn)行搜索的用戶,冗余記錄對(duì)搜索結(jié)果產(chǎn)生不必要的干擾,例如用戶查閱搜索結(jié)果列表的過程中,將不得不對(duì)表示為不同形式的同一個(gè)文獻(xiàn)實(shí)體,進(jìn)行多次查閱比較,以確定其實(shí)際指向同一個(gè)文獻(xiàn)實(shí)體。

②編目人員

對(duì)冗余記錄進(jìn)行識(shí)別并對(duì)書目數(shù)據(jù)庫進(jìn)行過濾清洗,勢(shì)必占用了編目人員大量寶貴的時(shí)間。

③研究人員

對(duì)于學(xué)術(shù)水平需要被評(píng)估的人員而言,評(píng)估者在對(duì)其進(jìn)行學(xué)術(shù)評(píng)估,使用書目數(shù)據(jù)庫進(jìn)行查找,由于冗余數(shù)據(jù)的出現(xiàn),使得評(píng)估者對(duì)于被評(píng)估人員的學(xué)術(shù)成果,其中有效成分的比例會(huì)產(chǎn)生一定的懷疑。

1.3 冗余產(chǎn)生的原因

冗余產(chǎn)生的原因之一是數(shù)據(jù)庫開發(fā)商從不同渠道獲取大規(guī)模數(shù)據(jù),并進(jìn)行數(shù)據(jù)聚合所造成的。具體因素包括了:①編目規(guī)則不一致;②書目記錄的錄入工作過于草率;③使用MARC作為書目記錄格式,各種語法錯(cuò)誤的記錄[2]。

2 書目數(shù)據(jù)庫中冗余記錄的檢測(cè)算法的設(shè)計(jì)思路

為了最大程度減輕記錄的冗余程度,業(yè)界不斷開發(fā)出新的冗余檢測(cè)算法。本文提出的匹配算法就是其中一個(gè)范例,該算法主要針對(duì)的是,兩個(gè)書目描述上一模一樣的記錄的識(shí)別,而對(duì)于兩個(gè)相似的記錄,其識(shí)別具有一定的難度。該算法聚焦于冗余數(shù)據(jù)的檢測(cè)以及重復(fù)記錄的刪除。在設(shè)計(jì)該算法的時(shí)候,主要從以下三大方面展開思考。

(1)設(shè)計(jì)目標(biāo)

對(duì)該算法處理的記錄所代表的對(duì)象文件,作出清晰的分類,例如報(bào)刊文件還是館藏圖書等。

(2)對(duì)冗余記錄的界定

根據(jù)具體的數(shù)據(jù)庫的特定情況,在此基礎(chǔ)上對(duì)何為“冗余記錄”做出細(xì)節(jié)化的定義。

(3)該算法的應(yīng)用

對(duì)于該算法在書目數(shù)據(jù)庫中的執(zhí)行流程,是全自動(dòng)的、半自動(dòng)的還是人工操作的,需要作出詳盡的分類說明。

2.1 定義算法應(yīng)用的步驟

該算法在實(shí)現(xiàn)上分為單步應(yīng)用和雙步應(yīng)用。

該算法的單步應(yīng)用,在大多數(shù)情況下,目標(biāo)是在重復(fù)刪除操作的快捷性與低成本之間,找到平衡點(diǎn)。通常,由于該類算法對(duì)一致數(shù)據(jù)的標(biāo)準(zhǔn)定義較寬松,因此更具有通用性,但是結(jié)果會(huì)導(dǎo)致大量冗余數(shù)據(jù)的出現(xiàn),然后留待后期來控制。

該算法的雙步應(yīng)用中的第一步,是通過比較有限數(shù)位的字段,從而檢測(cè)到冗余的記錄。而第二步,目標(biāo)是還是將用于比較的字段的位數(shù)盡可能的最少化,以避免由于檢測(cè)結(jié)果顯示“不匹配”所導(dǎo)致記錄被刪除,而這些記錄具有不可復(fù)制性。第二步在第一步的基礎(chǔ)上再次檢測(cè),將注重細(xì)節(jié)性和精確度,從而保證冗余記錄的真實(shí)性。

2.2 作為匹配關(guān)鍵的MARC字段

(1)字段的選擇

為了順利生成該算法,其中的關(guān)鍵在于用于匹配的字段的選擇,該字段必須具有固定不變性,即無論哪方(編目人員或者書目編寫機(jī)構(gòu))進(jìn)行編目,其都能保持固定不變性,須知字段的變動(dòng)性越大,越不利于記錄匹配。因此,可見基于書目控制號(hào)(例如ISBN號(hào))是理想的選擇對(duì)象。盡管基于ISBN的重復(fù)刪除,是目前檢測(cè)冗余的最好辦法,但還是不能保證完全百分百的檢測(cè)到所有冗余記錄。于是也需要其他數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù),作為檢測(cè)源,例如,著者、出版發(fā)行方、頁數(shù)、出版地址和年份。

(2)匹配鍵

該算法使用匹配“鍵”來檢測(cè)冗余記錄,所謂的匹配鍵是指由預(yù)先選取的字段或者字段的組合來構(gòu)成的字符串。用作“鍵”的往往是一個(gè)字段的部分(例如ISBN號(hào)),或全部(比如書名),當(dāng)然,也包括了組合字段以及字段部分的組合。在這些鍵創(chuàng)建之前,系統(tǒng)會(huì)進(jìn)行數(shù)據(jù)的標(biāo)注化處理,處理對(duì)象包括了空格符,標(biāo)點(diǎn)符,特殊的字體或者字符,還有大寫符等。此外,對(duì)于字段上的內(nèi)容差異,包括拼寫錯(cuò)誤,丟失數(shù)據(jù)以及字詞的微小變動(dòng)等,還有許多技術(shù),對(duì)其進(jìn)行調(diào)整,這些技術(shù)包括了截詞法、關(guān)鍵詞法、“海明距離”法、文件名法等[3]。

2.3 識(shí)別書目記錄的相似度

(1)匹配度的鑒定

有兩種方法來鑒定冗余記錄的匹配度:

1)字段比較

該方法是在對(duì)選取字段進(jìn)行二進(jìn)制數(shù)位比較的基礎(chǔ)上,鑒定其是否具有一致性。相關(guān)的檢測(cè)軟件,使用“Y”或者“N”來提示鑒定結(jié)果。因?yàn)樵摲椒ㄊ前延涗浀恼麄€(gè)字段完整的進(jìn)行檢測(cè),保證了匹配結(jié)果的準(zhǔn)確度,但過程耗時(shí)。雖然該方法具有一定的嚴(yán)格度,但是實(shí)踐起來具有相當(dāng)?shù)膹?fù)雜性,因?yàn)闄z測(cè)的內(nèi)容還包括了,在編目和數(shù)據(jù)輸入過程中產(chǎn)生的拼寫錯(cuò)誤的記錄。該方法提示了各種字段內(nèi)容差異的可能性,包括了拼寫錯(cuò)誤,數(shù)據(jù)完整性的缺失,部分?jǐn)?shù)據(jù)的丟失,以及編目操作的各種不確定因素。

2)指定權(quán)值

該方法,聚焦于正進(jìn)行匹配的字符串,估計(jì)其相似度而給定的權(quán)值,該權(quán)值,反映的不是數(shù)據(jù)文獻(xiàn)學(xué)上的意義,其用途,只是作為對(duì)相似記錄的識(shí)別。只要加權(quán)值達(dá)到了預(yù)先設(shè)定的值,也就是所謂的“閾值”,算法會(huì)對(duì)某個(gè)記錄實(shí)體,進(jìn)行合并或者刪除操作。

(2)處理冗余記錄

冗余檢測(cè)算法的設(shè)計(jì)還包括了另一個(gè)主要內(nèi)容,即,一旦檢測(cè)到冗余記錄,如何對(duì)其進(jìn)行處理。目前業(yè)界任何的主流做法主要有以下三類:

1)選取其中一條記錄為“母”記錄,以它為參照,其他字段不匹配的記錄都進(jìn)行刪除;

2)選取其中一條記錄為“母”記錄,以它為參照,其他記錄的不匹配字段,添加進(jìn)該“母”記錄,然后合并成為新的“母”記錄;

3)以“母”記錄為參照中心,所有只要有字段與之匹配的記錄都保存下來。

在具體實(shí)踐中,以上操作為有一些變動(dòng),這些變動(dòng)包括了:①對(duì)最先輸入數(shù)據(jù)庫的記錄進(jìn)行保留和維護(hù)以及刪除最后輸入的記錄;②對(duì)最后輸入數(shù)據(jù)庫的記錄進(jìn)行保留和維護(hù)以及刪除最先輸入的記錄;③同時(shí)保留最先輸入和最后輸入的記錄,并將它們彼此間進(jìn)行合并,而形成一個(gè)唯一的信息。

最后,對(duì)于終端用戶,只有當(dāng)他們?cè)跈z索進(jìn)程中,系統(tǒng)默認(rèn)其選擇合并冗余記錄,于是,系統(tǒng)將立即虛擬化地執(zhí)行冗余記錄的合并操作,反饋給用戶接收到的將是單獨(dú)的一條記錄。

(3)冗余檢測(cè)算法的結(jié)果

所有致力于冗余檢測(cè)的算法,其匹配度識(shí)別后都會(huì)產(chǎn)生以下結(jié)果:

①完全吻合

檢測(cè)到的記錄都完全重合。

②部分吻合

只有記錄的部分存在冗余。

③不匹配或者說匹配錯(cuò)誤

盡管算法檢測(cè)結(jié)果指示兩個(gè)記錄是吻合的,但是它們并不指向同一個(gè)文檔實(shí)體。

④漏掉/未經(jīng)檢測(cè)的匹配情況

算法沒法把數(shù)據(jù)庫現(xiàn)存的冗余記錄檢測(cè)出來。

比較④的匹配疏漏,③的匹配錯(cuò)誤將導(dǎo)致更嚴(yán)重的結(jié)果,因?yàn)椋ヅ溴e(cuò)誤而導(dǎo)致誤刪的記錄會(huì)使得數(shù)據(jù)庫面臨信息永久丟失的問題。為了避免這些問題,我們可以考慮讓算法采取更靈活寬松的方式,就會(huì)讓它對(duì)數(shù)據(jù)變化存在一定的容忍度的范圍,只要不超過這個(gè)范圍,盡可能避免書目信息的刪除操作。另外,算法應(yīng)該采取更嚴(yán)格的方式,限制可能是冗余的數(shù)據(jù)大量累積,與此同時(shí),確保任何真實(shí)的冗余記錄不被丟失[4]。

3 結(jié)語

隨著書目數(shù)據(jù)庫體系架構(gòu)的不斷演變,催生出書目數(shù)據(jù)的冗余問題。其實(shí)冗余是一直困擾圖書編目的最大問題,因此作為圖書館編目人員,我們需要不斷的修正對(duì)冗余的定義,以及不斷更新冗余的檢測(cè)方法[5]。

在接下來的時(shí)間里,筆者將聚焦于網(wǎng)絡(luò)空間的實(shí)時(shí)海量冗余數(shù)據(jù)的處理。虛擬書目以及Z39.50端口將是研究的重點(diǎn)。書目數(shù)據(jù)庫的用戶期待的是覆蓋全面的能快速檢索的書目,滿足在異構(gòu)網(wǎng)絡(luò)中分布式書目數(shù)據(jù)庫間聯(lián)合檢索的數(shù)據(jù)一致性需求的,全新的書目數(shù)據(jù)庫。該庫同時(shí)具備檢索速度快,結(jié)果精確度高的特點(diǎn)。接下來將展開對(duì)目前通用的書目數(shù)據(jù)庫冗余記錄的管理方法,例如,虛擬化數(shù)據(jù)合并等。

[1]謝東.書目數(shù)據(jù)庫中冗余數(shù)據(jù)的影響及解決方案[J].情報(bào)資料工作,45-46+47.

[2]王淑梅.數(shù)字圖書館建設(shè)中冗余數(shù)據(jù)的產(chǎn)生于處理[J].圖書館學(xué)研究,48-50.

[3]Campbell,C.(2006),Melvyl Project Coordinator,Information Given by E-mail,(Accessed 31 January 2006).

[4]Cousins,S.(2006),COPAC Service,Manchester Computing,University of Manchester,Available at:copac@mcc.ac.uk(Accessed 11 January 2006).

[5]Vougiouklis,G.(2007),ELiDOC,Available at:gvoug@elidoc.gr(Accessed 2 February 2006).

猜你喜歡
字段編目書目
推薦書目《初春之城》
帶鉤或不帶鉤選擇方框批量自動(dòng)換
試析圖書館編目的邊緣化與編目館員的轉(zhuǎn)型
淺談臺(tái)灣原版中文圖書的編目經(jīng)驗(yàn)
網(wǎng)絡(luò)環(huán)境下圖書館編目工作問題探討
新形勢(shì)下高校圖書館編目工作面臨的挑戰(zhàn)和發(fā)展契機(jī)探討
無正題名文獻(xiàn)著錄方法評(píng)述
無正題名文獻(xiàn)著錄方法評(píng)述
《全國新書目》2009年1月薦書榜
贈(zèng)書書目
大庆市| 玛沁县| 敦化市| 文登市| 镇赉县| 哈巴河县| 古浪县| 绥芬河市| 长阳| 景德镇市| 丹凤县| 大城县| 额尔古纳市| 马龙县| 淮安市| 嘉祥县| 东乌| 彭泽县| 施秉县| 合水县| 惠来县| 博兴县| 临海市| 宁武县| 甘德县| 扶沟县| 内乡县| 怀柔区| 兴安县| 焉耆| 鹿泉市| 新宾| 南城县| 台北市| 郑州市| 甘孜县| 微博| 清徐县| 乌兰县| 昆明市| 德阳市|