曹異卿+唐俊
摘要:該文設計了一個基于互聯(lián)網(wǎng)技術的開放式圖書館數(shù)字資源檢索系統(tǒng),系統(tǒng)采用多粒度索引技術建立數(shù)字資源的索引數(shù)據(jù)庫,使用逆向最大匹配算法實現(xiàn)分詞,提升了系統(tǒng)的檢索能力。測試結(jié)果表明系統(tǒng)在準確率、召回率和F-measure上取得較好的效果。
關鍵詞:數(shù)字資源;檢索系統(tǒng);多粒度索引;逆向最大匹配
中圖分類號:TP315 文獻標識碼:A 文章編號:1009-3044(2015)10-0012-03
1 概述
現(xiàn)代圖書館的發(fā)展越來越趨向于數(shù)字化、移動化,因此圖書館的建設也與傳統(tǒng)的紙質(zhì)圖書館模式產(chǎn)生了很大的不同。國內(nèi)主要公共圖書館和高校圖書館都將圖書采購的主要來源定位于數(shù)字資源。[1-2]圖書館數(shù)字資源的不斷增加給圖書館對數(shù)字資源的加工、處理、存儲、檢索和使用帶來了考驗與挑戰(zhàn)。目前國內(nèi)圖書館數(shù)字資源的建設主要包括購買國內(nèi)外著名的數(shù)據(jù)庫和圖書館的特色館藏。[3-4]
購買的數(shù)據(jù)庫都提供了數(shù)字資源的檢索系統(tǒng),而圖書館的特色館藏資源的形式多樣。[5]特色館藏資源一般包括圖像、文本、聲音、視頻等方方面面,這類數(shù)字資源的查詢條件有時候難以準確描述,所以查詢條件的描述本身就是難點,而且檢索的對象或者集合也可能是模糊的。其中的原因可能是因為信息檢索的處理對象通常是自然語言,自然語言本身就變化無常,而且自然語言沒有固定的結(jié)構(gòu),它們的語義經(jīng)常具有模糊性,導致經(jīng)常檢索不到所需要的資源。[6]
本文第二節(jié)提出了一種圖書館數(shù)字資源的多粒度混合索引技術,第三節(jié)基于混合索引技術進行了基于互聯(lián)網(wǎng)的開放式數(shù)字圖書館檢索系統(tǒng),第四節(jié)對系統(tǒng)進行了測試,測試結(jié)果表明系統(tǒng)在準確率、召回率和F-measure上取得較好的效果。
2 多粒度混合索引技術
多粒度索引技術是構(gòu)建倒排索引數(shù)據(jù)文件的一種方法和技術。多粒度索引技術采用了統(tǒng)計學方法,該方法先識別文檔中包含的未登錄詞語,然后把識別出來的未登錄詞語依次放在一個擴展的詞典里面,采用統(tǒng)計學方法識別未登錄詞語會有錯誤的情況發(fā)生,使得擴展的分詞詞典里面含有錯誤的詞語。在保存擴展的分詞詞典時,把識別出來的新詞語再用基本分詞詞典進行二次切分,并保存好切分開的詞語序列。
多粒度索引技術采用統(tǒng)一倒排文件索引詞典,沒有二級索引詞典,不會產(chǎn)生額外的訪問開銷。多粒度索引技術不限制擴展詞語的長度,可以把更長的短語建成索引,這樣使得信息檢索時更加靈活。與詞語索引結(jié)合Bigram索引的技術相比,多粒度索引技術采用了未登錄詞語識別技術,能夠避免Bigram索引帶來的倒排索引數(shù)據(jù)詞典膨脹的問題。
多粒度索引技術中增加的擴展詞語索引,可以使得更多詞語或短語被索引,從而提高信息檢索系統(tǒng)的檢索效率,所以多粒度索引技術是可行的。
多粒度索引技術的實現(xiàn)包括未登錄詞語識別和擴展詞典構(gòu)建兩個部分。
第一部分 未登錄詞語識別算法
1) 提取m元組:采用基本詞語詞典,對文本進行詞語切分,從得到的分詞結(jié)果中提取出包含m個相鄰基本詞語的字符串,稱為 m元組。
2) 噪聲處理:把停用詞搜集起來構(gòu)成停用詞表,在m元組中進行刪除。
3) 刪除重復的m元組:把那些重復出現(xiàn)的多余m元組進行刪除。
4) 把最后剩下的m元組按照它們出現(xiàn)的頻次從高到低排列,超過一定閾值就作為未登錄詞語加入擴展詞語表。
未登錄詞語可以從網(wǎng)頁文檔語料數(shù)據(jù)中提取得到。在提取m元組時,網(wǎng)頁文本中的用戶經(jīng)常查詢的詞語優(yōu)先被考慮。也可以從網(wǎng)頁文本文摘文字中選擇m元組。這樣可以提高未登錄詞語的識別效果。
第二部分 擴展詞典構(gòu)建
把識別出來的新詞語保存在擴展的詞典中??梢韵冗M行基本分詞詞典分詞,并將結(jié)果轉(zhuǎn)換成基本詞語的序列。然后使用散列查找表把基本詞語的序列轉(zhuǎn)換成連續(xù)整數(shù)編碼。那么擴展分詞詞典里面就保存新詞語中基本詞語的整數(shù)編碼,相當于由整數(shù)編碼構(gòu)成的m元組集合。
3 開放式圖書館數(shù)字資源檢索系統(tǒng)設計
3.1 逆向最大匹配算法設計
逆向最大匹配法通常簡稱為RMM法。RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續(xù)匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據(jù)逆序詞典,對逆序文檔用正向最大匹配法處理即可。逆向最大匹配算法如圖1所示。
3.2 創(chuàng)建索引
在索引創(chuàng)建的算法方面,采用兩趟的內(nèi)存倒排索引創(chuàng)建算法,首先是依次對每個規(guī)模小的文檔集合創(chuàng)建倒排索引,然后執(zhí)行多路歸并算法,最后得到總的倒排索引文件。主要的創(chuàng)建步驟如下:
1) 頁面分析。按照HTML標簽語法規(guī)則分析源文件的標簽結(jié)構(gòu)。在分析的過程中記下每個索引詞的詞頻和文檔頻率,然后利用散列表把它們轉(zhuǎn)換成索引詞語編碼,并把這些結(jié)果保存到詞典文件中,同時把頁面分析的結(jié)果保存到臨時文件里面,留給后面的步驟使用。
2) 按照統(tǒng)計方法得到索引詞語的詞頻和文檔頻率屬性,能夠估計出索引詞語對應得倒排文件數(shù)據(jù)可能的長度,并預先申請文檔集合需要的倒排索引內(nèi)存空間。讀取頁面分析得到的臨時文件,并在內(nèi)存里面按照臨時文件的內(nèi)容創(chuàng)建倒排索引,并把得到的結(jié)果保存在臨時的倒排文件里面。
3) 讀取上面得到的多個臨時的倒排文件的內(nèi)容,然后執(zhí)行多路歸并算法,并進行編碼壓縮,最后輸出到最終的倒排文件里面保存。
在索引創(chuàng)建模塊中,頁面分析過程,尤其是中文分詞過程是主要的時間開銷。算法的后面步驟相對來說速度很快。
3.3 內(nèi)容檢索
檢索模塊同建立索引模塊一樣,都是異構(gòu)數(shù)字資源檢索系統(tǒng)的核心模塊,檢索模塊的功能是首先獲取用戶輸入的關鍵詞,然后對其進行預處理,繼而對處理后的關鍵詞進行中文分詞,最后從索引庫中將用戶需求的數(shù)字資源檢索出來。檢索模塊中,用戶可根據(jù)不同的檢索需求(比如資源題目、資源作者、資源簡介等等),選取不同的檢索條件,獲取不同的檢索結(jié)果。
3.4 結(jié)果排序
排序模塊的功能主要是對檢索模塊檢索出來的結(jié)果進行排序,從而給用戶呈現(xiàn)出相應的資源列表。首先獲取用戶輸入的檢索詞進行分詞之后獲得的關鍵詞,然后計算關鍵詞與檢索結(jié)果中文檔的相關度,最后根據(jù)相關度大小進行排序。排序模塊的流程圖如圖2所示。
4 測試與驗證
根據(jù)美國情報學家Lancaster基于傳統(tǒng)的信息檢索系統(tǒng)提出的信息檢索的性能指標,取480個數(shù)字資源作為測試數(shù)據(jù),測試數(shù)據(jù)包含等量的四種類型的數(shù)字資源,即120個epub格式的文本資源、120個epub格式的音頻資源、120個epub格式的視頻資源以及120個epub格式的圖像資源,每一種類型的數(shù)字資源包含全英文的以及全中文的,所有的中文資源不僅僅只關注同一個關注點。本文從十個不同的方面精心選擇了十個查詢句,其中包括5個中文查詢句和5個英文查詢句,其中軍事、醫(yī)藥、體育、經(jīng)濟、環(huán)境、 健康、藝術、教育、 政治、交通方面分別有一個查詢句。
表1中,R 代表相關文檔集合,變量A 代表檢索結(jié)果構(gòu)成的文檔集合,變量Ra 代表相關文檔集合R 和檢索結(jié)果構(gòu)成的文檔集合 A 的交集。
本系統(tǒng)的平均查準率為88.5%,平均査全率為81.4%。在查準率和查全率上與傳統(tǒng)搜索引擎有較大提升。英文資源的查全率和查準率都高于中文資源的查全率和查準率,這是因為英文和中文本身的差異引起的,英文的分界符非常明顯,而對中文進行切分需要各種分詞算法,準確度自然沒有英文高。
5 總結(jié)
開放式數(shù)字圖書館需要一個能檢索各種類型資源的檢索系統(tǒng),本文提出的開放式圖書館數(shù)字資源檢索系統(tǒng)采用了多粒度索引、逆向最大匹配算法等技術來提高搜索的精度。對檢索系統(tǒng)的分詞、索引、搜索和結(jié)果展現(xiàn)等模塊進行了設計,并基于Java平臺進行系統(tǒng)的原型創(chuàng)建。測試結(jié)果表明系統(tǒng)在準確率、召回率和F-measure上取得較好的效果。
參考文獻:
[1]馬文峰. 數(shù)字資源整合研究[J]. 中國圖書館學報,2002(4):63-66.
[2]劉陽. 基于開放獲取的高校圖書館科學數(shù)據(jù)信息資源管理與服務[J]. 科技情報開發(fā)與經(jīng)濟,2015,05:29-31.
[3]畢強,王傳清,李潔. 基于語義的數(shù)字資源超網(wǎng)絡聚合研究[J]. 情報科學,2015(3):8-12.
[4]王小君,何慶. 資源網(wǎng)格中的一種資源檢索機制[J]. 計算機技術與發(fā)展,2010(3):63-66.
[5]鄭偉青. 云計算在圖書館群資源檢索中的研究與應用[J]. 圖書館建設,2010(4):85-87.
[6]陳旭,陳德華,樂嘉錦. 基于語義相關度排序的政務信息資源檢索算法[J]. 計算機工程與應用,2011(25):121-125.