王睿+曾斌+陳抒
關(guān)鍵詞:數(shù)字圖書館;段落檢索;性能評估;語義檢索
摘要:文章利用目前已知的文件分段方式以及隱性語義檢索技術(shù),開發(fā)了一個文件分段檢索系統(tǒng),評估了文件結(jié)構(gòu)分段、按文件人工語意分段以及取固定字?jǐn)?shù)分段對段落檢索結(jié)果的影響。通過對研究結(jié)果進(jìn)行分析統(tǒng)計,得出了這3種分段方式的適用范圍及優(yōu)缺點(diǎn)。
中圖分類號:G250文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2015)04-0074-03
收稿日期:2015-03-10
作者簡介:王睿(1975—),海軍工程大學(xué)圖書館館員;曾斌(1970—),海軍工程大學(xué)管理工程系信息管理研究室主任;陳抒(1983—),海軍工程大學(xué)圖書館館員。1背景
隨著信息科技的進(jìn)步,數(shù)字圖書館文獻(xiàn)資料數(shù)量隨之逐漸增加,而讀者所面對的信息也就越來越多。若缺少某些幫助我們搜索信息的技術(shù),數(shù)據(jù)的搜索將會相當(dāng)困難。為了解決這個問題,產(chǎn)生了信息檢索技術(shù),同時也產(chǎn)生了許多不同的檢索方法。但現(xiàn)在大部分的檢索方法都沒有考慮到文件內(nèi)部的結(jié)構(gòu)。因此,讀者雖然找到了文件,但卻無法找到真正對讀者有意義的部分。如常用的模式匹配算法雖然可以對文件的一部分進(jìn)行搜索,但在使用上有許多的限制,文件中必須含有和查詢條件完全符合的文字才會被選擇出來,而大部分的全文檢索技術(shù)忽略了文件的結(jié)構(gòu)。理想中,一個能夠解決這種問題的系統(tǒng)應(yīng)該是能和文件的結(jié)構(gòu)相互配合的。如裝備維護(hù)的檢索系統(tǒng),原始數(shù)據(jù)是各種不同裝備的維修條例,如雷達(dá)、升降裝置等,每一條例是檢索系統(tǒng)中的一個文件。但讀者在檢索時并不希望系統(tǒng)傳回整個條例文件,讀者希望的是找到相關(guān)的維修條文。如找和“控制板接口”相關(guān)的維護(hù)條文,讀者并不希望系統(tǒng)傳回整個該型雷達(dá)的維護(hù)手冊。在一般的文件中也可能有這樣的需求,如搜索“信息管理的定義”,讀者并不希望得到“信息管理導(dǎo)論”這樣的結(jié)果。甚至系統(tǒng)若傳回結(jié)果在某書的某章,可能對讀者來說范圍都太大了。最好是系統(tǒng)可以直接將定義“信息管理導(dǎo)論”的那一段文字直接找出,對讀者的意義會比較大。
因此,本研究希望能將全文檢索技術(shù)的應(yīng)用范圍由“全文”拓展到文件的某一部分,使得搜索時可以找出文件中關(guān)系最大的一個“段落”,也就是提供分辨率較高的搜索方式。為了達(dá)成這個目的,全文檢索的技術(shù)必須修正以配合解決段落檢索的問題。為了要進(jìn)行段落式的全文檢索,首先必須要探討如何將文件分為不同的段落,而又能保持段落之間的意義獨(dú)立。且利用段落檢索時檢索的單位增加許多,如何能在保障檢索正確性的同時,又能維持時間上可以為讀者所忍受,很可能必須修改全文檢索的算法。為此,筆者主要研究包括:①利用目前已知的文件分段方式以及隱性語義檢索技術(shù),開發(fā)了文件分段系統(tǒng)。②研究這些分段方式對索引上的影響,探討分段是否真正對檢索有所幫助。
2文件段落檢索方法的分析
在目前的全文檢索環(huán)境中,存儲的許多文件是相當(dāng)長的,常常在同一篇文章中包含了許多不同的主題。在這樣的情況下,搜尋一整篇文章變得沒有意義,這會造成文件的利用率大幅降低。反而將大文章分開成不同的段落,再加以索引更能接近讀者真正的需求[1]。
目前一般的分段方式可以歸類為三種:按文件結(jié)構(gòu)分段[2],按文件語意分段[3]以及取固定字?jǐn)?shù)分段[4]。這三個方法各有其優(yōu)缺點(diǎn)。
依文件原有的架構(gòu),如段、節(jié)等分段,一篇文章可以很自然地被分割成不同的部分。直覺上來說,這種方式是最有效率的方式,但這個假設(shè)在實際上并不一定正確。實際上,文件的概念在段與段之間是否能保持概念上的一致性,和作者寫文章的方式有很大的關(guān)系。如果作者將相同的概念分在許多的段落,或是將許多不同的概念加以整理,集合在同一段中,對查詢的效率都有負(fù)面的影響。
依文章的語意或主題,加以分析之后,將文章分為概念不同的段落。如 TextTiling[5]。它的原理是利用文件中用詞的相似度來將文件分為不同的部分。利用統(tǒng)計方式,文件的不同部分可以找出不同的“相關(guān)段”,也就是表達(dá)概念相同的段落。但實驗結(jié)果顯示,這種方式和依文件結(jié)構(gòu)分段并沒有許多的改進(jìn)。
依文件原有的段落或依文章所表達(dá)的語意分段兩種方式中,都假設(shè)文件中存在一個唯一的、符合查詢的信息架構(gòu)。但對不同的查詢,分段的方式可以不同。因此,以上的兩種方式也許并不能符合所有的查詢條件。對這種問題的解決方式是在文件上開一個固定大小的查詢窗口,將分段的大小固定,并移動窗口的位置進(jìn)行查詢。實驗結(jié)果顯示,利用這種方式查詢,精確度都有一定程度的進(jìn)步。在某些實驗中,甚至精確度提升了20.7%。
王睿1,曾斌2,陳抒1:電子文獻(xiàn)段落檢索算法性能評估研究王睿1,曾斌2,陳抒1:電子文獻(xiàn)段落檢索算法性能評估研究3文件段落檢索系統(tǒng)的設(shè)計
本系統(tǒng)包含兩個部分。第一個部分為隱性語義檢索的文件檢索[6]。當(dāng)文獻(xiàn)所表達(dá)的概念相同的時候,由于文獻(xiàn)作者可以選擇的字匯有限,因此概念相同的文章通常會有相似的字匯出現(xiàn)。隱性語義檢索利用數(shù)學(xué)上的奇異值分解將文件向量的維度縮小,去除某些因為字匯有限而產(chǎn)生的詞匯與詞匯之間的相關(guān)性。
圖1文件段落檢索系統(tǒng)架構(gòu)圖段落檢索系統(tǒng)利用隱性語義檢索文件檢索的結(jié)果,利用其所產(chǎn)生的奇異值矩陣及經(jīng)奇異值分解過程所得到的縮減后詞匯向量,經(jīng)過無損壓縮算法[7-8],計算各個文件段落的向量,并將這些向量與查詢條件所得向量加以比較。整個過程可以由圖1表示。
4查詢效能的評估
本研究從大學(xué)圖書館文獻(xiàn)庫中選取27個相關(guān)的文件段落,利用查詢條件在查詢結(jié)果中的出現(xiàn)排名作為評估的重點(diǎn)。在此評估當(dāng)中最重要的是了解系統(tǒng)為何產(chǎn)生錯誤的決定以及如何改進(jìn)。實驗重點(diǎn)關(guān)心的是原始文件的分段方式。不同的分段方式,影響讀者如何接受查詢出來的結(jié)果。如利用固定字?jǐn)?shù)分段,系統(tǒng)極可能會將一個概念連貫的文章段落切成不同的段落,使讀者無法得到最好的結(jié)果。本研究將針對字?jǐn)?shù)以及原始文件的結(jié)構(gòu)進(jìn)行分段,并將結(jié)果加以比較。此外,本實驗也將原始文件依照文件本身的意義,主觀地將文件切割成意義較為一致的段落。利用這些段落,不分段地進(jìn)行查詢,以和本研究中的其他分段方式作為比較。
假設(shè)在A篇文件中,有B篇為相關(guān)文件。在經(jīng)過系統(tǒng)處理查詢之后,檢索出C篇文件,其中有D篇相關(guān)。則:
召回率=DB
準(zhǔn)確率=DC
在研究中固定召回率在某一水平,以計算的準(zhǔn)確率作為比較的指標(biāo)。
此外,在決定文件段落是否和查詢條件相關(guān)時,完全憑借的是實驗者的主觀認(rèn)定,這是本實驗的一個缺陷。但是考慮到目前并沒有一個評估全文查詢系統(tǒng)的標(biāo)準(zhǔn),況且,對于相同的查詢條件以及文件來源,很可能因為分段的方式不同,造成結(jié)果也不同,所以難以事先找出一個判定相關(guān)與否的標(biāo)準(zhǔn)。為此本研究只能通過實驗者本身的判定,決定檢索結(jié)果是否相關(guān)。
在不同分段方式下進(jìn)行系統(tǒng)效能的評估,本實驗想要借此了解分段方式是否可以幫助檢索提高準(zhǔn)確率。以下是本次實驗的結(jié)果(見圖2)。
圖2不同分段方式下的檢索績效 由此實驗結(jié)果不難發(fā)現(xiàn),固定長度的分段方式比人為分段的方式表現(xiàn)好,而人為分段比利用文件原有段落分段要好。為了更進(jìn)一步驗證兩者之間的好壞關(guān)系,本研究利用T-檢定判定這些方式的好壞。
固定長度對文件段落:H0:固定長度法比文件段落法差。利用P值法,p = 2.66125×10-5,小于0.05。所以否定假設(shè),也就是固定長度法比文件段落法好。
文件段落對人為分段:H0:人為分段法比文件段落法差。利用P值法,p = 5.42802×10-5,小于0.05。所以否定假設(shè),也就是人為分段法比文件段落法好。
人為分段對固定長度:H0:固定長度法比人為分段法差。利用P值法,p = 4.57476×10-5,小于0.05。所以否定假設(shè),也就是固定長度法比人為分段法好。
觀察上圖召回率與準(zhǔn)確率的關(guān)系可以發(fā)現(xiàn),在召回率較低(0.1~0.2)時,三種方式準(zhǔn)確率的差距不會太大。但隨著召回率越來越高,利用文件段落分段與其他兩種分段方式的差距越來越大。這代表了在所有相關(guān)的文件段落當(dāng)中,排名較高的部分所檢索出來的文件數(shù)目相差不多。但如果想要取得的相關(guān)文件越完整,所必須取得的總文件數(shù)也就越多,所花的代價也就越大。
對于這種情況,本研究的推斷是由于利用固定長度進(jìn)行分段時,為了避免分段時分開意義相連的段落,將固定長度的段落窗口加以重疊。使用此法進(jìn)行查詢,可能將真正的查詢目標(biāo)斷成兩段以上,造成系統(tǒng)得以查出許多有意義的段落,但這些段落依照和真正的查詢目標(biāo)的重疊程度而相關(guān)性隨之下降。換句話說,相關(guān)的段落與全部段落的數(shù)目比率比另兩者要高,造成在整個召回率曲線上,準(zhǔn)確率隨之均勻下降。
而利用文件段落進(jìn)行分段,則有著相反的效果。由于相關(guān)的段落并沒有被切開成為數(shù)段,造成真正相關(guān)的文件段落準(zhǔn)確率很高,如同其他兩種方式一般。在召回率為0.1~0.2的范圍內(nèi),其實三種方式的準(zhǔn)確率差距不大。但很明顯的是,利用文件本身段落作分段的準(zhǔn)確率降低極快。這可以說文件段落可以較精確地接近文件作者如何區(qū)分自己所要表達(dá)意義的不同。因此,對一個查詢條件可以明確地找出含有這些意義的部分,但并不能提高系統(tǒng)認(rèn)為排名較低的文件段落的排名。
在人為分段的部分,筆者發(fā)現(xiàn)這種分段的表現(xiàn)更好。但是在利用單一詞匯進(jìn)行查詢時效果較差。因此,拖累了整體的表現(xiàn)。筆者認(rèn)為這種方式比較適合隱性語義檢索進(jìn)行概念檢索,尤其是在給定一段文字,在文獻(xiàn)庫中尋找相關(guān)文字段落的應(yīng)用上更為適合。
5結(jié)語
本研究針對文件分段檢索的問題,利用隱性語義檢索技術(shù),將可能出現(xiàn)的問題以及解決的方案進(jìn)行探討。在文件分段方式方面,筆者發(fā)現(xiàn),利用文件本身結(jié)構(gòu)進(jìn)行分段比較能夠接近作者對文件意義的表達(dá)。因此,利用文件本身結(jié)構(gòu)進(jìn)行分段效果較好。
參考文獻(xiàn):
[1]王慧.基于Lucene語義檢索優(yōu)化數(shù)字圖書館信息服務(wù)研究[J].科技情報開發(fā)與經(jīng)濟(jì), 2014(15):120-122.
[2]Alejandro Molina,Juan-Manuel Torres-Moreno,Eric SanJuan.Discourse Segmentation for Sentence Compression[J].Advances in Artificial Intelligence Lecture Notes in Computer Science,2011(5):316-327.
[3]Bing Wu,Chen Yan Zhang. Topic Research with Semantics[J].Advanced Materials Research,2013(2):763-767.
[4]Jing Zou,Ilmari Pyykk.Enhanced oval window and blocked round window passages for middle–inner ear transportation of gadolinium in guinea pigs with a perforated round window membrane[J].European Archives of Oto-Rhino-Laryngology, 2013(11):65-72.
[5]N.Swarna Jyothi,M. Sailaja.Enhanced TFIDF Algorithm for Text Categorization[J]. Asian Journal of Computer Science & Information Technology,2011(1):25-34.
[6]董慧,唐敏.語義檢索在Web2.0環(huán)境下的應(yīng)用探討[J].中國圖書館學(xué)報,2011(2): 115-119.
[7]孫志飛.語義檢索在專利文獻(xiàn)檢索中的應(yīng)用及改進(jìn)[J].信息技術(shù),2014(5):127-129.
[8]張文萍,鄧仲華.基于查詢語法擴(kuò)展的隱性語義關(guān)系查詢研究[J].情報雜志,2013(4):99-101.
(編校:崔萌)