電子文獻(xiàn)段落檢索算法性能評估研究

2015-05-08 15:35:24王睿曾斌陳抒

河南圖書館學(xué)刊 2015年4期

王睿+曾斌+陳抒

關(guān)鍵詞：數(shù)字圖書館；段落檢索；性能評估；語義檢索

摘要：文章利用目前已知的文件分段方式以及隱性語義檢索技術(shù)，開發(fā)了一個文件分段檢索系統(tǒng)，評估了文件結(jié)構(gòu)分段、按文件人工語意分段以及取固定字?jǐn)?shù)分段對段落檢索結(jié)果的影響。通過對研究結(jié)果進(jìn)行分析統(tǒng)計，得出了這3種分段方式的適用范圍及優(yōu)缺點(diǎn)。

中圖分類號：G250文獻(xiàn)標(biāo)識碼：A文章編號：1003-1588（2015）04-0074-03

收稿日期：2015-03-10

作者簡介：王睿（1975—），海軍工程大學(xué)圖書館館員；曾斌（1970—），海軍工程大學(xué)管理工程系信息管理研究室主任；陳抒（1983—），海軍工程大學(xué)圖書館館員。1背景

隨著信息科技的進(jìn)步，數(shù)字圖書館文獻(xiàn)資料數(shù)量隨之逐漸增加，而讀者所面對的信息也就越來越多。若缺少某些幫助我們搜索信息的技術(shù)，數(shù)據(jù)的搜索將會相當(dāng)困難。為了解決這個問題，產(chǎn)生了信息檢索技術(shù)，同時也產(chǎn)生了許多不同的檢索方法。但現(xiàn)在大部分的檢索方法都沒有考慮到文件內(nèi)部的結(jié)構(gòu)。因此，讀者雖然找到了文件，但卻無法找到真正對讀者有意義的部分。如常用的模式匹配算法雖然可以對文件的一部分進(jìn)行搜索，但在使用上有許多的限制，文件中必須含有和查詢條件完全符合的文字才會被選擇出來，而大部分的全文檢索技術(shù)忽略了文件的結(jié)構(gòu)。理想中，一個能夠解決這種問題的系統(tǒng)應(yīng)該是能和文件的結(jié)構(gòu)相互配合的。如裝備維護(hù)的檢索系統(tǒng)，原始數(shù)據(jù)是各種不同裝備的維修條例，如雷達(dá)、升降裝置等，每一條例是檢索系統(tǒng)中的一個文件。但讀者在檢索時并不希望系統(tǒng)傳回整個條例文件，讀者希望的是找到相關(guān)的維修條文。如找和“控制板接口”相關(guān)的維護(hù)條文，讀者并不希望系統(tǒng)傳回整個該型雷達(dá)的維護(hù)手冊。在一般的文件中也可能有這樣的需求，如搜索“信息管理的定義”，讀者并不希望得到“信息管理導(dǎo)論”這樣的結(jié)果。甚至系統(tǒng)若傳回結(jié)果在某書的某章，可能對讀者來說范圍都太大了。最好是系統(tǒng)可以直接將定義“信息管理導(dǎo)論”的那一段文字直接找出，對讀者的意義會比較大。

因此，本研究希望能將全文檢索技術(shù)的應(yīng)用范圍由“全文”拓展到文件的某一部分，使得搜索時可以找出文件中關(guān)系最大的一個“段落”，也就是提供分辨率較高的搜索方式。為了達(dá)成這個目的，全文檢索的技術(shù)必須修正以配合解決段落檢索的問題。為了要進(jìn)行段落式的全文檢索，首先必須要探討如何將文件分為不同的段落，而又能保持段落之間的意義獨(dú)立。且利用段落檢索時檢索的單位增加許多，如何能在保障檢索正確性的同時，又能維持時間上可以為讀者所忍受，很可能必須修改全文檢索的算法。為此，筆者主要研究包括：①利用目前已知的文件分段方式以及隱性語義檢索技術(shù)，開發(fā)了文件分段系統(tǒng)。②研究這些分段方式對索引上的影響，探討分段是否真正對檢索有所幫助。

2文件段落檢索方法的分析

在目前的全文檢索環(huán)境中，存儲的許多文件是相當(dāng)長的，常常在同一篇文章中包含了許多不同的主題。在這樣的情況下，搜尋一整篇文章變得沒有意義，這會造成文件的利用率大幅降低。反而將大文章分開成不同的段落，再加以索引更能接近讀者真正的需求[1]。

目前一般的分段方式可以歸類為三種：按文件結(jié)構(gòu)分段[2]，按文件語意分段[3]以及取固定字?jǐn)?shù)分段[4]。這三個方法各有其優(yōu)缺點(diǎn)。

依文件原有的架構(gòu)，如段、節(jié)等分段，一篇文章可以很自然地被分割成不同的部分。直覺上來說，這種方式是最有效率的方式，但這個假設(shè)在實際上并不一定正確。實際上，文件的概念在段與段之間是否能保持概念上的一致性，和作者寫文章的方式有很大的關(guān)系。如果作者將相同的概念分在許多的段落，或是將許多不同的概念加以整理，集合在同一段中，對查詢的效率都有負(fù)面的影響。

依文章的語意或主題，加以分析之后，將文章分為概念不同的段落。如 TextTiling[5]。它的原理是利用文件中用詞的相似度來將文件分為不同的部分。利用統(tǒng)計方式，文件的不同部分可以找出不同的“相關(guān)段”，也就是表達(dá)概念相同的段落。但實驗結(jié)果顯示，這種方式和依文件結(jié)構(gòu)分段并沒有許多的改進(jìn)。

依文件原有的段落或依文章所表達(dá)的語意分段兩種方式中，都假設(shè)文件中存在一個唯一的、符合查詢的信息架構(gòu)。但對不同的查詢，分段的方式可以不同。因此，以上的兩種方式也許并不能符合所有的查詢條件。對這種問題的解決方式是在文件上開一個固定大小的查詢窗口，將分段的大小固定，并移動窗口的位置進(jìn)行查詢。實驗結(jié)果顯示，利用這種方式查詢，精確度都有一定程度的進(jìn)步。在某些實驗中，甚至精確度提升了20.7%。

王睿1，曾斌2，陳抒1：電子文獻(xiàn)段落檢索算法性能評估研究王睿1，曾斌2，陳抒1：電子文獻(xiàn)段落檢索算法性能評估研究3文件段落檢索系統(tǒng)的設(shè)計

本系統(tǒng)包含兩個部分。第一個部分為隱性語義檢索的文件檢索[6]。當(dāng)文獻(xiàn)所表達(dá)的概念相同的時候，由于文獻(xiàn)作者可以選擇的字匯有限，因此概念相同的文章通常會有相似的字匯出現(xiàn)。隱性語義檢索利用數(shù)學(xué)上的奇異值分解將文件向量的維度縮小，去除某些因為字匯有限而產(chǎn)生的詞匯與詞匯之間的相關(guān)性。

圖1文件段落檢索系統(tǒng)架構(gòu)圖段落檢索系統(tǒng)利用隱性語義檢索文件檢索的結(jié)果，利用其所產(chǎn)生的奇異值矩陣及經(jīng)奇異值分解過程所得到的縮減后詞匯向量，經(jīng)過無損壓縮算法[7-8]，計算各個文件段落的向量，并將這些向量與查詢條件所得向量加以比較。整個過程可以由圖1表示。

4查詢效能的評估

本研究從大學(xué)圖書館文獻(xiàn)庫中選取27個相關(guān)的文件段落，利用查詢條件在查詢結(jié)果中的出現(xiàn)排名作為評估的重點(diǎn)。在此評估當(dāng)中最重要的是了解系統(tǒng)為何產(chǎn)生錯誤的決定以及如何改進(jìn)。實驗重點(diǎn)關(guān)心的是原始文件的分段方式。不同的分段方式，影響讀者如何接受查詢出來的結(jié)果。如利用固定字?jǐn)?shù)分段，系統(tǒng)極可能會將一個概念連貫的文章段落切成不同的段落，使讀者無法得到最好的結(jié)果。本研究將針對字?jǐn)?shù)以及原始文件的結(jié)構(gòu)進(jìn)行分段，并將結(jié)果加以比較。此外，本實驗也將原始文件依照文件本身的意義，主觀地將文件切割成意義較為一致的段落。利用這些段落，不分段地進(jìn)行查詢，以和本研究中的其他分段方式作為比較。

假設(shè)在A篇文件中，有B篇為相關(guān)文件。在經(jīng)過系統(tǒng)處理查詢之后，檢索出C篇文件，其中有D篇相關(guān)。則：

召回率=DB

準(zhǔn)確率=DC

在研究中固定召回率在某一水平，以計算的準(zhǔn)確率作為比較的指標(biāo)。

此外，在決定文件段落是否和查詢條件相關(guān)時，完全憑借的是實驗者的主觀認(rèn)定，這是本實驗的一個缺陷。但是考慮到目前并沒有一個評估全文查詢系統(tǒng)的標(biāo)準(zhǔn)，況且，對于相同的查詢條件以及文件來源，很可能因為分段的方式不同，造成結(jié)果也不同，所以難以事先找出一個判定相關(guān)與否的標(biāo)準(zhǔn)。為此本研究只能通過實驗者本身的判定，決定檢索結(jié)果是否相關(guān)。

在不同分段方式下進(jìn)行系統(tǒng)效能的評估，本實驗想要借此了解分段方式是否可以幫助檢索提高準(zhǔn)確率。以下是本次實驗的結(jié)果（見圖2）。

圖2不同分段方式下的檢索績效由此實驗結(jié)果不難發(fā)現(xiàn)，固定長度的分段方式比人為分段的方式表現(xiàn)好，而人為分段比利用文件原有段落分段要好。為了更進(jìn)一步驗證兩者之間的好壞關(guān)系，本研究利用T-檢定判定這些方式的好壞。

固定長度對文件段落：H0：固定長度法比文件段落法差。利用P值法，p = 2.66125×10-5，小于0.05。所以否定假設(shè)，也就是固定長度法比文件段落法好。

文件段落對人為分段：H0：人為分段法比文件段落法差。利用P值法，p = 5.42802×10-5，小于0.05。所以否定假設(shè)，也就是人為分段法比文件段落法好。

人為分段對固定長度：H0：固定長度法比人為分段法差。利用P值法，p = 4.57476×10-5，小于0.05。所以否定假設(shè)，也就是固定長度法比人為分段法好。

觀察上圖召回率與準(zhǔn)確率的關(guān)系可以發(fā)現(xiàn)，在召回率較低（0.1～0.2）時，三種方式準(zhǔn)確率的差距不會太大。但隨著召回率越來越高，利用文件段落分段與其他兩種分段方式的差距越來越大。這代表了在所有相關(guān)的文件段落當(dāng)中，排名較高的部分所檢索出來的文件數(shù)目相差不多。但如果想要取得的相關(guān)文件越完整，所必須取得的總文件數(shù)也就越多，所花的代價也就越大。

對于這種情況，本研究的推斷是由于利用固定長度進(jìn)行分段時，為了避免分段時分開意義相連的段落，將固定長度的段落窗口加以重疊。使用此法進(jìn)行查詢，可能將真正的查詢目標(biāo)斷成兩段以上，造成系統(tǒng)得以查出許多有意義的段落，但這些段落依照和真正的查詢目標(biāo)的重疊程度而相關(guān)性隨之下降。換句話說，相關(guān)的段落與全部段落的數(shù)目比率比另兩者要高，造成在整個召回率曲線上，準(zhǔn)確率隨之均勻下降。

而利用文件段落進(jìn)行分段，則有著相反的效果。由于相關(guān)的段落并沒有被切開成為數(shù)段，造成真正相關(guān)的文件段落準(zhǔn)確率很高，如同其他兩種方式一般。在召回率為0.1～0.2的范圍內(nèi)，其實三種方式的準(zhǔn)確率差距不大。但很明顯的是，利用文件本身段落作分段的準(zhǔn)確率降低極快。這可以說文件段落可以較精確地接近文件作者如何區(qū)分自己所要表達(dá)意義的不同。因此，對一個查詢條件可以明確地找出含有這些意義的部分，但并不能提高系統(tǒng)認(rèn)為排名較低的文件段落的排名。

在人為分段的部分，筆者發(fā)現(xiàn)這種分段的表現(xiàn)更好。但是在利用單一詞匯進(jìn)行查詢時效果較差。因此，拖累了整體的表現(xiàn)。筆者認(rèn)為這種方式比較適合隱性語義檢索進(jìn)行概念檢索，尤其是在給定一段文字，在文獻(xiàn)庫中尋找相關(guān)文字段落的應(yīng)用上更為適合。

5結(jié)語

本研究針對文件分段檢索的問題，利用隱性語義檢索技術(shù)，將可能出現(xiàn)的問題以及解決的方案進(jìn)行探討。在文件分段方式方面，筆者發(fā)現(xiàn)，利用文件本身結(jié)構(gòu)進(jìn)行分段比較能夠接近作者對文件意義的表達(dá)。因此，利用文件本身結(jié)構(gòu)進(jìn)行分段效果較好。

參考文獻(xiàn)：

[1]王慧.基于Lucene語義檢索優(yōu)化數(shù)字圖書館信息服務(wù)研究[J].科技情報開發(fā)與經(jīng)濟(jì)， 2014（15）：120-122.

[2]Alejandro Molina，Juan-Manuel Torres-Moreno，Eric SanJuan.Discourse Segmentation for Sentence Compression[J].Advances in Artificial Intelligence Lecture Notes in Computer Science，2011（5）：316-327.

[3]Bing Wu，Chen Yan Zhang. Topic Research with Semantics[J].Advanced Materials Research，2013（2）：763-767.

[4]Jing Zou，Ilmari Pyykk.Enhanced oval window and blocked round window passages for middle–inner ear transportation of gadolinium in guinea pigs with a perforated round window membrane[J].European Archives of Oto-Rhino-Laryngology， 2013（11）：65-72.

[5]N.Swarna Jyothi，M. Sailaja.Enhanced TFIDF Algorithm for Text Categorization[J]. Asian Journal of Computer Science & Information Technology，2011（1）：25-34.

[6]董慧，唐敏.語義檢索在Web2.0環(huán)境下的應(yīng)用探討[J].中國圖書館學(xué)報，2011（2）： 115-119.

[7]孫志飛.語義檢索在專利文獻(xiàn)檢索中的應(yīng)用及改進(jìn)[J].信息技術(shù)，2014（5）：127-129.

[8]張文萍，鄧仲華.基于查詢語法擴(kuò)展的隱性語義關(guān)系查詢研究[J].情報雜志，2013（4）：99-101.

（編校：崔萌）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

電子文獻(xiàn)段落檢索算法性能評估研究