劉 楊,陳 帥,趙 穩(wěn),劉義豐
天津市博盈科技發(fā)展有限公司,天津 300200
隨著信息技術(shù)的深入發(fā)展,計(jì)算機(jī)給工作、生活等帶來(lái)了極大的方便,在極大地提高勞動(dòng)生產(chǎn)率的同時(shí),給社會(huì)帶來(lái)了無(wú)限的商機(jī)與財(cái)富。但隨著各個(gè)企事業(yè)單位對(duì)計(jì)算機(jī)使用程度的不斷加深,大量的、不同類型的電子文檔管理和利用成為越來(lái)越顯著的難題。盡管文檔管理人員花費(fèi)了大量的精力和時(shí)間通過(guò)各種分類方法去管理和維護(hù)電子文檔,但在實(shí)際工作中檢索所需文檔依舊要花費(fèi)大量時(shí)間。如何有效、安全的對(duì)大量電子文檔進(jìn)行管理和利用成為文檔管理人員和文檔使用人員的當(dāng)務(wù)之急。工作人員在檢索文件的時(shí)候往往不是需要找到“包含”某個(gè)關(guān)鍵字的文檔,而是希望找到與搜索目標(biāo)相關(guān)性最大的文檔。
因此,理想的文檔管理軟件的目標(biāo)設(shè)定為:
1)高效率:在檢索海量文檔的時(shí)候,能以較高的速度返回結(jié)果。
2)高準(zhǔn)確性:可根據(jù)文檔內(nèi)容進(jìn)行查詢,并根據(jù)待查詢文檔和查詢條件之間的相關(guān)性進(jìn)行排序,在最短的時(shí)間內(nèi)找到內(nèi)容最相關(guān)的文檔。
3)高靈活性 :管理各類文檔 :txt、eml、doc、docx、html、xml、pdf等等;同時(shí)考慮一個(gè)文檔的多個(gè)版本。
4)高適應(yīng)性:適應(yīng)各個(gè)行業(yè)的特點(diǎn)。比如律師行業(yè)、建筑行業(yè)、會(huì)計(jì)師事務(wù)所等等所用的文檔中的詞匯有較大不同,應(yīng)該區(qū)別對(duì)待。
5)高易用性:支持模糊查詢,支持復(fù)雜查詢條件,支持同義詞;
文章涉及到的技術(shù)原理簡(jiǎn)述及設(shè)計(jì)原理如圖1。
圖1 設(shè)計(jì)原理圖
在設(shè)計(jì)文檔管理系統(tǒng)中,開發(fā)的重點(diǎn)和關(guān)鍵技術(shù)如下:
1)文件分析分析技術(shù):通過(guò)文件分析器,將用戶納入管理的電子文件進(jìn)行分析。通過(guò)分析配置器使文件分析器能面向多種格式文檔的內(nèi)容,忽略文檔格式,以保證面向多類型文件;
2)詞法分析。根據(jù)系統(tǒng)管理員設(shè)置的精度和選擇的專業(yè)詞典,將信息轉(zhuǎn)化為關(guān)鍵字信息;
3)專用索引數(shù)據(jù)庫(kù)開發(fā)及使用技術(shù):開發(fā)專用數(shù)據(jù)庫(kù)以保存文檔相關(guān)關(guān)鍵字、文檔訪問路徑、權(quán)值(相關(guān)度)、訪問權(quán)限、文件版本信息等信息。分析用戶權(quán)限、根據(jù)關(guān)鍵字組合對(duì)索引數(shù)據(jù)庫(kù)進(jìn)行掃描,得到組合權(quán)值最高的前若干條數(shù)據(jù),反饋給用戶,對(duì)之后部分?jǐn)?shù)據(jù)進(jìn)行緩存。當(dāng)關(guān)鍵字組合查詢頻度較高時(shí),緩存前一部分的查詢結(jié)果,以提高查詢效率;
4)服務(wù)接口,根據(jù)協(xié)議提供文件利用、備份接口。
面向內(nèi)容文檔管理系統(tǒng)的技術(shù)路線分為以下幾個(gè)步驟:文件分析、詞法分析、索引保存、用戶檢索關(guān)鍵字分析、數(shù)據(jù)檢索、返回結(jié)果。系統(tǒng)框架如圖2。
圖2 系統(tǒng)框架圖
1)文件分析:通過(guò)文件分析器,將用戶納入管理的電子文件進(jìn)行分析。通過(guò)分析配置器使文件分析器能面向多種格式文檔,忽略文檔格式,將文檔內(nèi)容生成XML文件進(jìn)入內(nèi)容詞法分析。同時(shí),分析文檔是否修改文檔和重復(fù)文檔,是否有安全級(jí)別等等;
2)詞法分析。根據(jù)系統(tǒng)管理員設(shè)置的精度和選擇的專業(yè)詞典,將信息轉(zhuǎn)化為關(guān)鍵字、出現(xiàn)頻度和文章權(quán)重的信息,并將如下信息提交給專用文檔索引數(shù)據(jù)庫(kù);
3)索引保存。保存關(guān)鍵字、文檔訪問路徑、權(quán)值(相關(guān)度)、訪問權(quán)限、文件版本信息等信息;
4)用戶檢索關(guān)鍵字分析。通過(guò)詞法分析中間件對(duì)用戶搜索關(guān)鍵信息進(jìn)行分析,將搜索信息分解成為搜索關(guān)鍵字和同義詞并提交索引數(shù)據(jù)庫(kù)進(jìn)行檢索;
5)數(shù)據(jù)檢索。分析用戶權(quán)限、根據(jù)關(guān)鍵字組合對(duì)索引數(shù)據(jù)庫(kù)進(jìn)行掃描,得到組合權(quán)值最高的前20條數(shù)據(jù),反饋給用戶,對(duì)后60條數(shù)據(jù)進(jìn)行緩存。當(dāng)關(guān)鍵字組合查詢頻度較高時(shí),緩存前20條查詢結(jié)果,以提高查詢效率;
6)返回結(jié)果。用戶根據(jù)返回結(jié)果對(duì)文件進(jìn)行訪問,如果訪問出現(xiàn)異常,則記錄異常、標(biāo)記異常文檔。
主要的功能的在現(xiàn)有的產(chǎn)品如Lucense中有比較完善的實(shí)現(xiàn),但仍然有許多需要進(jìn)一步細(xì)化的工作:
1)面向多種文檔的特征配置器的開發(fā)使用。提高系統(tǒng)的可擴(kuò)展性,使系統(tǒng)能面向多種文檔。文檔提供者提供的文檔往往是多類型的。文檔可能包含幾個(gè)大類:MS Office,PDF,金山Office,文本文件,email,其他文檔?,F(xiàn)有的檢索只能識(shí)別對(duì)其中的幾類文檔。應(yīng)該可以通過(guò)對(duì)文檔特征的配置,增加指定文檔的特征配置文件,以保證文檔可以進(jìn)行分析查詢,使系統(tǒng)具備了近乎無(wú)限的擴(kuò)展性;
2)結(jié)合專業(yè)詞典及專業(yè)詞典生成器。保證分詞的準(zhǔn)確和詞匯量的豐富。根據(jù)各個(gè)行業(yè)專業(yè)詞匯的不同,對(duì)詞語(yǔ)精度的要求,對(duì)同義詞的定義等等,以明確使用各類的詞典,減少語(yǔ)言的歧義性。生成器可以分析多篇專業(yè)文檔并和日常工作詞典相比較,自動(dòng)生成專業(yè)詞典生成器;
3)面向多類型文檔的高速分析器。結(jié)合windows/Linux底層文件系統(tǒng)構(gòu)建文件分析中間件,結(jié)合文檔定義以進(jìn)行高速分析并索引;
4)多方式詞法分析技術(shù)。引入多種詞法分析技術(shù),根據(jù)用戶不同的要求,可按照不同精度進(jìn)行詞法分析?;谧址ヅ涞姆衷~方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法。
內(nèi)容相關(guān)文檔管理系統(tǒng)是海量文檔管理的必然方向,是文檔共享和資源利用的有效手段。為了有效的體現(xiàn)文檔資源社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值,可以對(duì)不涉密的文檔向局域網(wǎng)或internet網(wǎng)進(jìn)行共享??梢哉f(shuō)面向內(nèi)容文檔管理系統(tǒng)有著廣闊的市場(chǎng)前景和巨大的經(jīng)濟(jì)價(jià)值。
[1]Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom.Database Systems:The Complete Book(數(shù)據(jù)庫(kù)系統(tǒng)全書).Prentice Hall/Pearson,2003(機(jī)械工業(yè)出版社影印版).
[2]Baeza-Yates, R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press, 1999(國(guó)內(nèi)有機(jī)械工業(yè)出版社出版的影印版和中文翻譯版).
[3]李國(guó)輝,等著.信息的組織與檢索.科學(xué)出版社,2003.
[4]Witten, Ian et al.Managing Gigabytes.Orlando, FL:Morgan Kaufmann Publishers Incorporated,1999.
[5]William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms.PrenticeHall,1992.
[6]Karen Sparck Jones & Peter Willet eds.Readings in Information Retrieval, Morgan Kaufmann,1997.
[7]李曉明,閆宏飛,王繼民著.搜索引擎-原理、技術(shù)與系統(tǒng).北京:科學(xué)出版社,2005.