国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向內(nèi)容文檔管理系統(tǒng)的研究

2012-10-14 15:55:30劉義豐
科技傳播 2012年6期
關(guān)鍵詞:詞法關(guān)鍵字詞典

劉 楊,陳 帥,趙 穩(wěn),劉義豐

天津市博盈科技發(fā)展有限公司,天津 300200

1 系統(tǒng)的研究目標(biāo)

隨著信息技術(shù)的深入發(fā)展,計(jì)算機(jī)給工作、生活等帶來(lái)了極大的方便,在極大地提高勞動(dòng)生產(chǎn)率的同時(shí),給社會(huì)帶來(lái)了無(wú)限的商機(jī)與財(cái)富。但隨著各個(gè)企事業(yè)單位對(duì)計(jì)算機(jī)使用程度的不斷加深,大量的、不同類型的電子文檔管理和利用成為越來(lái)越顯著的難題。盡管文檔管理人員花費(fèi)了大量的精力和時(shí)間通過(guò)各種分類方法去管理和維護(hù)電子文檔,但在實(shí)際工作中檢索所需文檔依舊要花費(fèi)大量時(shí)間。如何有效、安全的對(duì)大量電子文檔進(jìn)行管理和利用成為文檔管理人員和文檔使用人員的當(dāng)務(wù)之急。工作人員在檢索文件的時(shí)候往往不是需要找到“包含”某個(gè)關(guān)鍵字的文檔,而是希望找到與搜索目標(biāo)相關(guān)性最大的文檔。

因此,理想的文檔管理軟件的目標(biāo)設(shè)定為:

1)高效率:在檢索海量文檔的時(shí)候,能以較高的速度返回結(jié)果。

2)高準(zhǔn)確性:可根據(jù)文檔內(nèi)容進(jìn)行查詢,并根據(jù)待查詢文檔和查詢條件之間的相關(guān)性進(jìn)行排序,在最短的時(shí)間內(nèi)找到內(nèi)容最相關(guān)的文檔。

3)高靈活性 :管理各類文檔 :txt、eml、doc、docx、html、xml、pdf等等;同時(shí)考慮一個(gè)文檔的多個(gè)版本。

4)高適應(yīng)性:適應(yīng)各個(gè)行業(yè)的特點(diǎn)。比如律師行業(yè)、建筑行業(yè)、會(huì)計(jì)師事務(wù)所等等所用的文檔中的詞匯有較大不同,應(yīng)該區(qū)別對(duì)待。

5)高易用性:支持模糊查詢,支持復(fù)雜查詢條件,支持同義詞;

2 系統(tǒng)的關(guān)鍵技術(shù)路線

文章涉及到的技術(shù)原理簡(jiǎn)述及設(shè)計(jì)原理如圖1。

圖1 設(shè)計(jì)原理圖

在設(shè)計(jì)文檔管理系統(tǒng)中,開發(fā)的重點(diǎn)和關(guān)鍵技術(shù)如下:

1)文件分析分析技術(shù):通過(guò)文件分析器,將用戶納入管理的電子文件進(jìn)行分析。通過(guò)分析配置器使文件分析器能面向多種格式文檔的內(nèi)容,忽略文檔格式,以保證面向多類型文件;

2)詞法分析。根據(jù)系統(tǒng)管理員設(shè)置的精度和選擇的專業(yè)詞典,將信息轉(zhuǎn)化為關(guān)鍵字信息;

3)專用索引數(shù)據(jù)庫(kù)開發(fā)及使用技術(shù):開發(fā)專用數(shù)據(jù)庫(kù)以保存文檔相關(guān)關(guān)鍵字、文檔訪問路徑、權(quán)值(相關(guān)度)、訪問權(quán)限、文件版本信息等信息。分析用戶權(quán)限、根據(jù)關(guān)鍵字組合對(duì)索引數(shù)據(jù)庫(kù)進(jìn)行掃描,得到組合權(quán)值最高的前若干條數(shù)據(jù),反饋給用戶,對(duì)之后部分?jǐn)?shù)據(jù)進(jìn)行緩存。當(dāng)關(guān)鍵字組合查詢頻度較高時(shí),緩存前一部分的查詢結(jié)果,以提高查詢效率;

4)服務(wù)接口,根據(jù)協(xié)議提供文件利用、備份接口。

面向內(nèi)容文檔管理系統(tǒng)的技術(shù)路線分為以下幾個(gè)步驟:文件分析、詞法分析、索引保存、用戶檢索關(guān)鍵字分析、數(shù)據(jù)檢索、返回結(jié)果。系統(tǒng)框架如圖2。

圖2 系統(tǒng)框架圖

1)文件分析:通過(guò)文件分析器,將用戶納入管理的電子文件進(jìn)行分析。通過(guò)分析配置器使文件分析器能面向多種格式文檔,忽略文檔格式,將文檔內(nèi)容生成XML文件進(jìn)入內(nèi)容詞法分析。同時(shí),分析文檔是否修改文檔和重復(fù)文檔,是否有安全級(jí)別等等;

2)詞法分析。根據(jù)系統(tǒng)管理員設(shè)置的精度和選擇的專業(yè)詞典,將信息轉(zhuǎn)化為關(guān)鍵字、出現(xiàn)頻度和文章權(quán)重的信息,并將如下信息提交給專用文檔索引數(shù)據(jù)庫(kù);

3)索引保存。保存關(guān)鍵字、文檔訪問路徑、權(quán)值(相關(guān)度)、訪問權(quán)限、文件版本信息等信息;

4)用戶檢索關(guān)鍵字分析。通過(guò)詞法分析中間件對(duì)用戶搜索關(guān)鍵信息進(jìn)行分析,將搜索信息分解成為搜索關(guān)鍵字和同義詞并提交索引數(shù)據(jù)庫(kù)進(jìn)行檢索;

5)數(shù)據(jù)檢索。分析用戶權(quán)限、根據(jù)關(guān)鍵字組合對(duì)索引數(shù)據(jù)庫(kù)進(jìn)行掃描,得到組合權(quán)值最高的前20條數(shù)據(jù),反饋給用戶,對(duì)后60條數(shù)據(jù)進(jìn)行緩存。當(dāng)關(guān)鍵字組合查詢頻度較高時(shí),緩存前20條查詢結(jié)果,以提高查詢效率;

6)返回結(jié)果。用戶根據(jù)返回結(jié)果對(duì)文件進(jìn)行訪問,如果訪問出現(xiàn)異常,則記錄異常、標(biāo)記異常文檔。

主要的功能的在現(xiàn)有的產(chǎn)品如Lucense中有比較完善的實(shí)現(xiàn),但仍然有許多需要進(jìn)一步細(xì)化的工作:

1)面向多種文檔的特征配置器的開發(fā)使用。提高系統(tǒng)的可擴(kuò)展性,使系統(tǒng)能面向多種文檔。文檔提供者提供的文檔往往是多類型的。文檔可能包含幾個(gè)大類:MS Office,PDF,金山Office,文本文件,email,其他文檔?,F(xiàn)有的檢索只能識(shí)別對(duì)其中的幾類文檔。應(yīng)該可以通過(guò)對(duì)文檔特征的配置,增加指定文檔的特征配置文件,以保證文檔可以進(jìn)行分析查詢,使系統(tǒng)具備了近乎無(wú)限的擴(kuò)展性;

2)結(jié)合專業(yè)詞典及專業(yè)詞典生成器。保證分詞的準(zhǔn)確和詞匯量的豐富。根據(jù)各個(gè)行業(yè)專業(yè)詞匯的不同,對(duì)詞語(yǔ)精度的要求,對(duì)同義詞的定義等等,以明確使用各類的詞典,減少語(yǔ)言的歧義性。生成器可以分析多篇專業(yè)文檔并和日常工作詞典相比較,自動(dòng)生成專業(yè)詞典生成器;

3)面向多類型文檔的高速分析器。結(jié)合windows/Linux底層文件系統(tǒng)構(gòu)建文件分析中間件,結(jié)合文檔定義以進(jìn)行高速分析并索引;

4)多方式詞法分析技術(shù)。引入多種詞法分析技術(shù),根據(jù)用戶不同的要求,可按照不同精度進(jìn)行詞法分析?;谧址ヅ涞姆衷~方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法。

3 系統(tǒng)展望

內(nèi)容相關(guān)文檔管理系統(tǒng)是海量文檔管理的必然方向,是文檔共享和資源利用的有效手段。為了有效的體現(xiàn)文檔資源社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值,可以對(duì)不涉密的文檔向局域網(wǎng)或internet網(wǎng)進(jìn)行共享??梢哉f(shuō)面向內(nèi)容文檔管理系統(tǒng)有著廣闊的市場(chǎng)前景和巨大的經(jīng)濟(jì)價(jià)值。

[1]Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom.Database Systems:The Complete Book(數(shù)據(jù)庫(kù)系統(tǒng)全書).Prentice Hall/Pearson,2003(機(jī)械工業(yè)出版社影印版).

[2]Baeza-Yates, R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press, 1999(國(guó)內(nèi)有機(jī)械工業(yè)出版社出版的影印版和中文翻譯版).

[3]李國(guó)輝,等著.信息的組織與檢索.科學(xué)出版社,2003.

[4]Witten, Ian et al.Managing Gigabytes.Orlando, FL:Morgan Kaufmann Publishers Incorporated,1999.

[5]William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms.PrenticeHall,1992.

[6]Karen Sparck Jones & Peter Willet eds.Readings in Information Retrieval, Morgan Kaufmann,1997.

[7]李曉明,閆宏飛,王繼民著.搜索引擎-原理、技術(shù)與系統(tǒng).北京:科學(xué)出版社,2005.

猜你喜歡
詞法關(guān)鍵字詞典
詞法 名詞、代詞和冠詞
履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
成功避開“關(guān)鍵字”
評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
應(yīng)用于詞法分析器的算法分析優(yōu)化
詞典例證翻譯標(biāo)準(zhǔn)探索
談對(duì)外漢語(yǔ)“詞法詞”教學(xué)
《胡言詞典》(合集版)刊行
基于用戶反饋的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵字查詢系統(tǒng)
精河县| 华坪县| 任丘市| 蒙阴县| 合作市| 宜宾市| 盐城市| 芜湖市| 温州市| 台北市| 蕲春县| 渭源县| 广昌县| 略阳县| 汝阳县| 隆昌县| 五指山市| 东乡| 常州市| 永安市| 南城县| 厦门市| 翼城县| 武清区| 车险| 昭苏县| 冕宁县| 白玉县| 太仓市| 易门县| 确山县| 湄潭县| 阳泉市| 济南市| 富裕县| 揭阳市| 繁昌县| 通化县| 永安市| 绥芬河市| 厦门市|