凌曄華 龐抗 張曉潔 鄭鑫
摘要:針對當前企業(yè)對文檔保密與檢索功能的雙重需求,提出一種添加模糊匹配Hubble.Net保密文檔專用檢索閱讀方法。采用AES(Advanced Encryption Standard)加密算法對將加密文檔提取的流信息流進行加密,使用Hubble.Net與對加密文檔進行檢索時,而模糊匹配算法的使用大大增加了字符比對的容錯性,在保證文檔加密的同時兼顧了文檔位置定位、關(guān)鍵字定位等文檔檢索功能。在檢索速度及精度方面,要優(yōu)于現(xiàn)有的方法。
關(guān)鍵詞:文檔檢索;Hubble.Net;模糊匹配:AES加密
0引言
在時下的信息時代背景下,大部分科技企業(yè)的文檔數(shù)量正在急劇增加,因此對于文檔的檢索與保密勢必關(guān)涉到公司的整體權(quán)益與未來走勢,如何能夠高效全面地控制管理各類包含秘密信息的文檔則已顯得尤為重要。當前企業(yè)采取了形式多樣的文檔保密措施,如通過規(guī)章制度的管理方式,或者指定PC機來存儲保密文檔、限制PC機聯(lián)網(wǎng)、去掉與外部設(shè)備連接的接口等。分析可知,這些措施都存在著重大的安全隱患,而且更使得當前文檔的檢索和閱讀也變得較為復(fù)雜繁瑣。
針對上述問題的研究進展,已經(jīng)陸續(xù)涌現(xiàn)了一定成果。其中,文獻改進了基于簡單關(guān)鍵詞匹配的算法,就是通過對用戶提供的關(guān)鍵詞進行匹配檢索,但卻缺乏一定的容錯性能,如用戶在使用前并未能掌握檢索結(jié)果相近的關(guān)鍵詞,獲得的檢索結(jié)果也將與用戶的預(yù)期相差甚遠。文獻即在匹配檢索的基礎(chǔ)上加入了語義的提取與分析,由此則可提升檢索信息的價值,但是由于檢索之前還需對語義進行提取,因此效率上隨即出現(xiàn)了下降傾向,而且在數(shù)據(jù)量較大的情況下將不再適于選擇使用。另外,文獻還設(shè)計了一種在檢索中進行詞型檢索算法,雖然提高了查詢的效率,但是會出現(xiàn)明顯的多查現(xiàn)象,需要用戶展開二次甄別,影響了用戶體驗。因此亟待進一步的發(fā)展完善。
針對上述研究及企業(yè)當前對于文檔的保密與檢索的雙重需求,本文提出采用AES加密方法對文檔進行加密,將文檔的章節(jié)位置信息當作檢索關(guān)鍵字寫入數(shù)據(jù)庫,使用Hubble.Net檢索的基礎(chǔ)上添加模糊匹配對加密文件進行檢索,這種采用模糊匹配與AES加密的Hubble.Net文檔檢索系統(tǒng)在保證了文檔的保密前提下,兼顧了保密文檔的檢索與使用效率。本次設(shè)計中,加密文檔檢索系統(tǒng)結(jié)構(gòu)如圖1所示。
1檢索算法
Hubble.Net是一個基于.net framework的開源全文搜索數(shù)據(jù)庫項目。全文搜索數(shù)據(jù)庫系統(tǒng)與普通關(guān)系數(shù)據(jù)庫系統(tǒng)的區(qū)別就在于,前者可以讓使用者對文檔快速實現(xiàn)文本信息的全文搜索,同時也設(shè)置了對數(shù)據(jù)庫中字段的邏輯查詢。目前的一些主流數(shù)據(jù)庫都提供了全文搜索功能,但其全文搜索功能卻相對較弱,無法真正滿足實際應(yīng)用需要。而一些全文搜索組件,比如著名的Lucene,只是具備了全文搜索功能,而缺乏和關(guān)系數(shù)據(jù)庫的關(guān)聯(lián)。Hubble.Net是一款集合全文搜索和關(guān)系查詢于一體的新型數(shù)據(jù)庫系統(tǒng),用戶可以方便地通過SQL語句對數(shù)據(jù)庫定制選擇全文搜索、關(guān)系查詢、甚至全文+關(guān)系的查詢。Hubble.Net供給開放的數(shù)據(jù)庫適配器接口,可以和各類數(shù)據(jù)庫完美拓展對接,為各類數(shù)據(jù)庫體系附加全文檢索和數(shù)據(jù)發(fā)掘功能。Hubble.Net設(shè)計了較為高端的并發(fā)技術(shù)機制,數(shù)據(jù)的增刪改查可以多線程、同時也沒有任何沖突地并發(fā)推進與處理。Hubble.Net還給出了緩存和內(nèi)存管理設(shè)計,可以使用戶最大限度地發(fā)揮查詢的作用與效力。