郭松青 何鵬
摘要:隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的發(fā)展和應(yīng)用,公安信息化也得到了突飛猛進(jìn)的發(fā)展。近年來(lái),各地公安機(jī)關(guān)建設(shè)了大量的服務(wù)各警種的信息化系統(tǒng),隨著公安信息化系統(tǒng)的廣泛引用,數(shù)據(jù)量以幾何級(jí)開(kāi)始增長(zhǎng)。如何在龐大的數(shù)據(jù)中快速、精確地檢索數(shù)據(jù),已經(jīng)成為公安信息化發(fā)展的重點(diǎn),建立基于公安業(yè)務(wù)的全文檢索系統(tǒng)能夠有效地滿足這個(gè)需求。文章首先對(duì)全文檢索技術(shù)進(jìn)行簡(jiǎn)要的介紹,對(duì)業(yè)務(wù)需求進(jìn)行了深入分析,重點(diǎn)進(jìn)行了全文檢索系統(tǒng)的數(shù)據(jù)分析和功能模塊設(shè)計(jì)。
關(guān)鍵詞:全文檢索;公安信息化;公安業(yè)務(wù)
全文檢索是現(xiàn)代信息檢索技術(shù)的一個(gè)非常重要的分支,它是處理非結(jié)構(gòu)化數(shù)據(jù)的強(qiáng)大工具,也是搜索引擎的核心技術(shù)之一。全文檢索是以文本數(shù)據(jù)為主要處理對(duì)象,根據(jù)數(shù)據(jù)資料的內(nèi)容而不是外在特征實(shí)現(xiàn)的信息檢索手段。全文檢索就是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立索引,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立好的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過(guò)程類似于通過(guò)字典中的檢索字表查字的過(guò)程。
1 關(guān)鍵技術(shù)
建立一個(gè)全文檢索系統(tǒng),首先要將源文檔轉(zhuǎn)化為能夠進(jìn)行文本查找的全文數(shù)據(jù)庫(kù),包括全文的分割處理以及檢索標(biāo)識(shí)的提取,這稱為全文本的前處理工作。眾所周知,英文是以詞為單位的,單詞之間以空格作為自然分界符,而中文是字的序列,詞之間沒(méi)有間隔標(biāo)記,使得詞的界定缺乏自然標(biāo)準(zhǔn)。而“詞”又是自然語(yǔ)言處理的一個(gè)基本單位,是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。顯而易見(jiàn),自動(dòng)識(shí)別詞的邊界,將書面漢字序列切分成正確的詞串的中文分詞問(wèn)題無(wú)疑是實(shí)現(xiàn)中文信息處理的首要問(wèn)題。
2 全文檢索系統(tǒng)設(shè)計(jì)
2.1 業(yè)務(wù)需求分析
全文檢索系統(tǒng)依附于具體的公安業(yè)務(wù)系統(tǒng),全文檢索數(shù)據(jù)庫(kù)與業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)對(duì)接,同步更新。
目前來(lái)說(shuō),系統(tǒng)的索引范圍按照對(duì)象的物理分布不同分為2類:第1類是業(yè)務(wù)數(shù)據(jù)庫(kù)中存在的相關(guān)數(shù)據(jù)記錄內(nèi)容。第2類是系統(tǒng)上傳的各類文檔附件,包括WORD,EXCEL,PDF,TXT等格式的文檔。
全文檢索系統(tǒng)實(shí)現(xiàn)對(duì)現(xiàn)有業(yè)務(wù)要素高效、準(zhǔn)確、全面的查詢分析,主要包括幾部分:(1)實(shí)現(xiàn)對(duì)全部業(yè)務(wù)關(guān)注數(shù)據(jù)的文本抽取、信息聚集、主題描述,能通過(guò)關(guān)鍵詞檢索到相關(guān)聯(lián)的主題信息。如通過(guò)人名可以查詢到與之相關(guān)的人員基礎(chǔ)庫(kù)信息、關(guān)聯(lián)的情報(bào)信息、關(guān)聯(lián)的人員相關(guān)附件。(2)建立相關(guān)業(yè)務(wù)要素主題庫(kù),主題庫(kù)包含業(yè)務(wù)要素對(duì)應(yīng)的業(yè)務(wù)系統(tǒng)內(nèi)部所有關(guān)聯(lián)信息;搭建全文檢索環(huán)境,提供對(duì)主題庫(kù)的索引建立、排序等。(3)建立合理的結(jié)果排名權(quán)值模型,為用戶提供精準(zhǔn)的數(shù)據(jù)探查,提供對(duì)業(yè)務(wù)系統(tǒng)內(nèi)部所有信息的全文檢索,在業(yè)務(wù)系統(tǒng)中快速查找與關(guān)鍵詞相關(guān)信息項(xiàng)。
2.2 數(shù)據(jù)庫(kù)設(shè)計(jì)
全文檢索數(shù)據(jù)表為Search_Content,主要包括以下幾個(gè)字段。
ID:數(shù)據(jù)表的主鍵,唯一標(biāo)識(shí)該實(shí)體。
CONTENT:人員或者情報(bào)信息的全項(xiàng)信息,包括人員或者情報(bào)信息的所有關(guān)聯(lián)信息,以及人員或者情報(bào)信息相關(guān)的附件文檔內(nèi)容。
OBJNAME:檢索結(jié)果的分類,包括人員、情報(bào)信息、人員附件、情報(bào)信息附件等幾項(xiàng)內(nèi)容,對(duì)檢索出的結(jié)果進(jìn)行分類展示。
BASEID:關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)庫(kù)中的人員表、情報(bào)信息表的主鍵。
BASETABLE:關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)庫(kù)表名,包括人員表名、情報(bào)信息表名、相關(guān)附件文檔表名等。
KEYWORDS:關(guān)鍵字的權(quán)值,為搜索結(jié)果的排名時(shí)使用。
3 全文檢索功能的實(shí)現(xiàn)
全文檢索系統(tǒng)覆蓋足夠全面的數(shù)據(jù)范圍,提供高效快速的全文、智能檢索和多樣化的查詢和檢索手段,使用戶能快速在海量的匯集數(shù)據(jù)中找到相關(guān)信息,并進(jìn)行一定的統(tǒng)計(jì)、監(jiān)控、分析等應(yīng)用。
3.1 信息抽取
為實(shí)現(xiàn)全文檢索,提高整體的響應(yīng)速度,系統(tǒng)應(yīng)采取預(yù)先建立全文索引的方式。原則上,數(shù)據(jù)庫(kù)表的所有字段都建立索引,做到索引信息與數(shù)據(jù)庫(kù)信息完全匹配。系統(tǒng)應(yīng)具備多數(shù)據(jù)源的混合抽取能力,并能針對(duì)各種不同業(yè)務(wù)數(shù)據(jù)源進(jìn)行不同方式的掃描處理。
3.2 精確查詢
采用搜索引擎的架構(gòu),面向數(shù)據(jù)采用預(yù)先抽取數(shù)據(jù)建立全文檢索以及字段獨(dú)立索引,系統(tǒng)的精確查詢是基于索引的,它繼承了搜索引擎高效、穩(wěn)定性能的同時(shí),用戶的精確查