国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于公安業(yè)務(wù)的全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2016-03-05 00:37:53郭松青何鵬
無(wú)線互聯(lián)科技 2015年20期
關(guān)鍵詞:全文檢索

郭松青 何鵬

摘要:隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的發(fā)展和應(yīng)用,公安信息化也得到了突飛猛進(jìn)的發(fā)展。近年來(lái),各地公安機(jī)關(guān)建設(shè)了大量的服務(wù)各警種的信息化系統(tǒng),隨著公安信息化系統(tǒng)的廣泛引用,數(shù)據(jù)量以幾何級(jí)開(kāi)始增長(zhǎng)。如何在龐大的數(shù)據(jù)中快速、精確地檢索數(shù)據(jù),已經(jīng)成為公安信息化發(fā)展的重點(diǎn),建立基于公安業(yè)務(wù)的全文檢索系統(tǒng)能夠有效地滿足這個(gè)需求。文章首先對(duì)全文檢索技術(shù)進(jìn)行簡(jiǎn)要的介紹,對(duì)業(yè)務(wù)需求進(jìn)行了深入分析,重點(diǎn)進(jìn)行了全文檢索系統(tǒng)的數(shù)據(jù)分析和功能模塊設(shè)計(jì)。

關(guān)鍵詞:全文檢索;公安信息化;公安業(yè)務(wù)

全文檢索是現(xiàn)代信息檢索技術(shù)的一個(gè)非常重要的分支,它是處理非結(jié)構(gòu)化數(shù)據(jù)的強(qiáng)大工具,也是搜索引擎的核心技術(shù)之一。全文檢索是以文本數(shù)據(jù)為主要處理對(duì)象,根據(jù)數(shù)據(jù)資料的內(nèi)容而不是外在特征實(shí)現(xiàn)的信息檢索手段。全文檢索就是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立索引,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立好的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過(guò)程類似于通過(guò)字典中的檢索字表查字的過(guò)程。

1 關(guān)鍵技術(shù)

建立一個(gè)全文檢索系統(tǒng),首先要將源文檔轉(zhuǎn)化為能夠進(jìn)行文本查找的全文數(shù)據(jù)庫(kù),包括全文的分割處理以及檢索標(biāo)識(shí)的提取,這稱為全文本的前處理工作。眾所周知,英文是以詞為單位的,單詞之間以空格作為自然分界符,而中文是字的序列,詞之間沒(méi)有間隔標(biāo)記,使得詞的界定缺乏自然標(biāo)準(zhǔn)。而“詞”又是自然語(yǔ)言處理的一個(gè)基本單位,是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。顯而易見(jiàn),自動(dòng)識(shí)別詞的邊界,將書面漢字序列切分成正確的詞串的中文分詞問(wèn)題無(wú)疑是實(shí)現(xiàn)中文信息處理的首要問(wèn)題。

2 全文檢索系統(tǒng)設(shè)計(jì)

2.1 業(yè)務(wù)需求分析

全文檢索系統(tǒng)依附于具體的公安業(yè)務(wù)系統(tǒng),全文檢索數(shù)據(jù)庫(kù)與業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)對(duì)接,同步更新。

目前來(lái)說(shuō),系統(tǒng)的索引范圍按照對(duì)象的物理分布不同分為2類:第1類是業(yè)務(wù)數(shù)據(jù)庫(kù)中存在的相關(guān)數(shù)據(jù)記錄內(nèi)容。第2類是系統(tǒng)上傳的各類文檔附件,包括WORD,EXCEL,PDF,TXT等格式的文檔。

全文檢索系統(tǒng)實(shí)現(xiàn)對(duì)現(xiàn)有業(yè)務(wù)要素高效、準(zhǔn)確、全面的查詢分析,主要包括幾部分:(1)實(shí)現(xiàn)對(duì)全部業(yè)務(wù)關(guān)注數(shù)據(jù)的文本抽取、信息聚集、主題描述,能通過(guò)關(guān)鍵詞檢索到相關(guān)聯(lián)的主題信息。如通過(guò)人名可以查詢到與之相關(guān)的人員基礎(chǔ)庫(kù)信息、關(guān)聯(lián)的情報(bào)信息、關(guān)聯(lián)的人員相關(guān)附件。(2)建立相關(guān)業(yè)務(wù)要素主題庫(kù),主題庫(kù)包含業(yè)務(wù)要素對(duì)應(yīng)的業(yè)務(wù)系統(tǒng)內(nèi)部所有關(guān)聯(lián)信息;搭建全文檢索環(huán)境,提供對(duì)主題庫(kù)的索引建立、排序等。(3)建立合理的結(jié)果排名權(quán)值模型,為用戶提供精準(zhǔn)的數(shù)據(jù)探查,提供對(duì)業(yè)務(wù)系統(tǒng)內(nèi)部所有信息的全文檢索,在業(yè)務(wù)系統(tǒng)中快速查找與關(guān)鍵詞相關(guān)信息項(xiàng)。

2.2 數(shù)據(jù)庫(kù)設(shè)計(jì)

全文檢索數(shù)據(jù)表為Search_Content,主要包括以下幾個(gè)字段。

ID:數(shù)據(jù)表的主鍵,唯一標(biāo)識(shí)該實(shí)體。

CONTENT:人員或者情報(bào)信息的全項(xiàng)信息,包括人員或者情報(bào)信息的所有關(guān)聯(lián)信息,以及人員或者情報(bào)信息相關(guān)的附件文檔內(nèi)容。

OBJNAME:檢索結(jié)果的分類,包括人員、情報(bào)信息、人員附件、情報(bào)信息附件等幾項(xiàng)內(nèi)容,對(duì)檢索出的結(jié)果進(jìn)行分類展示。

BASEID:關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)庫(kù)中的人員表、情報(bào)信息表的主鍵。

BASETABLE:關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)庫(kù)表名,包括人員表名、情報(bào)信息表名、相關(guān)附件文檔表名等。

KEYWORDS:關(guān)鍵字的權(quán)值,為搜索結(jié)果的排名時(shí)使用。

3 全文檢索功能的實(shí)現(xiàn)

全文檢索系統(tǒng)覆蓋足夠全面的數(shù)據(jù)范圍,提供高效快速的全文、智能檢索和多樣化的查詢和檢索手段,使用戶能快速在海量的匯集數(shù)據(jù)中找到相關(guān)信息,并進(jìn)行一定的統(tǒng)計(jì)、監(jiān)控、分析等應(yīng)用。

3.1 信息抽取

為實(shí)現(xiàn)全文檢索,提高整體的響應(yīng)速度,系統(tǒng)應(yīng)采取預(yù)先建立全文索引的方式。原則上,數(shù)據(jù)庫(kù)表的所有字段都建立索引,做到索引信息與數(shù)據(jù)庫(kù)信息完全匹配。系統(tǒng)應(yīng)具備多數(shù)據(jù)源的混合抽取能力,并能針對(duì)各種不同業(yè)務(wù)數(shù)據(jù)源進(jìn)行不同方式的掃描處理。

3.2 精確查詢

采用搜索引擎的架構(gòu),面向數(shù)據(jù)采用預(yù)先抽取數(shù)據(jù)建立全文檢索以及字段獨(dú)立索引,系統(tǒng)的精確查詢是基于索引的,它繼承了搜索引擎高效、穩(wěn)定性能的同時(shí),用戶的精確查

猜你喜歡
全文檢索
企業(yè)網(wǎng)站靜態(tài)頁(yè)面生成與全文檢索技術(shù)研究
基于MySQL的中文全文搜索研究
基于Lucene全文檢索技術(shù)的優(yōu)化探討
Oracle數(shù)據(jù)庫(kù)全文檢索性能研究
全文檢索引擎Lucene系統(tǒng)模型與應(yīng)用研究
全文檢索引擎技術(shù)在電子病歷中的應(yīng)用
基于雙層PDF和Lucene技術(shù)的全文檢索研究與實(shí)現(xiàn)
基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
特色數(shù)據(jù)庫(kù)全文檢索系統(tǒng)的設(shè)計(jì)
基于混合型數(shù)據(jù)庫(kù)的檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
彩票| 上栗县| 利津县| 许昌县| 杨浦区| 南木林县| 神农架林区| 卓资县| 六盘水市| 崇阳县| 根河市| 咸宁市| 交城县| 徐汇区| 广饶县| 开封县| 马关县| 大方县| 罗甸县| 保靖县| 连江县| 巨野县| 芜湖市| 高青县| 财经| 淮阳县| 天长市| 丘北县| 缙云县| 澄城县| 綦江县| 西贡区| 威海市| 深水埗区| 望奎县| 布拖县| 海城市| 南漳县| 寿光市| 连江县| 家居|