基于快速排序算法的文獻檢索技術(shù)

2014-02-17 17:47:24姚佳

電腦知識與技術(shù) 2014年2期

姚佳

摘要：文獻搜索引擎在資料查找過程中起到重要作用，幫助人們從海量數(shù)據(jù)資源中找到自己想要的信息。伴隨網(wǎng)絡(luò)技術(shù)的推廣與發(fā)展，目前文獻檢索網(wǎng)站數(shù)據(jù)存儲量迅速增長，造成檢索過程計算量增加。采用快速排序算法，可以有效篩選出與用戶需求匹配度較高的文獻，方便用戶使用，提高運算效率，并利用計算機模擬實現(xiàn)。

關(guān)鍵詞：文獻檢索；快速排序；分治；字符串匹配；時間復(fù)雜度

中圖分類號：TP391.9 文獻標識碼：A 文章編號：1009-3044（2014）02-0305-03

伴隨網(wǎng)絡(luò)技術(shù)的發(fā)展，網(wǎng)絡(luò)信息大量增加，涵蓋期刊、會議紀要、論文、學(xué)術(shù)成果、學(xué)術(shù)會議論文的大型網(wǎng)絡(luò)數(shù)據(jù)庫應(yīng)運而生，如萬方數(shù)據(jù)庫、百度文庫、維普數(shù)據(jù)庫等，文獻存儲容量近百萬篇。如何有效搜集發(fā)現(xiàn)信息，并對信息提取、組織、處理，就需要尋找出高效算法，降低計算復(fù)雜度，提高運算效率，以適應(yīng)文獻資源的迅速擴充[[1]]。

1 文獻資料搜索引擎技術(shù)特點

當用戶以關(guān)鍵詞查找信息時，搜索引擎會在數(shù)據(jù)庫中進行搜尋，如果找到與用戶要求內(nèi)容相符的信息，便采用特殊的算法，根據(jù)文獻中關(guān)鍵詞的匹配程度，如出現(xiàn)的次數(shù)、頻率等計算出各文獻的排名等級，然后根據(jù)關(guān)聯(lián)度高低，按順序?qū)⑦@些資源接返回給用戶。

與網(wǎng)絡(luò)搜索引擎不同，因用戶需求為數(shù)據(jù)資料而非網(wǎng)絡(luò)資源，因此文獻檢索主要依據(jù)為相關(guān)關(guān)鍵詞、內(nèi)容的相關(guān)度等，對域名、外鏈等因素考慮較少。可利用關(guān)鍵詞匹配算法，計算出各文獻特征值，以特征值作為依據(jù)，對檢索文獻排序刪選，滿足用戶需求。為便于理解，該文利用詞頻和位置加權(quán)算法計算特征值，采用快速排序算法進行整理輸出，數(shù)據(jù)庫可高效檢索出與用戶需求匹配程度較高的文獻[[2]]。

2 快速排序算法規(guī)則及性能分析

快速排序是由托尼·霍爾于1962年（Tony Hoare）所發(fā)展的一種遞歸排序算法，采用分治的思想。在平均狀況下，排序 n 個項目需要Ο（n log n）次比較。

其算法規(guī)則可表述為：

3 算法設(shè)計與仿真

首先建立包含十五篇文獻的資料庫，根據(jù)用戶需求，隨機輸入關(guān)鍵詞，在此可將關(guān)鍵詞視為子串，對各文獻進行字符串匹配操作。文獻為A串，即目標串，關(guān)鍵詞為B串，即模式串。若A串中存在和B相等的子串（若干連續(xù)的字符組成的子序列），則匹配成功，，否則，稱匹配不成功[[3]]。

匹配過程如圖2所示，將模式串設(shè)置為滑動窗口。在第一次匹配過程中，第三個字符出現(xiàn)不相同情況，此時根據(jù)KMP算法原則，利用已經(jīng)得到的部分匹配的結(jié)果，將模式串窗口向后滑動一段距離后，繼續(xù)進行比較[[4]]。

參考文獻：

[1] 張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報，2002（2）：142.

[2] 黃知義，周寧.幾類搜索引擎的原理剖析、比較研究及發(fā)展趨勢探討[J].圖書館學(xué)研究，2005（3）：61-62.

[3] 李靜.字符串的模式匹配算法[J].青島化工學(xué)院學(xué)報，2002（2）：80.

[4] 俞文洋，張連堂，段淑敏.KM P模式匹配算法的研究[J].鄭州輕工業(yè)學(xué)院報，2007（5）：65.

[5] 黃德才，戚華春.PageRank算法研究[J].計算機工程，2006（2）：145-146.

[6] 王奇才，宋國新才，邵志清.信息檢索中基于鏈接的網(wǎng)頁排序算法[J].華東理工大學(xué)學(xué)報，2000（5）：456.

[7] 王海源.分治算法的兩種思路和形式[J].上海師范大學(xué)學(xué)報：自然科學(xué)版，2003（1）：40-41.

[8] 劉凱鵬，方濱興.一種基于社會性標注的網(wǎng)頁排序算法[J].計算機學(xué)報，2010（6）：1017.

電腦知識與技術(shù)2014年2期

電腦知識與技術(shù)的其它文章: SBO系統(tǒng)與商務(wù)智能系統(tǒng)整合的研究與應(yīng)用; 基于Lucene的自定義中文分詞器的設(shè)計與實現(xiàn); 淺析電子商務(wù)的網(wǎng)絡(luò)安全; Excel數(shù)據(jù)處理常用方法分類解析; 淺談Excel2007在績效工資統(tǒng)計中的應(yīng)用; 計算機實驗室的維護與管理

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于快速排序算法的文獻檢索技術(shù)