劉建
摘要:目前數(shù)據(jù)庫(kù)超文本查詢方法存在查詢準(zhǔn)確率較低的問(wèn)題,為解決這一問(wèn)題對(duì)基于頻繁項(xiàng)集挖掘的數(shù)據(jù)庫(kù)超文本查詢算法進(jìn)行研究。研究通過(guò)建立頻繁項(xiàng)集挖掘數(shù)據(jù)庫(kù)超文本查詢模型,以模型為基礎(chǔ)對(duì)數(shù)據(jù)庫(kù)超文本查詢關(guān)聯(lián)規(guī)則計(jì)算,從而實(shí)現(xiàn)數(shù)據(jù)庫(kù)超文本查詢權(quán)重計(jì)算。通過(guò)實(shí)驗(yàn),對(duì)繁項(xiàng)集挖掘數(shù)據(jù)庫(kù)超文本查詢算法與傳統(tǒng)查詢算法精準(zhǔn)度相比較,從而證明頻繁項(xiàng)集挖掘數(shù)據(jù)庫(kù)超文本查詢算法的有效性。
關(guān)鍵詞:頻繁項(xiàng)集;挖掘;數(shù)據(jù)庫(kù);超文本
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)04-0119-02
0 引言
我國(guó)在向著信息時(shí)代發(fā)展的同時(shí),已經(jīng)擁有數(shù)量龐大的網(wǎng)絡(luò)用戶,因此在信息查詢過(guò)程中信息數(shù)量巨大與信息易丟失成為目前面臨的最大問(wèn)題[1]。互聯(lián)網(wǎng)的大量使用,使越來(lái)越多的人利用搜索引擎進(jìn)行查詢操作,但在引擎查詢時(shí)往往通過(guò)查詢關(guān)鍵詞執(zhí)行查詢,因此會(huì)出現(xiàn)較多不需要信息,導(dǎo)致查詢速率較低。提升數(shù)據(jù)庫(kù)超文本查詢的查準(zhǔn)率與查全率,是目前需要解決的最大問(wèn)題。因此對(duì)基于頻繁項(xiàng)集挖掘的數(shù)據(jù)庫(kù)超文本查詢算法進(jìn)行研究,從而有效提高算法精準(zhǔn)度。
1 基于頻繁項(xiàng)集挖掘的數(shù)據(jù)庫(kù)超文本查詢算法
1.1 頻繁項(xiàng)集挖掘數(shù)據(jù)庫(kù)超文本查詢模型
頻繁項(xiàng)集挖掘技術(shù)是數(shù)據(jù)庫(kù)超文本查詢實(shí)現(xiàn)信息聯(lián)想的主要途徑,在建立數(shù)據(jù)關(guān)系定義后,使用虛擬量技術(shù)對(duì)數(shù)據(jù)庫(kù)超文本更加廣泛的應(yīng)用于各種系統(tǒng)中[2]。建立頻繁項(xiàng)集挖掘數(shù)據(jù)庫(kù)超文本查詢模型,若數(shù)據(jù)源為,其中存在個(gè)數(shù)據(jù)集,將作為一個(gè)數(shù)據(jù)節(jié)點(diǎn),則下一個(gè)數(shù)據(jù)節(jié)點(diǎn)為:
2 仿真實(shí)驗(yàn)
2.1 實(shí)驗(yàn)準(zhǔn)備
為基于頻繁項(xiàng)集挖掘的數(shù)據(jù)庫(kù)超文本查詢算法的有效性,因此選擇10個(gè)大型關(guān)系庫(kù)作為測(cè)試樣本,在各個(gè)數(shù)據(jù)中選取超文本,從而建立查詢數(shù)據(jù)。通過(guò)建立分組小數(shù)據(jù)庫(kù),對(duì)數(shù)據(jù)庫(kù)中關(guān)鍵詞進(jìn)行查詢,從而得到800×10個(gè)超文本,將其形成分組小容量數(shù)據(jù)庫(kù)D1;而在大容量數(shù)據(jù)庫(kù)中采集1300×10個(gè)超文本,將其分為大容量數(shù)據(jù)量D2。利用數(shù)據(jù)庫(kù)超文本查詢精準(zhǔn)度作為實(shí)驗(yàn)對(duì)象,分為兩組。其中基于頻繁項(xiàng)集挖掘的數(shù)據(jù)庫(kù)超文本查詢算法為實(shí)驗(yàn)組,傳統(tǒng)查詢算法為對(duì)照組。將各超文本中數(shù)據(jù)結(jié)果進(jìn)行排列,其測(cè)試集情況,如表1所示。
2.2 查詢精準(zhǔn)度對(duì)比
通過(guò)大型關(guān)系數(shù)據(jù)庫(kù)超文本查詢,實(shí)現(xiàn)在查詢過(guò)程中最大程度的對(duì)查詢目標(biāo)的相關(guān)信息尋找。對(duì)實(shí)驗(yàn)組與對(duì)照組之間的查詢精準(zhǔn)度進(jìn)行統(tǒng)計(jì)比較,其結(jié)果如圖2所示。
分析圖2可知,在對(duì)相同目標(biāo)進(jìn)行查詢條件下,實(shí)驗(yàn)組查詢精準(zhǔn)度與對(duì)照組查詢精準(zhǔn)度相比具有明顯優(yōu)勢(shì),且實(shí)驗(yàn)組查詢精準(zhǔn)度能夠在保持較高水準(zhǔn),因此說(shuō)明實(shí)驗(yàn)組查詢算法具有更好有效性。
3 結(jié)語(yǔ)
頻繁項(xiàng)集挖掘作為數(shù)據(jù)庫(kù)超文本查詢算法中較為重要的一項(xiàng)工作,在整體數(shù)據(jù)超文本查詢過(guò)程中,將查詢目標(biāo)數(shù)據(jù)從頻繁數(shù)據(jù)中挖掘出來(lái),以數(shù)據(jù)集形式進(jìn)行輸出,從而減小數(shù)據(jù)所占查詢空間。
參考文獻(xiàn)
[1] 張素智,趙亞楠,楊芮.基于MPB-Tree索引的空間數(shù)據(jù)多關(guān)鍵詞模糊查詢算法研究[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,51(06):49-55.
[2] 顧榮,仇紅劍,楊文家,等.Goldfish:基于矩陣分解的大規(guī)模RDF數(shù)據(jù)存儲(chǔ)與查詢系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2017,40(10):2212-2230.
[3] 萬(wàn)木君.云計(jì)算環(huán)境下基于矩陣加密的查詢算法研究[J].科技通報(bào),2017,33(07):133-136.
[4] 焦?jié)櫤?,張謙,陳超.基于Spark改進(jìn)的最大頻繁項(xiàng)集挖掘算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(7):1839-1843.
[5] 田喜平,黃勇杰.基于關(guān)聯(lián)規(guī)則的大型關(guān)系數(shù)據(jù)庫(kù)超文本查詢算法研究[J].科技通報(bào),2018,34(10):109-112.
數(shù)字技術(shù)與應(yīng)用2019年4期