国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)下Apriori算法的改進(jìn)研究

2020-08-10 02:38:04謝胡林
現(xiàn)代計(jì)算機(jī) 2020年17期
關(guān)鍵詞:存儲(chǔ)空間項(xiàng)集事務(wù)

謝胡林

(紹興職業(yè)技術(shù)學(xué)院,紹興312000)

0 引言

在數(shù)據(jù)挖掘領(lǐng)域中,關(guān)聯(lián)規(guī)則旨在找出數(shù)據(jù)集中項(xiàng)與項(xiàng)之間未知的關(guān)系,進(jìn)而可以從挖掘出的數(shù)據(jù)對(duì)象信息中得到我們需要的信息。Apriori算法可以利用它挖掘數(shù)據(jù)集中數(shù)據(jù)項(xiàng)間的潛在關(guān)系。

Apriori算法其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集,而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。典型的例子有沃爾瑪超市的尿布與啤酒、超市的牛奶與面包、百度文庫(kù)推薦相關(guān)文檔、淘寶推薦相關(guān)書籍等,這些都是商務(wù)智能和關(guān)聯(lián)規(guī)則在實(shí)際生活中的運(yùn)用。

但是Apriori算法缺點(diǎn)很明顯,使用該算法的時(shí)候需要多次對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描,這樣會(huì)增加算法花費(fèi)在讀寫操作上的時(shí)間,導(dǎo)致挖掘算法的時(shí)間成本上升,這種成本是隨著數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)的增加而呈幾何級(jí)數(shù)上升的;其次,使用該算法則會(huì)產(chǎn)生大量的候選頻繁集,每一步產(chǎn)生的候選頻繁集有時(shí)候是非常巨大的,導(dǎo)致算法在廣度和深度上的適應(yīng)性很差。

Apriori算法是最經(jīng)典、最具影響力的挖掘頻繁項(xiàng)目集的算法,該算法在關(guān)聯(lián)規(guī)則研究中具有里程碑作用,但是在實(shí)際應(yīng)用過(guò)程中,Apriori算法有兩個(gè)致命的性能瓶頸:其一是多次掃描事物數(shù)據(jù)庫(kù),需要更大的I/O負(fù)載,其二是可能產(chǎn)生龐大的候選集,許多專家學(xué)者提出了一些基于Apriori算法的改進(jìn)算法以提高Apriori算法的效率,如散列(Hash)技術(shù)、劃分(Partition)技術(shù)、采樣(Sampling)方法等。但是這些改進(jìn)的算法又或多或少的存在一些問(wèn)題,如采樣方法,它最大的問(wèn)題就是如何選取樣本數(shù)據(jù),即便選取了樣本數(shù)據(jù)且提高了算法的效率卻降低了算法的精度。

本文以Apriori算法分析為依托,改進(jìn)算法的四個(gè)方面,從而有效地提升算法的挖掘性能,將高職院校就業(yè)情況當(dāng)成是研究對(duì)象,在比較后其挖掘成效突出。

1 Apriori算法的優(yōu)化

1.1 增加數(shù)據(jù)庫(kù)

文中以Apriori算法為依托,結(jié)合形成的頻繁項(xiàng)集Lk-1(k=1,2,…k-1)將數(shù)據(jù)庫(kù)Dk加入進(jìn)來(lái),在Dk里將k-頻繁項(xiàng)集和它的事務(wù)集合進(jìn)行保存,假設(shè)事務(wù)集合是Ei,Ei={t1,t2,…,tm,…,tq},所以,Lk-1在自連接時(shí)使得k-候選項(xiàng)集Ck得以形成,計(jì)算Ck的支持度的過(guò)程中,不必掃描原始數(shù)據(jù),僅對(duì)Ck子集事務(wù)Ei進(jìn)行掃描即可,之后將不同子集事務(wù)Ei的交集計(jì)算出來(lái),在上述集合中事務(wù)的數(shù)量,也就是這一候選項(xiàng)集的支持?jǐn)?shù),之后刪除低于支持度的一些候選項(xiàng)集,從而可以使訪問(wèn)效率提升,這一算法優(yōu)化后的偽碼見(jiàn)下。

輸入:原始數(shù)據(jù)庫(kù)將m個(gè)事務(wù)包括在內(nèi)

輸出:D里涉及的頻繁項(xiàng)集

1.2 挖掘頻繁1-項(xiàng)集

首先,分類數(shù)據(jù)塊。把數(shù)據(jù)庫(kù)結(jié)合相應(yīng)的規(guī)定進(jìn)行劃分,使其數(shù)據(jù)塊大小一致,向計(jì)算節(jié)點(diǎn)進(jìn)行傳送,將Map模型有效地執(zhí)行。

其次,初始化數(shù)據(jù)化。在不同計(jì)算節(jié)點(diǎn)里把全部數(shù)據(jù)向這樣的健值對(duì)形式進(jìn)行轉(zhuǎn)化,在這之中,item代表的是不同事務(wù)項(xiàng)目,Tid代表的是標(biāo)識(shí)符。

之后,Map函數(shù)。局部掃描其中的健值,再將健值對(duì)計(jì)算出來(lái),在這之中,sum代表的是支持度計(jì)數(shù)。

再次,Reduce函數(shù)。將Map函數(shù)的輸出結(jié)果進(jìn)行接收,同時(shí)進(jìn)行合并,使局部候選1-項(xiàng)集得以形成,這樣能夠使全局候選集得以形成。

最后,結(jié)合支持度,使頻繁1項(xiàng)集L1得以形成。倘若L1不成功,那么算法結(jié)束。這一算法優(yōu)化后的偽碼見(jiàn)下。

1.3 挖掘頻繁2-項(xiàng)集

首先,將數(shù)據(jù)塊以及頻繁1項(xiàng)集L1輸入。初始化數(shù)據(jù)塊。在不同計(jì)算節(jié)點(diǎn),把數(shù)據(jù)向對(duì)進(jìn)行轉(zhuǎn)化,它的形式是。

之后連接。通過(guò)不同節(jié)點(diǎn)中的L1使C2得以形成。

接著使用Map函數(shù)局部掃描數(shù)據(jù)庫(kù),從而將C2的sum進(jìn)行獲取。之后Reduce函數(shù)。自獲取Map函數(shù)的輸出結(jié)果,將其與局部候選2項(xiàng)集重組,這樣使得全局候選2項(xiàng)集得以形成。

最后,生成結(jié)果。自既定的最小支持度,使頻繁2項(xiàng)集L2得以形成,倘若生成不成功,那么把L1當(dāng)成是結(jié)果輸出,算法完成。這一算法優(yōu)化后的偽碼見(jiàn)下。

1.4 加入動(dòng)態(tài)存儲(chǔ)空間

通過(guò)Apriori算法可以看出,全部的2-頻繁項(xiàng)集中全部元素均以1-頻繁項(xiàng)集密切相關(guān),相同地,超出2的頻繁項(xiàng)集里,全部元素均與2-頻繁項(xiàng)集密切相關(guān),結(jié)合這一現(xiàn)象,文中將動(dòng)態(tài)存儲(chǔ)空間進(jìn)行應(yīng)用,對(duì)這一算法進(jìn)行優(yōu)化,從而快速提取數(shù)據(jù)庫(kù)。

建立以(k-1)-頻項(xiàng)集為依托的動(dòng)態(tài)存儲(chǔ)空間,以這一算法為基礎(chǔ),使k-頻繁項(xiàng)集形成,在(k>2)過(guò)程中,以(k-1)-頻項(xiàng)集為依托,將鏈掊作進(jìn)行實(shí)施,使k-頻繁集的提取速度提升,這樣能夠使掃描次數(shù)下降,使運(yùn)算速度提升。

2 實(shí)驗(yàn)仿真

想要使算法的挖掘成果體現(xiàn)出來(lái),將以Hadoop為基礎(chǔ)的大數(shù)據(jù)平臺(tái)進(jìn)行應(yīng)用,將Linux系統(tǒng)廣泛推廣,以Vmware虛擬機(jī)為依托,對(duì)其進(jìn)行建立,軟件方面將64位Windows系統(tǒng)應(yīng)用,硬件方面將酷睿i5作為CPU,6G內(nèi)存,將主節(jié)點(diǎn)1個(gè),從節(jié)點(diǎn)2個(gè)進(jìn)行建立,將不同數(shù)據(jù)容量進(jìn)行設(shè)置,將與學(xué)生就業(yè)評(píng)價(jià)相關(guān)的數(shù)據(jù)記錄進(jìn)行選取,共計(jì)一千條。把評(píng)價(jià)質(zhì)量項(xiàng)目進(jìn)行劃分,共六個(gè)方面,企業(yè)對(duì)學(xué)生的技術(shù)能力、社會(huì)能力、工作能力以及自主能力等進(jìn)行評(píng)價(jià)。

表1 數(shù)據(jù)集屬性

所以,對(duì)輸入項(xiàng)目來(lái)說(shuō),其數(shù)量是5個(gè),最小支持度是1,挖掘分析數(shù)據(jù)中的六個(gè)方面內(nèi)容,其項(xiàng)目集是Item={{I1},{I2},{I3},{I4},{I5},{I6}},使得數(shù)據(jù)表得以形成,具體見(jiàn)表2-表3。

通過(guò)圖1可以看出,這一算法評(píng)價(jià)指標(biāo)具體的成效,同時(shí)能夠看出,在不同記錄的情況下,這一指標(biāo)的結(jié)果是有著很大的不同之處的,從某種程度來(lái)看,這意味著這一就業(yè)評(píng)價(jià)指標(biāo)是十分典型的。通過(guò)圖可以看出,這一算法和以SVM為依托的樣本分類進(jìn)行比較,其成效是不同的??梢钥闯觯@一算法的樣本分類,與SVM分類進(jìn)行比較,前者要好一些,這是由于將數(shù)據(jù)庫(kù)加入進(jìn)來(lái),同時(shí)將頻繁1-項(xiàng)集進(jìn)行優(yōu)化,將頻繁2-項(xiàng)集進(jìn)行優(yōu)化,同時(shí)將動(dòng)態(tài)存儲(chǔ)空間加入進(jìn)來(lái),從而使得Apriori算法的性能發(fā)生了很大的變化,從而有效地提升了這一算法的挖掘成效。

表2 數(shù)據(jù)項(xiàng)對(duì)應(yīng)集

表3 候選集集合

圖1 算法評(píng)價(jià)成效

3 結(jié)語(yǔ)

本文結(jié)合Apriori算法自身的問(wèn)題,有效地優(yōu)化Apriori算法,優(yōu)化的這一算法,其性能發(fā)生了很大的改變,在評(píng)價(jià)分析高職院校就業(yè)指導(dǎo)后,得出結(jié)論這一算法的挖掘成效是十分顯著的。

猜你喜歡
存儲(chǔ)空間項(xiàng)集事務(wù)
“事物”與“事務(wù)”
基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
基于多種群協(xié)同進(jìn)化算法的數(shù)據(jù)并行聚類算法
蘋果訂閱捆綁服務(wù)Apple One正式上線
河湖事務(wù)
用好Windows 10保留的存儲(chǔ)空間
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
SQLServer自治事務(wù)實(shí)現(xiàn)方案探析
一種新的改進(jìn)Apriori算法*
武山县| 西藏| 阜新市| 赞皇县| 榆社县| 区。| 新蔡县| 高平市| 三原县| 汝南县| 山阴县| 津市市| 哈密市| 探索| 阜阳市| 札达县| 海口市| 汕头市| 远安县| 封开县| 东至县| 炎陵县| 黄梅县| 清远市| 漳平市| 明溪县| 天峻县| 日照市| 伊金霍洛旗| 盘锦市| 甘孜县| 湖州市| 九寨沟县| 高安市| 健康| 徐汇区| 陇川县| 阿图什市| 枝江市| 广南县| 惠来县|