国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

項(xiàng)集

  • Top-k高模糊效用項(xiàng)集挖掘算法
    據(jù)挖掘中,高效用項(xiàng)集挖掘算法是一項(xiàng)重要的研究課題[1-6]。然而,高效用項(xiàng)集挖掘算法的輸出結(jié)果中,只包含項(xiàng)集的組成項(xiàng)及效用信息。決策者很難從中獲取到其它信息,例如高效用項(xiàng)集中每個項(xiàng)的數(shù)量區(qū)間,導(dǎo)致無法做出精確的決策。為解決這一問題,模糊集理論引入到了高效用項(xiàng)集挖掘中,產(chǎn)生了高模糊效用項(xiàng)集挖掘算法。HFUI-GA[7]將進(jìn)化計(jì)算方法引入了高模糊效用項(xiàng)集挖掘中。EFUPM[8]算法提出了緊密的模糊效用上界模型,有效減少了搜索空間。上述高模糊效用項(xiàng)集挖掘算法,均

    計(jì)算機(jī)工程與設(shè)計(jì) 2023年11期2023-12-04

  • 電力大數(shù)據(jù)并行關(guān)聯(lián)規(guī)則挖掘算法
    (支持度):存在項(xiàng)集X,該項(xiàng)集在事務(wù)數(shù)據(jù)庫中出現(xiàn)的概率定義為支持度,記為Sup(X)。負(fù)關(guān)聯(lián)規(guī)則表示的是關(guān)聯(lián)規(guī)則的否定集合[3]。如果存在正關(guān)聯(lián)規(guī)則X→Y,其負(fù)關(guān)聯(lián)規(guī)則包括以下X→?Y、?X→Y和?X→?Y共3 種。Sup(?X)為項(xiàng)集X 的否定規(guī)則支持度,計(jì)算如公式(1)所示。式中:Sup(?X)表示在事務(wù)數(shù)據(jù)庫中項(xiàng)集X未出現(xiàn)的概率,使用已知項(xiàng)集X出現(xiàn)的概率Sup(X) 計(jì)算得到。1.2 正負(fù)關(guān)聯(lián)規(guī)則的評判標(biāo)準(zhǔn)定義2(置信度):項(xiàng)集X與項(xiàng)集Y的執(zhí)行度記為

    中國新技術(shù)新產(chǎn)品 2023年14期2023-09-07

  • 基于鄰接表存儲與哈希表的頻繁項(xiàng)集挖掘算法
    )0 引 言頻繁項(xiàng)集[1]是從數(shù)據(jù)資源中挖掘具有潛在價值的信息,頻繁項(xiàng)挖掘的經(jīng)典算法是Apriori算法,但是該算法存在明顯的不足:算法的計(jì)算時間花費(fèi)較大和內(nèi)存空間占用較高。近年來,研究者們根據(jù)Apriori算法不足之處提出了改進(jìn)方法。例如,文獻(xiàn)[2]提出了利用數(shù)據(jù)結(jié)構(gòu)優(yōu)化預(yù)剪枝步驟,結(jié)合Spark支持的細(xì)粒度計(jì)算模型的特征,將事務(wù)數(shù)據(jù)庫水平劃分為n個塊,分配到m個節(jié)點(diǎn),在m個節(jié)點(diǎn)上運(yùn)行IAP算法n次,找到所有頻繁項(xiàng)集,利用剪枝的方法有效地減少了頻繁項(xiàng)集

    計(jì)算機(jī)應(yīng)用與軟件 2023年7期2023-08-10

  • 挖掘意外高效用項(xiàng)集的有效方法
    點(diǎn),提出了高效用項(xiàng)集挖掘(High Utility Itemstes Mining,HUIM)[5]。HUIM是一種流行的數(shù)據(jù)挖掘方法,用于發(fā)現(xiàn)客戶事務(wù)數(shù)據(jù)庫中的有用模式。它包括發(fā)現(xiàn)產(chǎn)生高效用(高利潤)的項(xiàng)集,即高效用項(xiàng)集(HUIs)。除了客戶交易分析外,HUIM在其它領(lǐng)域也有應(yīng)用,如點(diǎn)擊流分析和生物醫(yī)學(xué)[6]等。HUIM可以看作是頻繁項(xiàng)集挖掘問題的擴(kuò)展,其中單位利潤可以分配給每一個項(xiàng)目。然而傳統(tǒng)的高效用項(xiàng)集挖掘在計(jì)算上具有很大的挑戰(zhàn)性,這是由于其缺乏傳統(tǒng)

    計(jì)算機(jī)仿真 2023年4期2023-06-01

  • 基于哈希表與十字鏈表存儲的Apriori算法優(yōu)化
    ,導(dǎo)致在計(jì)算頻繁項(xiàng)集的過程中時間效率和空間效率比較低。針對傳統(tǒng)Apriori算法在時間復(fù)雜度和空間復(fù)雜度上的不足,文獻(xiàn)[1]提出了使用優(yōu)化的鏈表數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲,并提高支持計(jì)數(shù)效率,同時采用了候選生成方法來減少匹配候選項(xiàng)目集。文獻(xiàn)[2]提出了一種基于MapReduce的頻繁項(xiàng)集挖掘方法,在云計(jì)算中引入了MapReduce模型來實(shí)現(xiàn)Apriori算法并行化。文獻(xiàn)[3]提出了一種基于標(biāo)記事務(wù)壓縮改進(jìn)的Apriori算法,該算法優(yōu)化了關(guān)聯(lián)規(guī)則的參數(shù),減少標(biāo)簽比較

    計(jì)算機(jī)應(yīng)用與軟件 2022年7期2022-08-10

  • 項(xiàng)集挖掘算法研究綜述
    0)1 引言頻繁項(xiàng)集挖掘算法和高效用項(xiàng)集挖掘算法是數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則領(lǐng)域非常重要的兩個分支,可以從數(shù)量和效用角度出發(fā)發(fā)現(xiàn)項(xiàng)之間隱藏的關(guān)聯(lián)性。頻繁項(xiàng)集挖掘旨在挖掘頻繁地同時出現(xiàn)在數(shù)據(jù)庫中的項(xiàng),假定事務(wù)中每個項(xiàng)的價值都相同并且僅考慮項(xiàng)集在交易事務(wù)中出現(xiàn)的總次數(shù)。但在現(xiàn)實(shí)中,項(xiàng)集的出現(xiàn)次數(shù)并不能完全表達(dá)出數(shù)據(jù)的所有有用信息。高效用項(xiàng)集挖掘是在頻繁項(xiàng)集挖掘的基礎(chǔ)上發(fā)展而來的,其不僅考慮項(xiàng)集的出現(xiàn)次數(shù),還考慮用戶偏好、重要性、利潤等因素對項(xiàng)集“有效性”影響。然而,頻繁

    大眾標(biāo)準(zhǔn)化 2022年8期2022-05-20

  • 基于共現(xiàn)結(jié)構(gòu)的頻繁高效用項(xiàng)集挖掘算法
    主要內(nèi)容包括頻繁項(xiàng)集挖掘、高效用項(xiàng)集挖掘、序列挖掘等.頻繁項(xiàng)集指的是在數(shù)據(jù)庫中的支持度不低于用戶指定的最小支持度閾值的項(xiàng)集.頻繁項(xiàng)集挖掘算法[1-5]的意義在于發(fā)現(xiàn)數(shù)據(jù)庫中大量出現(xiàn)的項(xiàng)集,其主要可分為2大類:基于水平層級機(jī)制和基于模式增長機(jī)制,前者以Apriori算法[1]為代表,后者以FP-Growth算法[2]為代表.在實(shí)際應(yīng)用中,頻繁項(xiàng)集挖掘算法基于所有項(xiàng)都具有相同“利潤”的假設(shè)是不能完全滿足實(shí)際需求的,因此高效用項(xiàng)集的概念和模型在文獻(xiàn)[6]中開始被

    遼寧大學(xué)學(xué)報(自然科學(xué)版) 2022年1期2022-04-26

  • 一種基于交叉熵的top-k頻繁項(xiàng)集挖掘算法
    究問題之一,頻繁項(xiàng)集[3-4]旨在發(fā)現(xiàn)那些支持度不低于用戶指定閾值的所有項(xiàng)目。如何設(shè)置合適的閾值,一直是頻繁項(xiàng)集挖掘面臨的難題之一。為解決這一問題,學(xué)者們提出了挖掘top-k頻繁項(xiàng)集[5-6]的問題,即發(fā)現(xiàn)支持度最高的k個頻繁項(xiàng)集。這類問題通過設(shè)置更易理解的結(jié)果項(xiàng)集數(shù)量k,來取代最小支持度閾值,更適合于非領(lǐng)域?qū)<业挠脩羰褂?,并已在若干領(lǐng)域得到了應(yīng)用[7]。TopKRules[6]是一種挖掘top-k關(guān)聯(lián)規(guī)則的方法,挖掘top-k頻繁項(xiàng)集可以看作是TopKR

    鄭州大學(xué)學(xué)報(理學(xué)版) 2022年4期2022-04-25

  • Sp-IEclat:一種大數(shù)據(jù)并行關(guān)聯(lián)規(guī)則挖掘算法
    聯(lián)規(guī)則挖掘;頻繁項(xiàng)集;Spark彈性分布式數(shù)據(jù)集;MapReduce框架DOI:10.15938/j.jhust.2021.04.015中圖分類號:TP399文獻(xiàn)標(biāo)志碼:A文章編號:1007-2683(2021)04-0109-10Abstract:Aiming at the problem of inefficient data mining of association rules in a big data environment, the Ecla

    哈爾濱理工大學(xué)學(xué)報 2021年4期2021-10-07

  • 基于散列技術(shù)的多層關(guān)聯(lián)規(guī)則算法的改進(jìn)
    此算法有較多冗余項(xiàng)集、很大的I/O負(fù)載的缺點(diǎn)做了不斷改進(jìn),如周發(fā)超等[2]針對Apriori算法中的I/O過載大的問題,提出了一種I_Apriori算法來提高算法效率;孫學(xué)波等[3]基于Hadoop平臺,采用HBase文件存儲系統(tǒng)對海量數(shù)據(jù)分布式存儲以及MapReduce框架進(jìn)行分布式計(jì)算,來實(shí)現(xiàn)Apriori數(shù)據(jù)挖掘算法。隨著數(shù)據(jù)量的增加,在分析分類特征數(shù)據(jù)時,發(fā)現(xiàn)不同層之間也存在關(guān)聯(lián)規(guī)則,而Apriori算法只適合對單層數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則,針對這一需求,

    計(jì)算機(jī)工程與設(shè)計(jì) 2021年9期2021-09-16

  • 含負(fù)項(xiàng)top-k高效用項(xiàng)集挖掘算法
    關(guān)注。其中,頻繁項(xiàng)集挖掘是數(shù)據(jù)挖掘的重要組成部分之一。頻繁項(xiàng)集[1]的目標(biāo)是發(fā)現(xiàn)滿足最小支持度閾值的所有項(xiàng)集。但是,在實(shí)際應(yīng)用中,頻繁項(xiàng)集挖掘算法具有一定的局限性。它假定所有項(xiàng)具有相等的價值,并且每個項(xiàng)在每次事務(wù)中出現(xiàn)的次數(shù)不超過一次。但是,這兩個假設(shè)在現(xiàn)實(shí)生活中不是普遍存在的。例如,客戶購買6袋面包和1臺電腦,客戶購買多個相同的商品非常普遍,而出售面包和電腦的利潤卻有所不同。為了解決這一問題,研究人員提出了高效用項(xiàng)集挖掘算法。高效用項(xiàng)集(High Uti

    計(jì)算機(jī)應(yīng)用 2021年8期2021-09-09

  • 最大可刪除項(xiàng)集快速挖掘算法
    061挖掘可刪除項(xiàng)集(Erasable Itemset)是Deng等人在2009年提出的[1],用于解決在企業(yè)資金緊張的情況下,停產(chǎn)哪些產(chǎn)品損失的利潤較小,并據(jù)此制定新的產(chǎn)品計(jì)劃。在此基礎(chǔ)上國內(nèi)外多位學(xué)者提出了多種挖掘可刪除項(xiàng)集的算法,比如Deng等人在先后提出了VME[2]算法、MERIT[3]算法,Le等[4]在2014年提出了MEI算法,這些算法都能在產(chǎn)品數(shù)據(jù)庫中有效挖掘可刪除項(xiàng)集。但是當(dāng)閾值較大時,這些算法在挖掘過程中都會產(chǎn)生大量的項(xiàng)目集,占用了較

    宿州學(xué)院學(xué)報 2021年3期2021-06-22

  • 基于Spark框架的大數(shù)據(jù)局部頻繁項(xiàng)集挖掘算法設(shè)計(jì)
    的大數(shù)據(jù)局部頻繁項(xiàng)集的挖掘算法愈發(fā)重要。近年來形成了巨大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)被稱為大數(shù)據(jù),而如何自動、充分地利用這些大數(shù)據(jù),順利地解決大數(shù)據(jù)中存在的數(shù)據(jù)龐大、無切入點(diǎn)的問題,成為了目前國內(nèi)外迫切需要解決的一個難題,而數(shù)據(jù)挖掘技術(shù)也在此時應(yīng)運(yùn)而生[1]。頻繁項(xiàng)集挖掘技術(shù)是目前數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),最初國內(nèi)外主要采用的關(guān)聯(lián)規(guī)則分析、序列項(xiàng)集、相關(guān)性分析等數(shù)據(jù)挖掘技術(shù),它們都是以頻繁項(xiàng)集挖掘技術(shù)作為核心基礎(chǔ)的,而近幾年來,隨著大數(shù)據(jù)處理引擎S

    微型電腦應(yīng)用 2021年4期2021-04-29

  • 基于AO算法的數(shù)據(jù)流頻繁項(xiàng)集挖掘*
    3]。數(shù)據(jù)流頻繁項(xiàng)集挖掘已成為當(dāng)前數(shù)據(jù)挖掘中的一項(xiàng)重要任務(wù),并隨著大數(shù)據(jù)實(shí)時分析的發(fā)展變得越來越重要。相較于國內(nèi),國外在數(shù)據(jù)流頻繁項(xiàng)集挖掘方面的研究開始得比較早。在數(shù)據(jù)流處理模型中主要有3種不同的窗口模型[4]:界標(biāo)窗口、衰減窗口和滑動窗口,目前使用最多的是滑動窗口模型?;瑒哟翱谀P陀蒑ozafari等[5]引入,并且提出了SWIM(Sliding Window Incremetal Miner)算法,它能夠根據(jù)數(shù)據(jù)流調(diào)節(jié)滑動窗口的大小,因此算法具有良好的

    計(jì)算機(jī)工程與科學(xué) 2020年12期2021-01-06

  • 基于哈希樹的并行關(guān)聯(lián)規(guī)則挖掘算法研究?
    算法,其本質(zhì)是在項(xiàng)集的冪集中利用統(tǒng)計(jì)學(xué)的基本原理,通過多次掃描數(shù)據(jù)庫找出頻繁項(xiàng)集,再根據(jù)已找到的頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則[6]。近年來,國內(nèi)外許多學(xué)者對關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了大量的研究,其主要工作是提高挖掘算法的效率。如Savasere 等提出的基于數(shù)據(jù)分割的Partition 算法,Park 等提出的基于散列的哈希算法以及國內(nèi)學(xué)者于守健等提出利用前綴項(xiàng)集的存儲方式,通過哈希表快速查找來提高查找效率[1]。這些算法都在一定程度或不同側(cè)重點(diǎn)上對Apriori算法

    計(jì)算機(jī)與數(shù)字工程 2020年7期2020-10-09

  • 基于排序樹的Node-Apriori改進(jìn)算法
    新的操作完成頻繁項(xiàng)集的挖掘。本文在文獻(xiàn)[10]和文獻(xiàn)[11]的基礎(chǔ)上進(jìn)行了改進(jìn),通過二進(jìn)制編碼的方式,提出了一種改進(jìn)的Node-Apriori算法。1 Apriori算法1.1 基本概念A(yù)priori算法[12]有兩種方式統(tǒng)計(jì)候選項(xiàng)集的支持度:對于每個候選項(xiàng)集遍歷事務(wù)記錄統(tǒng)計(jì);對于每個事務(wù)記錄統(tǒng)計(jì)對該事務(wù)記錄包含的候選項(xiàng)集的支持事務(wù)數(shù)加1[13]。假如匹配到trie樹中的某個節(jié)點(diǎn),該節(jié)點(diǎn)有n 個孩子節(jié)點(diǎn),還需要匹配的事務(wù)記錄為t′,下一步需要做的就是如何在

    青島大學(xué)學(xué)報(自然科學(xué)版) 2020年3期2020-09-30

  • Apriori算法的壓縮二進(jìn)制編碼改進(jìn)
    陷:一是生成候選項(xiàng)集和頻繁項(xiàng)集的效率低;二是要多次掃描數(shù)據(jù)庫,I/O 負(fù)載大;三是候選項(xiàng)集與未處理的事務(wù)集對比占用大量時間和空間.不少學(xué)者對此從各個方面進(jìn)行研究改進(jìn).Bhandari 等[2]采用并行算法和聚類算法的思想對算法進(jìn)行改進(jìn). Vasoya 等[3]提出將數(shù)據(jù)庫劃分為各個簇,再用基于矩陣的Apriori 算法對每個簇進(jìn)行處理. 張巖慶[4]、陳興蜀等[5]針對大數(shù)據(jù)集使用分布式的方法對算法進(jìn)行改進(jìn). 徐哲煒等[6]通過增加約束條件減少候選集的想法

    宜賓學(xué)院學(xué)報 2020年6期2020-07-14

  • 基于差異點(diǎn)集的頻繁項(xiàng)集挖掘算法
    繁瑣的一步是頻繁項(xiàng)集的挖掘,頻繁項(xiàng)集挖掘算法可分為兩種:①水平逐級搜索,例如崔馨月等[1]提出的Eclat改進(jìn)算法,該算法采用位存儲結(jié)構(gòu),減少了進(jìn)行交集運(yùn)算的項(xiàng)目所占內(nèi)存;宋文慧等[2]提出基于矩陣的Apriori算法(M-Apriori),該算法將數(shù)據(jù)庫用上三角矩陣表示,可直接獲取頻繁1、2-項(xiàng)集,減少大量項(xiàng)候選項(xiàng)集的產(chǎn)生。②分而治之,例如何晴等[3]提出新的FP-Growth算法,該算法采用改進(jìn)的哈希頭表代替?zhèn)鹘y(tǒng)FP-Growth頭表,通過合并最小支持

    計(jì)算機(jī)工程與設(shè)計(jì) 2020年3期2020-04-24

  • 不確定數(shù)據(jù)頻繁項(xiàng)集挖掘算法研究
    要分支之一,頻繁項(xiàng)集挖掘的主要目的是以頻繁出現(xiàn)的項(xiàng)目集的形式發(fā)掘嵌入在海量數(shù)據(jù)中的隱式的、先前未知的、潛在的有用知識[1-4]。當(dāng)前,頻繁項(xiàng)集挖掘在各領(lǐng)域應(yīng)用廣泛,如銀行數(shù)據(jù)分析、市場營銷、醫(yī)療診斷、氣象數(shù)據(jù)分析等[5]。上述應(yīng)用中廣泛存在不確定數(shù)據(jù),造成數(shù)據(jù)不確定性的原因主要有:對現(xiàn)實(shí)世界的有限感知和理解能力;感知監(jiān)測設(shè)備的局限性;用于收集、儲存、轉(zhuǎn)換或數(shù)據(jù)分析的可用資源的限制;無線傳輸錯誤或網(wǎng)絡(luò)延遲;數(shù)據(jù)粒度或隱私保護(hù)。因此,針對不確定數(shù)據(jù)的頻繁項(xiàng)集

    計(jì)算機(jī)技術(shù)與發(fā)展 2019年7期2019-07-23

  • 一種基于Top-K查詢的加權(quán)頻繁項(xiàng)集挖掘算法
    重要的角色。頻繁項(xiàng)集挖掘作為數(shù)據(jù)挖掘最活躍的研究領(lǐng)域之一,是指發(fā)現(xiàn)事務(wù)數(shù)據(jù)中頻繁出現(xiàn)的模式的過程,是發(fā)現(xiàn)大型事務(wù)數(shù)據(jù)集中關(guān)聯(lián)規(guī)則的重要手段,在精準(zhǔn)營銷、個性化推薦、網(wǎng)絡(luò)優(yōu)化與管理、醫(yī)療診斷等領(lǐng)域均有廣泛的應(yīng)用[1]。當(dāng)前,針對確定性數(shù)據(jù)的頻繁模式挖掘理論日趨成熟,然而隨著信息采集技術(shù)和數(shù)據(jù)處理技術(shù)的快速發(fā)展,各種形式復(fù)雜的數(shù)據(jù)逐漸出現(xiàn)在人們面前,不確定數(shù)據(jù)就是其中之一。不確定數(shù)據(jù)是指每一條事務(wù)中項(xiàng)目的存在不再是百分百確定的,而是依據(jù)某種相似性度量或是概率形

    計(jì)算機(jī)技術(shù)與發(fā)展 2019年7期2019-07-23

  • CFMoment:挖掘數(shù)據(jù)流頻繁閉項(xiàng)集算法
    模型,數(shù)據(jù)流頻繁項(xiàng)集挖掘算法大致可以分為3 類:界標(biāo)窗口模型、滑動窗口模型、衰減窗口模型.在界標(biāo)窗口模型中,用戶將一個開始時間指定為界標(biāo),挖掘范圍是從界標(biāo)時間到當(dāng)前時間的所有數(shù)據(jù);在滑動窗口模型中,窗口大小由用戶指定,并且挖掘范圍是該窗口中最近的事務(wù);在衰減模型中,根據(jù)流動順序?qū)γ總€事務(wù)執(zhí)行遞減授權(quán),先前流動的事務(wù)權(quán)重較小,而最近流動的事務(wù)權(quán)重最大.文獻(xiàn)[4]基于界標(biāo)窗口模型提出了sticky-sampling 和lossy-counting 兩種數(shù)據(jù)流頻

    應(yīng)用科學(xué)學(xué)報 2019年3期2019-06-22

  • 一種基于倒排索引的頻繁項(xiàng)集挖掘方法
    兩步:(1)頻繁項(xiàng)集的識別(2)從頻繁項(xiàng)集中挖掘隱含關(guān)聯(lián)規(guī)則[1]。其中頻繁項(xiàng)集的識別是整個挖掘過程的主要部分,頻繁項(xiàng)集的規(guī)模也決定了數(shù)據(jù)挖掘性能。目前,已有眾多學(xué)者針對頻繁項(xiàng)集挖掘的經(jīng)典算法進(jìn)行改進(jìn),他們分別從“事物:項(xiàng)集合”和“項(xiàng)目:事務(wù)集合”兩種方式展開研究,前者被稱為“水平數(shù)據(jù)格式”,后者被稱為“垂直數(shù)據(jù)格式”。文獻(xiàn)[2]利用了二維數(shù)組的結(jié)構(gòu)來對算法進(jìn)行了改進(jìn),大大減少了輸入輸出操作,使查找速度得到提高,但隨著數(shù)據(jù)庫中數(shù)據(jù)量不斷增大,導(dǎo)致了數(shù)據(jù)庫中

    長春理工大學(xué)學(xué)報(自然科學(xué)版) 2019年2期2019-04-25

  • 滑動窗口中FP-Tree的頻繁項(xiàng)集挖掘算法的研究
    為數(shù)據(jù)流中的頻繁項(xiàng)集又是數(shù)據(jù)流挖掘中最基本的問題之一,所以近十幾年得到許多學(xué)者的研究,但是由于數(shù)據(jù)流具有連續(xù)、無限、快速、隨著時間變化且不可預(yù)知的等特性,從而在數(shù)據(jù)流環(huán)境下挖掘頻繁項(xiàng)集帶來了很大的挑戰(zhàn).近幾年來大量的數(shù)據(jù)流頻繁項(xiàng)集挖掘算法被學(xué)者們陸續(xù)提出[2-5].其中最典型的是Han等人提出的FP-Growth算法[6],Manku等人提出的estDec算法[7],Leung等人提出的DSTree算法[8]和Giannella等人提出的FP-stream

    小型微型計(jì)算機(jī)系統(tǒng) 2019年1期2019-01-24

  • 元組級不確定數(shù)據(jù)庫的Top-K概率頻繁項(xiàng)集挖掘
    意義[2].頻繁項(xiàng)集挖掘,也稱為頻繁模式挖掘是關(guān)聯(lián)規(guī)則挖掘的第一步,也是最關(guān)鍵的步驟,它能找出數(shù)據(jù)庫中出現(xiàn)次數(shù)大于用戶給定的最小閾值的所有模式,稱為頻繁項(xiàng)集或頻繁模式.在不確定數(shù)據(jù)庫中挖掘概率頻繁項(xiàng)集能發(fā)現(xiàn)不確定數(shù)據(jù)庫中出現(xiàn)次數(shù)大于某個閾值的所有模式,但是,由于數(shù)據(jù)不確定性的存在,使得挖掘工作比確定數(shù)據(jù)庫中的頻繁模式挖掘更為復(fù)雜.由于挖掘概率頻繁模式時,需要用戶提供最小頻繁概率的閾值,增加了挖掘難度,因?yàn)?閾值的設(shè)置沒有統(tǒng)一的標(biāo)準(zhǔn).當(dāng)閾值設(shè)置過高時,挖掘到

    赤峰學(xué)院學(xué)報·自然科學(xué)版 2018年10期2018-11-14

  • 基于關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進(jìn)算法
    關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的Apriori算法,用由下到上逐層搜索的迭代方法查找頻繁項(xiàng)集[3-5]。由于數(shù)據(jù)庫本身的數(shù)據(jù)量較大,會存在多次掃描數(shù)據(jù)庫以及多次迭代后產(chǎn)生大量候選集兩個主要問題,最終導(dǎo)致算法效率不高。國內(nèi)外學(xué)者對挖掘頻繁項(xiàng)集算法進(jìn)行了大量的研究:于守鍵等[6]利用前綴項(xiàng)集的存儲方式,通過哈希表快速查找來提高查找的效率。趙龍等[7]提出Apriori算法中會出現(xiàn)同一屬性的不同屬性值進(jìn)行連接的情況,通過比較能提前判斷是否有這種情況發(fā)生,這樣避免重復(fù)連接的

    陜西理工大學(xué)學(xué)報(自然科學(xué)版) 2018年5期2018-11-06

  • 基于矩陣相乘的Apriori改進(jìn)算法
    為布爾矩陣,通過項(xiàng)集向量“與”的操作來代替掃描數(shù)據(jù)庫,通過對矩陣的操作實(shí)現(xiàn)對候選集的剪枝大大提高了算法效率[4~6]。文獻(xiàn)[7~9]中通過一次性掃描數(shù)據(jù)庫得到的Tid表(項(xiàng)、事務(wù)、支持度),這個表格維護(hù)在內(nèi)存中,通過直接操作此表,這樣就不用反復(fù)掃描數(shù)據(jù),在用頻繁項(xiàng)集連接生成候選項(xiàng)集時,直接把項(xiàng)的事務(wù)向量求交集。但是沒有在算法運(yùn)行中刪除一些不必比較的事務(wù),有大量的候選集生成頻繁集時非常耗時。Apriori算法就是通過反復(fù)多次掃描事務(wù)數(shù)據(jù)庫來計(jì)算候選集的支持度

    計(jì)算機(jī)與數(shù)字工程 2018年10期2018-10-23

  • Apriori算法在數(shù)據(jù)挖掘中的應(yīng)用
    是尋找數(shù)據(jù)中頻繁項(xiàng)集的有力武器,落實(shí)Apriori算法是對數(shù)據(jù)挖掘的應(yīng)用夯實(shí)。由此,本文對數(shù)據(jù)關(guān)聯(lián)規(guī)則作出了詳細(xì)的介紹,給出了關(guān)于Apriori算法的應(yīng)用實(shí)例。1.數(shù)據(jù)挖掘的基本概念通過大量數(shù)據(jù)的收集和存儲,運(yùn)用關(guān)聯(lián)規(guī)則挖掘出數(shù)據(jù)各項(xiàng)之間的聯(lián)系或關(guān)聯(lián),得到相關(guān)信息,從而得出數(shù)據(jù)也是生產(chǎn)力。因此,我們需要了解關(guān)于數(shù)據(jù)挖掘的幾個基本概念。(1)項(xiàng)、項(xiàng)集與事務(wù)項(xiàng)(Item)是數(shù)據(jù)中的最小單位;某幾個項(xiàng)的集合稱為事務(wù)(T),每個事務(wù)有一個關(guān)鍵字屬性,稱為事務(wù)號(或

    電子世界 2018年19期2018-10-23

  • 一種改進(jìn)的基于N-List的頻繁項(xiàng)集挖掘算法
    )0 引 言頻繁項(xiàng)集挖掘是數(shù)據(jù)挖掘研究中最為突出的任務(wù)之一,也是數(shù)據(jù)挖掘中最為耗時的部分,一旦挖掘出所有的頻繁項(xiàng)集,關(guān)聯(lián)規(guī)則即可通過簡單的數(shù)學(xué)計(jì)算得到,可以說頻繁項(xiàng)集挖掘算法的效率直接影響著整個數(shù)據(jù)挖掘的效率,因此十分有必要深入研究頻繁項(xiàng)集挖掘算法。傳統(tǒng)數(shù)據(jù)頻繁項(xiàng)集挖掘算法主要分為兩類: 一類是以Apriori算法為代表的產(chǎn)生候選頻繁項(xiàng)集的挖掘算法,Apriori類算法具有需要重復(fù)掃描數(shù)據(jù)庫及產(chǎn)生大量候選項(xiàng)集等缺陷;另一類是FP-growth為代表的采用分

    計(jì)算機(jī)應(yīng)用與軟件 2018年9期2018-09-26

  • 不確定數(shù)據(jù)的約束頻繁閉項(xiàng)集挖掘算法
    要找到需要的頻繁項(xiàng)集[2].在實(shí)際情況中,很多數(shù)據(jù)的產(chǎn)生都帶有不確定性,導(dǎo)致原有的頻繁項(xiàng)集挖掘算法無法直接應(yīng)用于不確定數(shù)據(jù)中.目前,關(guān)于不確定數(shù)據(jù)庫的頻繁項(xiàng)集挖掘已有許多研究,如由確定數(shù)據(jù)挖掘算法 Apriori、FP-growth發(fā)展而來的 U-Apriori,UF-growth算法,以及基于此的一系列改進(jìn)算法.然而,隨著數(shù)據(jù)的大量增加,挖掘所得頻繁項(xiàng)集有過多冗余項(xiàng)集,有些甚至是毫無意義的.最大頻繁項(xiàng)集雖然在很大程度上減少了冗余項(xiàng)集,然而其并不包含項(xiàng)集

    天津科技大學(xué)學(xué)報 2018年4期2018-08-22

  • 基于FP-tree的支持度計(jì)數(shù)優(yōu)化策略
    挖掘過程中,頻繁項(xiàng)集的挖掘是最關(guān)鍵的步驟。最大頻繁項(xiàng)集是最常用的頻繁項(xiàng)集簡化表示?;贔P-tree的最大頻繁項(xiàng)集挖掘算法多數(shù)都需要自底向上地搜索FP-tree來計(jì)算項(xiàng)集的支持度。而已有的支持度計(jì)算方法在計(jì)算當(dāng)前項(xiàng)集的支持度時沒有考慮已完成的支持度計(jì)算過程所獲得的信息,因而造成了不必要的開銷。針對該問題,提出了基于FP-tree的支持度計(jì)數(shù)優(yōu)化策略(Support Count Optimization Method on FP-tree,SCOM),在付出

    計(jì)算機(jī)技術(shù)與發(fā)展 2017年10期2017-10-23

  • 事務(wù)約簡和2項(xiàng)集支持度矩陣快速剪枝的Apriori改進(jìn)算法
    1)事務(wù)約簡和2項(xiàng)集支持度矩陣快速剪枝的Apriori改進(jìn)算法張健, 劉韶濤(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)在Apriori算法的改進(jìn)算法M-Apriori基礎(chǔ)上,為了進(jìn)一步減少不必要的數(shù)據(jù)庫掃描,引入事務(wù)約簡技術(shù),提出一種改進(jìn)的MR-Apriori算法.考慮到M-Apriori算法會產(chǎn)生大量候選項(xiàng)集,為了實(shí)現(xiàn)對候選項(xiàng)集快速剪枝,加入一個自定義的2項(xiàng)集支持度矩陣,提出第2種改進(jìn)的MP-Apriori算法.將事務(wù)約簡和2項(xiàng)集矩陣

    華僑大學(xué)學(xué)報(自然科學(xué)版) 2017年5期2017-10-11

  • 一種垂直結(jié)構(gòu)的高效用項(xiàng)集挖掘算法
    垂直結(jié)構(gòu)的高效用項(xiàng)集挖掘算法黃 坤*1, 吳 玉 佳2( 1.中國艦船研究設(shè)計(jì)中心, 湖北 武漢 430064;2.武漢大學(xué) 計(jì)算機(jī)學(xué)院, 湖北 武漢 430072 )挖掘高效用項(xiàng)集已成為關(guān)聯(lián)分析中的熱點(diǎn)問題之一.多數(shù)高效用項(xiàng)集挖掘算法需要產(chǎn)生大量的候選項(xiàng)集,影響了算法性能.HUI-Miner是一個不需要產(chǎn)生候選項(xiàng)集就能發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中所有高效用項(xiàng)集的算法.但其需要產(chǎn)生大量效用列表,不僅消耗了過多的存儲空間,而且影響了算法的運(yùn)行性能.針對此問題,提出一個新

    大連理工大學(xué)學(xué)報 2017年5期2017-09-20

  • 一種自底向上的最大頻繁項(xiàng)集挖掘方法
    底向上的最大頻繁項(xiàng)集挖掘方法趙 陽,吳廖丹(江南計(jì)算技術(shù)研究所,江蘇 無錫 214083)頻繁項(xiàng)集挖掘是關(guān)聯(lián)規(guī)則挖掘中最關(guān)鍵的步驟。最大頻繁項(xiàng)集是一種常用的頻繁項(xiàng)集簡化表示方法。自頂向下的最大頻繁項(xiàng)集挖掘方法在最大頻繁項(xiàng)集維度遠(yuǎn)小于頻繁項(xiàng)數(shù)時往往會產(chǎn)生過多的候選頻繁項(xiàng)集。已有的自底向上的最大頻繁項(xiàng)集挖掘方法或者需多次遍歷數(shù)據(jù)庫,或者需遞歸生成條件頻繁模式樹,而預(yù)測剪枝策略有進(jìn)一步提升的空間。為此,提出了基于最小非頻繁項(xiàng)集的最大頻繁項(xiàng)集挖掘算法(BNFIA)

    計(jì)算機(jī)技術(shù)與發(fā)展 2017年8期2017-09-01

  • 不確定數(shù)據(jù)中的代表頻繁項(xiàng)集近似挖掘
    數(shù)據(jù)中的代表頻繁項(xiàng)集近似挖掘陳鳳娟1,2(1.遼寧對外經(jīng)貿(mào)學(xué)院 大連 116052)(2.大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院 大連 116023)不確定數(shù)據(jù)的頻繁項(xiàng)集挖掘作為很多數(shù)據(jù)挖掘任務(wù)的基本步驟,引起了很多學(xué)者的關(guān)注。但是當(dāng)不確定數(shù)據(jù)集的規(guī)模很大時,會產(chǎn)生數(shù)目巨大的頻繁項(xiàng)集,給后續(xù)挖掘工作帶來難題。為解決這一問題,論文提出不確定數(shù)據(jù)集中的代表頻繁項(xiàng)集概念,并利用VC維的概念,確定抽樣空間,提出一種基于隨機(jī)抽樣的代表頻繁項(xiàng)集近似挖掘算法,在保證挖掘效果的前提

    計(jì)算機(jī)與數(shù)字工程 2017年2期2017-03-02

  • 基于前綴項(xiàng)集的Apriori算法改進(jìn)
    600)基于前綴項(xiàng)集的Apriori算法改進(jìn)于守健 周羿陽(東華大學(xué)計(jì)算機(jī)學(xué)院 上海 201600)關(guān)聯(lián)規(guī)則的挖掘是數(shù)據(jù)挖掘中一個重要內(nèi)容,主要目的是找到事務(wù)數(shù)據(jù)庫中的有趣的模式。Apriori算法是關(guān)聯(lián)規(guī)則挖掘的最經(jīng)典算法之一,但是它本身存在著效率上的瓶頸。在深入了解Apriori算法前提下,提出基于前綴項(xiàng)集的候選集存儲結(jié)構(gòu),并利用哈希表在快速查找上的優(yōu)勢,大大提高了經(jīng)典Apriori算法在連接步驟和剪枝步驟中的效率。實(shí)驗(yàn)證明改進(jìn)后的Apriori算法在

    計(jì)算機(jī)應(yīng)用與軟件 2017年2期2017-02-27

  • 不確定數(shù)據(jù)流中頻繁模式的并行挖掘算法
    以挖掘到全部頻繁項(xiàng)集,并且能按數(shù)據(jù)量大小均勻地把數(shù)據(jù)分配到各個節(jié)點(diǎn)上。實(shí)驗(yàn)驗(yàn)證了該算法的時間效率能提高1個數(shù)量級。不確定數(shù)據(jù)頻繁模式數(shù)據(jù)挖掘并行算法0 引 言由于數(shù)據(jù)的不確定性普遍存在于現(xiàn)實(shí)世界各個領(lǐng)域中,例如根據(jù)對電子商務(wù)網(wǎng)站頁面的訪問記錄,只能獲得潛在客戶對特定商品購買傾向的一個估計(jì)(即一個概率性指標(biāo));并且隨著數(shù)據(jù)量快速的增加,而頻繁模式挖掘是數(shù)據(jù)挖掘中一項(xiàng)重要技術(shù),因此不確定數(shù)據(jù)流頻繁模式挖掘算法研究成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一。數(shù)據(jù)流上的頻繁模

    計(jì)算機(jī)應(yīng)用與軟件 2016年9期2016-11-09

  • 基于回溯的最大頻繁項(xiàng)集挖掘算法
    于回溯的最大頻繁項(xiàng)集挖掘算法張心靜,于嘉威,王紅梅(長春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林 長春 130012)針對Apriori類算法多次掃描數(shù)據(jù)庫和FP-tree類算法需要構(gòu)建大量條件模式樹的問題,文中提出了挖掘最大頻繁項(xiàng)集的GBMFI算法。采用垂直格式存儲事務(wù)數(shù)據(jù)庫,以枚舉樹為基礎(chǔ),利用子集非頻繁性質(zhì)和父子節(jié)點(diǎn)支持度信息在搜索過程中對枚舉樹進(jìn)行剪枝,最終得到最大頻繁項(xiàng)集。通過實(shí)驗(yàn)對比,結(jié)果證明了算法的有效性,尤其適用于稀疏數(shù)據(jù)集。數(shù)據(jù)挖掘;最大頻繁

    電子科技 2016年8期2016-09-19

  • 改進(jìn)的多數(shù)據(jù)流協(xié)同頻繁項(xiàng)集挖掘算法
    多數(shù)據(jù)流協(xié)同頻繁項(xiàng)集挖掘算法存在內(nèi)存占用率高以及發(fā)現(xiàn)頻繁項(xiàng)集效率低的問題,提出了改進(jìn)的多數(shù)據(jù)流協(xié)同頻繁項(xiàng)集挖掘(MCMDStream)算法。首先,該算法利用單遍掃描數(shù)據(jù)庫的字節(jié)序列滑動窗口挖掘算法發(fā)現(xiàn)數(shù)據(jù)流中的潛在頻繁項(xiàng)集和頻繁項(xiàng)集;其次,構(gòu)建類似頻繁模式樹(FPTree)的壓縮頻繁模式樹(CPTree)存儲已發(fā)現(xiàn)的潛在頻繁項(xiàng)集和頻繁項(xiàng)集,同時更新CPTree樹中每個節(jié)點(diǎn)生成的對數(shù)傾斜時間表中的頻繁項(xiàng)計(jì)數(shù);最后,通過匯總分析得出在多條數(shù)據(jù)流中多次出現(xiàn)的且有

    計(jì)算機(jī)應(yīng)用 2016年7期2016-07-19

  • 一種改進(jìn)的AprioriTid算法*
    裁剪方法減少無效項(xiàng)集的產(chǎn)生,減少候選項(xiàng)集的數(shù)量,從而提高算法的效率.仿真實(shí)驗(yàn)表明,在支持度相同但數(shù)據(jù)量不同,以及數(shù)據(jù)量相同但支持度不同這兩種條件下,AprioriTid_M算法在性能上和運(yùn)算時間上都比Apriori算法有很大程度的改善.Apriori算法; AprioriTid算法; AprioriTid_M算法; 關(guān)聯(lián)規(guī)則; 置信度; 項(xiàng)集; 支持度; 性能數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中相當(dāng)經(jīng)典的算法就是Apriori算法,該算法具有反單調(diào)性的特點(diǎn).Apriori算

    沈陽工業(yè)大學(xué)學(xué)報 2016年3期2016-07-08

  • 基于矩陣約簡的Apriori 算法改進(jìn)
    描數(shù)據(jù)來獲取頻繁項(xiàng)集,然后根據(jù)得到的頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。但Apriori 算法自身存在2 個主要缺陷[1]:1)Apriori 算法需要多次地重復(fù)掃描數(shù)據(jù)庫,當(dāng)有海量數(shù)據(jù)信息時會造成嚴(yán)重的輸入輸出負(fù)載;2)在查找頻繁項(xiàng)集時會生成很多無實(shí)際操作價值的候選項(xiàng)集,占據(jù)大量存儲空間。許多學(xué)者針對Apriori 算法的現(xiàn)有缺陷提出了諸多改進(jìn)思路,以提高Apriori 算法的執(zhí)行效率。在文獻(xiàn)[1]中,提出了基于數(shù)組的挖掘方法,降低了掃描數(shù)據(jù)庫的次數(shù),將多維數(shù)據(jù)存儲在

    計(jì)算機(jī)與現(xiàn)代化 2015年9期2015-11-26

  • 基于試驗(yàn)任務(wù)相關(guān)的并行化關(guān)聯(lián)挖掘研究
    ,僅對任務(wù)相關(guān)的項(xiàng)集進(jìn)行連接合并與向量內(nèi)積運(yùn)算,提升了Apriori算法的關(guān)聯(lián)挖掘效率。關(guān)聯(lián)規(guī)則挖掘也稱為頻繁項(xiàng)集挖掘,旨在發(fā)現(xiàn)海量數(shù)據(jù)項(xiàng)集之間的相互關(guān)聯(lián)關(guān)系。在諸多的關(guān)聯(lián)挖掘算法中,Apriori算法是比較經(jīng)典的算法之一。該算法結(jié)合一定的先驗(yàn)知識,采用逐層迭代的方法搜索頻繁項(xiàng)集。傳統(tǒng)的Apriori算法中,若要生成頻繁項(xiàng)集,就要執(zhí)行連接和剪枝,而這些連接和剪枝操作帶有一定的機(jī)械性和盲目性,會有大量冗余的候選項(xiàng)集生成,需要進(jìn)行多次掃描數(shù)據(jù)庫操作,導(dǎo)致算法運(yùn)

    中國科技信息 2015年22期2015-11-26

  • 基于MapReduce的頻繁閉項(xiàng)集挖掘算法改進(jìn)
    duce的頻繁閉項(xiàng)集挖掘算法改進(jìn)付婷婷1,楊世平1,2 (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2.貴州大學(xué) 明德學(xué)院,貴州 貴陽 550004)挖掘頻繁閉項(xiàng)集(CFI)在許多實(shí)際應(yīng)用中起著重要的作用。傳統(tǒng)的數(shù)據(jù)挖掘算法中常用FP增長算法和Apriori算法來挖掘頻繁項(xiàng)集。然而,內(nèi)存需求和計(jì)算成本成為CFI挖掘算法的瓶頸,尤其是在從大型數(shù)據(jù)集中挖掘頻繁閉項(xiàng)集時,是一個重要和具有挑戰(zhàn)性的問題。針對上述問題,提出一種基于云計(jì)算的MapR

    網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2015年24期2015-10-18

  • 基于FP樹的極大頻繁項(xiàng)集的挖掘方法
    FP樹的極大頻繁項(xiàng)集的挖掘方法石芹芹(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)0 引言數(shù)據(jù)挖掘是20世紀(jì)90年代興起的一項(xiàng)新技術(shù),是知識發(fā)現(xiàn)的關(guān)鍵步驟。數(shù)據(jù)挖掘是多門學(xué)科和多門技術(shù)相結(jié)合的產(chǎn)物,是指從數(shù)據(jù)庫中抽取隱含的、潛在的、先前未知的、有用的信息(如知識、規(guī)則、約束和規(guī)律等)的一個非平凡過程[1]。其中挖掘關(guān)聯(lián)規(guī)則是一個非常重要的研究內(nèi)容,而挖掘頻繁項(xiàng)集是研究關(guān)聯(lián)規(guī)則的基本和關(guān)鍵步驟。頻繁項(xiàng)集導(dǎo)致發(fā)現(xiàn)大型事務(wù)或關(guān)系數(shù)據(jù)集中項(xiàng)之間有趣的關(guān)聯(lián)或相關(guān)性,發(fā)現(xiàn)的

    現(xiàn)代計(jì)算機(jī) 2015年36期2015-09-28

  • 關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)算法的應(yīng)用
    種算法在挖掘頻繁項(xiàng)集中的區(qū)別,分析算法的優(yōu)劣,從而確定算法的應(yīng)用。關(guān)聯(lián)規(guī)則;頻繁項(xiàng);Aprior算法;FP-Growth算法關(guān)聯(lián)規(guī)則挖掘是在海量數(shù)據(jù)上進(jìn)行的。頻繁項(xiàng)集的產(chǎn)生需要訪問數(shù)據(jù)庫中所存儲的大量數(shù)據(jù),用什么算法迅速高效地在數(shù)據(jù)集中找出所有的頻繁項(xiàng)集是數(shù)據(jù)挖掘的核心問題?,F(xiàn)給定一個任務(wù)用兩種算法舉例對比:例:事務(wù)數(shù)據(jù)庫中,包含有十個事務(wù),已知最小支持度為30%,根據(jù)支持度的定義得到,最小支持?jǐn)?shù)=事務(wù)數(shù)×最小支持度=10×30%=3。1 Apriori法

    電子測試 2015年19期2015-03-25

  • 基于矩陣的apriori算法的改進(jìn)
    據(jù)庫得到頻繁1-項(xiàng)集,然后頻繁1-項(xiàng)集組合候選2-項(xiàng)集,然后對候選項(xiàng)2-項(xiàng)集剪枝,通過掃描數(shù)據(jù)庫得到支持度計(jì)數(shù)來生成頻繁2-項(xiàng)集。以此類推,直到?jīng)]有頻繁項(xiàng)集產(chǎn)生,然后將頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則[1]。這樣一來,這個算法中有兩個重要的問題:大量的候選項(xiàng)集產(chǎn)生和多次掃描數(shù)據(jù)庫。針對以上兩個問題,文獻(xiàn) [6]中使用的是基于矩陣的apriori算法,此算法將事務(wù)集以矩陣的形式保存到內(nèi)存中,通過計(jì)算矩陣列向量中1出現(xiàn)的個數(shù)然后與最小支持度計(jì)數(shù)比較從而得到頻繁1-項(xiàng)集,在

    電子設(shè)計(jì)工程 2015年13期2015-01-29

  • 一種基于FP-growth的并行SON算法的實(shí)現(xiàn)
    的巨大挑戰(zhàn)。頻繁項(xiàng)集是數(shù)據(jù)挖掘中一個非常重要的概念,Apriori算法[1]和 FP-growth算法[2]是挖掘頻繁項(xiàng)集最為著名的算法,但其串行計(jì)算的復(fù)雜度較高。SON算法[3]為并行化發(fā)現(xiàn)頻繁項(xiàng)集提供了解決思路。谷歌于 2004年提出了 MapReduce編程模型[4],為并行處理和分析大規(guī)模的數(shù)據(jù)提供了重要的參考。根據(jù)MapReduce編程模型涌現(xiàn)出了眾多的開源項(xiàng)目,其中A-pache基金會下的Hadoop[5]是其中比較有代表性的分布式并行編程框架

    網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2014年8期2014-11-10

  • 基于不確定性數(shù)據(jù)的頻繁閉項(xiàng)集挖掘算法
    定性數(shù)據(jù)的頻繁閉項(xiàng)集挖掘算法章淑云,張守志(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433)對于不確定性數(shù)據(jù),傳統(tǒng)判斷項(xiàng)集是否頻繁的方法并不能準(zhǔn)確表達(dá)項(xiàng)集的頻繁性,同樣對于大型數(shù)據(jù),頻繁項(xiàng)集顯得龐大和冗余。針對上述不足,在水平挖掘算法Apriori的基礎(chǔ)上,提出一種基于不確定性數(shù)據(jù)的頻繁閉項(xiàng)集挖掘算法UFCIM。利用置信度概率表達(dá)項(xiàng)集頻繁的準(zhǔn)確性,置信度越高,項(xiàng)集為頻繁的準(zhǔn)確性也越高,且由于頻繁閉項(xiàng)集是頻繁項(xiàng)集的一種無損壓縮表示,因此利用壓縮形式的頻繁閉項(xiàng)

    計(jì)算機(jī)工程 2014年3期2014-06-02

  • 基于矩陣的Apriori改進(jìn)算法與實(shí)現(xiàn)
    思想就是找出頻繁項(xiàng)集,算法的主要工作就是尋找K-項(xiàng)集。根據(jù)相關(guān)性質(zhì),頻繁項(xiàng)集的子集必是頻繁項(xiàng)集,非頻繁項(xiàng)集的超集一定是非頻繁的。利用上一步產(chǎn)生的頻繁項(xiàng)集來生成長度更大的項(xiàng)集,并將其稱之為候選頻繁項(xiàng)集。候選頻繁項(xiàng)集是指那些有可能成為頻繁項(xiàng)集的集合。算法先計(jì)算所有的候選1-項(xiàng)集C1;從C1中找出所有的頻繁1-項(xiàng)集L1;然后,再將L1與自身做連接運(yùn)算,生成候選2-項(xiàng)集的集合C2;從C2中找出所有的頻繁2-項(xiàng)集L2;再將L2與自身做連接運(yùn)算,生成候選3-項(xiàng)集的集合

    長春師范大學(xué)學(xué)報 2013年6期2013-12-29

  • 一種不確定性數(shù)據(jù)中最大頻繁項(xiàng)集挖掘方法
    孤立點(diǎn)檢測、頻繁項(xiàng)集挖掘等方面,其中頻繁項(xiàng)集挖掘是重點(diǎn)研究的問題之一.文獻(xiàn)[2]在Apriori算法的基礎(chǔ)上提出了適用于不確定數(shù)據(jù)挖掘的U-Apriori算法,文獻(xiàn)[3]在FP-growth算法的基礎(chǔ)上提出了基于樹結(jié)構(gòu)的不確定數(shù)據(jù)頻繁項(xiàng)集挖掘算法UF-growth,文獻(xiàn)[4-6]進(jìn)一步在此基礎(chǔ)上提出了包含約束條件的頻繁項(xiàng)集挖掘算法,文獻(xiàn)[7]綜述了不確定性數(shù)據(jù)中的頻繁項(xiàng)集挖掘算法,文獻(xiàn)[8]在基于約束的頻繁項(xiàng)集挖掘算法U-FPS的基礎(chǔ)上,提出了一種不確定性

    山東理工大學(xué)學(xué)報(自然科學(xué)版) 2013年5期2013-12-18

  • 高效用項(xiàng)集挖掘算法
    式的挖掘僅僅考慮項(xiàng)集在多少個事務(wù)項(xiàng)集中出現(xiàn),而沒有考慮項(xiàng)在一個事務(wù)中對應(yīng)的數(shù)量和項(xiàng)的權(quán)重值,如在一個購物單中,同一個商品的購買的數(shù)量和商品的價格或利潤;但這些信息對于商務(wù)數(shù)據(jù)分析等應(yīng)用卻很重要。針對該問題,提出了高效用項(xiàng)集的挖掘,并且也成為近來一個新的研究方向[1-9],其研究的焦點(diǎn)主要是提高算法的時間和空間效率。目前,高效用項(xiàng)集的挖掘算法主要采用兩階段方法[1-5,7,10,11]和項(xiàng)集枚舉[8,9]辦法。本文主要對基于兩階段方法的算法進(jìn)行了研究;兩階段

    計(jì)算機(jī)工程與設(shè)計(jì) 2013年12期2013-11-30

  • 一種從高維向低維掃描的Apriori改進(jìn)算法
    數(shù)據(jù)庫,找出頻繁項(xiàng)集,然后通過最小支持度和最小置信度進(jìn)行剪枝,最終得到關(guān)聯(lián)規(guī)則。該算法簡單易懂且挖掘結(jié)果能很好地表示數(shù)據(jù)庫中不同項(xiàng)集之間的關(guān)聯(lián)關(guān)系,但該算法在性能上存在著一定的缺陷。本文提出了一種對Apriori算法的改進(jìn)方法,并且證明了該算法可以有效提高傳統(tǒng)的Apriori算法的運(yùn)算效率。1 傳統(tǒng)Apriori算法1.1 關(guān)聯(lián)規(guī)則挖掘的相關(guān)概念和步驟設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)T是項(xiàng)的集合,使得T包含于I。每一個事務(wù)有一個標(biāo)識符,稱

    中國人民公安大學(xué)學(xué)報(自然科學(xué)版) 2012年4期2012-01-25

  • 使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集
    s),也稱為頻繁項(xiàng)集(Frequent Itemsets,簡稱頻繁集),然后再利用這些頻繁集創(chuàng)建描述關(guān)聯(lián)規(guī)則的過程。1 關(guān)聯(lián)規(guī)則挖掘算法關(guān)聯(lián)規(guī)則挖掘算法——Apriori算法是使用候選項(xiàng)集找頻繁項(xiàng)集的過程。Apriori算法通過對數(shù)據(jù)庫D的多趟掃描來發(fā)現(xiàn)所有的頻繁項(xiàng)目集。在第一趟掃描數(shù)據(jù)庫時,對項(xiàng)集I中的每一個數(shù)據(jù)項(xiàng)計(jì)算其支持度,確定出滿足最小支持度的頻繁1項(xiàng)集的集合L1,然后,L1用于找頻繁2項(xiàng)集的集合L2,如此下去……在后續(xù)的第k次掃描中,首先以k-1

    網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2011年18期2011-11-27

  • 關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)
    據(jù)庫中挖掘出頻繁項(xiàng)集,本文依據(jù)Apriori算法的思路加以改進(jìn),將事務(wù)數(shù)據(jù)庫轉(zhuǎn)換成0-1矩陣,通過0-1矩陣可很快計(jì)算出各個候選集的支持度計(jì)數(shù),省去了 Apriori算法中的連接步驟和刪除步驟這樣避免了傳統(tǒng)Apriori算法頻繁掃描數(shù)據(jù)庫的操作,從而提高了算法的效率。1 關(guān)聯(lián)規(guī)則Apriori算法Apriori算法是R.Agrawal和R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法。Apriori使用一種稱作逐層搜索的迭代方法,

    網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2011年4期2011-10-17

  • 基于數(shù)組的關(guān)聯(lián)規(guī)則挖掘算法的研究
    步:一是尋找頻繁項(xiàng)集;二是利用頻繁項(xiàng)集產(chǎn)生有價值的規(guī)則.第二步比較容易實(shí)現(xiàn),當(dāng)前大部分研究是針對第一步.所以,如何采用合適高效的算法找出全部的頻繁項(xiàng)集是核心問題,是衡量關(guān)聯(lián)規(guī)則挖掘算法的標(biāo)準(zhǔn).傳統(tǒng)的算法是經(jīng)典的Apriori,之后還有其改進(jìn)算法AprioriTid和AprioriHybrid.但這些算法存在以下兩個缺點(diǎn):1)多次掃描事務(wù)數(shù)據(jù)庫,I/O時空開銷大;2)可能產(chǎn)生龐大的候選項(xiàng)集,內(nèi)存執(zhí)行時間面臨嚴(yán)峻挑戰(zhàn),整個數(shù)據(jù)庫裝入內(nèi)存是不現(xiàn)實(shí)的[2].因此相

    哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版) 2011年5期2011-06-08

  • 基于前綴的Apriori算法
    事務(wù)數(shù)據(jù)庫挖掘的項(xiàng)集格空間理論[2],并提出了著名的Apriori算法,后其成為基本的關(guān)聯(lián)規(guī)則挖掘算法。其核心原理是頻繁項(xiàng)集的子集是頻繁項(xiàng)集,非頻繁項(xiàng)集的超集是非頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則挖掘算法的設(shè)計(jì)可以分解為兩個子問題:(1)找到所有支持度大于最小支持度的項(xiàng)集(itemset),稱之為頻繁項(xiàng)集(frequent itemset);(2)由頻繁項(xiàng)集和最小可信度產(chǎn)生規(guī)則。其中,提高整個過程效率的關(guān)鍵在于提高問題(1)的效率。針對問題(1),本文對Apriori算法

    網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2011年4期2011-05-11

  • 一種新的改進(jìn)Apriori算法*
    現(xiàn)大規(guī)模數(shù)據(jù)集中項(xiàng)集之間有趣的關(guān)聯(lián)關(guān)系或模式。頻繁項(xiàng)集的挖掘是關(guān)聯(lián)規(guī)則挖掘的核心,如何高效地從海量數(shù)據(jù)庫中找出頻繁出現(xiàn)的項(xiàng)集是世界范圍內(nèi)的熱門研究課題。1 相關(guān)概念[1]設(shè) I={I1,I2,…,Im}是項(xiàng)的集合,稱為項(xiàng)集,包含 k 個項(xiàng)的項(xiàng)集稱為k項(xiàng)集。D是數(shù)據(jù)庫事務(wù)的集合,數(shù)據(jù)庫中的每個事務(wù)T是項(xiàng)的集合,T?I,TID是事務(wù) T的標(biāo)識符。設(shè)A是一個項(xiàng)集,事務(wù)T包含A,當(dāng)且僅當(dāng)A?T,一個包含k個項(xiàng)的事務(wù)T可以產(chǎn)生2k個非空的子項(xiàng)集。規(guī)則A?B的支持度s

    網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2010年1期2010-05-18

  • 一種改進(jìn)的Apriori算法
    1 關(guān)聯(lián)規(guī)則簡述項(xiàng)集I={i1,i2,…,im}是m個不同項(xiàng)目的集合,項(xiàng)目ik(k=1,2,…,m)稱為數(shù)據(jù)項(xiàng),m為數(shù)據(jù)項(xiàng)集的長度,長度為k的數(shù)據(jù)項(xiàng)集稱為k-項(xiàng)集。一個事務(wù)T(Transaction)是數(shù)據(jù)項(xiàng)集中的一組項(xiàng)目的集合,即I的一個子集T?I。每個事務(wù)賦予一個唯一的標(biāo)志符TID,所有事務(wù)的全體就構(gòu)成一個事務(wù)數(shù)據(jù)庫D。一個關(guān)聯(lián)規(guī)則是形如X?Y的蘊(yùn)涵式,其中各項(xiàng)滿足X?I,Y?I且X∩Y=Φ。定義1: 規(guī)則X?Y在事務(wù)數(shù)據(jù)庫D中的支持度(support

    河南城建學(xué)院學(xué)報 2010年6期2010-02-08

  • 分布式數(shù)據(jù)庫的精簡頻繁模式集及其挖掘算法*
    一,其中最大頻繁項(xiàng)集和頻繁閉項(xiàng)集的挖掘更是最近研究的一個熱點(diǎn)問題.現(xiàn)有的最大頻繁項(xiàng)集和頻繁閉項(xiàng)集的挖掘算法大多局限于單機(jī)環(huán)境,從單機(jī)的事務(wù)數(shù)據(jù)庫中直接挖掘,一般需要維護(hù)大量侯選項(xiàng)集并進(jìn)行超集檢測,具有較高的時間和空間復(fù)雜度[2-3].挖掘分布式數(shù)據(jù)庫壓縮的頻繁模式集算法目前尚不多見,可用的分布式系統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法主要有PDM[4],CD[5],FDM[6],FPM[7]和FMAG[8],它們的目標(biāo)是求解出存在于本地的全局大頻繁項(xiàng)集和全局頻繁項(xiàng)集.這些算

    浙江師范大學(xué)學(xué)報(自然科學(xué)版) 2010年2期2010-01-11

昭通市| 封丘县| 靖边县| 东乌| 威宁| 遂溪县| 高唐县| 沧州市| 宜春市| 尖扎县| 辉南县| 九龙坡区| 嘉善县| 榕江县| 东城区| 盘锦市| 沭阳县| 平南县| 龙陵县| 托里县| 安徽省| 天长市| 巴里| 抚宁县| 平罗县| 札达县| 华阴市| 新宁县| 泗阳县| 昭通市| 罗江县| 安仁县| 沽源县| 武汉市| 巨鹿县| 青田县| 荆门市| 雷州市| 荔浦县| 开远市| 惠东县|