国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法研究

2019-04-04 01:02:24徐延強(qiáng)
科學(xué)與財(cái)富 2019年6期
關(guān)鍵詞:數(shù)據(jù)集成元數(shù)據(jù)數(shù)據(jù)挖掘

摘 要: 為了信息產(chǎn)業(yè)更好地融入人們的生活和工作,甚至是社會(huì)發(fā)展中,如何挖掘數(shù)據(jù)成為了熱點(diǎn)問(wèn)題。元數(shù)據(jù)是一種關(guān)于數(shù)據(jù)的數(shù)據(jù),挖掘元數(shù)據(jù)有助于數(shù)據(jù)應(yīng)用與存儲(chǔ),因此,找到一種高效、智能的數(shù)據(jù)挖掘方法十分重要。本文介紹了元數(shù)據(jù)及其集成技術(shù),在此基礎(chǔ)之上,引入分布式垂直頻繁模式,并介紹了其在挖掘元數(shù)據(jù)過(guò)程中的使用方法,為從事相關(guān)行業(yè)的工作人員提供一個(gè)新的工作思路。

關(guān)鍵詞: 元數(shù)據(jù);數(shù)據(jù)集成;布式垂直頻繁模式;數(shù)據(jù)挖掘

一、元數(shù)據(jù)及其集成技術(shù)

元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),元數(shù)據(jù)是對(duì)數(shù)據(jù)的各種描述,描述的內(nèi)容主要包括數(shù)據(jù)出處、數(shù)據(jù)精度、數(shù)據(jù)質(zhì)量、數(shù)據(jù)處理過(guò)程以及數(shù)據(jù)更新與信息維護(hù)等相關(guān)內(nèi)容[1]。最初引入元數(shù)據(jù)的概念,一是為了更加高效、便捷的對(duì)數(shù)據(jù)庫(kù)進(jìn)行操作,提高數(shù)據(jù)庫(kù)更新與維護(hù)的效率與成果優(yōu)化;二是元數(shù)據(jù)的引入可以輔助計(jì)算機(jī)產(chǎn)業(yè)為其他產(chǎn)業(yè)提供專(zhuān)業(yè)技能,將計(jì)算機(jī)技術(shù)更好地融入其他產(chǎn)業(yè)。

元數(shù)據(jù)應(yīng)用非常廣泛,各行各業(yè)都有關(guān)于元數(shù)據(jù)的相關(guān)研究,因此,元數(shù)據(jù)在不同行業(yè)具有一定的差異性,這也是元數(shù)據(jù)的根本特點(diǎn)之一。元數(shù)據(jù)的另外一個(gè)特點(diǎn)就是元數(shù)據(jù)本身必須要對(duì)數(shù)據(jù)負(fù)責(zé),最大可能達(dá)到全方面地準(zhǔn)確描述數(shù)據(jù)。目前,在信息產(chǎn)業(yè)和計(jì)算機(jī)技術(shù)中,利用元數(shù)據(jù)可以提高數(shù)據(jù)訪問(wèn)與檢索效率,也可以實(shí)現(xiàn)數(shù)據(jù)的深度挖掘,對(duì)數(shù)據(jù)進(jìn)行加工和處理[2]。

目前,元數(shù)據(jù)的集成技術(shù)在數(shù)據(jù)挖掘領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)成為了一個(gè)研究亮點(diǎn),在機(jī)器學(xué)習(xí)方面更是成為了四大重要研究方向之一,由此可見(jiàn),元數(shù)據(jù)的集成技術(shù)具有重要意義。與元數(shù)據(jù)本身相比,元數(shù)據(jù)的集成可以進(jìn)一步提高元數(shù)據(jù)的價(jià)值,然而,元數(shù)據(jù)的集成也會(huì)發(fā)生數(shù)據(jù)較大的問(wèn)題,對(duì)存儲(chǔ)數(shù)據(jù)的空間需求量加大,因此,找到將最佳組合的元數(shù)據(jù)進(jìn)行集成的科學(xué)方法,在元數(shù)據(jù)研究領(lǐng)域具有重要意義。

二、分布式垂直頻繁模式

當(dāng)今社會(huì)信息技術(shù)高度發(fā)達(dá),數(shù)據(jù)集成與挖掘?yàn)樾畔⒓夹g(shù)的發(fā)展提供了有力的數(shù)據(jù)支撐,是信息技術(shù)應(yīng)用在各行各業(yè)的技術(shù)支持。元數(shù)據(jù)集成需要多種不同類(lèi)型的數(shù)據(jù)相互作用,相輔相成,數(shù)據(jù)挖掘正是為數(shù)據(jù)集成提供基礎(chǔ)數(shù)據(jù)的學(xué)科,分布式垂直頻繁模式是數(shù)據(jù)挖掘中廣泛使用的方法之一。

分布式在元數(shù)據(jù)挖掘中的含義是將整體數(shù)據(jù)分成多個(gè)不同的獨(dú)立的個(gè)體,分布式垂直頻繁模式,就是在海量數(shù)據(jù)中,將數(shù)據(jù)依據(jù)不同分類(lèi)形式分成若干個(gè)不同的個(gè)體或子集,然后將具有最大重要性的數(shù)據(jù)個(gè)體或子集挖掘出來(lái),最終形成頻繁項(xiàng)集輸出[3]。

頻繁項(xiàng)集在數(shù)據(jù)庫(kù)學(xué)科中的定義為,設(shè)Kn(n=1,2,……)為n個(gè)項(xiàng),K={K1,K2,…,Kn}是項(xiàng)的集合,D為事務(wù)數(shù)據(jù)庫(kù)。設(shè)有項(xiàng)集S在事物數(shù)據(jù)庫(kù)中的支持?jǐn)?shù)表示的是在事務(wù)數(shù)據(jù)庫(kù)中包含項(xiàng)集S的事務(wù)項(xiàng)數(shù)目,記為Scount,S在事物數(shù)據(jù)庫(kù)中的支持度是指S在事務(wù)數(shù)據(jù)庫(kù)中出現(xiàn)頻率,記為S.sup。假使S的支持度大于或等于給定的最小支持度閾值Minsup,則項(xiàng)集S為事務(wù)數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集,在后續(xù)元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘中將被挖掘。。

分布式垂直頻繁模式挖掘的主要對(duì)象是頻繁項(xiàng)集,分布式垂直頻繁模式通過(guò)在海量數(shù)據(jù)中進(jìn)行搜索,將其中一個(gè)數(shù)據(jù)挖掘出來(lái)后,一起將另外與之頻繁出現(xiàn)的數(shù)據(jù)挖掘出來(lái),最終合成頻繁項(xiàng)集篩選出來(lái)作為結(jié)果進(jìn)行分析,目前,分布式垂直頻繁模式比較主流的算法主要有兩種,分別是Apriori算法和FPGrowth[4]。

Apriori算法是先在數(shù)據(jù)中構(gòu)建數(shù)據(jù)候選集,在這些數(shù)據(jù)候選集中進(jìn)行挖掘,這種算法需要將步驟重復(fù)進(jìn)行多次,歷遍全部數(shù)據(jù),因此用時(shí)較長(zhǎng),當(dāng)數(shù)據(jù)量較大時(shí),Apriori算法效率較低,不適合使用。FPGrowth算法的第一步是構(gòu)建FP-tree,然后使用遞歸算法對(duì)FP-tree中的數(shù)據(jù)進(jìn)行挖掘,這個(gè)算法只有兩個(gè)步驟,效率非常高,并且數(shù)據(jù)所需存儲(chǔ)空間較少,應(yīng)用廣泛。

分布式垂直頻繁模式嚴(yán)禁將具有重要影響性的數(shù)據(jù)排除在頻繁項(xiàng)集之外,同時(shí)要求在頻繁項(xiàng)集中可以重建頻繁項(xiàng)集,也應(yīng)保證頻繁項(xiàng)集間具有獨(dú)立性與異同性。

三、元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法

在計(jì)算機(jī)領(lǐng)域,計(jì)算機(jī)設(shè)備和技術(shù)的發(fā)展速度可以用“摩爾定律”來(lái)表示,為了更好地實(shí)現(xiàn)良性發(fā)展,與計(jì)算機(jī)協(xié)同發(fā)展,元數(shù)據(jù)集成也正符合“摩爾定律”發(fā)展速度進(jìn)行進(jìn)步。

在計(jì)算機(jī)行業(yè)中,大數(shù)據(jù)和云計(jì)算是兩個(gè)新興的產(chǎn)業(yè)和學(xué)科,具有廣闊的發(fā)展前景,元數(shù)據(jù)是這兩個(gè)學(xué)科的基礎(chǔ),隨著信息化行業(yè)對(duì)于數(shù)據(jù)量的要求逐漸增長(zhǎng),傳統(tǒng)的數(shù)據(jù)挖掘方法已經(jīng)不能滿(mǎn)足使用者對(duì)于元數(shù)據(jù)的要求,分布式垂直頻繁模式挖掘方法可以滿(mǎn)足現(xiàn)代數(shù)據(jù)挖掘工作的要求。數(shù)據(jù)挖掘是從海量的、較少完整性的、含有噪聲的、較為模糊的、具有隨機(jī)性的數(shù)據(jù)集里面找到高效的、具有實(shí)用性的、可以表示的數(shù)據(jù)信息,數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科,挖掘技術(shù)包含多個(gè)學(xué)科的專(zhuān)業(yè)技能。分布式垂直頻繁模式挖掘方法具有高可靠、可在線(xiàn)和彈性伸縮的特點(diǎn),同時(shí)可以提供不同數(shù)據(jù)之間的內(nèi)在關(guān)系和應(yīng)用價(jià)值,能夠?yàn)閿?shù)據(jù)挖掘從業(yè)人員在決策時(shí)提供方便、快捷、迅速和高質(zhì)量的數(shù)據(jù)[5]。

對(duì)于數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)挖掘是具有嚴(yán)格工作流程的工作,主要包括數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘開(kāi)展、數(shù)據(jù)挖掘質(zhì)量評(píng)估以及挖掘結(jié)果知識(shí)表示這八個(gè)主要的過(guò)程?;诜植际酱怪鳖l繁模式挖掘方法的元數(shù)據(jù)挖掘過(guò)程還需要收集數(shù)據(jù)信息,將不同類(lèi)型、不同出處和不同特色的數(shù)據(jù)集中管理,通過(guò)制定規(guī)則,將數(shù)據(jù)集進(jìn)行表示,清理無(wú)用或相關(guān)性較低的數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為所需格式或?qū)?shù)據(jù)格式進(jìn)行統(tǒng)一,再根據(jù)數(shù)據(jù)中的信息采用分布式垂直頻繁模式挖掘方法進(jìn)行數(shù)據(jù)挖掘,根據(jù)要求對(duì)挖掘出的元數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,最后將元數(shù)據(jù)表示出來(lái),應(yīng)用到其他領(lǐng)域。

以上是數(shù)據(jù)挖掘的基本過(guò)程,在元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法中還有很多研究人員不斷提出新的挖掘算法。在Apriori算法的基礎(chǔ)之上,采用歸納手段對(duì)數(shù)據(jù)進(jìn)行掃描,這種方法通常只需要進(jìn)行一次掃描,然就可以實(shí)現(xiàn)在海量數(shù)據(jù)中準(zhǔn)確找到頻繁項(xiàng)目,進(jìn)而挑去出具有價(jià)值的數(shù)據(jù)進(jìn)行分析形成元數(shù)據(jù)。也有基于FP-Tree算法進(jìn)行改進(jìn)的數(shù)據(jù)挖掘算法,通過(guò)不同時(shí)相的數(shù)據(jù)采集最終形成頻繁項(xiàng)集。另一種算法是在參照FP-grow算法中將數(shù)據(jù)進(jìn)行分段處理的思想,逐步挖掘數(shù)據(jù)中的頻繁項(xiàng)集,這種算法可以讓用戶(hù)在線(xiàn)獲取所需頻繁項(xiàng)集,同時(shí)這種算法挖掘的頻繁項(xiàng)集質(zhì)量很高。

由于我們身處環(huán)境的不同以及先天基因等多種因素,每個(gè)人具有不同的個(gè)性,因此對(duì)于需求而言具有個(gè)性化的特點(diǎn)。元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法,可以針對(duì)不同的個(gè)性進(jìn)行數(shù)據(jù)挖掘,發(fā)揮數(shù)據(jù)長(zhǎng)處,達(dá)到用戶(hù)滿(mǎn)意度。改革開(kāi)放以來(lái),人民生活條件得到了極大改善,對(duì)于生活質(zhì)量的要求明顯提高,私人訂制行業(yè)受到越來(lái)越多人的喜愛(ài),通過(guò)分布式垂直頻繁模式挖掘方法,更新和維護(hù)客戶(hù)的元數(shù)據(jù),可以大大降低商家成本,同時(shí)更好地為客戶(hù)服務(wù)。從事私人訂制的工作人員會(huì)根據(jù)客戶(hù)的要求或平時(shí)興趣愛(ài)好,事先對(duì)客戶(hù)需求進(jìn)行預(yù)估,通過(guò)數(shù)據(jù)挖掘,有助于提高員工預(yù)測(cè)結(jié)果與客戶(hù)需求的符合程度。

四、總結(jié)

隨著生活質(zhì)量的不斷提高以及社會(huì)的不斷發(fā)展,人類(lèi)產(chǎn)生的數(shù)據(jù)量越來(lái)越大,數(shù)據(jù)的管理與應(yīng)用具有很大商業(yè)價(jià)值和社會(huì)價(jià)值。在大數(shù)據(jù)時(shí)代下,元數(shù)據(jù)集成的分布式垂直頻繁模式可以更好地適應(yīng)大數(shù)據(jù)行業(yè)需求,提高元數(shù)據(jù)集成的有效性。

參考文獻(xiàn)

[1]尹潔娜.基于元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法研究[D].遼寧大學(xué),2014.

[2]姜冰.基于MapReduce的分布式閉頻繁模式發(fā)現(xiàn)方法研究[D].哈爾濱工業(yè)大學(xué),2011.

[3]張力飛,朱驍峰,何炎祥.利用網(wǎng)格服務(wù)的分布式頻繁模式挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(7):179-181.

[4]葉飛躍.基于自適應(yīng)哈希鏈的分布式頻繁模式挖掘算法[J].系統(tǒng)工程與電子技術(shù),2005,27(3):560-564.

[5]馬可,李玲娟,孫杜靖.分布式并行化數(shù)據(jù)流頻繁模式挖掘算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(7):75-79.

作者簡(jiǎn)介:徐延強(qiáng),男,蘭州工業(yè)學(xué)院講師,研究方向:數(shù)據(jù)存儲(chǔ)與管理,元數(shù)據(jù)。

猜你喜歡
數(shù)據(jù)集成元數(shù)據(jù)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于來(lái)源的組織機(jī)構(gòu)元數(shù)據(jù)構(gòu)建研究
檔案管理(2017年1期)2017-01-17 19:09:04
元數(shù)據(jù)與社會(huì)化標(biāo)簽在微視頻搜索中的應(yīng)用
高等院校智慧校園建設(shè)規(guī)劃與實(shí)現(xiàn)
成本與制造數(shù)據(jù)集成分析
歸檔網(wǎng)絡(luò)信息價(jià)值判斷的元數(shù)據(jù)描述研究綜述
基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
绥棱县| 揭阳市| 桂阳县| 南阳市| 宁安市| 成安县| 平邑县| 都匀市| 凌源市| 栖霞市| 广东省| 宾阳县| 精河县| 汝州市| 景洪市| 比如县| 四会市| 兴国县| 太仓市| 繁峙县| 康保县| 新竹市| 合水县| 资源县| 山阴县| 达州市| 天等县| 舟山市| 腾冲县| 双城市| 上林县| 扶风县| 如东县| 义乌市| 北川| 昌黎县| 吴江市| 梨树县| 隆德县| 澄江县| 赫章县|