国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向MapReduce 的大數(shù)據(jù)分類模型及算法

2020-11-11 08:02:12柯建波
智能計算機與應(yīng)用 2020年6期
關(guān)鍵詞:數(shù)據(jù)處理分類樣本

柯建波

(廣東工業(yè)大學(xué) 華立學(xué)院, 廣州511325)

0 引 言

MapReduce 作為一種大型互聯(lián)網(wǎng)編譯模型,主要用于實施大規(guī)模的數(shù)據(jù)聚類并行計算(數(shù)據(jù)存儲空間超過1TB),數(shù)據(jù)概念映射方式及黑盒解題思路是編譯程序的主要提出方式,基于數(shù)據(jù)函數(shù)編譯方式及多種計算機編譯語言,在使用中可依照矢量編譯語言特性,提供計算機編程人員分布并行計算模式,有關(guān)計算指令可在計算機語言的調(diào)試作用下并行輸出[1]。 目前使用該技術(shù)實現(xiàn)主要是指結(jié)合數(shù)據(jù)間的聯(lián)系性,設(shè)計合理的映射類型函數(shù),建立數(shù)據(jù)集合鏈接,將單個鍵位組織通過映射聯(lián)系組合成新的計算機鍵位對,確保鍵位對中計算數(shù)值的每一個共享鍵位值相同。 結(jié)合大數(shù)據(jù)技術(shù)目前在市場的應(yīng)用情況,大數(shù)據(jù)分類模型理念最早提出于20 世紀80 年代初,市場強大的應(yīng)用需求使分類模型的研究成為技術(shù)調(diào)研重點。

大數(shù)據(jù)技術(shù)在逐步發(fā)展中已經(jīng)上升至國家層面,因此,本文將提出面向MapReduce 的大數(shù)據(jù)分類模型及算法的研究。

1 面向MapReduce 的大數(shù)據(jù)分類模型及算法

將調(diào)研重點聚焦在具有流動特征數(shù)據(jù)層面上,以傳統(tǒng)數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),采樣收集單一樣本的方式,提出數(shù)據(jù)合理的學(xué)習(xí)方法,根據(jù)數(shù)據(jù)流及特征數(shù)據(jù)集的不同顯示方法,存儲離線式挖掘數(shù)據(jù),由于無法一次性完全處理數(shù)據(jù),因此在數(shù)據(jù)處理前期應(yīng)對數(shù)據(jù)實施聚類管理,區(qū)分靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù),依照數(shù)據(jù)的表現(xiàn)形式,創(chuàng)新數(shù)據(jù)集成理念,引入新型數(shù)據(jù)分類技術(shù),探索分布數(shù)、數(shù)據(jù)傳遞方法,使用檢索、匯聚、連接、分離、清洗等方式優(yōu)化對應(yīng)算法,提供數(shù)據(jù)分類更加優(yōu)化模式。

1.1 構(gòu)建面向MapReduce 的大數(shù)據(jù)分類模型

給定處理數(shù)據(jù)流T 及數(shù)據(jù)分類標識集合C,合理選擇數(shù)據(jù)分類器,明確數(shù)據(jù)分類法則,描述數(shù)據(jù)分類過程,動態(tài)收集依照時間變化的數(shù)據(jù)發(fā)展趨勢,強調(diào)數(shù)據(jù)處理中選擇數(shù)據(jù)的質(zhì)量,完整正向數(shù)據(jù)集合與負向數(shù)據(jù)集合分類,提出數(shù)據(jù)抽樣檢測技術(shù),構(gòu)建面向MapReduce 的大數(shù)據(jù)分類模型[2],如圖1 所示。

根據(jù)上述圖1 所述信息,設(shè)定數(shù)據(jù)流經(jīng)整體時間為t,輸入數(shù)據(jù)點為數(shù)據(jù)采集點,經(jīng)過一個時間節(jié)點,在此收集數(shù)據(jù),為挖掘數(shù)據(jù)有效點,表示為t -1。由數(shù)據(jù)中心服務(wù)器提供數(shù)據(jù)當(dāng)前分類設(shè)備及此前數(shù)據(jù)集成設(shè)備,遵循數(shù)據(jù)流經(jīng)設(shè)備的運行模式,輸出節(jié)點數(shù)據(jù),表示為t,引入數(shù)據(jù)挖掘技術(shù)處理當(dāng)前狀態(tài)下時間點。 定義數(shù)據(jù)處理模式為M,劃分數(shù)據(jù)處理模塊。 提取歷史窗口數(shù)據(jù)中局部數(shù)據(jù),定義上次處理數(shù)據(jù)模式為M(T - 1),當(dāng)前數(shù)據(jù)局部處理模式為M(T),輸出一次處理數(shù)據(jù),按照數(shù)據(jù)特征劃分數(shù)據(jù)集合[3]。 引入MapReduce 分布式局部數(shù)據(jù)處理方式,定義中間界數(shù)據(jù)為集合中樣本訓(xùn)練集,并將該部分數(shù)據(jù)歸為網(wǎng)絡(luò)監(jiān)控數(shù)據(jù),整合一次數(shù)據(jù)集,獲取二次數(shù)據(jù)處理方式。 根據(jù)獲取數(shù)據(jù)時間點的增多,訓(xùn)練使用的樣本數(shù)據(jù)集合處理模式同步發(fā)生改變,數(shù)據(jù)處理模式用Chunk 表示,取值為1 ~n 之間任意實數(shù)。 依照數(shù)據(jù)集合的不斷匯聚,調(diào)整潛在的數(shù)據(jù)學(xué)習(xí)模式,設(shè)定數(shù)據(jù)挖掘目標,調(diào)整數(shù)據(jù)時間變化模式,以單元為模塊劃分數(shù)據(jù)集合[4]。 定義時間序列參數(shù)為T,則單元數(shù)據(jù)時間序列表達方式為T ={t1,…,tn},定義數(shù)據(jù)流表達形式為S,則數(shù)據(jù)流中具體數(shù)據(jù)集合表達形式為S ={r1,…,rn}。 K 表示為流經(jīng)數(shù)據(jù)的中心節(jié)點,整理數(shù)據(jù)模式,處理歷史窗口數(shù)據(jù)集合,則數(shù)據(jù)單元中任一數(shù)據(jù)即可近似看作數(shù)據(jù)處理方式,提取數(shù)據(jù)中特征點數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,結(jié)合大數(shù)據(jù)處理方式,歸入指定數(shù)據(jù)庫,完成面向MapReduce 的大數(shù)據(jù)分類模式構(gòu)建。

圖1 面向MapReduce 的大數(shù)據(jù)分類模型Fig. 1 MapReduce-oriented big data classification model

1.2 獲取局部節(jié)點微簇數(shù)據(jù)

依照上述提出的大數(shù)據(jù)分類模型,整合有理數(shù)據(jù),繪制成具有自身獨立特征的數(shù)據(jù)聚類集合,合理選擇數(shù)據(jù)聚集方式,計算分布式數(shù)據(jù)組的數(shù)據(jù)總和、集合中極值數(shù)據(jù)、代數(shù)數(shù)據(jù)與整體數(shù)據(jù)表達模式[5]。 設(shè)定局部節(jié)點中分支數(shù)據(jù)表達方式為n,局部數(shù)據(jù)算法表達如下公式所示:

式中,M 表示為獲取局部數(shù)據(jù)算法;c 表示為選定樣本數(shù)據(jù)集合;x 表示為局部數(shù)據(jù)傳遞方式;n 表示為局部節(jié)點中分支數(shù)據(jù)表達方式;i 表示為挖掘數(shù)據(jù),公式中用單元“1” 表達;j 表示為挖掘數(shù)據(jù)終端輸出模式。 根據(jù)上述計算公式,可將分類數(shù)據(jù)集合按照數(shù)據(jù)劃分依據(jù)分成分布式數(shù)據(jù)集合、代數(shù)數(shù)據(jù)集合、整數(shù)數(shù)據(jù)集合3 種[6]。 在每個計算單元中均可獲取具有特征值的數(shù)據(jù)節(jié)點,計算數(shù)據(jù)節(jié)點的微簇數(shù)據(jù)。 如下公式所示。

式中,N 表示為局部節(jié)點的微簇數(shù)據(jù)表達方式;b 表示為局部微簇樣本數(shù)據(jù)集合; y 表示為樣本中有效數(shù)據(jù)集;d 表示為數(shù)據(jù)流經(jīng)歷史窗口實際時間;w 表示微簇數(shù)據(jù)獲取誤差值,0.25 ~0.65 為數(shù)據(jù)組可調(diào)節(jié)范圍; λ 表示為數(shù)據(jù)獲取時間參數(shù)值,通常情況下取值在0.3~0.45 之間。 使用上述計算公式,可直接獲取局部數(shù)據(jù)集合中簇組數(shù)據(jù),按照多元代數(shù)函數(shù)計算方式,每個局部數(shù)據(jù)組的參數(shù)表達方法,即可按照數(shù)據(jù)標準表達方式輸出終端獲取數(shù)據(jù)值[7]。上述計算中涉及的數(shù)據(jù)值均為數(shù)據(jù)分類模型中數(shù)據(jù)組,可按照基本算法流程,采用近似值表達方式將簇組數(shù)據(jù)以常規(guī)方式表達。

1.3 計算節(jié)點數(shù)據(jù)增量

根據(jù)上述獲取的局部節(jié)點微簇數(shù)據(jù),連接兩個或兩個以上數(shù)據(jù)組,按照標準記錄條件將其劃分成TPC-H 數(shù)據(jù)集,結(jié)合數(shù)據(jù)查詢用例,運用多種計算方式,疊加數(shù)據(jù)組,篩選數(shù)據(jù)重合部分,將其統(tǒng)一格式后納入數(shù)據(jù)庫中管理。 清洗數(shù)據(jù)中特征點,去除重疊數(shù)據(jù),將待處理數(shù)據(jù)組中冗余或無關(guān)數(shù)組值去除,提升剩余數(shù)據(jù)值質(zhì)量,制定格式實施數(shù)據(jù)轉(zhuǎn)換,逐條處理待處理信息[8]。 引入Map 任務(wù)處理模式,計算數(shù)據(jù)組中冗余數(shù)據(jù)增值。 計算公式如下:

式中,dis 表示為加強數(shù)據(jù)項; p 表示為樣本數(shù)據(jù)總值;p1表示為重疊數(shù)據(jù)組;H 表示為數(shù)據(jù)清洗模式;p2表示為帶解析數(shù)據(jù)組。 根據(jù)上述計算公式,提出數(shù)據(jù)處理次數(shù),結(jié)合數(shù)據(jù)處理執(zhí)行時間T 與數(shù)字/模擬轉(zhuǎn)換次數(shù)的函數(shù)關(guān)系,分析處理數(shù)據(jù)檢索方式。對照MapReduce 技術(shù),增加節(jié)點數(shù)據(jù)個數(shù),提高數(shù)據(jù)執(zhí)行效率。

在數(shù)據(jù)排列階段,按照組間合成數(shù)據(jù)值實施數(shù)據(jù)聚類操作,組合具有相同鍵位的數(shù)據(jù)值,計算對數(shù)據(jù)綜合值平方差,得到終端輸出數(shù)據(jù)值單個組值的頻次值。 因為數(shù)據(jù)組中包含個別極端數(shù)據(jù)[9]。 因此,應(yīng)按照原始數(shù)據(jù)的恢復(fù)性能,統(tǒng)計微簇數(shù)據(jù)組的原始數(shù)據(jù)值,由于數(shù)據(jù)值中統(tǒng)計的組合數(shù)據(jù)比輸出數(shù)據(jù)的抽象值更高,可采用引入C5.4 計算模式,基于全局統(tǒng)計方法,提出數(shù)據(jù)組的灰度計算方法,分析特征數(shù)據(jù)點的灰度值,更加有利于推進整體算法。

1.4 中心節(jié)點樣本算法重構(gòu)

結(jié)合上述計算的數(shù)據(jù)增量,將中心節(jié)點樣本重構(gòu)分成主要3 個獨立步驟:(1)局部挖掘數(shù)據(jù)重構(gòu),定義每個數(shù)據(jù)組中節(jié)點,按照數(shù)據(jù)中心點劃分數(shù)據(jù)應(yīng)用模塊,收集中心點附近數(shù)據(jù),整理成數(shù)據(jù)集合,按照單元定義模式維護早期設(shè)定的數(shù)據(jù)挖掘點,形成新的數(shù)據(jù)增量集合,構(gòu)建全新算法微簇數(shù)據(jù)處理方式[10-11]。 (2)根據(jù)多個局部數(shù)據(jù)組,按照數(shù)據(jù)不同傳遞模式,更新整理數(shù)據(jù)中心節(jié)點,連接互聯(lián)網(wǎng),更新完成后通過數(shù)據(jù)互聯(lián)網(wǎng)傳遞方式,將多個中心節(jié)點數(shù)據(jù)傳送至整體數(shù)據(jù)集中心節(jié)點中。 (3)引入全局數(shù)據(jù)挖掘模式,整合數(shù)據(jù)學(xué)習(xí)方式,更新數(shù)據(jù)所屬狀態(tài)。 對其中任意一個樣本數(shù)據(jù)實施根距離計算。 計算公式如下:

式中,u 表示為樣本兩點數(shù)據(jù)之間的根距離;d 表示為數(shù)據(jù)自身長度值;j 表示為數(shù)據(jù)增量值; r 表示為數(shù)據(jù)重構(gòu)模式; i 表示為數(shù)據(jù)組數(shù)量。 通過上述計算,可重置數(shù)據(jù)組中心節(jié)點,在數(shù)據(jù)迭代終止過程中,若數(shù)據(jù)組中心節(jié)點位置不發(fā)生數(shù)據(jù)唯一,表明數(shù)據(jù)重構(gòu)終止,可輸出節(jié)點中心位置。 反之,將數(shù)據(jù)組返回上述重構(gòu)步驟,二次重構(gòu)數(shù)據(jù)組,直至數(shù)據(jù)中心節(jié)點與重構(gòu)數(shù)據(jù)中心節(jié)點重合。

1.5 集成分類更新算法優(yōu)化

選擇數(shù)據(jù)基礎(chǔ)較弱的數(shù)據(jù)分類裝置,采用C5.4計算方式,隔離多個局部數(shù)據(jù)組,基于數(shù)據(jù)分類裝置的優(yōu)化機制,調(diào)整集成數(shù)據(jù)分類策略。 按照數(shù)據(jù)組權(quán)重比值,采用決策樹處理數(shù)據(jù)方式,降低模型及設(shè)備對數(shù)據(jù)處理的干擾性。 將滿足優(yōu)化的數(shù)據(jù)按照數(shù)據(jù)庫標準行的方式連接,比較多種集成分類算法的優(yōu)缺點。 如表1 所示。

表1 集成分類算法計算比較Tab. 1 Comparison of integrated classification algorithms

根據(jù)上述表1 中所述信息,整合多種算法計算方式用途,優(yōu)化大數(shù)據(jù)分類模型計算法,采用自然連接的方式,將默認數(shù)據(jù)值按照權(quán)重值排列,組合笛卡爾連接方式,以全連接、半連接等方式,將滿足優(yōu)化的算法實施等值連接,實現(xiàn)集成分類算法的更新及優(yōu)化。

2 實 驗

2.1 實驗準備

提出實驗,驗證本文設(shè)計的面向MapReduce 的大數(shù)據(jù)分類模型及算法具備一定研究機制,引入CPU(KDD)公共數(shù)據(jù)處理技術(shù),搭建大數(shù)據(jù)挖掘檢測數(shù)據(jù)集合。 實驗需準備3 臺計算機設(shè)備,一臺計算機設(shè)備為實驗主機,設(shè)定主機為數(shù)據(jù)通過主節(jié)點(Master),剩余兩臺計算機設(shè)備匹配子節(jié)點數(shù)據(jù)。設(shè)備具體屬性值如下:處理器選擇因特爾(R)核心(TM),i7-5600 運行處理模式;計算機硬盤內(nèi)存為64GB;外設(shè)硬盤運行內(nèi)存為256 GB;計算機運行系統(tǒng)版本為Ubuntu15.6;JAVA 計算機語言包工具運行版本為2.6;集散式系統(tǒng)基礎(chǔ)運行框架版本為2.6.4;仿真實驗運行環(huán)境為集成式開發(fā)運行環(huán)境,配備MapReduce 數(shù)據(jù)插件,計算機數(shù)據(jù)集處理語言選擇java。 遵循標準測試數(shù)據(jù)庫中數(shù)據(jù)集,設(shè)定該數(shù)據(jù)集合中共有60 萬個數(shù)據(jù)樣本,樣本中包含55 個不同數(shù)據(jù)屬性變量值,依照數(shù)據(jù)類別劃分為8 種,占用計算及運行內(nèi)存79.5 MB。 此次實驗從60 萬個數(shù)據(jù)樣本中,隨機選取部分數(shù)據(jù)集合作為此次實驗的對照組實驗數(shù)據(jù),同時選取同樣數(shù)值的數(shù)據(jù)集合作為實驗組測試數(shù)據(jù),為提升實驗結(jié)果的真實性,兩組數(shù)據(jù)中不可包含重復(fù)數(shù)據(jù)。 設(shè)定10 組實驗數(shù)據(jù),數(shù)據(jù)選取具體情況如表2 所示。

表2 仿真實驗數(shù)據(jù)選取Tab. 2 Selection of simulation experiment data

依照上述提出的運行實驗數(shù)據(jù)及實驗運行環(huán)境,忽略其它影響實驗結(jié)果的外界因素。 先采用傳統(tǒng)的大數(shù)據(jù)分類模型及算法,按照上述提出的數(shù)據(jù)集合,實施數(shù)據(jù)處理并分類,定義該組為實驗的對照組。 再采用本文設(shè)計的面向MapReduce 的大數(shù)據(jù)分類模型及算法實施相同步驟的操作,定義該組實驗組。

2.2 實驗結(jié)果分析

輸出實驗結(jié)果,整理實驗中產(chǎn)生的實驗數(shù)據(jù),繪制成曲線圖,如下圖2 所示。

圖2 實驗結(jié)果Fig. 2 Experimental results

根據(jù)實驗過程及實驗中產(chǎn)生的實驗數(shù)據(jù),可得出下述實驗結(jié)論:隨著樣本數(shù)據(jù)量的提升,提出算法處理數(shù)據(jù)時間平穩(wěn)上升,具有一定的函數(shù)規(guī)律,且達到時間峰值后相對平穩(wěn)。 傳統(tǒng)方法數(shù)據(jù)處理時間較不穩(wěn)定,且處理時間上升速度較快,無明顯規(guī)律。 因此,相比傳統(tǒng)的大數(shù)據(jù)分類模型及算法,本文設(shè)計的面向MapReduce 的大數(shù)據(jù)分類模型及算法,在實際應(yīng)用中可有效縮短數(shù)據(jù)處理時間。 彌補了傳統(tǒng)算法中針對大量數(shù)據(jù)集時數(shù)據(jù)量不足的缺陷,有效地提升了計算效率,提高了大數(shù)據(jù)分類模型的運行速度,具有實際應(yīng)用價值。

3 結(jié)束語

隨著數(shù)據(jù)分類技術(shù)在市場的廣泛應(yīng)用及大數(shù)據(jù)處理技術(shù)的不斷更新,本文提出了面向MapReduce 的大數(shù)據(jù)分類模型及算法的研究。 設(shè)計實驗,模擬實驗環(huán)境及實驗數(shù)據(jù),驗證本文設(shè)計算法在實際應(yīng)用中可有效地縮短數(shù)據(jù)處理時間。 盡管本文研究已經(jīng)趨近于完善,但在實際應(yīng)用中沒有針對數(shù)據(jù)的迭代情況開展詳細分析,因此,在后期的發(fā)展中,將基于大數(shù)據(jù)技術(shù),將數(shù)據(jù)組按照分類模式及標準誤差處理方法,對數(shù)據(jù)整理實施全方面的優(yōu)化,提供數(shù)據(jù)處理終端云平臺,模擬數(shù)據(jù)可能出現(xiàn)分類誤差的多種情況,根據(jù)可能出現(xiàn)的現(xiàn)象,調(diào)整算法的數(shù)據(jù)分類方式,優(yōu)化數(shù)據(jù)外化內(nèi)存,從多個角度考慮影響數(shù)據(jù)表達因素,進而為大數(shù)據(jù)分類模型及算法的研究提供數(shù)據(jù)支撐。

猜你喜歡
數(shù)據(jù)處理分類樣本
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
分類算一算
用樣本估計總體復(fù)習(xí)點撥
分類討論求坐標
推動醫(yī)改的“直銷樣本”
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
荣成市| 木兰县| 印江| 昌乐县| 荣成市| 西乌珠穆沁旗| 玉门市| 中西区| 澄城县| 霸州市| 兰州市| 西平县| 宁城县| 澄迈县| 洪泽县| 桓台县| 吉隆县| 建湖县| 溧阳市| 阳江市| 临朐县| 含山县| 黄石市| 常宁市| 桃江县| 增城市| 梁山县| 股票| 琼海市| 集贤县| 五家渠市| 齐河县| 民勤县| 永新县| 佛学| 朔州市| 苏州市| 海安县| 庆安县| 诏安县| 阳新县|