楊斐,艾曉燕,張永恒,張峰
(榆林學(xué)院信息工程學(xué)院,陜西榆林719000)
大數(shù)據(jù)精準(zhǔn)挖據(jù)處理架構(gòu)及預(yù)測(cè)模型研究
楊斐,艾曉燕,張永恒,張峰
(榆林學(xué)院信息工程學(xué)院,陜西榆林719000)
為了提高大數(shù)據(jù)的精準(zhǔn)挖據(jù)與預(yù)測(cè)能力,解決傳統(tǒng)數(shù)據(jù)挖據(jù)技術(shù)無法適應(yīng)大數(shù)據(jù)處理環(huán)境的問題,利用云計(jì)算和大數(shù)據(jù)處理技術(shù),提出了大數(shù)據(jù)精準(zhǔn)挖據(jù)處理架構(gòu)及基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型。重點(diǎn)研究了大數(shù)據(jù)處理平臺(tái)架構(gòu)、大數(shù)據(jù)分析與表達(dá)技術(shù)、基于BP神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)挖據(jù)及預(yù)測(cè)模型。應(yīng)用結(jié)果表明,該方案結(jié)合云計(jì)算平臺(tái)和大數(shù)據(jù)挖掘技術(shù),能夠高效的處理海量數(shù)據(jù)的處理和表達(dá),對(duì)于銷售數(shù)據(jù)具有一定的預(yù)測(cè)能力。
大數(shù)據(jù);數(shù)據(jù)挖據(jù);預(yù)測(cè)模型;BP神經(jīng)網(wǎng)絡(luò);銷售數(shù)據(jù)
隨著各種數(shù)據(jù)持續(xù)爆炸式地增長(zhǎng),出現(xiàn)了多源、異構(gòu)及海量的數(shù)據(jù),如果能夠應(yīng)用當(dāng)前大數(shù)據(jù)處理技術(shù)來對(duì)這些數(shù)據(jù)進(jìn)行挖據(jù),會(huì)產(chǎn)生具大的價(jià)值[1-2]。
大數(shù)據(jù)的挖據(jù)和分析當(dāng)前企業(yè)對(duì)信息化的重要組成部分,在2011年第一季度,由Gartner公司的Merv Adrian在Teradata Magazine提出大數(shù)據(jù)的定義和應(yīng)用范圍,指出大數(shù)據(jù)是超出當(dāng)前硬件處理和軟件系統(tǒng)處理能力。大數(shù)據(jù)的處理涉及數(shù)據(jù)的收集、存儲(chǔ)、處理及挖據(jù)和分析技術(shù)。但是大數(shù)據(jù)的多源、異構(gòu)和海量的特征,使得當(dāng)前的數(shù)據(jù)分析與挖據(jù)方法很難適應(yīng)這種非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)模式[3-4]。
文中在分析大數(shù)據(jù)挖據(jù)需求的基礎(chǔ)上,提出大數(shù)據(jù)挖據(jù)的平臺(tái)架構(gòu)及利用BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對(duì)大數(shù)據(jù)進(jìn)行精準(zhǔn)挖據(jù)與預(yù)測(cè)。
1.1大數(shù)據(jù)的特征
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系[5]。大數(shù)據(jù)的特點(diǎn)有4個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別躍升到PB級(jí)別。第二,流動(dòng)速度快。第三,價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,連續(xù)監(jiān)控過程中,有用的數(shù)據(jù)僅僅有一兩秒。第四,數(shù)據(jù)種類繁多,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。業(yè)界將其歸納為4個(gè)“V”--volume、velocity、value、variety[6]。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
1.2大數(shù)據(jù)挖據(jù)處理架構(gòu)
為了發(fā)掘并利用大數(shù)據(jù)背后隱含的巨大價(jià)值,必須對(duì)大數(shù)據(jù)進(jìn)行有效地組合和管理。從結(jié)構(gòu)特征來講,大數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)絡(luò)上人工建立的知識(shí)庫,利用數(shù)據(jù)生成時(shí)的層次化對(duì)應(yīng)關(guān)系就能夠進(jìn)行有效地查詢和管理,因而人們總是希望在數(shù)據(jù)生成時(shí)就按照特有的結(jié)構(gòu)和模式對(duì)數(shù)據(jù)進(jìn)行整理。大數(shù)據(jù)計(jì)算的技術(shù)內(nèi)涵包含3個(gè)方面:處理海量數(shù)據(jù)的技術(shù)、處理多樣化類型的技術(shù)、提升數(shù)據(jù)生成與處理速度的技術(shù)。為了更好的精準(zhǔn)挖據(jù)海量的數(shù)據(jù),本文結(jié)合當(dāng)前流行的大數(shù)據(jù)處理技術(shù),設(shè)計(jì)了如圖1所示的大數(shù)據(jù)挖據(jù)技術(shù)框架。
圖1 大數(shù)據(jù)挖據(jù)處理架構(gòu)
在圖1所示的大數(shù)據(jù)挖據(jù)平臺(tái)架構(gòu)中,底層處理平臺(tái)應(yīng)用目前成熟的云計(jì)算平臺(tái)架構(gòu),而在大數(shù)據(jù)處理技術(shù)方面,本文結(jié)合Hadoop處理平臺(tái),對(duì)大數(shù)據(jù)進(jìn)行清洗和管理。傳統(tǒng)的文件存儲(chǔ)系統(tǒng)已不能滿足大數(shù)據(jù)存儲(chǔ)的需求,大數(shù)據(jù)計(jì)算需要有特定的文件系統(tǒng)以滿足海量文件的存儲(chǔ)管理、海量大文件的分塊存儲(chǔ)等功能。
Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)是Google GFS的一個(gè)高度容錯(cuò)的分布式文件系統(tǒng),它能夠提供高吞吐量的數(shù)據(jù)訪問,適合存儲(chǔ)海量(PB級(jí))的大文件。整個(gè)HDFS系統(tǒng)將由數(shù)百或數(shù)千個(gè)存儲(chǔ)著文件數(shù)據(jù)片斷的服務(wù)器組成。運(yùn)行在HDFS之上的應(yīng)用程序必須流式地訪問它們的數(shù)據(jù)集,它不是典型的運(yùn)行在常規(guī)的文件系統(tǒng)之上的常規(guī)程序。運(yùn)行在HDFS之上的程序有很大量的數(shù)據(jù)集。這意味著典型的HDFS文件是GB到TB的大小,所以,HDFS是很好地支持大文件。HDFS體系架構(gòu)如圖2所示。
圖2 HDFS體系架構(gòu)
另一個(gè)大數(shù)據(jù)存儲(chǔ)技術(shù)就是GFS存儲(chǔ)技術(shù),GFS是一個(gè)大型的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的、可擴(kuò)展的分布式文件系統(tǒng)。GFS具有實(shí)時(shí)監(jiān)測(cè)、容錯(cuò)、自動(dòng)恢復(fù)等特點(diǎn)。GFS能夠支持超大文件,每個(gè)文件通常包含很多應(yīng)用對(duì)象。當(dāng)經(jīng)常要處理快速增長(zhǎng)的、包含數(shù)以萬計(jì)的對(duì)象、長(zhǎng)度達(dá)TB的數(shù)據(jù)集時(shí),當(dāng)處理這些超大超長(zhǎng)文件集合時(shí),GFS重新設(shè)計(jì)了文件塊的大小,使其能夠有效管理成千上萬KB規(guī)模的文件塊。GFS體系架構(gòu)如圖3所示。
圖3 GFS體系架構(gòu)
在本文提出如圖1所示的大數(shù)據(jù)挖據(jù)平臺(tái)架構(gòu)中,除了大數(shù)據(jù)的存儲(chǔ)技術(shù)外,為了進(jìn)一步分析大數(shù)據(jù)內(nèi)容,還需要實(shí)現(xiàn)大數(shù)據(jù)的表達(dá)技術(shù)。大數(shù)據(jù)的表達(dá)技術(shù)是指在大數(shù)據(jù)存儲(chǔ)基礎(chǔ)之上,對(duì)特定的不同類型結(jié)構(gòu)化數(shù)據(jù)進(jìn)行表示。在大數(shù)據(jù)時(shí)代,NoSQL數(shù)據(jù)庫被大量采用。NoSQL指的是非關(guān)系型數(shù)據(jù)庫,是包含大量不同類型結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)。由于數(shù)據(jù)多樣性,這些數(shù)據(jù)存儲(chǔ)并不是通過標(biāo)準(zhǔn)SQL進(jìn)行訪問的[7]。NoSQL數(shù)據(jù)存儲(chǔ)方法的主要優(yōu)點(diǎn)是數(shù)據(jù)的可擴(kuò)展性和可用性,以及數(shù)據(jù)存儲(chǔ)的靈活性。典型的NoSQL數(shù)據(jù)庫有Bigtable、HBase等。
BigTable是Google設(shè)計(jì)的用來處理海量數(shù)據(jù)的一種非關(guān)系型的數(shù)據(jù)庫。BigTable采用一個(gè)稀疏的、分布式的、持久化存儲(chǔ)的多維度排序圖來存儲(chǔ)數(shù)據(jù)。BigTable雖然不是關(guān)系型數(shù)據(jù)庫,但是卻沿用了很多關(guān)系型數(shù)據(jù)庫的術(shù)語,像表(Table)、行(Row)、列(Column)等。BigTable的鍵有三維,分別是行鍵(Row Key)、列鍵(Column Key)和時(shí)間戳(Timestamp)[8]。
HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。HBase是Google Bigtable的開源實(shí)現(xiàn),類似Google Bigtable利用GFS作為其文件存儲(chǔ)系統(tǒng),HBase利用Hadoop HDFS作為其文件存儲(chǔ)系統(tǒng)。
HBase的數(shù)據(jù)模型如表1所示。
表1 HBase的數(shù)據(jù)模型
在大數(shù)據(jù)并行處理技術(shù)方面,目前使用MapReduce模型來實(shí)現(xiàn)。MapReduce任務(wù)的執(zhí)行流程對(duì)用戶是透明的。當(dāng)用戶程序調(diào)用MapReduce函數(shù),就會(huì)引起如下操作,Map Reduce執(zhí)行流程如圖4所示。
從MapReduce的任務(wù)執(zhí)行流程可以看出系統(tǒng)框架將大規(guī)模的計(jì)算任務(wù)進(jìn)行劃分然后將多個(gè)子任務(wù)指派到多臺(tái)工作機(jī)器上并行執(zhí)行,從而實(shí)現(xiàn)了計(jì)算任務(wù)的并行化,進(jìn)而可以進(jìn)行大規(guī)模數(shù)據(jù)的處理。
圖4 MapReduce執(zhí)行流程圖
2.1人工神經(jīng)網(wǎng)絡(luò)方法分析
人工神經(jīng)網(wǎng)絡(luò)對(duì)人類神經(jīng)系統(tǒng)的一種模擬,是指由簡(jiǎn)單計(jì)算單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),能模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能。組成神經(jīng)網(wǎng)絡(luò)的單個(gè)神經(jīng)元的結(jié)構(gòu)簡(jiǎn)單、功能有限,但是,由大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)可實(shí)現(xiàn)強(qiáng)大的功能。盡管人類神經(jīng)系統(tǒng)規(guī)模宏大、結(jié)構(gòu)復(fù)雜、功能神奇。但其最基本的處理單元卻只有神經(jīng)元。人類神經(jīng)系統(tǒng)的功能實(shí)際上是通過大量生物神經(jīng)元的廣泛互聯(lián),以規(guī)模宏大的并行運(yùn)算來實(shí)現(xiàn)的。構(gòu)成人工神經(jīng)網(wǎng)絡(luò)的基本單元是人工神經(jīng)元。并且,人工神經(jīng)元的不同結(jié)構(gòu)和模型會(huì)對(duì)人工神經(jīng)網(wǎng)絡(luò)產(chǎn)生一定的影響。人工神經(jīng)元是對(duì)生物神經(jīng)元的抽象和模擬。所謂抽象是從數(shù)學(xué)角度而言的,所謂模擬是從其結(jié)構(gòu)和功能角度而言的[9]。1934年心理學(xué)家麥卡洛克和數(shù)理邏輯學(xué)家皮茨根據(jù)生物神經(jīng)元的功能和結(jié)構(gòu),提出了一個(gè)將神經(jīng)元看成二進(jìn)制閾值元件的簡(jiǎn)單模型,即MP模型,如圖5所示。
圖5 MP神經(jīng)元模型
在圖5中,x1,x2,…,xn表示某一神經(jīng)元的n個(gè)輸入;ωi表示表示第i個(gè)輸入的聯(lián)結(jié)強(qiáng)度,也稱為聯(lián)結(jié)權(quán)值;θ為神經(jīng)元的閾值;y為為神經(jīng)元的輸出??梢钥闯?,人工神經(jīng)元是一個(gè)具有多輸入,單輸出的非線性器件。它的輸入為
式中,f稱為神經(jīng)元功能函數(shù),也稱作用函數(shù)或激勵(lì)函數(shù);θ稱為激活值。
在BP神經(jīng)網(wǎng)絡(luò)中,輸入向量為設(shè)為X=(x1,x2,…,xn),輸出向量設(shè)為Y=(y1,y2,…,ym),輸入層各個(gè)輸入到相應(yīng)神經(jīng)元的聯(lián)結(jié)權(quán)值設(shè)為ωij(i=1,2,…,n;j=1,2,…,m)。若假設(shè)各神經(jīng)元的閾值分別是θj(j=1,2,…,m),則各神經(jīng)元的輸出yi(j= 1,2,…,m)分別為
式中,由所有聯(lián)結(jié)權(quán)值ωij構(gòu)成的聯(lián)結(jié)權(quán)值矩陣W為
在實(shí)際應(yīng)用中,該矩陣是通過大量的訓(xùn)練示例學(xué)習(xí)而形成的。
2.2基于BP神經(jīng)網(wǎng)絡(luò)的庫存銷售預(yù)測(cè)
本文實(shí)驗(yàn)使用某電子商務(wù)網(wǎng)站庫存銷售數(shù)據(jù)為預(yù)測(cè)值,資料取10年共10萬多組數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)在經(jīng)過大數(shù)據(jù)處理后,形成結(jié)構(gòu)化數(shù)據(jù),部分仿真實(shí)驗(yàn)在MATLAB2012a中實(shí)驗(yàn)。對(duì)應(yīng)的資料數(shù)據(jù)項(xiàng)主要包括倉庫名稱、營(yíng)業(yè)額、員工人數(shù)、利潤(rùn)和規(guī)模等.對(duì)所有的數(shù)據(jù)使用前需要?dú)w一化處理。數(shù)據(jù)歸一化到[-1,1]區(qū)間的公式為:
式中,xn和x表示歸一化前后的序列值;xmax和xmin分別表示原序列x的最大值和最小值。反歸一化公式為
本文使用如下幾個(gè)統(tǒng)計(jì)量評(píng)價(jià)預(yù)測(cè)模型的預(yù)測(cè)精度:
1)平均絕對(duì)誤差
2)平均相對(duì)誤差
把前5年51 000組歷史數(shù)據(jù)作為訓(xùn)練樣本,每組數(shù)據(jù)包括20個(gè)預(yù)測(cè)因子和一個(gè)原始銷售序列值。把后5年共49000組數(shù)據(jù)作為測(cè)試樣本,每組數(shù)據(jù)包括20個(gè)輸入因子,對(duì)每天的銷售的數(shù)據(jù)值進(jìn)行預(yù)測(cè)。
通過多次試驗(yàn),最終確定的BP神經(jīng)網(wǎng)絡(luò)的參數(shù)選擇為:系數(shù)0.65,訓(xùn)練目標(biāo)0.002,隱層最大神經(jīng)元數(shù)600,最后測(cè)試數(shù)據(jù)的真實(shí)值和預(yù)測(cè)值對(duì)比圖如圖6所示。
圖6 神經(jīng)網(wǎng)絡(luò)模型真實(shí)值與預(yù)測(cè)值對(duì)比圖
經(jīng)過計(jì)算,BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度指標(biāo)分別為:MAE= 0.021 2,MPAE=22.32%。從曲線圖和統(tǒng)計(jì)指標(biāo)來看,BP神經(jīng)網(wǎng)絡(luò)模型對(duì)于銷售序列預(yù)測(cè)具有一定的預(yù)測(cè)能力,但是預(yù)測(cè)的泛化能力還有待提高。
文中以大數(shù)據(jù)處理與挖據(jù)平臺(tái)架構(gòu)為出發(fā)點(diǎn),研究大數(shù)據(jù)精準(zhǔn)挖據(jù)與預(yù)測(cè)的技術(shù)與模型。分析了某電子商務(wù)網(wǎng)站庫存銷售數(shù)據(jù),資料取10年共10萬多組數(shù)據(jù)并利用Hadoop技術(shù)平臺(tái),應(yīng)用MapReduce對(duì)數(shù)據(jù)進(jìn)行處理分析,然后應(yīng)用BP神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行了挖據(jù)和預(yù)測(cè)處理。
[1]戴禮燦.大數(shù)據(jù)檢索及其在圖像標(biāo)注與重構(gòu)中的應(yīng)用[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2013:20-50.
[2]Katiuscia Sacco,Valetina Galletto,Enrico Blanzieri.How has the 9/11 terrorist attack influenced decision making[J]. Applied Cognitive Psychology,2002(9):1113-1127.
[3]Sarafidis Y.What have you done for me lately Release of information and strategic manipulation of memories[J].The Economic Journal,2007,117(3):307-326.
[4]Heyn T,Mazhar H,Seidl A,et al.Enabling computational dynamics in distributed computing environments using a heterogeneous computing template[C].ASME 2011 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference,2012(8): 227-236.
[5]陳芳.云計(jì)算架構(gòu)下云政府模式研究[D].武漢:武漢大學(xué),2012.
[6]Howe D,Costanzo M,F(xiàn)ey P,et al.Big data:the future of biocuration[J].2008(9):47-50.
[7]Zhang Feng,Xue Hui-Feng.Big data cleaning algorithms in cloud computing[J].International Journal of Online Engineering,2013,9(3):77-81.
[8]LI Zhong-tao,Weis T.Using zone code to manage a contentaddressable network for distributed simula-tions[C]//Proceedings of 2012 IEEE 14th International Conference on Communication Technology:[s.n.],2012:1350-1358.
[9]Wang Feng,Qiu Jie,Yang Jie,et al.Hadoop high availability through metadata replication[C]//Proceeding of the First International Workshop on Cloud Data Management:[s.n.],2009:37-44.
New mining architecture and prediction model for big data
YANG Fei,AI Xiao-yan,ZHANG Yong-heng,ZHANG Feng
(School of Information Engineering,Yulin University,Yulin 719000,China)
In order to improve the accuracy of big data mining and forecasting ability,to solve the traditional data mining technology cannot adapt to big data processing environment problem,using of cloud services and big data processing technology,a new mining architecture and forecast model for big data model based on BP neural network is proposed.The structure of big data processing platform,big data analysis and expression technology and big data mining and prediction model based on BP neural network is designed.Application results show that the scheme combining cloud service platform and big data mining technology can effectively dealing with massive data processing and expression has a certain predictive ability for the sales data.
big data;data mining;prediction model;BP neural network;sales data
TN391
A
1674-6236(2016)12-0029-04
2015-07-08稿件編號(hào):201507072
榆林學(xué)院科研項(xiàng)目(14YK38),榆林市科技計(jì)劃項(xiàng)目(2014cxy-09)
楊斐(1982—),男,陜西榆林人,講師。研究方向:復(fù)雜系統(tǒng)理論與建模,管理系統(tǒng)工程。