王強
【關鍵詞】大數(shù)據(jù);制造業(yè);系統(tǒng)架構設計
大數(shù)據(jù)時代下,利用生產(chǎn)過程中采集到的數(shù)據(jù)對能源消耗進行及時、準確的預測,進而達到節(jié)能減排的目的,利用科學的算法對數(shù)據(jù)進行分析進而調整產(chǎn)業(yè)結構,都將成為制造企業(yè)發(fā)展的新方向。但傳統(tǒng)的數(shù)據(jù)分析、預測架構結構單一固定并且動態(tài)適應能力與可拓展性較差,很明顯已經(jīng)不能適應企業(yè)對于海量數(shù)據(jù)的處理和快速、深度挖掘的需求,因此作者認為制造企業(yè)迫切需要運用大數(shù)據(jù)技術對企業(yè)能源消耗進行預測。本文試圖對制造企業(yè)運用大數(shù)據(jù)技術進行能耗預測時面臨的機遇與挑戰(zhàn)進行分析,并給出制造企業(yè)大數(shù)據(jù)能耗預測的一種可選框架。
大數(shù)據(jù)背景下的制造企業(yè),僅對直接生產(chǎn)數(shù)據(jù)進行處理是不能滿足其需求的,因而要處理多元化的數(shù)據(jù)。在大數(shù)據(jù)時代,我們可以便捷地獲取和存儲各類數(shù)據(jù),從而幫助我們實現(xiàn)全集數(shù)據(jù)庫的建立。全集數(shù)據(jù)使數(shù)據(jù)的分析過程更加全面,能夠發(fā)現(xiàn)很多隱性的細節(jié),使數(shù)據(jù)分析的結果更加精確。
制造企業(yè)中的全集數(shù)據(jù)具有不同的數(shù)據(jù)來源,不同數(shù)據(jù)間的獲取、轉換相互獨立,因此傳統(tǒng)的集中數(shù)據(jù)存儲方法已不再適用。分布式存儲已成為當前大數(shù)據(jù)分析中的主流解決方案,該技術采用可擴展的系統(tǒng)結構,利用多臺存儲服務器和位置服務器,對存儲負荷進行負載均衡,對存儲信息進行定位,大大增強了系統(tǒng)的穩(wěn)定性以及數(shù)據(jù)的存取效率,并具有易于擴展的優(yōu)點,動態(tài)適應能力較強。
在本文的架構當中,全集數(shù)據(jù)被分散的存儲在分布式系統(tǒng)的各個節(jié)點中,針對當前大數(shù)據(jù)環(huán)境下的數(shù)據(jù)增長速度較快的問題,僅需在當前的分布式存儲系統(tǒng)中增加相應數(shù)量的節(jié)點即可,這樣就保證了系統(tǒng)的拓展性問題。
雖然分布式的數(shù)據(jù)存儲系統(tǒng)為我們解決了數(shù)據(jù)存儲的問題,但是未能實現(xiàn)對大量數(shù)據(jù)的實時獲取功能,造成了企業(yè)的業(yè)務系統(tǒng)對數(shù)據(jù)進行獲取以及使用的過程中,存在較為嚴重的數(shù)據(jù)滯后問題。因此在本文設計的架構中,在分布式節(jié)點存儲數(shù)據(jù)之后,會將計算節(jié)點融合在數(shù)據(jù)旁的CPU之中,將計算推向數(shù)據(jù),取代傳統(tǒng)意義程序從數(shù)據(jù)庫獲取數(shù)據(jù)進行計算,進而轉變?yōu)樵朴嬎愕募軜嬆J健?/p>
分布式數(shù)據(jù)存儲、計算系統(tǒng)在功能結構上包括分布式基礎設施層、平臺層與軟件層3個層次。
(一)基礎層
在分布式架構的基礎層中主要是分布式存儲的各個結點和計算系統(tǒng)的計算單元,各結點位于分布式結構的基礎設施當中,并且它們之間可以進行分組,每組中都會有一個目錄服務器節(jié)點,它的作用是對該組節(jié)點進行統(tǒng)一任務分配,并且對計算結果進行匯總,而且可以作為各結點的文件和數(shù)據(jù)索引。在每一組結點的外部,都存在一個總目錄服務器的節(jié)點,對于所有的分布式基礎設施進行任務分配以及計算結果的匯總,并且作為下層各目錄服務器的文件和數(shù)據(jù)索引。
(二)平臺層
服務類引擎以及數(shù)據(jù)類引擎等均位于平臺層中,其中數(shù)據(jù)引擎主要包括能源數(shù)據(jù)引擎,供應鏈數(shù)據(jù)引擎,人力數(shù)據(jù)引擎,財務數(shù)據(jù)引擎,生產(chǎn)數(shù)據(jù)引擎等。服務引擎主要包括用戶身份認證引擎,企業(yè)報表引擎,數(shù)據(jù)統(tǒng)計分析引擎等,上述的服務引擎和數(shù)據(jù)引擎作為架構中軟件層的核心,為上層提供相應的數(shù)據(jù)接口以及一些通用功能類接口。比如,系統(tǒng)中各類對能源數(shù)據(jù)有需求的業(yè)務系統(tǒng)可以調用能源類數(shù)據(jù)引擎所提供的數(shù)據(jù)接口,通過傳遞參數(shù)的方式獲取到所需的能源數(shù)據(jù)。文中提及的平臺層的引擎均具備較強的通用性和適應性,根據(jù)不同的業(yè)務邏輯需求進行適配。目前平臺層采用的是Google公司的MapReduce數(shù)據(jù)分析處理框架。2004年Google公司提出的MapReduce[1]編程模型采用批處理模式,其為目前批處理方式采用的主要模型。
(三)軟件層
軟件層作為該架構的最頂層,本層主要包括了與大數(shù)據(jù)綜合分析直接相關的各個業(yè)務系統(tǒng),軟件層的最終目標是將數(shù)據(jù)轉化為有價值的信息,并通過合理的方式將其展現(xiàn)在企業(yè)高層與相關用戶面前。要完成本層中各個業(yè)務系統(tǒng)的功能目標,需要通過調用平臺層提供的各類數(shù)據(jù)接口,將數(shù)據(jù)篩選條件作為參數(shù)傳遞給平臺層,從而獲取到對應的數(shù)據(jù),將數(shù)據(jù)進行處理后,使用數(shù)據(jù)挖掘方法對數(shù)據(jù)進行深層次加工,進而實現(xiàn)系統(tǒng)功能。顯而易見,該部分的核心內容就是數(shù)據(jù)挖掘算法,挖掘算法的精確程度將對系統(tǒng)分析結果的精確性和準確性產(chǎn)生影響。