,, , ,
(國網湖北省電力公司 信息通信公司,武漢 430000)
基于云計算的大數據自動分類處理系統(tǒng)設計
羅弦,查志勇,徐煥,劉芬,詹偉
(國網湖北省電力公司信息通信公司,武漢430000)
隨著現代網絡技術不斷進步,系統(tǒng)數據量也在逐漸增多;傳統(tǒng)的大數據自動分類處理系統(tǒng)已經無法滿足現階段用戶需求,其軟件與硬件的設計都比較單一,存在能源消耗大、分類速度慢、處理時間長、內存占用率高等問題,為此,提出基于云計算的大數據自動分類處理系統(tǒng)的設計;首先設計系統(tǒng)硬件結構,主要包括數據采集器、數據處理器以及數據自動存儲模塊,并詳細的介紹了各硬件結構;然后利用時域特征提取數據的算法對頻域特征數據進行提取,從而實現數據自動分類處理系統(tǒng)的軟件設計;最后對兩種系統(tǒng)性能進行對比實驗;實驗結果證明,基于云計算的大數據自動分類處理系統(tǒng)的資源不僅占用率低,內存消耗小,而且數據庫內存較大;該系統(tǒng)不但可以提高數據自動分類精準度,還能加快數據分類速度,從而使系統(tǒng)擁有更好的分類性能。
云計算;大數據;自動分類;數據處理;系統(tǒng)設計
近幾年隨著網絡技術的不斷進步,各種系統(tǒng)中的數據量也在逐漸地增多,但是面對豐富的數據資源卻讓使用者很困惑,大量的數據呈現無序、分散的狀態(tài),從而增加了使用者對數據信息利用的難度[1-3]。傳統(tǒng)的大數據自動分類處理系統(tǒng)的結構具有單一性,其能源的消耗、分類的速度、處理的時間、內存的占用率都不能滿足當下大量數據分類的需求[4-5]。隨著時間的流逝,大量數據逐漸形成了特殊的特征趨勢,傳統(tǒng)大數據自動分類處理系統(tǒng)的不穩(wěn)定性很難對數據進行自動的分類,因此,能否設計出優(yōu)于傳統(tǒng)大數據自動分類處理的系統(tǒng),是數據自動分類領域應該重點關注的內容[6-7]。
文獻[8]中提出了一種基于關聯規(guī)則的大數據自動分類處理系統(tǒng)的設計,該系統(tǒng)具體的數據挖掘過程是:利用迭代來獲取數據的全部項集,其支持的力度高于既定閾值的力度即可,通過對項集的頻繁搜索即可獲得符合使用者的最優(yōu)規(guī)則,并依據數據挖掘的關聯規(guī)則對大數據進行自動的分類處理。但是該設計方法受到系統(tǒng)硬件條件的制約,運行的效果較差,能源消耗較多。文獻[9]中提出了一種基于向量的數據自動分類處理系統(tǒng)的設計,該系統(tǒng)設計的風險較小,不會受到數據維數的影響。其設計的過程中,分類的數據將置于兩種數據樣本之間距離較遠的位置,并經過高維空間的變化,低維線性存在的不可分的問題就迎刃而解了,從而實現大數據的自動化分類,但是該系統(tǒng)的設計會嚴重造成數據分類的單一性,性能效果不佳。文獻[10]中提出了一種基于信息互動的大數據特征提取系統(tǒng)的設計,該系統(tǒng)以信息互動為準則,對數據特征進行分類與對比,并利用迭代算法對系統(tǒng)的軟件進行設計,進而對數據進行準確的分類。雖然該系統(tǒng)的準確率較高,但是資源的占用率較少以及穩(wěn)定的性能較低。
針對上述存在的問題,我提出了基于云計算的大數據自動分類處理系統(tǒng)的設計。首先設計了系統(tǒng)的硬件結構,主要有數據采集器、數據處理器以及數據自動存儲模塊,并詳細的介紹了各硬件的結構;然后利用時域特征提取數據的算法對頻域特征數據進行提取,從而實現數據自動分類處理的軟件設計;最后對兩種系統(tǒng)性能設計了對比實驗。實驗結果證明,基于云計算的大數據自動分類處理系統(tǒng)的設計不但提高了分類的精準度,而且降低了能源的消耗,其系統(tǒng)應用將會有更廣闊的前景。
大數據自動分類處理系統(tǒng)的硬件是基于云計算設計的,云計算是在網絡相關服務的程序下,對資源提供動態(tài)的易擴展的方式,并根據使用者的需求,將大數據進行分布式的配置,并以SOA組件模型的體系為基礎,增加云計算的兼容性,從而提高大數據自動分類處理的穩(wěn)定性。系統(tǒng)硬件的設計框圖如圖1所示。
圖1 系統(tǒng)硬件的設計框圖
1.1 數據采集器的設計
數據采集器的設計主要包括鈦網的管制的芯片以及單片機,通過云計算的接口向大數據自動處理器傳送采集到的數據。數據采集器的電源產生的是5 V的電壓,并經過單片機的引腳傳送到單片機上方的電壓調節(jié)器中,為單片機上方的工作提供3 V的電壓。再將單片機上方的3 V電壓通過引腳傳送到其它剩余所需3 V電源的器件中供其使用。單片機經過傳送的信息與引腳傳送電壓結束后與其它的單片機進行信息之間的交換?;谠朴嬎愕木W絡信號經過電路調整后,使用p25的引腳傳送到單片機上方的A/D轉換器當中,并通過A/D轉換器將網絡信號轉換成數據,從而實現了基于云計算環(huán)境下的大數據的采集。
1.2 數據處理器設計
基于云環(huán)境下的數據處理器主要用于對采集到的大數據進行處理。處理器主要選用的是某網絡公司生產的IXP2400的處理器,采用共享效率高的數據線程以及微引擎的數據信號對收集到的數據進行處理。通過控制處理器對采集到的數據進行處理,這個過程是可完全編程的,處理器工作的模式也可以利用編程來實現。
1.3 數據自動存儲模塊的設計
數據的存儲模塊采用的是C8051F系列的單片機來完成數據的存儲。C8051F系列的單片機集合成了完全混合的soc芯片,其內置的FLASH存儲的程序具備較大的存儲空間。C8051F系列的單片機與AT45DB80的硬件工作原理如圖2所示。
圖2 單片機與硬件工作原理圖
由圖2可知,將C8051F系列的單片機P0.2、P0.3、P0.4引腳采用設置開關為MOSI的信號主線,每條主線都與AT45DB80的硬件的始終進行串聯并將信號輸出。將P3.0、P3.1、P3.2和AT45DB80的硬件中的芯片連接,并進行復位。C8051F系列的單片機采用的是存儲器瞬間開啟的一次性數據儲存,其過程是:先將串行外設接口的表示進行清除,然后再向數據的自動儲存器中輸入字節(jié),如果檢測出的串行外設接口由AT45DB80硬件組成,那么一次的數據自動儲存結束。
基于云計算的大數據自動分類處理系統(tǒng)的軟件設計需要對大數據進行特征提取,然后進行分類處理。雖然大數據的特性在數據處理的時候較為復雜,但是對于自動分類處理的軟件設計過程來說是必不可少的。其過程為:首先將數據進行人工的分類,來獲取數據的樣本,然后為了消除多余數據之間存在的可能性的矛盾對樣本進行聚類,并對系統(tǒng)選取特征性的數據,最后對性能改進型評估,以便性能的改善。
2.1 基于時域特征提取數據算法的設計
時域的特征主要包括瞬時能量、平均方值的大小以及過零率以及高過零的幀數比。瞬時能量的單位為幀,對于大多的數據提取方法來說,一般參照瞬時能量每幀的點幅數值z的平方以及同一時間段的大數據增減的能量值E,公式為:
(1)
由公式(1)可以看出瞬時的能量均方根值(RMS)的表示式為:
(2)
其中:i為幀數;I為參照的點數。
大數據的特征可分為語音數據與文字數據,都可以通過幀數的大小呈現出來,因此瞬時能量的表達式能夠準確的將語音數據的特征通過上述的公式準確的提取出來。
過零率Q的含義是能夠在特定的時間內將大數據的正負幅度值的變化次數迅速的計算出來,其表示式為:
(3)
公式(3)中,sgn表示的是特定的參數;若數據的變量大于等于0時,特定的參數sgn的數值為1;若數據的變量小于0時,特定的參數sgn的數值為-1。
高過零是在一定的時間內,其過零率的瞬時能量的數值超過其他平均數值的幀數的比(HZCRR),其表達式為:
(4)
公式(4)中:avQ代表的是過零率的平均數值;Q(i)表示的是幀數為i時的過零率。
大數據中語音信號的數據往往呈現的是交替形式的出現,這就導致了過零率的波動呈上升趨勢,高過零的幀數過大;而文字信號的數據波動的情況并不明顯,高過零的幀數較小。根據上述的內容可以對大數據的特征進行分類。
2.2 基于頻域特征數據提取的設計
頻域特征主要運用的是線性預測和梅爾頻率倒譜系數計算方法的數據提取,該方法能夠對頻率產生的瞬時能量進行數據的輔助提取。
梅爾頻率倒譜系數是針對等距劃分頻帶數據提取特征應用的一種計算方法,該方法擁有較高的抵抗干擾的能力,因此,常將該計算方法作為數據特征提取的主要手段之一。如果想要獲取梅爾頻率倒譜系數,需要對大數據的軟件進行加重、幀數分類、添窗等設計,這時獲取到的幀數時域信號用W(i)表示。幀數的時域信號進行經過傅里葉的轉變之后即可獲取到離散的頻譜,并用W(k)來表示,那么表達離散頻譜的公式為:
(5)
式中,k為傅里葉變換點數;e為頻率。
利用W(k)能夠計算出離散頻率的數值,即為W2(k),此時的輸出數據的能量為:
(6)
其中:H為處理后的輸出數據的能量值;M為處理的次數。根據數據分類處理的順序,可得到梅爾頻率倒譜系數計算的表達式為:
(7)
公式(7)中,m為數據處理的順序。由此可得出線性預測系數的表達式為:
(8)
公式(8)中,m為線性預測數據的階段;T′(k)為第k個序列實數的組合;i為自然數。通過上述的內容,可完成系統(tǒng)軟件的設計。
為了驗證大數據自動分類處理系統(tǒng)設計的有效性進行了實驗,其中數據來自于網絡知識庫,系統(tǒng)是由3臺計算機組成,其中系統(tǒng)的硬件配置有:Intel Dual-core 2.6 GHz型號的處理器、16 GB的內存大小。
3.1 參數的設置
將實驗的數據進行編號,分別為:T0、T1、T2、T3、T4、T5、T6;數據的種類分別為:經濟學數據、農業(yè)經濟數據、貿易經濟數據、世界經濟數據、工業(yè)經濟數據、交通運輸經濟數據;數據的大小分別為:1686、1789、1893、1595、1537、1678。
3.2 數據的分析
根據上述的參數,分別對傳統(tǒng)的大數據自動分類處理系統(tǒng)與基于云計算的大數據自動分類處理系統(tǒng)的穩(wěn)定性進行了分析。
由表1可知:傳統(tǒng)的大數據自動分類處理系統(tǒng)在六次的實驗中,其數據分類的準確率隨著實驗次數的增多,數據分類的準確率和數據分類的預測值變高,而系統(tǒng)數據的召回率始終維持在91%左右。
由表2可知:基于云計算的大數據自動分類處理系統(tǒng)在六次的實驗中,其數據分類的準確率隨著實驗次數的增多,數據分類的準確率和數據分類的預測值變高,而系統(tǒng)數據的召回率則高達99%。
表1 傳統(tǒng)的大數據自動分類處理系統(tǒng)
表2 基于云計算的大數據自動分類處理系統(tǒng)
3.3 實驗結果
由上述的實驗過程可以分析出大數據自動分類實質上就是一個映射的過程,根據數據特征的提取可以充分的體現出基于云計算的大數據自動分類處理的準確程度。一般情況下采用數據分類的準確率與系統(tǒng)數據的召回率這兩個指標作為對系統(tǒng)評估的判斷。由上述實驗內容中的表1與表2可以看出,采用基于云計算的大數據自動分類處理系統(tǒng)對各種數據進行了分類,并得到數據分類的準確率與召回率的優(yōu)勢都明顯高于傳統(tǒng)的大數據自動分類處理系統(tǒng)。
為了進一步驗證基于云計算的大數據自動分類處理系統(tǒng)設計的有效性,對CPU的占用率與內存占用率的情況進行對比。
表3 兩種系統(tǒng)的資源占用率的對比結果
由表3可知:基于云計算的大數據自動分類處理系統(tǒng)的CPU的占用率結果的范圍為:58%~69%,內存占用率的范圍為:20%~35%;而傳統(tǒng)的大數據自動分類處理系統(tǒng)的CPU的占用率結果的范圍為:62%~80%,內存占用率的范圍為:35%~48%。
傳統(tǒng)的大數據自動分類處理系統(tǒng)與基于云計算的大數據自動分類處理系統(tǒng)在內存的損耗與分類的速度上也大不相同,如圖3所示。
圖3 兩種系統(tǒng)能耗與速度的對比結果
由圖3可以看出,基于云計算的大數據自動分類處理系統(tǒng)的內存消耗明顯高于傳統(tǒng)的方法,其分類的時間比傳統(tǒng)的方法節(jié)省很多。
由此可得出實驗結論為:基于云計算的大數據自動分類處理系統(tǒng)的資源占用率低,內存消耗較小,且數據庫的內存較大,該設計方法不僅提高了數據自動分類的準確度,還加快了數據分類的速度,具有較好的分類性能。
基于云計算的大數據自動分類處理系統(tǒng)的設計與傳統(tǒng)的大數據自動分類處理系統(tǒng)相比具有良好的穩(wěn)定性,其資源的占用率也比較低,分類的速度較快。數據自動處理后的顯示端是用戶直接應用的端口,該端口的任務就是對大數據進行收集與獲取結果進行顯示并標注分類。
對系統(tǒng)進行硬件設計就是為大數據提供自動分類處理數據的平臺,并將數據的特征進行分類處理,將處理的結果傳
送給邏輯層的處理端。而系統(tǒng)的軟件設計就是為了實現數據自動分類處理更加的準確,為此使用了時域特征提取數據的算法,利用該算法對頻域特征數據進行提取?;谠朴嬎愕拇髷祿詣臃诸愄幚硐到y(tǒng)的設計不但提高了分類的精準度,而且降低了能源的消耗,為我國未來的數據處理方式提供了強有力的依據。
[1] 肖乃慎,李 博,孔德詩,等.大數據背景下的電網客戶用電行為分析系統(tǒng)設計[J].電子設計工程,2016,24(17):61-63.
[2] 劉 莉,楊傲雷,屠曉偉,等.面向INS數據分類的魯棒性無監(jiān)督聚類方法[J].儀器儀表學報,2016,37(1):152-160.
[3] 余 翔,白友良,李 成,等.多維有序聚類法在地質數據分類中的應用[J].計算機應用,2015(s1):152-155.
[4] 陳學斌,王 師,董巖巖,等.面向大數據的并行分類混合算法研究[J].微電子學與計算機,2016,33(4):138-140.
[5] 孟麗麗,宋 鋒.Web網絡大數據分類系統(tǒng)的設計與改進[J].現代電子技術,2016,39(22):36-40.
[6] 張 青,呂 釗,ZHANGQing,等.基于主題擴展的領域問題分類方法[J].計算機工程,2016,42(9):202-207.
[7] 張明衛(wèi),朱志良,劉 瑩,等.一種大數據環(huán)境中分布式輔助關聯分類算法[J].軟件學報,2015,26(11):2795-2810.
[8] 李 悅,孫 健,邱志祺.基于關聯規(guī)則的數據挖掘技術的研究與應用[J].現代電子技術,2016,39(23):121-123.
[9] 蔣 亮,蒙祖強,胡玉蘭,等.一種基于向量夾角的快速計算等價類算法[J].小型微型計算機系統(tǒng),2015,36(10):2360-2364.
[10] 張科星.網絡大數據平臺中的特征數據分類系統(tǒng)設計與實現[J].現代電子技術,2017,40(8):25-28.
DesignofLargeDataAutomaticClassificationandProcessingSystemBasedonCloudComputing
Luo Xian,Zha Zhiyong,Xu Huan,Liu Fen,Zhan Wei
(Information & Communication Branch, Hubei EPC,Wuhan 430000,China)
With the continuous improvement of modern network technology, the amount of data in the system is increasing gradually. Traditional big data automatic classification processing system has been unable to meet the needs of users, the software and hardware design are single, there exists large energy consumption, slow speed of classification, long processing time and memory usage rate is high, therefore, automatic classification is proposed based on cloud computing of large data processing system design. Firstly, the hardware structure of the system is designed, which mainly includes data collector, data processor and data automatic storage module, and introduces the structure of each hardware in detail. Then, the data is extracted using the time-domain feature extraction algorithm to realize the software design of data automatic classification and processing. Finally, two kinds of system performance design are compared. The results show that the resources of large data automatic classification and processing system based on cloud computing have low occupancy rate, small memory consumption and large memory of database. The design of this system can not only improve the accuracy of automatic classification of data, but also speed up the classification of data, so that the system has better classification performance.
cloud computing; big data; automatic classification; data processing; system design
2017-07-01;
2017-07-29。
羅 弦(1982-),男,湖北武漢人,碩士研究生,工程師,主要從事大數據與網絡安全方向的研究。
1671-4598(2017)10-0278-03
10.16526/j.cnki.11-4762/tp.2017.10.071
TP391
A