李慧
摘 ?要: 基于Pentaho BI的信息綜合處理平臺未對高校信息進行有效抽取和轉(zhuǎn)換,存在高校信息處理速率低和錯誤率高的弊端,為此設(shè)計基于大數(shù)據(jù)的智能高校信息綜合處理平臺。硬件設(shè)計中,ETL管理模塊將高校信息數(shù)據(jù)從來源端進行抽取、交互轉(zhuǎn)換和加載,加快高校信息抽取速率,實現(xiàn)源數(shù)據(jù)到目標數(shù)據(jù)的變換;智能信息處理模塊采用數(shù)據(jù)挖掘技術(shù)對高校信息進行大數(shù)據(jù)分析,實現(xiàn)對高校信息的有效處理。軟件設(shè)計采用嵌入式Linux內(nèi)核技術(shù)設(shè)計平臺的軟件開發(fā)流程,實現(xiàn)智能高校信息的綜合處理。實驗結(jié)果表明,所設(shè)計平臺在提升高校信息處理效率方面有較強的應用效果,且平臺可將信息處理錯誤率控制在5%以下,對高校信息的處理結(jié)果可靠性高。
關(guān)鍵詞: 大數(shù)據(jù); 高校信息; 綜合處理平臺; 智能信息處理; 數(shù)據(jù)挖掘技術(shù); 軟件開發(fā)
中圖分類號: TN919?34; TP311.13 ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)10?0031?04
Design of intelligent university information integrated processing
platform based on big data
LI Hui
(Yancheng Teachers University, Yancheng 224007, China)
Abstract: The information integrated processing platform based on Pentaho BI cannot conduct effective extraction and conversion of university information, and has the disadvantages of low processing rate and high error rate of university information. Therefore, an intelligent university information integrated processing platform based on big data is designed. In the hardware design, the ETL management module is used to extract, interconvert and load the university information data from the source terminal, so as to accelerate the university information extraction rate and realize transformation of source data to target data. In the intelligent information processing module, the data mining technology is used to conduct big data analysis of university information, so as to realize effective processing of university information. In the software design, the software development process of the embedded Linux kernel technology design platform is adopted to realize comprehensive processing of intelligent university information. The experimental results show that the designed platform has a strong application effect in improving the processing efficiency of university information, can control the error rate of information processing below 5%, and has a high reliability for university information processing results.
Keywords: big data; university information; comprehensive processing platform; intelligent information processing; data mining technology; software development
0 ?引 ?言
隨著計算機技術(shù)的不斷發(fā)展,高校的信息化發(fā)展進程也逐漸加快,隨之產(chǎn)生海量的信息數(shù)據(jù)。信息類型由過去的單一化的結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)變?yōu)榘ㄒ曨l信息在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)的信息處理平臺無法高效處理現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)。此外,采用以業(yè)務(wù)為管控核心、數(shù)據(jù)為驅(qū)動的管理模式容易導致信息處理平臺與數(shù)據(jù)間的耦合性加強,無法體現(xiàn)出高校信息的價值意義。
以往相關(guān)人員研究出的高校信息處理方法,如文獻[1]中信息處理平臺著重于業(yè)務(wù)忽視了高校信息的價值,對信息的深度加工和解讀不足,因此平臺處理結(jié)果不具有代表意義;文獻[2]中信息平臺利用Pentaho BI的集成工具來收集和分析來自高校的各個學科不同管理部門的信息,從而構(gòu)建高校信息綜合處理平臺,但該平臺由于缺少綜合的信息抽取與轉(zhuǎn)換過程,無法直接利用學科建設(shè)信息,信息處理過程較復雜。為解決上述問題,設(shè)計基于大數(shù)據(jù)的智能高校信息綜合處理平臺。實驗結(jié)果表明,所設(shè)計平臺的高校信息處理效率較高,錯誤處理率得到有效降低。
1 ?基于大數(shù)據(jù)的智能高校信息綜合處理平臺設(shè)計
基于大數(shù)據(jù)的智能高校信息綜合處理平臺,核心在于將大數(shù)據(jù)的應用效果與機器學習以及人工智能等先進技術(shù)結(jié)合[3],使信息處理平臺在智能處理高校信息的同時實現(xiàn)自我學習,并在運行過程中對故障進行自我檢測,打破傳統(tǒng)高校信息管理的壁壘,視數(shù)據(jù)和業(yè)務(wù)為一個單獨整體[4]。圖1為平臺的總體結(jié)構(gòu)圖。
圖1 ?平臺總體結(jié)構(gòu)圖
1.1 ?硬件設(shè)計
1.1.1 ?ETL管理模塊設(shè)計
ETL用來描述將高校信息數(shù)據(jù)從來源端經(jīng)過抽取、交互轉(zhuǎn)換和加載至目的端的過程。任意一個信息處理平臺的核心均為數(shù)據(jù)抽取和轉(zhuǎn)換[5],尤其是在海量數(shù)據(jù)的處理中,數(shù)據(jù)抽取和轉(zhuǎn)換的好壞決定處理平臺的成敗。圖2為ETL技術(shù)體系結(jié)構(gòu)圖。
圖2 ?ETL技術(shù)體系結(jié)構(gòu)
ETL管理模塊作為平臺的核心,其功能主要分為數(shù)據(jù)處理和業(yè)務(wù)控制兩部分,負責進行數(shù)據(jù)的清洗以及實現(xiàn)源數(shù)據(jù)與目標數(shù)據(jù)間的映射轉(zhuǎn)換。ETL模塊在功能設(shè)計上分為控制、服務(wù)以及應用三部分,功能間相互銜接,結(jié)構(gòu)劃分清楚,能夠完全實現(xiàn)平臺的需求[6]。其應用架構(gòu)邏輯結(jié)構(gòu)如圖3所示。
圖3所示的邏輯結(jié)構(gòu)能夠在高校信息的數(shù)據(jù)抽取過程中,依照不同的抽取條件實現(xiàn)動態(tài)配置,提升ETL的靈活性和實用性,以滿足不同平臺使用者的需求,降低平臺的再次開發(fā)工作量。數(shù)據(jù)抽取環(huán)節(jié)主要進行增量抽取[7],其次進行全量抽取,提升對高校信息的抽取速率,實現(xiàn)源數(shù)據(jù)到目標數(shù)據(jù)的變換。
圖3 ?ETL應用架構(gòu)邏輯結(jié)構(gòu)圖
1.1.2 ?智能信息處理模塊設(shè)計
智能信息處理模塊作為主控模塊,實現(xiàn)高校信息的智能分析。該模塊采用大數(shù)據(jù)挖掘技術(shù)對高校信息進行大數(shù)據(jù)分析和信息處理,采用安卓操作系統(tǒng)將信息處理指令發(fā)送給相關(guān)的I/O引腳,同時采用字節(jié)為單位與上層ETL管理模塊進行無線信息包交互[8],與此同時在MVB的總線控制下完成進程管理與文件配置過程。通過在TinyOS 2.x中調(diào)用Task Basic.posTask()任務(wù)的某個事件來激發(fā)智能高校信息管理平臺的Task Basic接口程序,確保語義生命網(wǎng)絡(luò)協(xié)議數(shù)據(jù)庫開發(fā)的過程在標準TinyOS調(diào)用程序下完成。智能信息處理模塊體系結(jié)構(gòu)包括高校信息資源庫、核心庫、協(xié)議庫以及通信庫[9]。智能信息處理模塊邏輯結(jié)構(gòu)如圖4所示。
圖4 ?智能信息處理模塊邏輯結(jié)構(gòu)
1.2 ?軟件設(shè)計
在上述平臺硬件模塊設(shè)計的基礎(chǔ)上,進行智能高校信息綜合處理平臺的軟件設(shè)計。智能高校信息綜合處理軟件建立在嵌入式Linux內(nèi)核技術(shù)上,包括網(wǎng)絡(luò)通信模塊、交叉編譯模塊、數(shù)據(jù)存儲模塊以及程序加載模塊的設(shè)計。構(gòu)建通信信息數(shù)據(jù)庫,得到rootfs.yaffs文件,通過對s3c2440_adc_read()函數(shù)進行調(diào)用,實現(xiàn)程序的加載和高校信息的嵌入式控制。設(shè)計程序加載模塊時,在Linux內(nèi)核中的引導加載程序按照地址指針指向VIX的數(shù)據(jù),連續(xù)不斷地將數(shù)據(jù)傳輸?shù)街醒胗嬎銠C中,實現(xiàn)對高校信息的特征采集[10]。將FLASH設(shè)備中的文件發(fā)送至數(shù)據(jù)硬盤并有效保存的過程是通過VISA接口實現(xiàn)。圖5為智能高校信息綜合處理平臺的軟件開發(fā)實現(xiàn)流程。
圖5 ?智能高校信息綜合處理平臺的軟件開發(fā)實現(xiàn)流程
2 ?實驗分析
為了驗證本文基于大數(shù)據(jù)的智能高校信息綜合處理平臺的有效性,對本文平臺進行仿真實驗。將該平臺用于南方某高校的教務(wù)系統(tǒng)中,驗證所設(shè)計平臺的有效性。對本文平臺進行測試的環(huán)境為Windows 8操作平臺,平臺測試人員的移動網(wǎng)絡(luò)終端的帶寬最低為20 Mb/s。平臺有效性的評價項目包括信息綜合處理效率、平臺的穩(wěn)定性以及平臺進行信息交互的成功幾率。
實驗時對本文平臺在不同并發(fā)人數(shù)使用下的反應時間進行測量。為使測試的時間具有較強的代表意義,在某天8:00—9:00進行多次平臺反應時間測試,測試結(jié)果如表1所示。
為突出比較本文設(shè)計平臺在處理高校教務(wù)信息的用時長短,以傳統(tǒng)基于正交分解大數(shù)據(jù)的信息綜合處理平臺(方法1)和基于Pentaho BI的信息綜合處理平臺(方法2)對教務(wù)信息的處理結(jié)果作為實驗參照,結(jié)果分別如表2和表3所示。
表1 ?本文平臺反應用時
表2 ?基于正交分解大數(shù)據(jù)的信息綜合處理平臺反應用時
表3 ?基于Pentaho BI的信息綜合處理平臺反應用時
分析表1~表3可知,本文平臺在不同人數(shù)使用下的反應用時均少于方法1和方法2。從表2可以看出,方法1反應用時較本文平臺的用時要長一些,在不同平臺使用人數(shù)下,本文平臺的用時均低一些;而方法2在不同的使用人數(shù)下的反應用時最長,該平臺的高校信息綜合后處理效率最低;本文平臺在0~50,51~100,101~150以及151~200人的使用情形下的平均用時為1.42 s,2.94 s,5.04 s以及6.37 s,對應的方法1的信息處理平臺反應用時分別為2.67 s,4.66 s,7.57 s以及9.38 s,對比說明本文平臺在智能處理高校信息時具有較高的效率。
使用人數(shù)在200~300之間時,本文平臺的反應用時幾乎沒有發(fā)生變動,因此得出本文平臺的穩(wěn)定性較強,而方法1和方法2在使用人數(shù)逐漸提升時,平臺反應時間不斷提升,平臺穩(wěn)定性較差。
實驗在比較3種平臺的反應用時的基礎(chǔ)上,通過比較3種平臺處理教務(wù)信息結(jié)果的錯誤率的高低來驗證本文平臺信息處理結(jié)果具有精度高的優(yōu)勢。高校信息包括多種類別,實驗同樣以該高校為例,以該校管理營銷系專業(yè)課的期末成績?yōu)樘幚韺ο螅瑢W生成績的綜合處理包括課堂成績和期末卷面成績兩部分,要求平臺對兩部分的信息綜合處理結(jié)果的錯誤率低于5%,即說明該平臺是可以進行智能高校信息綜合處理的。3種平臺對學生成績處理結(jié)果的錯誤率如表4所示。
表4 ?三種平臺對學生成績的綜合處理結(jié)果錯誤率
綜合分析表4數(shù)據(jù)可以看出,3種平臺在綜合處理不同科目成績時均有成績處理錯誤的現(xiàn)象。本文平臺對不同科目的成績處理錯誤率變化區(qū)間在0~5%之間,該數(shù)值符合平臺對高校信息綜合處理的錯誤率區(qū)間,說明本文平臺可以應用到智能處理高校信息中;而方法1平臺對各科成績的綜合處理錯誤率在9%以下,超出正常平臺的錯誤率要求,因此該平臺不適用在高校信息的綜合處理中;方法2平臺對不同科目的成績處理結(jié)果錯誤率最高,最高在11%,說明該平臺最不適宜進行高校信息的綜合處理。
3 ?結(jié) ?論
本文基于大數(shù)據(jù)的智能高校信息綜合處理平臺,設(shè)計ETL管理模塊和智能信息處理模塊。通過將高校信息進行抽取、交互轉(zhuǎn)換和加載至目的端的過程,實現(xiàn)對高校數(shù)據(jù)的高效抽取;智能信息處理模塊采用大數(shù)據(jù)挖掘技術(shù)對高校信息進行大數(shù)據(jù)分析和信息處理,實現(xiàn)對高校信息的智能分析。根據(jù)實驗結(jié)果分析可知,所設(shè)計平臺在提升高校信息處理效率方面有較強應用性,處理高校信息的錯誤率始終低于5%,因此說明所設(shè)計平臺是一種高質(zhì)量的智能高校信息綜合處理平臺。
參考文獻
[1] 向小佳,趙曉芳,劉洋,等.一種正交分解大數(shù)據(jù)處理系統(tǒng)設(shè)計方法及實現(xiàn)[J].計算機研究與發(fā)展,2017,54(5):1097?1108.
XIANG Xiaojia, ZHAO Xiaofang, LIU Yang, et al. An orthogonal decomposition based design method and implementation for big data processing system [J]. Journal of computer research and development, 2017, 54(5): 1097?1108.
[2] 張長恒,黃芳.高校學科建設(shè)數(shù)據(jù)信息平臺的設(shè)計與實現(xiàn)[J].圖書情報工作,2015,59(8):111?117.
ZHANG Changheng, HUANG Fang. Design and research of university data platform for discipline construction [J]. Library and information service, 2015, 59(8): 111?117.
[3] 張倩.高校檔案物聯(lián)網(wǎng)大數(shù)據(jù)處理平臺的構(gòu)建方案研究[J].檔案與建設(shè),2016,33(2):39?43.
ZHANG Qian. Research on the construction scheme of IoT big data archival processing platform in colleges and universities [J]. Archives & construction, 2016, 33(2): 39?43.
[4] 鄧炳光,張林霞,張治中,等.基于數(shù)據(jù)倉庫的旅游服務(wù)平臺的設(shè)計與實現(xiàn)[J].電視技術(shù),2015,39(20):26?30.
DENG Bingguang, ZHANG Linxia, ZHANG Zhizhong, et al. Research and implementation of travel services platform based on data warehouse [J]. Video engineering, 2015, 39(20): 26?30.
[5] 李建斌,劉小勇,王偉,等.企業(yè)安全生產(chǎn)大數(shù)據(jù)應急平臺設(shè)計[J].武漢理工大學學報(信息與管理工程版),2017,39(6):679?682.
LI Jianbin, LIU Xiaoyong, WANG Wei, et al. Design of big data emergency platform for safety production in enterprises [J]. Journal of Wuhan University of Technology (Information & management engineering), 2017, 39(6): 679?682.
[6] 金瑤,時明明,周潔,等.平面度誤差檢測平臺設(shè)計與數(shù)據(jù)處理[J].工具技術(shù),2016,50(11):103?106.
JIN Yao, SHI Mingming, ZHOU Jie, et al. Flatness error detection and data processing platform [J]. Tool engineering, 2016, 50(11): 103?106.
[7] 宋杰,孫宗哲,毛克明,等.MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J].軟件學報,2017,28(3):514?543.
SONG Jie, SUN Zongzhe, MAO Keming, et al. Research advance on MapReduce based big data processing platforms and algorithms [J]. Journal of software, 2017, 28(3): 514?543.
[8] 趙玉聰,鐘志農(nóng),景寧,等.多維實體關(guān)聯(lián)信息綜合處理平臺[J].計算機應用,2016,36(z1):213?216.
ZHAO Yucong, ZHONG Zhinong, JING Ning, et al. Multi?dimensional and comprehensive platform for entity?relation information managing [J]. Journal of computer applications, 2016, 36(S1): 213?216.
[9] 潘梅勇,宋偉奇.基于大數(shù)據(jù)的高職院校信息資源庫建設(shè)[J].職業(yè)技術(shù)教育,2016,37(5):24?26.
PAN Meiyong, SONG Weiqi. Construction of information resource database based on the big data in higher vocational colleges [J]. Vocational and technical education, 2016, 37(5): 24?26.
[10] 王永坤,羅萱,金耀輝.基于私有云和物理機的混合型大數(shù)據(jù)平臺設(shè)計及實現(xiàn)[J].計算機工程與科學,2018,40(2):191?199.
WANG Yongkun, LUO Xuan, JIN Yaohui. A hybrid big data platform based on private cloud VMs and bare metals [J]. Computer engineering & science, 2018, 40(2): 191?199.