茆靈鋮 謝桂芳 邵周偉 時(shí)海茹 蔣秀蓮
摘? 要:當(dāng)前,信息化正面臨著一個(gè)全新的階段,即以數(shù)據(jù)的深度挖掘和整合應(yīng)用為核心的智慧化階段,智慧校園已成為時(shí)下高校信息化建設(shè)的重要內(nèi)容。分析高校信息化建設(shè)現(xiàn)狀和Hadoop、Spark等大數(shù)據(jù)技術(shù)框架,并重點(diǎn)從數(shù)據(jù)存儲(chǔ)層、核心業(yè)務(wù)層和信息展示層對(duì)智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)進(jìn)行分析與設(shè)計(jì),為大數(shù)據(jù)技術(shù)與智慧校園的深度融合提供方案。
關(guān)鍵詞:智慧校園;數(shù)據(jù)挖掘;Hadoop和Spark
中圖分類號(hào):TP274? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: At present, informatization is entering a new stage, that is, the intelligent stage with data deep mining and integrated application as the core. Smart campus has become an important part of university information construction. This paper analyzes the current situation of university informatization construction and big data technology framework such as Hadoop and Spark, analyzes and designs the student comprehensive evaluation system of smart campus from data storage layer, core business layer and information display layer, so as to provide a scheme for the deep integration of big data technology and smart campus.
Keywords: smart campus; data mining; Hadoop and Spark
1? ?引言(Introduction)
“智慧校園”源于IBM公司在2008年提出的“智慧”地球理念,其核心是感知、聯(lián)通、智能。它是數(shù)字校園發(fā)展的高端形態(tài),以物聯(lián)網(wǎng)為基礎(chǔ),通過寬帶移動(dòng)、云計(jì)算、大數(shù)據(jù)等技術(shù)整合數(shù)字校園階段規(guī)模巨大的多源異構(gòu)數(shù)據(jù)[1],以綜合信息服務(wù)平臺(tái)為載體,提供校園學(xué)習(xí)、工作、生活一體化的智能環(huán)境[2]。目前,各高校大都具有完備的信息系統(tǒng)和大量的學(xué)生個(gè)人數(shù)據(jù),然而在信息化水平和應(yīng)用上仍處于數(shù)字校園的階段,沒有充分探測(cè)全校師生認(rèn)知行為和校園環(huán)境動(dòng)態(tài)變化的信息支撐平臺(tái)。
數(shù)據(jù)挖掘技術(shù)在企業(yè)運(yùn)營(yíng)中得到廣泛應(yīng)用,但高校數(shù)據(jù)挖掘意識(shí)不強(qiáng)。隨著智慧校園的推進(jìn),研究者逐漸重視對(duì)有關(guān)學(xué)生教育大數(shù)據(jù)的分析與挖掘,因此針對(duì)學(xué)生信息測(cè)評(píng)方面的研究不是很多,且高校學(xué)生系統(tǒng)大都由不同部門運(yùn)營(yíng)和維護(hù),學(xué)生測(cè)評(píng)方式單一,缺少統(tǒng)一支持海量數(shù)據(jù)處理的平臺(tái)支撐智慧校園的建設(shè)。因此利用大數(shù)據(jù)技術(shù)建立分析挖掘?qū)W生信息的數(shù)據(jù)處理與應(yīng)用平臺(tái),具有重要實(shí)際意義。
2? 基于大數(shù)據(jù)技術(shù)的學(xué)生綜合測(cè)評(píng)系統(tǒng)架構(gòu)(Architecture of student comprehensive evaluation system based on big data technology)
大數(shù)據(jù)技術(shù)是指用一系列工具來對(duì)大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集、存儲(chǔ),從而得到分析和預(yù)測(cè)結(jié)果的技術(shù)[3]。大數(shù)據(jù)萌芽于20世紀(jì)90年代,這一時(shí)期數(shù)據(jù)挖掘理論與數(shù)據(jù)庫(kù)技術(shù)逐步成熟。21世紀(jì)以來,隨著Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,大數(shù)據(jù)技術(shù)快速突破,形成了并行計(jì)算和分布式系統(tǒng)兩大核心技術(shù),Hadoop和Spark分布式計(jì)算框架也應(yīng)運(yùn)而生。
(1)Hadoop分布式計(jì)算框架
Hadoop由Java開發(fā),是目前大數(shù)據(jù)技術(shù)的主流軟件架構(gòu),具有良好的容錯(cuò)性和穩(wěn)定性,以及強(qiáng)大的IDE支持。Hadoop生態(tài)圈以HDFS和MapReduce為核心,HDFS是分布式文件處理系統(tǒng),它將大型文件拆分處理成多個(gè)小型文件單位,便于底層龐大數(shù)據(jù)的存儲(chǔ),而分布式并行編程模型MapReduce可對(duì)這些文件中的數(shù)據(jù)集進(jìn)行并行運(yùn)算。同時(shí)Hadoop生態(tài)圈還有Flume、Hive、HBase、Zookeeper、Sqoop、Mahout、Ambari、Pig等功能組件。
(2)Spark分布式計(jì)算框架
Spark由基于靜態(tài)編譯的Scala語(yǔ)言開發(fā)[4],速度快,在執(zhí)行過程中注重函數(shù)本身而非數(shù)據(jù)和狀態(tài)的處理,并將計(jì)算數(shù)據(jù)、中間結(jié)果都存儲(chǔ)于內(nèi)存中,大大減少了I/O開銷,更適合數(shù)據(jù)挖掘中的運(yùn)算。而Hadoop的MapReduce計(jì)算模型表達(dá)能力有限,磁盤I/O開銷大,延遲高,難以勝任實(shí)時(shí)快速的計(jì)算需求,故可將Spark作為一種計(jì)算框架通過JVM取代MapReduce融入Hadoop生態(tài)圈中。并且Spark具有良好的API,能夠給開發(fā)人員帶來良好的用戶體驗(yàn)。
(3)大數(shù)據(jù)技術(shù)與智慧校園的深度融合
通過Hadoop和Spark這兩個(gè)大數(shù)據(jù)框架對(duì)高校信息化應(yīng)用水平進(jìn)行改善,即以Hadoop的分布式文件系統(tǒng)HDFS為主,存儲(chǔ)數(shù)字校園階段各管理信息系統(tǒng)的數(shù)據(jù),再以Spark的計(jì)算處理功能為主,實(shí)現(xiàn)這些數(shù)據(jù)的深度挖掘。進(jìn)而通過智能分析,為用戶提供智能預(yù)測(cè)、預(yù)警并輔助決策,推動(dòng)大數(shù)據(jù)技術(shù)與智慧校園的深度融合。同時(shí)結(jié)合數(shù)字校園階段學(xué)生系統(tǒng)的建設(shè)特點(diǎn),可構(gòu)建一個(gè)基于大數(shù)據(jù)技術(shù)的高校智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)。
(4)學(xué)生綜合測(cè)評(píng)系統(tǒng)總體架構(gòu)
高校智慧校園學(xué)生管理系統(tǒng)遵循高內(nèi)聚低耦合的設(shè)計(jì)原則,采用流行的Hadoop和Spark開源軟件構(gòu)建平臺(tái)[5],使系統(tǒng)可便利地實(shí)現(xiàn)平滑升級(jí),并保證系統(tǒng)風(fēng)格統(tǒng)一、美觀、易于用戶操作。在充分共享信息資源的同時(shí)對(duì)各種訪問權(quán)限進(jìn)行嚴(yán)格限制,保持高可靠性和高安全性[6]。測(cè)評(píng)系統(tǒng)分為三層,如圖1所示。
圖1中,數(shù)據(jù)存儲(chǔ)層是系統(tǒng)的最底層,為上層提供數(shù)據(jù)源,如存儲(chǔ)學(xué)生的學(xué)業(yè)成績(jī)、消費(fèi)、一卡通等校園大數(shù)據(jù)。核心業(yè)務(wù)層處于系統(tǒng)中間層,進(jìn)行數(shù)據(jù)的整合和運(yùn)用數(shù)據(jù)挖掘模型分析數(shù)據(jù)信息。信息展示層位于系統(tǒng)最上層,作為用戶與系統(tǒng)之間的交互界面。
3? ?數(shù)據(jù)存儲(chǔ)層(Data storage layer)
由于高校的學(xué)生信息數(shù)據(jù)大都存儲(chǔ)在不同的管理信息系統(tǒng)中,故構(gòu)建高校智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)的首要任務(wù)是對(duì)這些數(shù)據(jù)進(jìn)行整合,其處理流程如圖2所示。圖2中,ETL是指將數(shù)據(jù)從源端處經(jīng)過抽取、轉(zhuǎn)換、加載至目的端處的過程;Sqoop是可實(shí)現(xiàn)Hadoop系統(tǒng)與關(guān)系數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)遷移的專門工具;HBase是具有高性能、高可靠性、可伸縮、實(shí)時(shí)讀寫等特點(diǎn)的列式數(shù)據(jù)庫(kù),一般采用HDFS作為其底層數(shù)據(jù)存儲(chǔ);Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,可對(duì)Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分析存儲(chǔ)。數(shù)據(jù)存儲(chǔ)層先通過ETL數(shù)據(jù)預(yù)處理工具[7],將分布在各部門管理信息系統(tǒng)中的學(xué)生數(shù)據(jù)抽取到臨時(shí)中間層,然后進(jìn)行清洗、轉(zhuǎn)換、集成、裝載,最后結(jié)合Sqoop工具,將處理后的數(shù)據(jù)導(dǎo)入到基于Hadoop系統(tǒng)的中心數(shù)據(jù)庫(kù)中,從而利用Hadoop中的HDFS分布式文件系統(tǒng)將學(xué)生日積月累產(chǎn)生的大量數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。
4? ?核心業(yè)務(wù)層(Core business layer)
在Hadoop和Spark的基礎(chǔ)上,系統(tǒng)在本層可通過FP-Growth算法、真實(shí)熵、K均值聚類、回歸分析等數(shù)據(jù)挖掘模型,對(duì)學(xué)生的個(gè)人信息、學(xué)業(yè)成績(jī)、學(xué)業(yè)狀態(tài)、一卡通消費(fèi)、進(jìn)出圖書館次數(shù)等數(shù)據(jù)進(jìn)行分析,從而得到學(xué)生的測(cè)評(píng)結(jié)果[8]。
通過增加最小模式長(zhǎng)度來優(yōu)化FP-growth算法[9],可生成描述能力更好的頻繁模式,學(xué)校食堂和超市可以根據(jù)這些模式來調(diào)整菜品供應(yīng)以及超市商品的擺放,同時(shí)還可調(diào)整物品的供應(yīng)量。K-means聚類收斂速度快、易于理解,以學(xué)生消費(fèi)的次數(shù)、金額和用途等數(shù)據(jù)進(jìn)行聚類[10],可對(duì)學(xué)生的消費(fèi)水平進(jìn)行分類?;貧w模型能夠?qū)D書館、食堂的人員流動(dòng)進(jìn)行預(yù)測(cè),相關(guān)管理人員可據(jù)此合理安排工作人員值班。真實(shí)熵用于解決人類移動(dòng)行為的可預(yù)測(cè)性問題[11],借助學(xué)生在校園各個(gè)地方的出入、消費(fèi)數(shù)據(jù)可以了解學(xué)生的性格特征。將學(xué)生的日常行為數(shù)據(jù)和學(xué)業(yè)成績(jī)作為訓(xùn)練集,可得到分類規(guī)則[12],預(yù)估學(xué)生考試不及格、學(xué)業(yè)障礙等的可能性,提前預(yù)警,督促其完成學(xué)習(xí)任務(wù)。
校方通過特定的算法,以數(shù)據(jù)挖掘結(jié)果為依據(jù)和支撐,可以制定更合理的教學(xué)管理政策,如根據(jù)學(xué)生消費(fèi)水平確定貧困生補(bǔ)助資格、等級(jí),根據(jù)學(xué)業(yè)成績(jī)和行為特征進(jìn)行個(gè)性化教育、制定更加人性化的獎(jiǎng)學(xué)金政策等。
5? ?信息展示層(Information display layer)
信息展示層是平臺(tái)與用戶交互的可視化窗口,本系統(tǒng)在核心業(yè)務(wù)層的基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘得到的有價(jià)值的信息進(jìn)行整合并分模塊展示,將其分為學(xué)生基本信息統(tǒng)計(jì)、學(xué)業(yè)分析、消費(fèi)分析和綜合分析等四個(gè)模塊,主要功能如表1所示。本系統(tǒng)將采用數(shù)據(jù)挖掘算法從校園大數(shù)據(jù)中得到的有價(jià)值的信息以可視化、模塊化的方式呈現(xiàn)給用戶,旨在方便快捷地為用戶提供學(xué)情分析、消費(fèi)分析、綜合對(duì)比等服務(wù)[13]。
(1)基本信息統(tǒng)計(jì)模塊
本模塊整合學(xué)生的性別、民族、地區(qū)、家庭收入等基本的個(gè)人信息,由數(shù)據(jù)倉(cāng)庫(kù)提供的類似于關(guān)系數(shù)據(jù)庫(kù)SQL語(yǔ)言的Hive QL即可對(duì)學(xué)生的個(gè)人信息進(jìn)行特征分析,通過餅圖、柱狀圖等在網(wǎng)頁(yè)進(jìn)行可視化展示。在本模塊中,每個(gè)用戶都可以查看全校學(xué)生整體統(tǒng)計(jì)分布情況,并且校園管理者用戶在自己的權(quán)限范圍內(nèi)可以查看每個(gè)學(xué)生的詳細(xì)情況,而每個(gè)學(xué)生用戶僅能夠查看自己的詳細(xì)信息。
(2)學(xué)生學(xué)業(yè)分析模塊
本模塊整合學(xué)生的學(xué)業(yè)成績(jī)、進(jìn)出圖書館次數(shù)、借閱記錄和獎(jiǎng)懲情況等信息,經(jīng)核心業(yè)務(wù)層處理得到學(xué)生學(xué)業(yè)的統(tǒng)計(jì)數(shù)據(jù),如學(xué)生的學(xué)業(yè)情況、學(xué)習(xí)狀態(tài)、獎(jiǎng)懲分布、閱讀偏好等。在本模塊中,每個(gè)用戶都可以查看學(xué)生總體的學(xué)業(yè)分布情況,并且學(xué)生用戶可以查看自己的學(xué)業(yè)數(shù)據(jù)和學(xué)習(xí)記錄,教師用戶可以查看自己所教授班級(jí)學(xué)生的學(xué)業(yè)數(shù)據(jù)和學(xué)習(xí)記錄。同時(shí)系統(tǒng)管理員可以根據(jù)閱讀偏好來提醒圖書館管理者優(yōu)化圖書館購(gòu)書類別,根據(jù)學(xué)業(yè)情況對(duì)學(xué)生進(jìn)行掛科預(yù)警等。
(3)學(xué)生消費(fèi)分析模塊
本模塊整合學(xué)生的一卡通消費(fèi)數(shù)據(jù)、食堂及商店消費(fèi)數(shù)據(jù)等信息,經(jīng)核心業(yè)務(wù)層處理得到學(xué)生的消費(fèi)統(tǒng)計(jì)數(shù)據(jù),如學(xué)生的平均消費(fèi)情況、飲食偏好、消費(fèi)結(jié)構(gòu)等。在本模塊中,學(xué)生用戶可以查看學(xué)生總體的消費(fèi)分布情況和自己的消費(fèi)數(shù)據(jù)。同時(shí)系統(tǒng)管理員用戶可以根據(jù)學(xué)生消費(fèi)的偏好和頻繁模式來提醒食堂和商店管理人員優(yōu)化商品的供應(yīng),根據(jù)學(xué)生消費(fèi)情況衡量學(xué)生家庭條件,為學(xué)校精準(zhǔn)關(guān)愛貧困生提供數(shù)據(jù)支撐。
(4)學(xué)生綜合分析模塊
本模塊是信息展示層的核心模塊,基于前三個(gè)模塊的分析數(shù)據(jù),由系統(tǒng)管理員自定義設(shè)置,在核心業(yè)務(wù)層中進(jìn)行更深層次的處理,可以得到不同指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)。如根據(jù)學(xué)生的消費(fèi)數(shù)據(jù)加權(quán)得到經(jīng)濟(jì)富裕指數(shù),根據(jù)學(xué)生的學(xué)業(yè)數(shù)據(jù)得到成就性指數(shù),根據(jù)學(xué)生行為數(shù)據(jù)結(jié)合真實(shí)熵算法得到嚴(yán)謹(jǐn)性指數(shù)等[14]。在本模塊中,每個(gè)用戶都可以查看學(xué)生總體的指標(biāo)分布情況,并且學(xué)生用戶可以查看自己的詳細(xì)分析情況。管理員用戶可以根據(jù)這些指標(biāo)數(shù)據(jù)結(jié)合相關(guān)規(guī)定進(jìn)行獎(jiǎng)學(xué)金評(píng)比、貧困生補(bǔ)助、教學(xué)區(qū)開放時(shí)間等活動(dòng)。
6? ?結(jié)論(Conclusion)
通過對(duì)大數(shù)據(jù)技術(shù)和高校教育教學(xué)工作深度融合的研究,在數(shù)字校園的基礎(chǔ)上,引入大數(shù)據(jù)計(jì)算框架Hadoop和Spark以及經(jīng)典的數(shù)據(jù)挖掘模型,構(gòu)建以大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)為核心的學(xué)生綜合測(cè)評(píng)系統(tǒng),對(duì)學(xué)生的基本信息、學(xué)業(yè)信息、消費(fèi)信息、綜合信息進(jìn)行分析挖掘,從而為高校進(jìn)行精準(zhǔn)的教育教學(xué)管理提供科學(xué)合理的有效支撐。
參考文獻(xiàn)(References)
[1] Fang Dong,Xiaolin Guo,Pengcheng Zhou,et al.Task-Aware Flow Scheduling with Heterogeneous Utility Characteristics for Data Center Networks[J].Tsinghua Science and Technology,2019,24(04):400-411.
[2] Tongya ZHENG,Gang CHEN,Xinyu WANG,et al.Real-time intelligent big data processing:technology,platform,and applications[J].Science China(Information Sciences),2019,62(08):102-113.
[3] Hira Zahid,Tariq Mahmood,Ahsan Morshed,et al.Big Data Analytics in Telecommunications:Literature Review and Architecture Recommendations[J].IEEE/CAA Journal of Automatica Sinica,2020,7(01):18-38.
[4] Xiaoming Ye,Xingshu Chen,Dunhu Liu,et al.Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection[J].Tsinghua Science and Technology,2018,23(05):561-573.
[5] 范振東,陳暉,王海濤,等.基于大數(shù)據(jù)的智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)[J].電信快報(bào),2018(11):25-27;32.
[6] 常鏡洳.基于大數(shù)據(jù)的智能工廠數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)與研究[J].軟件工程,2019,22((12)):34-36.
[7] 王繼鵬,金云智,李偉.勘探開發(fā)數(shù)據(jù)整合之ETL系統(tǒng)的研究與實(shí)現(xiàn)[J].中國(guó)礦業(yè),2019,28(S2):191-194;199.
[8] 段玉婷.基于校園卡的學(xué)生消費(fèi)信息數(shù)據(jù)挖掘與應(yīng)用研究[D].西南科技大學(xué),2018.
[9] 黃婕.基于Spark平臺(tái)的FP-Growth算法優(yōu)化與實(shí)現(xiàn)[J].湖南工業(yè)大學(xué)學(xué)報(bào),2020,34(01):77-84.
[10] 許家鈺.基于k-means算法的WiFi用戶行為分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2019.
[11] 吳一帆.eduExplorer:基于校園行為數(shù)據(jù)的可視分析系統(tǒng)[D].成都:電子科技大學(xué),2018.
[12] 周慶,王衛(wèi)芳,葛亮,等.基于一卡通數(shù)據(jù)與課程分類的學(xué)生成績(jī)預(yù)測(cè)[J].電腦知識(shí)與技術(shù),2018,14(24):236-239.
[13] 申華.基于大數(shù)據(jù)的高校學(xué)生綜合測(cè)評(píng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2017.
[14] 李蒙.基于校園大數(shù)據(jù)的學(xué)生行為挖掘方法應(yīng)用研究[D].西安:西安電子科技大學(xué),2019.