徐海銘
(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅省蘭州市 730050)
從當(dāng)下各大高校的信息化建設(shè)實(shí)際情況來(lái)看,智慧校園建設(shè)工作正處于持續(xù)探索開(kāi)發(fā)的狀態(tài)。通過(guò)在其中融入大數(shù)據(jù)技術(shù),可對(duì)一系列教育信息進(jìn)行高效、準(zhǔn)確的處理,進(jìn)而為實(shí)現(xiàn)學(xué)校信息化建設(shè)目標(biāo)提供基礎(chǔ)條件,從而將智慧校園大數(shù)據(jù)一體化平臺(tái)的應(yīng)用優(yōu)勢(shì)予以充分發(fā)揮。該平臺(tái)的建設(shè)與推行,可真正基于高校的管理與教育需求,細(xì)化各個(gè)部門(mén)的管理與教育任務(wù),配合平臺(tái)提供的信息技術(shù)與硬件設(shè)施,打造出了包含所有高校數(shù)據(jù)的虛擬空間,為創(chuàng)設(shè)智能化的教學(xué)教研氛圍、提供舒適工作學(xué)習(xí)條件奠定了基礎(chǔ)。
在數(shù)據(jù)中心平臺(tái)所展開(kāi)的核心集群資源規(guī)劃情況如圖1所示。
圖1:組網(wǎng)規(guī)劃示意圖
1.2.1 平臺(tái)監(jiān)控
分布式集群運(yùn)行期間所產(chǎn)生的關(guān)鍵指標(biāo)需要進(jìn)行監(jiān)控,包括預(yù)警配置、指標(biāo)監(jiān)控以及周期選擇等。首先是關(guān)鍵指標(biāo),其覆蓋了大數(shù)據(jù)盤(pán)平臺(tái)中各個(gè)軟件與硬件的運(yùn)行狀態(tài)、網(wǎng)絡(luò)運(yùn)轉(zhuǎn)情況、節(jié)點(diǎn)堆內(nèi)存以及節(jié)點(diǎn)存活率等,可為指標(biāo)修改提供支持;其次是預(yù)警配置[1]。針對(duì)具體指標(biāo)可對(duì)其預(yù)警范圍予以配置,且可顯示出設(shè)定范圍內(nèi)的指標(biāo)值顏色。針對(duì)超出了預(yù)警范圍的實(shí)際情況,可與學(xué)校短信平臺(tái)之間建立聯(lián)系,進(jìn)而發(fā)送給管理人員及時(shí)的短信預(yù)警,從而保證相關(guān)問(wèn)題處理得及時(shí)性;最后是周期選擇,針對(duì)產(chǎn)生指標(biāo)進(jìn)行監(jiān)控的內(nèi)容,可從時(shí)間周期角度出發(fā)進(jìn)行選擇,例如1 小時(shí)、12 小時(shí)、1 周等,可根據(jù)需求設(shè)定自定義周期。
1.2.2 節(jié)點(diǎn)管理
為提供給管理數(shù)據(jù)中心后臺(tái)虛擬化節(jié)點(diǎn)的方便監(jiān)控條件,可基于節(jié)點(diǎn)管理模塊采集相關(guān)服務(wù)、節(jié)點(diǎn)以及其他類(lèi)型的信息,并可通過(guò)前端界面進(jìn)行數(shù)據(jù)展示,包含了主機(jī)管理與節(jié)點(diǎn)管理兩方面的內(nèi)容[2]。首先是節(jié)點(diǎn)管理,借由Web 界面可對(duì)數(shù)據(jù)中心平臺(tái)的接口信息予以獲取,進(jìn)而展開(kāi)針對(duì)節(jié)點(diǎn)后天資源的一系列管理與監(jiān)測(cè)工作[3];其次是主機(jī)管理。從主機(jī)管理角度來(lái)看,可對(duì)主機(jī)狀態(tài)所包含多類(lèi)信息進(jìn)行查看,其中包含了諸如slave/master 等組件運(yùn)行狀態(tài),并可在篩選器協(xié)助下展開(kāi)對(duì)主機(jī)的分類(lèi)監(jiān)測(cè)與管理工作。
1.2.3 服務(wù)管理
借助數(shù)據(jù)中心平臺(tái)可針對(duì)各項(xiàng)服務(wù)展開(kāi)諸如負(fù)載均衡、高性能運(yùn)算以及文件管理等工作。其中,服務(wù)管理包含了服務(wù)配置、服務(wù)操作、服務(wù)監(jiān)控以及服務(wù)日志,在決定服務(wù)啟停的同時(shí),可實(shí)現(xiàn)對(duì)節(jié)點(diǎn)服務(wù)狀態(tài)與指標(biāo)進(jìn)行全面監(jiān)控,包括基于信息字段的日志篩選。
1.2.4 告警管理
告警包含了告警概覽(所有服務(wù)運(yùn)行異常信息,可顯示告警狀態(tài)、服務(wù)名以及告警名稱等信息)、告警詳情(對(duì)告警名稱點(diǎn)擊后,可對(duì)告警詳情予以查看)以及告警修改(可對(duì)告警現(xiàn)象信息、告警次數(shù)以及相關(guān)配置信息進(jìn)行修改)。
作為數(shù)據(jù)中心平臺(tái)核心,數(shù)據(jù)管理承擔(dān)著制定學(xué)校信息標(biāo)準(zhǔn)、展開(kāi)數(shù)據(jù)治理以及確保數(shù)據(jù)順利流轉(zhuǎn)的重要責(zé)任,其功能流轉(zhuǎn)圖如圖2所示。
圖2:數(shù)據(jù)管理功能流傳圖
1.3.1 數(shù)據(jù)介入
第一是在線數(shù)據(jù)接入,可對(duì)在線業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)全量接入進(jìn)行配置,設(shè)定業(yè)務(wù)原則包括了新建連接(配置信息填寫(xiě))、連接編輯(修改連接配置信息)、連接操作(啟停或刪除連接)以及連接接入數(shù)據(jù)統(tǒng)計(jì)(對(duì)接入策略予以展示,包括上次、本次以及接入數(shù)據(jù)總量);
第二是離線數(shù)據(jù)接入。通過(guò)全量接入并配置離線數(shù)據(jù),可為非數(shù)據(jù)庫(kù)離線數(shù)據(jù)提供支持,包括 txt、csv、xls 等格式,以及各類(lèi)主流數(shù)據(jù)庫(kù)備份文件。整個(gè)流程為:選擇需要導(dǎo)入的類(lèi)型、選擇合適文件、導(dǎo)入數(shù)據(jù)配置、選擇對(duì)應(yīng)數(shù)據(jù)庫(kù)、新建表或?qū)霐?shù)據(jù)、選擇現(xiàn)有表格并對(duì)字段映射關(guān)系進(jìn)行配置、應(yīng)對(duì)導(dǎo)入數(shù)據(jù)進(jìn)行字段類(lèi)型與限制條件的配置、選擇導(dǎo)入模式、執(zhí)行接入、完成執(zhí)行后查看相應(yīng)日志。
1.3.2 數(shù)據(jù)治理
第一是治理過(guò)程,包含了總數(shù)據(jù)量、完成數(shù)據(jù)量、數(shù)據(jù)變化趨勢(shì)等;第二是數(shù)據(jù)質(zhì)量,包括確認(rèn)當(dāng)前質(zhì)量、對(duì)總體質(zhì)量變化趨勢(shì)進(jìn)行分析以及基于不同原因進(jìn)行的主體數(shù)據(jù)質(zhì)量情況統(tǒng)計(jì)。
1.3.3 數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)存儲(chǔ)可對(duì)數(shù)據(jù)儲(chǔ)存情況予以展現(xiàn),包括針對(duì)不同類(lèi)型主題數(shù)據(jù)的分布、整體的數(shù)據(jù)總量變化趨勢(shì)、不同類(lèi)型來(lái)源數(shù)據(jù)變化的基本情況、對(duì)比各個(gè)主題數(shù)據(jù)總量等。
1.3.4 數(shù)據(jù)檢索
第一是格式檢索,可基于編寫(xiě)的SQL 語(yǔ)句確保數(shù)據(jù)定位與獲取的精準(zhǔn)性,并可對(duì)查詢的結(jié)果進(jìn)行導(dǎo)出;第二是主題檢索,可按照師生工號(hào)進(jìn)行數(shù)據(jù)檢索,包括對(duì)記錄在數(shù)據(jù)中心的師生數(shù)據(jù)的展示,并可根據(jù)實(shí)際需求進(jìn)行檢索結(jié)果導(dǎo)出;第三是全文檢索。作為用戶可在輸入關(guān)鍵字后進(jìn)行數(shù)據(jù)庫(kù)內(nèi)的信息檢索,并可根據(jù)結(jié)果中的不同主題、不同形式的表單進(jìn)行橫線切割,進(jìn)而展現(xiàn)出主題、表名等,同樣支持?jǐn)?shù)據(jù)導(dǎo)出。
1.3.5 操作日志
可對(duì)存在于數(shù)據(jù)管理過(guò)程的所有事件進(jìn)行記錄,主要內(nèi)容有操作步驟詳情、操作賬號(hào)人員以及具體操作時(shí)間(開(kāi)始與截止時(shí)間節(jié)點(diǎn))。
1.3.6 報(bào)告中心
第一是系統(tǒng)運(yùn)行報(bào)告,可對(duì)系統(tǒng)運(yùn)行情況予以反映,包括數(shù)據(jù)使用、用戶使用、峰值以及均值分析等;第二是數(shù)據(jù)安全報(bào)告,包含了數(shù)據(jù)使用、展開(kāi)數(shù)據(jù)操作以及信息共享的狀態(tài);第三是數(shù)據(jù)分析報(bào)告,包含了各類(lèi)數(shù)據(jù)的接入、存儲(chǔ)等,同時(shí)可基于此對(duì)各個(gè)主題數(shù)據(jù)的質(zhì)量變化情況予以分析,包括各類(lèi)數(shù)據(jù)分享使用的具體情況,以及覆蓋影響范圍。
1.4.1 數(shù)據(jù)源管理
添加數(shù)據(jù)庫(kù)、選擇匹配數(shù)據(jù)表與字段等均為數(shù)據(jù)源管理功能,可根據(jù)需要添加多種支持的主流數(shù)據(jù)庫(kù),并可對(duì)數(shù)據(jù)源操作屬性與權(quán)限進(jìn)行指定,包括數(shù)據(jù)表的編輯、查看指標(biāo)列、選擇指標(biāo)等。
1.4.2 數(shù)據(jù)切片
作為用戶對(duì)數(shù)據(jù)源中包含的部分?jǐn)?shù)據(jù)進(jìn)行抽取后的數(shù)據(jù)集,切片過(guò)程包含了選擇數(shù)據(jù)源、查詢、切片展示等。通過(guò)查看現(xiàn)有數(shù)據(jù)切片,可以列表形式予以展示,明確字段的具體切片名稱、圖表類(lèi)型以及更新時(shí)間。新建切面是基于數(shù)據(jù)處理的實(shí)際需求,所添加的一系列數(shù)據(jù)切面,為數(shù)據(jù)使用者提供使用條件,包含了數(shù)據(jù)庫(kù)、數(shù)據(jù)表等;圖表展示則是基于需要的圖表類(lèi)型,建立針對(duì)數(shù)據(jù)切片的可視化圖表,包含了折線、柱狀圖等;切片展示,則用于對(duì)切面訪問(wèn)的url、CSS 樣式設(shè)置等領(lǐng)域,可選擇多種類(lèi)型的展示途徑。
1.4.3 角色與權(quán)限管理
角色管理包含了新建、修改、刪除等,是用戶對(duì)查詢、數(shù)據(jù)切片、數(shù)據(jù)源設(shè)置等功能的使用權(quán),可在看板處對(duì)自身所擁有數(shù)據(jù)權(quán)限予以查看。
用戶管理包含對(duì)權(quán)限、賬號(hào)以及角色的管理。第一是賬號(hào)管理,包含了賬號(hào)新建(在線同步信息或手動(dòng)添加)、修改賬號(hào)(可對(duì)賬號(hào)基本信息進(jìn)行修改)、凍結(jié)賬號(hào)(保留用戶信息但無(wú)法使用,且無(wú)法修改信息)、解凍賬號(hào)(恢復(fù)凍結(jié)賬號(hào)使用)、賬號(hào)分組(可對(duì)賬號(hào)進(jìn)行分組處理,并可對(duì)分組信息進(jìn)行修改)。權(quán)限管理則包括分配權(quán)限、修改權(quán)限、數(shù)據(jù)權(quán)限設(shè)定等內(nèi)容。
基于數(shù)據(jù)中心平臺(tái)可對(duì)學(xué)校的全量大數(shù)據(jù)展開(kāi)綜合治理,并可從學(xué)校所產(chǎn)生海量數(shù)據(jù)中,針對(duì)已經(jīng)設(shè)定的分析與挖掘目標(biāo)展開(kāi)數(shù)據(jù)聚類(lèi)等工作,用以明確各類(lèi)數(shù)據(jù)之間的關(guān)系,并從其中可提取出包括教學(xué)、師生、財(cái)務(wù)以及科研的特征,配合建設(shè)算法模型,可將其中隱藏價(jià)值規(guī)律予以充分挖掘,為后續(xù)管理工作的順利展開(kāi)奠定基礎(chǔ),用以將學(xué)校管理能力予以強(qiáng)化。
文章所建立的數(shù)據(jù)分析平臺(tái)基礎(chǔ)為Spark 交互式分析平臺(tái),可對(duì)在對(duì)高校業(yè)務(wù)數(shù)據(jù)分析處理需求分析后,針對(duì)Spark 進(jìn)行改進(jìn)與優(yōu)化。
所建設(shè)平臺(tái)包含了諸多功能,從其實(shí)際使用情況來(lái)看,具有穩(wěn)定性較強(qiáng)等諸多特征,高校可基于此平臺(tái)獲取到豐富數(shù)據(jù)分析服務(wù),其特點(diǎn)主要包括以下幾點(diǎn):
第一是高性能。Spark 平臺(tái)經(jīng)由改進(jìn)后可將其視作為缺省執(zhí)行引擎,進(jìn)而將計(jì)算與存儲(chǔ)效率予以提升。所建立的具有分布式特點(diǎn)的列式緩存,可配合其索引功能將Spark 性能波動(dòng)予以減少,并將其執(zhí)行效率進(jìn)一步提升;針對(duì)SQL 的執(zhí)行計(jì)劃優(yōu)化方面,則配合落實(shí)了一系列的優(yōu)化策略,進(jìn)而將其性能整體提升;
第二是提供了強(qiáng)大的SQL 支持條件。當(dāng)下的多數(shù)高校所建立的業(yè)務(wù)數(shù)據(jù)庫(kù),其基礎(chǔ)均為SQL2003,大規(guī)模地采用了PL/SQL,這就使得所建設(shè)平臺(tái)可提供對(duì)應(yīng)版本的語(yǔ)法支持條件與語(yǔ)言擴(kuò)展,使得即使較為復(fù)雜的數(shù)據(jù)倉(cāng)庫(kù)也可基于此靈活應(yīng)用,促使原數(shù)據(jù)在此基礎(chǔ)上可展現(xiàn)出優(yōu)異遷移性能;
第三是較為豐富的數(shù)據(jù)挖掘。所使用的平臺(tái)已經(jīng)適應(yīng)了當(dāng)下普遍使用的機(jī)器學(xué)習(xí)算法,并建立了多種專業(yè)算法庫(kù)。通過(guò)對(duì)SQL 語(yǔ)句進(jìn)行調(diào)用,可基于Spark 平臺(tái)對(duì)分布式內(nèi)存數(shù)據(jù)進(jìn)行訪問(wèn),并支持對(duì)數(shù)據(jù)深度挖掘與有效信息檢索。作為用戶,可針對(duì)全量數(shù)據(jù)展開(kāi)挖掘,而并非部分采樣數(shù)據(jù)的挖掘,從而保證了挖掘結(jié)果的準(zhǔn)確性。
基于數(shù)據(jù)中心平臺(tái)完成數(shù)據(jù)匯集后,即可基于預(yù)先定義的數(shù)據(jù)標(biāo)識(shí)展開(kāi)對(duì)數(shù)據(jù)的清洗與轉(zhuǎn)換,包括學(xué)號(hào)、憑證號(hào)等,進(jìn)而建立起針對(duì)不同業(yè)務(wù)的標(biāo)準(zhǔn)化數(shù)據(jù)倉(cāng)庫(kù),其主題較多,例如師生、資產(chǎn)、科研項(xiàng)目等,進(jìn)而達(dá)到高校層面的數(shù)據(jù)治理目的。過(guò)程中所需要遵循的數(shù)據(jù)采集規(guī)則包括以下幾點(diǎn):
第一是應(yīng)基于規(guī)則采集數(shù)據(jù)源,避免出現(xiàn)數(shù)據(jù)重復(fù)采集的情況;第二是在對(duì)現(xiàn)有系統(tǒng)采集數(shù)據(jù)進(jìn)行分析后,可將沉默數(shù)據(jù)剩余價(jià)值予以充分挖掘;第三是針對(duì)現(xiàn)有的未能進(jìn)行采集的數(shù)據(jù),可將采集點(diǎn)適當(dāng)增加從而將數(shù)據(jù)價(jià)值予以充分挖掘;第四是針對(duì)完成采集的數(shù)據(jù)存儲(chǔ),應(yīng)嚴(yán)格遵循各個(gè)領(lǐng)域中屬地化存儲(chǔ)的基本原則,建立的數(shù)據(jù)倉(cāng)庫(kù)具有公共屬性,可用于全校共享使用。
數(shù)據(jù)應(yīng)用規(guī)則:第一是應(yīng)嚴(yán)格遵循相關(guān)規(guī)則展開(kāi)對(duì)數(shù)據(jù)的統(tǒng)一清洗,完成清洗后可基于專業(yè)應(yīng)用的實(shí)際需求,進(jìn)行數(shù)據(jù)分發(fā)與權(quán)限控制;第二是針對(duì)出現(xiàn)數(shù)據(jù)缺失情況但無(wú)法對(duì)應(yīng)相應(yīng)需求的現(xiàn)象,可選擇對(duì)數(shù)據(jù)清洗規(guī)則進(jìn)行修改,或是重新進(jìn)行數(shù)據(jù)采集;第三是應(yīng)從建立的本土通共享數(shù)據(jù)與標(biāo)簽組合中,對(duì)內(nèi)外應(yīng)用場(chǎng)景的大數(shù)據(jù)實(shí)用價(jià)值予以探索。針對(duì)依然存在的“臟數(shù)據(jù)”,需從規(guī)則校驗(yàn)、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)補(bǔ)全、錯(cuò)誤校驗(yàn)、冗余去除、過(guò)濾數(shù)據(jù)、匹配正則以及數(shù)據(jù)判重角度出發(fā),重新確定相應(yīng)清洗規(guī)則以完成數(shù)據(jù)清洗任務(wù)。
第一是邏輯回歸,其作為一種常見(jiàn)機(jī)器學(xué)習(xí)方法,可用于對(duì)某類(lèi)事物發(fā)生概率進(jìn)行預(yù)測(cè),被經(jīng)常應(yīng)用于各個(gè)領(lǐng)域;第二是樸素貝葉斯,作為一種分類(lèi)算法,其對(duì)應(yīng)構(gòu)建模型對(duì)應(yīng)需求參數(shù)相對(duì)較少;第三是支持向量機(jī),其屬于一類(lèi)監(jiān)督式學(xué)習(xí)方案,可用于統(tǒng)計(jì)分類(lèi)與回歸分析,具有較高魯棒性;第四是聚類(lèi)算法, 其屬于統(tǒng)計(jì)分析方法,其中的K-means 算法較為常用;第五是線性回歸,基于回歸分析可對(duì)多種變量相互依賴定量關(guān)系予以確定,屬于統(tǒng)計(jì)分析的一種方式;第六是推薦算法,此種基于內(nèi)容的推薦方式,可根據(jù)用戶的瀏覽規(guī)律用以明確用戶喜好與習(xí)慣;第七是頻繁項(xiàng)集,基于此展開(kāi)的挖掘是對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘首先展開(kāi)的子任務(wù),用以對(duì)集合中經(jīng)常一起出現(xiàn)的元素的挖掘;第八是關(guān)聯(lián)分析,可基于所挖掘出的頻繁項(xiàng)集,對(duì)消費(fèi)或商品關(guān)聯(lián)規(guī)則進(jìn)行挖掘。
一般來(lái)說(shuō),所使用的大數(shù)據(jù)分析算法可基于不同的分析需求進(jìn)行不同的選擇,方法主要包括文本分析、關(guān)聯(lián)規(guī)則、聚類(lèi)等,可聯(lián)系此次建設(shè)內(nèi)容與特征提取,選擇出對(duì)應(yīng)需求的分析算法。
綜上所述,在當(dāng)下大數(shù)據(jù)技術(shù)大規(guī)模推廣應(yīng)用的大背景下,我國(guó)社會(huì)發(fā)展速度也在不斷提高。為此,需要從各個(gè)高校的智能課堂構(gòu)建角度出發(fā),展開(kāi)智慧校園大數(shù)據(jù)一體化平臺(tái)的研究與實(shí)踐工作,包括明確設(shè)計(jì)要點(diǎn)、選擇合適算法等,從而依靠建立的數(shù)據(jù)中心平臺(tái)與數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)預(yù)期的智慧校園教育與管理目標(biāo),進(jìn)而滿足當(dāng)下對(duì)于高等教育發(fā)展的實(shí)際需要,其也是培養(yǎng)出更高素質(zhì)人才的關(guān)鍵手段,進(jìn)而為我國(guó)教育事業(yè)的持續(xù)性發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。