胡智鋒
(武漢商學(xué)院,湖北武漢 430000)
網(wǎng)絡(luò)信息技術(shù)和電子計(jì)算機(jī)技術(shù)的快速發(fā)展,促使各行業(yè)工作期間產(chǎn)生大量數(shù)據(jù)信息,為提高數(shù)據(jù)信息的采集、存儲(chǔ)與處理效率,要加快建立智能化預(yù)測(cè)系統(tǒng),在機(jī)器學(xué)習(xí)原理下,解決數(shù)據(jù)發(fā)展問(wèn)題,提高大數(shù)據(jù)技術(shù)的應(yīng)用效果。
大數(shù)據(jù)技術(shù)的應(yīng)用,主要依托數(shù)據(jù)處理系統(tǒng),其關(guān)鍵性技術(shù)包括大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)管理、大數(shù)據(jù)分析以及大數(shù)據(jù)應(yīng)用等技術(shù)類型,針對(duì)較大數(shù)據(jù)量進(jìn)行有效處理,通過(guò)數(shù)據(jù)系統(tǒng),將不同類型的應(yīng)用數(shù)據(jù)進(jìn)行歸納和分類,深入挖掘數(shù)據(jù)信息中蘊(yùn)含的資源和價(jià)值,在實(shí)際應(yīng)用期間,綜合運(yùn)用物聯(lián)網(wǎng)對(duì)目標(biāo)信息進(jìn)行采集,接著利用云計(jì)算功能對(duì)數(shù)據(jù)進(jìn)行深入挖掘和處理,通過(guò)云平臺(tái)進(jìn)行數(shù)據(jù)信息儲(chǔ)存,最終由移動(dòng)互聯(lián)網(wǎng)終端進(jìn)行信息數(shù)據(jù)發(fā)布,形成大數(shù)據(jù)技術(shù)應(yīng)用背景下數(shù)據(jù)信息處理系統(tǒng)的運(yùn)行閉環(huán),極大提高數(shù)據(jù)信息的處理效率,保證數(shù)據(jù)信息的真實(shí)性和準(zhǔn)確性。
實(shí)施智慧教育的關(guān)鍵,是要運(yùn)用云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等新一代信息技術(shù),來(lái)實(shí)現(xiàn)整個(gè)教育信息系統(tǒng)的重構(gòu),通過(guò)云計(jì)算對(duì)傳統(tǒng)教育信息系統(tǒng)與校園網(wǎng)絡(luò)系統(tǒng)進(jìn)行整合、優(yōu)化,建立起教育云服務(wù)平臺(tái), 從而在較大范圍內(nèi)聚合教育資源,形成大規(guī)模非結(jié)構(gòu)化教育數(shù)據(jù)(教育大數(shù)據(jù)),并最終實(shí)現(xiàn)整個(gè)教育信息系統(tǒng)的重構(gòu),以支持教與學(xué)過(guò)程的智能決策、智能實(shí)施與智能評(píng)價(jià)。
基于大數(shù)據(jù)技術(shù)發(fā)展的時(shí)代背景,智能預(yù)測(cè)系統(tǒng)建設(shè)方法包括數(shù)據(jù)清洗法、特征分析法、模型構(gòu)建與融合、智能預(yù)測(cè)法,具體論述如下:
2.1.1 數(shù)據(jù)清洗法
數(shù)據(jù)清洗作為智能預(yù)測(cè)系統(tǒng)運(yùn)行的基礎(chǔ)環(huán)節(jié),要求對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,利用大數(shù)據(jù)手段,對(duì)異常和空缺數(shù)據(jù)進(jìn)行處理,通過(guò)繪制散點(diǎn)圖的方式,將數(shù)據(jù)本身代表的意義和價(jià)值結(jié)合起來(lái),根據(jù)離散變量空值情況,采用連續(xù)變量向數(shù)據(jù)平均值進(jìn)行補(bǔ)充,保證數(shù)據(jù)信息鏈條的完整。
2.1.2 特征分析法
針對(duì)數(shù)據(jù)清洗結(jié)果,利用特征工程對(duì)數(shù)據(jù)展開(kāi)全面分析,通過(guò)綜合分析明確數(shù)據(jù)特征,根據(jù)數(shù)據(jù)的具體特征嘗試將數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)類型進(jìn)行關(guān)聯(lián),顯現(xiàn)數(shù)據(jù)中隱藏的統(tǒng)計(jì)結(jié)構(gòu),為數(shù)據(jù)處理和智能預(yù)測(cè)系統(tǒng)工作提供數(shù)據(jù)特征輔助。
2.1.3 模型構(gòu)建與融合法
智能預(yù)測(cè)系統(tǒng)建立初期,要求構(gòu)建系統(tǒng)模型,利用大數(shù)據(jù)手段,通過(guò)精度較高的XG、GBM等模型對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單預(yù)測(cè),根據(jù)初預(yù)測(cè)結(jié)果,結(jié)合數(shù)據(jù)權(quán)重,對(duì)不同數(shù)據(jù)類型進(jìn)行劃分,經(jīng)過(guò)加權(quán)計(jì)算后初步形成智能預(yù)測(cè)系統(tǒng)模型,強(qiáng)化系統(tǒng)運(yùn)行的泛化效果,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)信息發(fā)展趨勢(shì)的智能預(yù)測(cè),提高數(shù)據(jù)預(yù)測(cè)分析的綜合效果。
2.1.4 智能預(yù)測(cè)法
智能預(yù)測(cè)是該系統(tǒng)運(yùn)行中的末端工作環(huán)節(jié),通過(guò)對(duì)數(shù)據(jù)分析和預(yù)測(cè)模型的科學(xué)性檢驗(yàn),結(jié)合數(shù)據(jù)加權(quán)運(yùn)算結(jié)果,調(diào)整樣本數(shù)據(jù)的權(quán)重,選擇分?jǐn)?shù)較高的樣本數(shù)據(jù),采用lgb模型對(duì)數(shù)據(jù)進(jìn)行集中訓(xùn)練,選取優(yōu)質(zhì)的數(shù)據(jù)樣本,從而融合成新型智能數(shù)據(jù)預(yù)測(cè)分析系統(tǒng)[1]。
智能預(yù)測(cè)系統(tǒng)運(yùn)行期間,圍繞數(shù)據(jù)分析結(jié)構(gòu)開(kāi)展具體預(yù)測(cè)工作,從變量數(shù)據(jù)的量化處理角度出發(fā),綜合分析數(shù)據(jù)的集聚效應(yīng),利用大數(shù)據(jù)技術(shù),完成對(duì)數(shù)據(jù)信息的管理和預(yù)測(cè)。智能預(yù)測(cè)系統(tǒng)運(yùn)行過(guò)程中,關(guān)鍵預(yù)測(cè)流程如下:
第一步,智能預(yù)測(cè)系統(tǒng)根據(jù)相關(guān)行業(yè)數(shù)據(jù)信息進(jìn)行收集和整理,利用篩選和分類系統(tǒng),完成對(duì)不同類型數(shù)據(jù)的歸納和分類,通過(guò)大數(shù)據(jù)技術(shù)手段,在數(shù)據(jù)庫(kù)中挑選關(guān)鍵信息進(jìn)行分析、關(guān)聯(lián)和對(duì)比;第二步,智能預(yù)測(cè)系統(tǒng)根據(jù)不同行業(yè)的實(shí)際需求,對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化設(shè)計(jì),實(shí)現(xiàn)對(duì)基礎(chǔ)數(shù)據(jù)的分析和預(yù)測(cè),建立數(shù)據(jù)預(yù)測(cè)模型,完成對(duì)數(shù)據(jù)的預(yù)處理;第三步,智能預(yù)測(cè)系統(tǒng)利用數(shù)據(jù)整體基數(shù)大的特點(diǎn),發(fā)揮云計(jì)算功能作用,生成動(dòng)態(tài)化數(shù)據(jù),系統(tǒng)運(yùn)行過(guò)程中,數(shù)據(jù)被輸送至預(yù)測(cè)模型中,經(jīng)過(guò)篩選、分析和預(yù)測(cè)等環(huán)節(jié),系統(tǒng)自動(dòng)輸出智能預(yù)測(cè)結(jié)果。
智能預(yù)測(cè)系統(tǒng)的應(yīng)用,依托于智能化預(yù)測(cè)模型的建立,該模型參與訓(xùn)練與應(yīng)用期間,實(shí)際應(yīng)用效果集中體現(xiàn)在以下幾方面:
2.3.1 算法模型驗(yàn)證
智能預(yù)測(cè)系統(tǒng)的運(yùn)行,需要對(duì)系統(tǒng)內(nèi)部數(shù)據(jù)運(yùn)算機(jī)制進(jìn)行優(yōu)化,采用驗(yàn)證法對(duì)數(shù)據(jù)算法模型進(jìn)行簡(jiǎn)單驗(yàn)證,根據(jù)數(shù)據(jù)收集和發(fā)布的生命周期,定期執(zhí)行數(shù)據(jù)算法驗(yàn)證工作,針對(duì)異常數(shù)據(jù)采取表格的形式進(jìn)行展示,通過(guò)相關(guān)數(shù)據(jù)的采集和分析,對(duì)異常數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)對(duì)數(shù)據(jù)風(fēng)險(xiǎn)的有效控制,保證數(shù)據(jù)準(zhǔn)確性。
2.3.2 實(shí)際預(yù)測(cè)應(yīng)用
智能預(yù)測(cè)系統(tǒng)運(yùn)行期間,實(shí)際運(yùn)行情況以系統(tǒng)應(yīng)用效果為準(zhǔn),數(shù)據(jù)分析工作人員利用預(yù)測(cè)結(jié)果,對(duì)智能預(yù)測(cè)系統(tǒng)的運(yùn)行效果展開(kāi)分析和評(píng)價(jià),實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的高效利用,完成對(duì)只能預(yù)測(cè)系統(tǒng)運(yùn)行效果的質(zhì)量檢驗(yàn)[2]。
3.1.1 機(jī)器學(xué)習(xí)概述
機(jī)器學(xué)習(xí)是一門(mén)綜合性強(qiáng)且多領(lǐng)域交叉的學(xué)科,涉獵范圍較為廣泛,在大數(shù)據(jù)背景下,機(jī)器學(xué)習(xí)逐漸成為人工智能系統(tǒng)運(yùn)行的核心,為智能化預(yù)測(cè)系統(tǒng)提供技術(shù)支持。大數(shù)據(jù)時(shí)代的到來(lái),教育行業(yè)逐步加強(qiáng)對(duì)機(jī)器學(xué)習(xí)的應(yīng)用,將機(jī)器學(xué)習(xí)由傳統(tǒng)的綜合性學(xué)科轉(zhuǎn)變?yōu)榉?wù)型技術(shù)手段,針對(duì)計(jì)算機(jī)無(wú)法統(tǒng)計(jì)和整理的數(shù)據(jù)信息進(jìn)行集中研究,通過(guò)技術(shù)手段,對(duì)機(jī)器學(xué)習(xí)方式進(jìn)行改良,進(jìn)而形成機(jī)器學(xué)習(xí)算法,為數(shù)據(jù)信息系統(tǒng)的建設(shè)工作創(chuàng)造良好的應(yīng)用條件。
3.1.2 大數(shù)據(jù)背景
大數(shù)據(jù)技術(shù)在發(fā)展過(guò)程中,呈現(xiàn)出明顯的形態(tài)波動(dòng),伴隨著計(jì)算機(jī)的普及和推廣,大數(shù)據(jù)逐步登上歷史舞臺(tái),各行各業(yè)開(kāi)始利用大數(shù)據(jù)進(jìn)行信息采集和整理,完成數(shù)據(jù)信息的實(shí)時(shí)傳輸工作,集中體現(xiàn)了機(jī)器學(xué)習(xí)發(fā)展的創(chuàng)新性和實(shí)用性,在機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)進(jìn)步的同時(shí),數(shù)據(jù)處理人員對(duì)數(shù)據(jù)采集系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì),及時(shí)更新數(shù)據(jù)分析和處理的方法及相關(guān)設(shè)備,確保在大數(shù)據(jù)時(shí)代背景下,全面促進(jìn)智能預(yù)測(cè)系統(tǒng)建設(shè)和機(jī)器學(xué)習(xí)水平的提升。
基于大數(shù)據(jù)背景下,機(jī)器學(xué)習(xí)的具體學(xué)習(xí)方法主要分為四大類,分別為機(jī)器學(xué)習(xí)策略、機(jī)器學(xué)習(xí)方法、學(xué)習(xí)目標(biāo)及數(shù)據(jù)形式的分類,基礎(chǔ)概念論述如下:
3.2.1 機(jī)器學(xué)習(xí)策略
基于機(jī)器學(xué)習(xí)理論下的學(xué)習(xí)策略由模擬人腦、統(tǒng)計(jì)數(shù)學(xué)兩方面構(gòu)成,其中模擬人腦的學(xué)習(xí)方式,包括符號(hào)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),以數(shù)據(jù)數(shù)值為基礎(chǔ),利用現(xiàn)代化技術(shù)手段,模擬人腦的運(yùn)算方式,針對(duì)圖像信息、狀態(tài)空間、推演流程等方面進(jìn)行模擬,完成對(duì)相關(guān)知識(shí)信息的有效采集;統(tǒng)計(jì)數(shù)學(xué)的方式則是通過(guò)構(gòu)建數(shù)據(jù)訓(xùn)練模型、制定學(xué)習(xí)策略、確定最優(yōu)算法等方式,完成對(duì)相關(guān)數(shù)據(jù)信息的獲取工作[3]。
3.2.2 機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)具體的學(xué)習(xí)方法包括歸納學(xué)習(xí)法、演繹學(xué)習(xí)法、類比學(xué)習(xí)法和分析學(xué)習(xí)法,通過(guò)決策樹(shù)、函數(shù)計(jì)算、經(jīng)典案例分析等方式,以概率函數(shù)、代數(shù)函數(shù)及人工神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),將統(tǒng)計(jì)與動(dòng)態(tài)規(guī)劃相結(jié)合,優(yōu)化機(jī)器學(xué)習(xí)結(jié)構(gòu),進(jìn)而形成完整的機(jī)器學(xué)習(xí)模式。
3.2.3 機(jī)器學(xué)習(xí)目標(biāo)
學(xué)習(xí)目標(biāo)是機(jī)器學(xué)習(xí)的關(guān)鍵部分,具體包括概念、規(guī)則、函數(shù)、類別和網(wǎng)絡(luò)的學(xué)習(xí),根據(jù)學(xué)習(xí)內(nèi)容制定相應(yīng)的學(xué)習(xí)目標(biāo),對(duì)機(jī)器學(xué)習(xí)模式進(jìn)行科學(xué)合理規(guī)劃,為后續(xù)進(jìn)行機(jī)器學(xué)習(xí)算法分析工作創(chuàng)造條件。
3.2.4 數(shù)據(jù)學(xué)習(xí)形式
機(jī)器學(xué)習(xí)模式應(yīng)用期間,以數(shù)據(jù)為主要的學(xué)習(xí)形式,通過(guò)結(jié)構(gòu)化學(xué)習(xí)和非結(jié)構(gòu)化學(xué)習(xí),對(duì)數(shù)據(jù)信息進(jìn)行有效輸入,根據(jù)數(shù)值或符號(hào)運(yùn)算結(jié)果,深入挖掘數(shù)據(jù)中有用的價(jià)值信息,完善數(shù)據(jù)鏈條中的關(guān)鍵節(jié)點(diǎn),采用大數(shù)據(jù)技術(shù)手段,補(bǔ)全數(shù)據(jù)信息,強(qiáng)化機(jī)器學(xué)習(xí)效果。
3.3.1 決策樹(shù)算法
基于大數(shù)據(jù)背景下,對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行分析,利用決策樹(shù)對(duì)不同數(shù)據(jù)類型進(jìn)行輸入空間劃分,明確各個(gè)區(qū)域參數(shù)的獨(dú)立運(yùn)算機(jī)制,利用樹(shù)形結(jié)構(gòu),對(duì)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行路徑分析,判斷不同數(shù)據(jù)象征類型,根據(jù)數(shù)據(jù)分析樣本生成相對(duì)應(yīng)的數(shù)據(jù)子集,通過(guò)分割遞推的形式,對(duì)節(jié)點(diǎn)進(jìn)行有效測(cè)試,提高數(shù)據(jù)信息處理效率。
3.3.2 支持向量機(jī)算法
基于大數(shù)據(jù)手段,采用非線性變換方式,將空間向更高維度進(jìn)行轉(zhuǎn)變,在全新空間表面形成最優(yōu)分類,利用支持向量機(jī)進(jìn)行機(jī)器學(xué)習(xí)運(yùn)算,在方法類型上與神經(jīng)網(wǎng)絡(luò)算法基本一致,在數(shù)據(jù)分析和處理方面,以現(xiàn)代技術(shù)手段為核心,構(gòu)建SVM算法模型,發(fā)揮監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),構(gòu)建最優(yōu)數(shù)據(jù)結(jié)構(gòu)運(yùn)算模式,結(jié)合有限的數(shù)據(jù)樣本信息,尋求機(jī)器學(xué)習(xí)算法應(yīng)用路徑,完成對(duì)數(shù)據(jù)空間的最優(yōu)劃分,逐步實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的全局優(yōu)化。
3.3.3 人工神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元組成,在該算法機(jī)制內(nèi),個(gè)體單元相互連接且有相應(yīng)數(shù)據(jù)值實(shí)時(shí)輸入和輸出,以實(shí)數(shù)或線性組合為基本形式,將機(jī)器學(xué)習(xí)能力進(jìn)行泛化,呈現(xiàn)明顯的非線性映射效果,針對(duì)數(shù)據(jù)信息量進(jìn)行模型處理,提高數(shù)據(jù)信息的傳遞速率,逐步推進(jìn)預(yù)測(cè)系統(tǒng)的智能化建設(shè)。
3.4.1 分治型數(shù)據(jù)處理模式
分治算法在大數(shù)據(jù)處理工作中,具有先天的應(yīng)用優(yōu)勢(shì),將數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)信息作為核心運(yùn)算內(nèi)容,將分治型算法進(jìn)行拓展延伸,實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的精準(zhǔn)分析,有利于明確機(jī)器學(xué)習(xí)的根本目標(biāo),降低學(xué)習(xí)難度,精準(zhǔn)判斷數(shù)據(jù)樣本類型。在數(shù)據(jù)篩選和分析過(guò)程中,采用約減法在大數(shù)據(jù)中選取最小數(shù)據(jù)集合,借助測(cè)試子集完成數(shù)據(jù)的采樣和優(yōu)化工作,提高數(shù)據(jù)決策效率和質(zhì)量[4]。
3.4.2 并行式數(shù)據(jù)處理模式
為滿足大數(shù)據(jù)時(shí)代對(duì)于大量數(shù)據(jù)的處理需求,將數(shù)據(jù)與機(jī)器學(xué)習(xí)進(jìn)行有機(jī)結(jié)合,通過(guò)并行式數(shù)據(jù)處理模式,完成對(duì)大數(shù)據(jù)的聯(lián)合處理,建立并行化數(shù)據(jù)轉(zhuǎn)換機(jī)制,在并行處理觀念的指導(dǎo)下,對(duì)“碎片化”數(shù)據(jù)進(jìn)行分類,利用大數(shù)據(jù)手段,對(duì)各類數(shù)據(jù)運(yùn)行規(guī)律進(jìn)行整體性把握,保證機(jī)器學(xué)習(xí)目標(biāo)及效果定位的精準(zhǔn)性。
3.4.3 聚類式數(shù)據(jù)處理模式
數(shù)據(jù)處理過(guò)程中,常用聚類法進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)根據(jù)不同節(jié)點(diǎn)信息進(jìn)行類型劃分,將大型數(shù)據(jù)劃分至多項(xiàng)子數(shù)據(jù)的節(jié)點(diǎn)之中,針對(duì)已完成分類的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行集中處理。聚類式數(shù)據(jù)處理模式在實(shí)際應(yīng)用期間,具體應(yīng)用途徑分為三類,分別是非迭代化拓展、持續(xù)擴(kuò)充子集合、抽樣均值,提升數(shù)據(jù)信息的綜合處理效率。
綜上所述,隨著大數(shù)據(jù)時(shí)代的不斷深入發(fā)展,傳統(tǒng)的機(jī)器學(xué)習(xí)方式和智能預(yù)測(cè)系統(tǒng)必須結(jié)合大數(shù)據(jù)背景,基于校園管理、教學(xué)、服務(wù)、就業(yè)、科研五個(gè)層面的需求,研究校園大數(shù)據(jù)的應(yīng)用關(guān)聯(lián),分析基于時(shí)間和空間維度的數(shù)據(jù)變化規(guī)律,考慮未來(lái)數(shù)據(jù)趨勢(shì)走向,對(duì)數(shù)據(jù)處理模式進(jìn)行創(chuàng)新應(yīng)用,積極構(gòu)建智能化預(yù)測(cè)系統(tǒng),實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的綜合預(yù)測(cè)與分析,提高數(shù)據(jù)的處理效率,建立基于智能預(yù)測(cè)和機(jī)器學(xué)習(xí)的管理和服務(wù),幫助學(xué)校真正的發(fā)現(xiàn)學(xué)生、了解學(xué)生,充分發(fā)現(xiàn)學(xué)生的個(gè)性,并且?guī)椭蠋煂?shí)現(xiàn)針對(duì)高校學(xué)生的因材施教、個(gè)性化管理。