方勇
摘要:該文介紹了大數(shù)據(jù)的概念,分析了高校學(xué)生行為數(shù)據(jù)的特點(diǎn),對大數(shù)據(jù)在高校學(xué)生行為數(shù)據(jù)分析中的應(yīng)用進(jìn)行了闡述。
關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí);高校學(xué)生行為
中圖分類號:TP31 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)30-0005-02
1大數(shù)據(jù)技術(shù)介紹
隨著信息技術(shù)和互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展,人們各項(xiàng)日常生活產(chǎn)生了大量種類繁多的數(shù)據(jù),這些數(shù)據(jù)非常復(fù)雜和龐大,迫切需要大數(shù)據(jù)技術(shù)來管理和挖掘有價值的信息。大數(shù)據(jù)的定義各式各樣,比較有權(quán)威性的是麥肯錫咨詢公司給出的:大數(shù)據(jù)指的是在大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
當(dāng)前,大數(shù)據(jù)作為一種寶貴的信息資產(chǎn),正在全球飛速發(fā)展,引起了各行各業(yè)的極大關(guān)注。通過有效管理和分析大數(shù)據(jù),提取其價值,能夠?yàn)樾袠I(yè)提供優(yōu)質(zhì)的服務(wù),實(shí)現(xiàn)極其巨大的經(jīng)濟(jì)和社會價值。高校在信息化過程中產(chǎn)生了大量與學(xué)生相關(guān)的數(shù)據(jù),形成了龐大的數(shù)據(jù)資源。很顯然,應(yīng)用大數(shù)據(jù)技術(shù),整合教育教學(xué)管理等方面信息,將對“智慧校園”建設(shè)產(chǎn)生重大而深遠(yuǎn)的影響。
2高校學(xué)生行為數(shù)據(jù)的采集
目前各高校都圍繞智慧校園建設(shè)了學(xué)習(xí)管理、教務(wù)管理、財務(wù)管理等系統(tǒng),每個應(yīng)用系統(tǒng)都有海量的非結(jié)構(gòu)化、半結(jié)構(gòu)化或者結(jié)構(gòu)化的歷史數(shù)據(jù)信息,加工處理這些大數(shù)據(jù),可以產(chǎn)生很好的應(yīng)用效果。
(1)采集大學(xué)生日常生活的一些數(shù)據(jù),包括網(wǎng)絡(luò)通信數(shù)據(jù)、學(xué)生生活消費(fèi)數(shù)據(jù)、學(xué)生及財務(wù)數(shù)據(jù)等,實(shí)現(xiàn)海量數(shù)據(jù)的辨別、轉(zhuǎn)換、傳輸和管理等功能。大數(shù)據(jù)平臺的建立采用虛擬服務(wù)器,實(shí)現(xiàn)各類數(shù)據(jù)的獨(dú)立處理和分析。
(2)數(shù)據(jù)抽取挖掘,包括對不完整、有雜音的不同類型數(shù)據(jù)的梳理、抽取、轉(zhuǎn)換。它是大數(shù)據(jù)處理之前非常重要的一步,可以用Hadoop大數(shù)據(jù)處理技術(shù)中的Hive工具作為數(shù)據(jù)抽取工具,HBase作為數(shù)據(jù)存儲庫,MapReduce作為數(shù)據(jù)處理技術(shù)。
(3)數(shù)據(jù)清洗及匯總,包括對不同來源的各類復(fù)雜、無序數(shù)據(jù)的清洗,它是完成大數(shù)據(jù)原始匯集的最后一步。大數(shù)據(jù)來源眾多,不一定是系統(tǒng)所需的目標(biāo)數(shù)據(jù),為避免某些數(shù)據(jù)在數(shù)據(jù)分析過程中影響分析結(jié)果,需要對它們做清洗、除燥,這樣未來的分析結(jié)果會更準(zhǔn)確。
3大數(shù)據(jù)在高校學(xué)生行為數(shù)據(jù)分析中的應(yīng)用
3.1學(xué)生行為數(shù)據(jù)分析的核心技術(shù)
(1)機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一門涉及多領(lǐng)域交叉學(xué)科,它通過對已知的大量數(shù)據(jù)進(jìn)行分類器或算法的訓(xùn)練,實(shí)現(xiàn)自我完善,求出決策函數(shù),快速準(zhǔn)確的對未知樣本預(yù)測,逐步實(shí)現(xiàn)機(jī)器代替人工的工作。常用的機(jī)器學(xué)習(xí)算法有決策樹、K-means、SVM、貝葉斯分類器等。
(2)大數(shù)據(jù)技術(shù)
傳統(tǒng)技術(shù)難以滿足對海量數(shù)據(jù)實(shí)現(xiàn)實(shí)時分析和處理,迫切需要由大數(shù)據(jù)技術(shù)來協(xié)調(diào)各部分之間的關(guān)系,實(shí)現(xiàn)對數(shù)據(jù)分析與挖掘。Spark作為一種開源通用并行框架,更好地利用了內(nèi)存,相比于Hadoop更加適用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等需要反復(fù)迭代的算法。
(3)輿情分析技術(shù)
學(xué)生的對于某些事件的評論無處不在,這些評論帶有主觀的感情色彩。利用大數(shù)據(jù)技術(shù)對他們的觀點(diǎn)及評論進(jìn)行分析,判斷評論者的態(tài)度及情感性質(zhì)。目前對于這類文字的分析可以從詞語、句子及篇章三個方面進(jìn)行,初期通過詞語分析,對其詞性的情感進(jìn)行判斷,而后逐步通過句子的形式及特點(diǎn),結(jié)合一定的算法,判斷文章的性質(zhì)。
3.2應(yīng)用大數(shù)據(jù)分析高校學(xué)生行為數(shù)據(jù)
學(xué)生行為數(shù)據(jù)眾多,可以從以下幾個方面應(yīng)用大數(shù)據(jù)進(jìn)行分析:
(1)在學(xué)習(xí)方面,通過大數(shù)據(jù)分析在校學(xué)生的選課及考試數(shù)據(jù),一方面對成績優(yōu)異的學(xué)生建立學(xué)習(xí)榜樣模板,研究其學(xué)習(xí)、生活行為規(guī)律,廣泛在其他學(xué)生中宣傳應(yīng)用,提升教師的教學(xué)水平和學(xué)生的學(xué)業(yè)成績。另一方面對有成績異動波動的學(xué)生進(jìn)行監(jiān)控,引起教師和管理人員警覺,找出異動的原因,對癥下藥。
(2)在學(xué)生就業(yè)方面,通過大數(shù)據(jù)分析學(xué)生的綜合測評數(shù)據(jù)、就業(yè)反饋信息,通過對學(xué)生就業(yè)情況的分析以及在校表現(xiàn)綜合分析,總結(jié)教學(xué)中的優(yōu)缺點(diǎn),對不同專業(yè)的學(xué)生,重點(diǎn)加大對影響學(xué)生成長就業(yè)的關(guān)鍵點(diǎn)進(jìn)行投資,大力度發(fā)展學(xué)生社會實(shí)踐,提高教學(xué)質(zhì)量和就業(yè)率。
(3)在消費(fèi)方面,通過大數(shù)據(jù)分析學(xué)生的飯?zhí)孟M(fèi)數(shù)據(jù)、小賣部消費(fèi)數(shù)據(jù)以及水電費(fèi)消費(fèi)數(shù)據(jù),挖掘?qū)W生的頻繁出入地點(diǎn),繪制學(xué)生每日熱點(diǎn)活動區(qū)域,總結(jié)學(xué)生的業(yè)余生活規(guī)律,供輔導(dǎo)員管理,及時指導(dǎo)改善。
(4)在德行方面,通過大數(shù)據(jù)分析學(xué)生的圖書館信用積分、師生評價、獎助信息、社會實(shí)踐活動記錄等,分析學(xué)生的思想道德和行為準(zhǔn)則,對某些學(xué)生改進(jìn)思想教育工作。
(5)在心理方面,通過大數(shù)據(jù)分析學(xué)生的日常消費(fèi)數(shù)據(jù)、教師教學(xué)反饋信息、輔導(dǎo)員反饋信息,及時重點(diǎn)關(guān)注類似于孤僻、偏激、妄想等異常學(xué)生動態(tài),采取有效措施,保障學(xué)生心理健康發(fā)展。這方面的例子很多,例如某學(xué)生某段時間內(nèi)心比較孤僻,導(dǎo)致課堂表現(xiàn)差,成績不好,就可以通過教學(xué)及消費(fèi)數(shù)據(jù)分析預(yù)警。
4結(jié)束語
隨著校園信息化和大數(shù)據(jù)技術(shù)應(yīng)用的飛速發(fā)展,采用大數(shù)據(jù)分析學(xué)生的行為,為教師因材施教提供支持,能提升高校學(xué)生管理人員的工作效率、服務(wù)質(zhì)量,相信將來會產(chǎn)生更加深遠(yuǎn)的影響。