国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高校數(shù)據(jù)中心的數(shù)據(jù)分析

2021-11-02 22:14楊眾王旭東叢玉正
計算機與網(wǎng)絡 2021年17期
關鍵詞:數(shù)據(jù)倉庫智慧校園數(shù)據(jù)分析

楊眾 王旭東 叢玉正

摘要:隨著信息化技術的快速發(fā)展,高校的信息系統(tǒng)日趨完善,各種信息系統(tǒng)如學習平臺、教學和辦公應用系統(tǒng)都運行在數(shù)據(jù)中心,數(shù)據(jù)中心存儲了大量的業(yè)務信息。對高校數(shù)據(jù)中心存儲的各類應用數(shù)據(jù)進行抽取、轉化和處理,建立面向主題的數(shù)據(jù)倉庫。對系統(tǒng)數(shù)據(jù)進行挖掘和探索式分析,以可視化駕駛艙的方式直觀地展現(xiàn)學校的實際數(shù)據(jù)狀態(tài),通過對數(shù)據(jù)的可視化分析可以為學校在辦學、人才培養(yǎng)和學生管理等方面提供數(shù)據(jù)支持和決策。

關鍵詞:數(shù)據(jù)中心;數(shù)據(jù)分析;數(shù)據(jù)倉庫;可視化;智慧校園

中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2021)17-65-4

0引言

自教育部發(fā)布《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》以來,國內各高校對信息化建設大力投入,各類業(yè)務系統(tǒng)逐步建設完善,信息化服務水平不斷提高[1]。數(shù)據(jù)中心的建立有效地解決了各系統(tǒng)數(shù)據(jù)存儲分散、數(shù)據(jù)標準不一致和數(shù)據(jù)共享困難等信息孤島問題。下一步將圍繞如何發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)價值進行研究,對數(shù)據(jù)中心存儲的大量業(yè)務數(shù)據(jù)進行有效挖掘,實現(xiàn)跨業(yè)務系統(tǒng)、高效的數(shù)據(jù)分析,讓數(shù)據(jù)“說話”,達到數(shù)據(jù)分析展現(xiàn)的統(tǒng)一歸口,實時展現(xiàn)學校各方面的數(shù)據(jù)狀態(tài),為學校領導提供決策支撐。

教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)是一門涉及計算機科學、教育學和統(tǒng)計學的交叉學科,它致力于分析學校教育環(huán)境下的獨特數(shù)據(jù),目的是為了更好地了解學生及學校環(huán)境,從而提高學校教學成效[2]。

1技術路線

研究分析的數(shù)據(jù)來源于高校數(shù)據(jù)中心,數(shù)據(jù)中心通過與統(tǒng)一認證平臺、人事系統(tǒng)、科研系統(tǒng)、學生系統(tǒng)和一卡通等系統(tǒng)進行數(shù)據(jù)交換進而存儲大量的業(yè)務數(shù)據(jù)。通過對數(shù)據(jù)中心的數(shù)據(jù)源進行ETL(提取、轉化和裝載),將想要進行分析的主題數(shù)據(jù)進行高效的提取和處理,形成數(shù)據(jù)倉庫,進行建模分析。數(shù)據(jù)倉庫是專門為數(shù)據(jù)的統(tǒng)計分析和決策支持而設計的,存儲著需要進行分析的面向主題數(shù)據(jù),數(shù)據(jù)具有穩(wěn)定并隨時間變化等特點[3]。研究的技術路線情況如圖1所示。

1.1數(shù)據(jù)操作

采用的開發(fā)語言為Python 3,開發(fā)IDE為PyCharm 2020,數(shù)據(jù)庫為Oracle 12c。數(shù)據(jù)庫操作基本代碼如下:

1.2數(shù)據(jù)處理

由于數(shù)據(jù)中心的數(shù)據(jù)來源于不同系統(tǒng),各個系統(tǒng)始建于不同時期,所用數(shù)據(jù)標準各不相同,導致數(shù)據(jù)質量參差不齊。要想對數(shù)據(jù)進行分析就需要對數(shù)據(jù)的質量問題進行處理。

Python中有著豐富的數(shù)據(jù)處理、分析和挖掘工具包。采用Numpy庫實現(xiàn)了多維數(shù)組與矩陣的高效運算,Pandas庫函數(shù)對數(shù)據(jù)的編碼問題、缺失值問題與異常值的問題進行有效處理,生成規(guī)整數(shù)據(jù)裝載進數(shù)據(jù)倉庫。比如用dropna函數(shù)對不規(guī)整數(shù)據(jù)進行刪除,fillna函數(shù)對空值進行替換等。

1.3數(shù)據(jù)展現(xiàn)

在數(shù)據(jù)展現(xiàn)方面,將對系統(tǒng)分析出來的數(shù)據(jù)通過Web可視化進行展現(xiàn),這里采用Flask Web容器來部署pyechars技術。pyechars是Python語言中用于設計Echars圖表的類庫,對百度開源圖表庫Echars進行了封裝,實現(xiàn)了Java Script的圖表庫技術。相比于Matplotlib繪圖,pyechars有著可移植性強、展現(xiàn)直觀、生動、可交互、可高度個性化定制等特點[3]。下面采用pyechars繪制學生消費情況柱狀圖,代碼如下:

2數(shù)據(jù)分析設計實現(xiàn)

本研究對高校幾大核心業(yè)務系統(tǒng)數(shù)據(jù)進行整理和抽取,按照招生、教職工、學生消費和科研4個數(shù)據(jù)主題進行展示與分析。

2.1招生分析

招生作為高校人才培養(yǎng)的主要入口之一,生源質量的好壞和招生計劃是否合理都會影響學校的教學成果。本研究選取了學校近8年本科生招生數(shù)據(jù)進行研究分析,按照招生完成率、錄取情況、學生情況和地區(qū)招生情況進行了統(tǒng)計分析。各主題分析指標類型如表1所示。

通過調用Python機器學習第三方模塊Sklearn,對招生計劃數(shù)和實際錄取人數(shù)進行回歸分析。研究利用corr()函數(shù)對計劃和實際錄取人數(shù)進行相關性評估計算,得出分數(shù)為0.97,非常接近于1,這說明二者有明顯的線性相關性,也就是說招生計劃越多,實際招生人數(shù)也越多,招生情況回歸分析如圖2所示[4]。

利用最小二乘法對歷年的招生數(shù)據(jù)建立數(shù)據(jù)模型,在LinearRegression中調用fit()訓練方法進行數(shù)據(jù)模擬仿真[5]。采用score()函數(shù)對訓練出的模型進行打分,為0.98分,模型效果比較理想,使用predict()函數(shù)對未來招生的情況進行預測。預測結果為當招生計劃數(shù)增加至2 000人時,實際招生人數(shù)會達到1 957人。預測實現(xiàn)代碼如下所示:

2.2學生行為分析

隨著各應用系統(tǒng)及大數(shù)據(jù)中心的建設,學生在校內的學習和生活痕跡都會被系統(tǒng)記錄并存儲。通過抽取、整合學生數(shù)據(jù)和一卡通數(shù)據(jù),按照以下幾個主題對學生日常行為數(shù)據(jù)進行分析展現(xiàn),如表2所示。

圖書館和自習室是大學生主要的學習場所,對一年中30萬條學生進出圖書館和自習室的門禁記錄進行了統(tǒng)計分析,學生行為數(shù)據(jù)如圖3所示。

發(fā)現(xiàn)學生行為數(shù)據(jù)存在如下規(guī)律:

①在學習方面,學生進出圖書館的時間主要集中在每年的6月、7月、12月和1月,每年2月和8月圖書館的訪客最少,周末進出圖書館人數(shù)少于平時。從數(shù)據(jù)中可以分析出,學生在臨近1月和7月的期末考試前夕進入圖書館自習室學習的次數(shù)最多,側面反映出學生平時缺乏自主學習的能力。針對這種現(xiàn)象,建議學校增加學生階段性過程考試,培養(yǎng)在校學生養(yǎng)成良好的學習習慣。

②通過對學生在一天之中進出圖書館的時間進行分析,發(fā)現(xiàn)學校進圖書館的時間主要集中在7時、8時、12時和13時,離開圖書館的時間集中在18時,在6—7月時,學生離開圖書館的時間推遲至22時。從數(shù)據(jù)中可以分析出學生在一天之中學習集中的時段,由于期末學習任務較重,學生在圖書館自習的時間較晚,建議學校在期末前夕適當延長圖書館的閉館時間,為學生提供更多的學習時間。

在學生消費方面,統(tǒng)計出各年級和專業(yè)在校生的消費情況,包括平均消費和最低情況,為學校在評獎助學金和助學貸款方面提供消費數(shù)據(jù)支撐。

2.3教職工分析

教職工分析聯(lián)合人事、科研和教務業(yè)務系統(tǒng)數(shù)據(jù)進行分析。

教職工基本情況:展示教職工的年齡、工齡、學歷和戶籍信息,向學校展現(xiàn)教職工的基本情況信息。

教職工發(fā)展情況:教師的崗位、職務、職稱和編制類別等信息,分析各部門的崗位任職情況,為學校接下來的教師人才培養(yǎng)提供數(shù)據(jù)支撐。

博士教師情況:學校的博士教師情況和各部門博士人員數(shù)量,為學校申博和學科評估提供數(shù)據(jù)支撐。

人才引進/流失情況:學校每年招入和流出的人員信息,更有目的性地制定人才引進計劃。

2.4科研分析

各部門科研情況:學院各部門的科研成果情況,包括項目、論文、著作、專利和鑒定等。分析學院各職稱和各級別教師的科研成果情況:統(tǒng)計學校各專業(yè)科研成果,根據(jù)教職工的科研成果進行統(tǒng)計分析,按照專業(yè)和學科計算出科研分數(shù),對科研分數(shù)進行統(tǒng)計分析,找出優(yōu)勢學科[6]。

3結束語

通過對學校各方面的數(shù)據(jù)進行分析和挖掘,使原來數(shù)據(jù)中心和業(yè)務系統(tǒng)的數(shù)據(jù)重新發(fā)揮了巨大價值。將數(shù)據(jù)進行可視化分析可以發(fā)現(xiàn)數(shù)據(jù)中存在的問題和規(guī)律,對學校在教學或科研上出現(xiàn)的異常數(shù)據(jù)進行預警,使學校管理者在決策上由被動變?yōu)橹鲃?,大大提高了學校信息化的服務質量,向實現(xiàn)智慧校園邁進。

參考文獻

[1]王運武.中國教育信息化戰(zhàn)略規(guī)劃的世紀變遷[J].江蘇開放大學學報,2016,27(4):37-46,89.

[2]黃連強.大數(shù)據(jù)背景下高校教學信息化研究[J].電腦編程技巧與維護,2018(4):96-97,121.

[3]李蒙昭.數(shù)據(jù)可視化平臺圖表推薦系統(tǒng)的研究[D].武漢:華中科技大學,2019.

[4]王瑞昌.面向教職工的數(shù)據(jù)中心數(shù)據(jù)共享的研究與實現(xiàn)[D].成都:西南交通大學,2012.

[5]李天輝.基于python的數(shù)據(jù)分析可視化研究與實現(xiàn)[J].電子測試,2020(20):78-79.

[6]劉少楠.基于B/S模式的高??蒲泄芾硐到y(tǒng)設計與實現(xiàn)[D].沈陽:東北大學,2015.

猜你喜歡
數(shù)據(jù)倉庫智慧校園數(shù)據(jù)分析
基于數(shù)據(jù)倉庫的數(shù)據(jù)傾斜解決方案研究
基于B/S結構的學生公寓管理信息系統(tǒng)的設計與實現(xiàn)
數(shù)據(jù)倉庫系統(tǒng)設計與實現(xiàn)
“智慧校園”浪潮下大學課堂教學改革與設計
智慧校園關鍵技術分析與研究
新常態(tài)下集團公司內部審計工作研究
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
智能云教學系統(tǒng)在計算機專業(yè)教學中的運用
數(shù)據(jù)復用在存儲數(shù)據(jù)倉庫中的運用
數(shù)據(jù)倉庫技術在檔案管理領域的應用