国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HANA的高校教務大數(shù)據(jù)多維度分析

2016-12-27 19:10:35張紅
中國教育技術(shù)裝備 2016年19期
關(guān)鍵詞:大數(shù)據(jù)

張紅

10.3969/j.issn.1671-489X.2016.19.027

摘 要 基于HANA平臺,對東華大學近10年的教務數(shù)據(jù)進行多維分析,對學生信息表和學生成績表分別創(chuàng)建分析視圖和計算視圖,挖掘?qū)W生成績、生源地、專業(yè)、星座之間的關(guān)系,并對其關(guān)系進行圖形展示,為高校學生的管理和研究提供信息支持。

關(guān)鍵詞 HANA;教務數(shù)據(jù);大數(shù)據(jù)

中圖分類號:G642 文獻標識碼:B

文章編號:1671-489X(2016)19-0027-02

1 引言

近年來隨著“大數(shù)據(jù)”技術(shù)的發(fā)展,數(shù)據(jù)的價值逐漸被大家認識并發(fā)掘,行業(yè)內(nèi)出現(xiàn)了各種關(guān)于大數(shù)據(jù)的應用,本文的立足點是高校教務數(shù)據(jù)。高校教務數(shù)據(jù)包括學生的基本信息、學生的選課信息及學習成績信息等,這些信息比較全面地反映了學生的整體情況,而且彼此之間存在緊密聯(lián)系,同時也隱含了一些重要信息。通過對該數(shù)據(jù)的挖掘分析,可以把一些重要的信息從數(shù)據(jù)庫中抽取出來,為人們提供具有價值的信息,更好地支持人們的決策,同時為學生管理人員提供有力的信息支持和工作指導。本文以東華大學近10年的教務數(shù)據(jù)為樣本進行研究分析,挖掘?qū)W生成績、生源地、專業(yè)和星座之間的系。

2 相關(guān)技術(shù)

內(nèi)存計算 數(shù)據(jù)庫奠基人Jim Gray曾于2006年預言:“磁帶已經(jīng)死了,磁盤已經(jīng)落伍,閃存成為新存儲,內(nèi)存局部性才是王道?!彪S著硬件成本的不斷降低,如今這一預言已經(jīng)成為現(xiàn)實[1]。內(nèi)存計算在軟硬件系統(tǒng)協(xié)同配置的環(huán)境下,高效地將數(shù)據(jù)庫以及數(shù)據(jù)倉庫全部放在內(nèi)存中進行計算,這樣有效地減少了磁盤的I/O。內(nèi)存計算采用高效的并行計算技術(shù)以及基于內(nèi)存的數(shù)據(jù)的讀取、處理以及壓縮技術(shù),同時支持數(shù)據(jù)的行式存儲以及列式存儲。在內(nèi)存計算方法中擁有系統(tǒng)內(nèi)容的計算引擎,使用內(nèi)存計算法運行大量的數(shù)據(jù)系統(tǒng)是用虛擬數(shù)據(jù)建模,計算引擎直接采用虛擬數(shù)據(jù)進行有效計算,這樣的計算方式直接在內(nèi)存中進行,減少了因為大量的數(shù)據(jù)的存在造成的數(shù)據(jù)冗余,優(yōu)化了數(shù)據(jù)層與應用之間的數(shù)據(jù)交互,極大地提升了系統(tǒng)的運行效率。內(nèi)存計算的計算方式讓數(shù)據(jù)的計算速度飛快地增長,也讓海量的數(shù)據(jù)快速計算成為可能。

HANA數(shù)據(jù)庫 HANA是一種數(shù)據(jù)庫管理系統(tǒng)[2],其研發(fā)者是SAP公司。HANA數(shù)據(jù)庫不同于一般的數(shù)據(jù)庫,它是一種集軟件與硬件為一體的工作平臺,是列式存儲與內(nèi)存計算技術(shù)上的結(jié)合體。HANA數(shù)據(jù)庫的運行方式相較于傳統(tǒng)的數(shù)據(jù)庫的運行方式,極大地提高了數(shù)據(jù)的壓縮效率以及存儲的性能,減少了可能造成的數(shù)據(jù)冗余。HANA數(shù)據(jù)庫的使用者可以自由使用內(nèi)置的分析工具對各種模型進行分析,如建立數(shù)據(jù)倉庫、報表等,能夠?qū)ζ脚_上的大量數(shù)據(jù)及時處理并實時獲得分析結(jié)果,完成對大量數(shù)據(jù)的分析。

HANA[3]的內(nèi)存數(shù)據(jù)庫是內(nèi)存計算中最主要的組成部分,主要包括的內(nèi)容有數(shù)據(jù)庫服務器、客戶端工具、建模工具。在HANA數(shù)據(jù)中,計算引擎是核心,主要負責對大量數(shù)據(jù)的CRUDQ操作,操作形式支持MDX、SQL語句[4-5]等。HANA數(shù)據(jù)庫不一般的計算能力以及強大可擴展性,讓原來需要很長時間很大工程的運算成為可能,并且其計算引擎也不對其他的用戶操作造成影響,這很大程度上提高了企業(yè)的工作效率,促進了勞動生產(chǎn)力的提高。

3 數(shù)據(jù)處理過程

數(shù)據(jù)加載 從東華大學得到的教務數(shù)據(jù)是csv文件格式的,包括學生基本信息、選課信息、選課情況信息、成績信息等。該格式的文件是一種比較輕量級的用半角逗號作分割值的數(shù)據(jù)文件,無法創(chuàng)建索引,每次查詢都需要遍歷文件,很難適應復雜多變的查詢需求。因此,首先將數(shù)據(jù)從csv文件導入到HANA數(shù)據(jù)庫,HANA數(shù)據(jù)庫可以幫助系統(tǒng)完成大規(guī)模的數(shù)據(jù)查詢與提取。

安裝HANA客戶端工具和建模工具后,需要將數(shù)據(jù)加載到HANA實例中,以便開始執(zhí)行示例應用程序。數(shù)據(jù)加載可能非常復雜,SAP為不同的數(shù)據(jù)加載業(yè)務情景提供了多個解決方案。打開HANA建模工具,單擊“文件”(File)菜單并選擇“導入”項(Import)即可實現(xiàn)數(shù)據(jù)的導入。

數(shù)據(jù)建模 在HANA數(shù)據(jù)庫中,用于對各種數(shù)據(jù)建模的模型稱為信息視圖(Information views)。這類視圖通過對內(nèi)容數(shù)據(jù)(屬性數(shù)據(jù)、度量數(shù)據(jù))的各種組合來建立業(yè)務實例的模型。數(shù)據(jù)倉庫中一般常用的數(shù)據(jù)類型有兩種:一種是屬性數(shù)據(jù)(attribute),通常是一些描述性的數(shù)據(jù),如學生學號、班級、生源地等;一種是度量數(shù)據(jù)(measure),通常是數(shù)字型的數(shù)據(jù),如學生家庭收入、學生成績等。這兩種數(shù)據(jù)類型都可以稱為內(nèi)容數(shù)據(jù)。

信息視圖的一般用途是分析性的用例,如患者地域分布表、多維度分析的檢驗報告等場景。HANA提供的信息視圖有三種,分別是屬性視圖(attribute view)、分析視圖(analytic view)、計算視圖(calculation view)。其中,屬性視圖是基于不同數(shù)據(jù)庫的源表中具有一定關(guān)系的屬性數(shù)據(jù)而建立起來的實體模型;分析視圖主要用于建立包含度量數(shù)據(jù)的模型;計算視圖可以簡單地實現(xiàn)和屬性視圖、分析視圖同樣的功能,也可以針對數(shù)據(jù)庫中定義進行更高級的計算,用來滿足業(yè)務應用上的一些復雜邏輯。

本文對課程信息表創(chuàng)建了分析視圖,設置輸出列為課程編號和課程名稱,并在語義層定義維度和度量,通過查詢課程名相同、課程代碼不同的課程,可以看出排名前10位的課程主要是每個學院都開設的實習類課程。

對學生信息表創(chuàng)建了計算視圖,利用學生出生日期建立計算列,從而獲得每個學生的星座。選擇“星座”這個維度,度量選擇按照“學號”計算,通過分析可以看出,學生人數(shù)排名前5位的星座分別是天秤座、天蝎座、獅子座、處女座和水瓶座。

對學生成績表創(chuàng)建了計算視圖,利用成績建立計算列,選擇“生源地”這個維度,度量選擇按照“平均成績”計算,通過分析可以看出,學生人數(shù)排名前5位的生源地分別是浙江、河北、河南、福建和山東;選擇“星座”這個維度,度量選擇按照“平均成績”計算,通過分析可以看出,成績排名前5位的星座是天秤座、天蝎座、獅子座、處女座和水瓶座,如圖1所示。

4 實驗

實驗環(huán)境 本實驗所用服務器的配置為戴爾Power Edge R910,CPU為4顆Xeon核E7520,內(nèi)存為256 G,操作系統(tǒng)為SUSE Linux Enterprise Server 11 SP1,內(nèi)存計算數(shù)據(jù)庫引擎采用HANA SERVER 1.006。實驗數(shù)據(jù)采用東華大學近10年的教務數(shù)據(jù)。

結(jié)果與分析 對學生成績表創(chuàng)建了計算視圖,利用成績建立計算列,選擇“生源地”這個維度,度量選擇安裝“平均成績”計算,對查詢結(jié)果進行了篩選,查看成績相對較差的學生的生源地分布數(shù)據(jù),排名后5位的是北京、河南、廣東、陜西、云南。

對學生成績表創(chuàng)建計算視圖,利用成績建立計算列,選擇“星座”這個維度,度量選擇按照“平均成績”計算,查看優(yōu)秀學生的星座分布數(shù)據(jù),排名前5位的是天秤座、天蝎座、獅子座、處女座、水瓶座。

5 結(jié)束語

本文基于HANA平臺,對東華大學近10年的教務數(shù)據(jù)進行了多維分析,對學生信息表和學生成績表分別創(chuàng)建了分析視圖和計算視圖,分析了學生成績、生源地、專業(yè)、星座之間的關(guān)系,并對其關(guān)系進行了圖形展示,為人們提供具有價值的信息,更好地支持人們的決策,同時也為學生管理人員提供了有力的信息支持和工作指導。基于該數(shù)據(jù),還可以利用關(guān)聯(lián)規(guī)則進一步挖掘各維度之間更深一層的關(guān)系?!?/p>

參考文獻

[1]朱靖翔,張濱,樂嘉錦.基于內(nèi)存計算的鋼鐵價格預測算法研究[J].計算機科學,2014,41(b11):432-435.

[2]李抵非,田地,胡雄偉.基于分布式內(nèi)存計算的深度學習方法[J].吉林大學學報:工學版,2015,45(3):921-925.

[3]付云.大數(shù)據(jù)時代內(nèi)存計算先行[J].互聯(lián)網(wǎng)周刊,

2012(2):64-65.

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
句容市| 田东县| 铜陵市| 铅山县| 原平市| 曲松县| 古田县| 张北县| 华蓥市| 密山市| 阳山县| 临潭县| 冀州市| 巴塘县| 涞水县| 多伦县| 阿拉善右旗| 平凉市| 连南| 井陉县| 阿荣旗| 广平县| 改则县| 南溪县| 桦川县| 思茅市| 宣城市| 清徐县| 甘泉县| 衡山县| 上思县| 兴隆县| 会同县| 北川| 明水县| 浦北县| 阿克苏市| 镇赉县| 尉氏县| 齐齐哈尔市| 济源市|