国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校數(shù)據(jù)共享交換平臺(tái)的應(yīng)用與展望

2016-12-10 00:56陳偉范宇辰李廣宏
中國教育信息化·高教職教 2016年10期
關(guān)鍵詞:數(shù)據(jù)交換數(shù)據(jù)可視化數(shù)據(jù)共享

陳偉 范宇辰 李廣宏

摘 要:隨著高校網(wǎng)絡(luò)信息建設(shè)的不斷深入,我校的校園信息化建設(shè)正處于一個(gè)前所未有的快速發(fā)展時(shí)期。2011年12月,學(xué)校制定并實(shí)施了《東北財(cái)經(jīng)大學(xué)“十二五”發(fā)展規(guī)劃》,將“信息集成化”確認(rèn)為學(xué)校未來發(fā)展建設(shè)的四大重點(diǎn)任務(wù)之一,標(biāo)志著我校教育管理信息工作開始朝標(biāo)準(zhǔn)化、規(guī)范化的方向發(fā)展。本文首先闡述了東北財(cái)經(jīng)大學(xué)數(shù)據(jù)共享交換平臺(tái)的發(fā)展現(xiàn)狀,分析了校內(nèi)教職工和學(xué)生的主體需求與當(dāng)前所面臨的主要問題,并針對(duì)不同需求提出了相應(yīng)的解決措施,最后對(duì)我校未來將利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)校信息資源進(jìn)行整合、分析、決策等提出了設(shè)計(jì)展望。

關(guān)鍵詞:數(shù)據(jù)共享;數(shù)據(jù)交換;大數(shù)據(jù);數(shù)據(jù)可視化

中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2016)19-0048-05

一、引言

近年來,隨著信息技術(shù)產(chǎn)業(yè)的蓬勃發(fā)展,高校的信息化建設(shè)工作也受到了廣泛關(guān)注。推進(jìn)高校信息化建設(shè),打造數(shù)字化校園已成為各高等院校的普遍共識(shí)。2010年,我校完成了數(shù)字化校園建設(shè)信息門戶平臺(tái)、統(tǒng)一身份認(rèn)證平臺(tái)和統(tǒng)一數(shù)據(jù)庫平臺(tái)“三大平臺(tái)”建設(shè)。由于信息化建設(shè)初期缺乏統(tǒng)一規(guī)劃,數(shù)據(jù)標(biāo)準(zhǔn)各異,業(yè)務(wù)系統(tǒng)各自為政,導(dǎo)致數(shù)據(jù)非集成化并形成了許多的信息孤島,這使得大量優(yōu)秀數(shù)據(jù)無法共享和利用,獲得更大價(jià)值。我校于2014年又進(jìn)行了數(shù)據(jù)共享交換平臺(tái)的建設(shè)。該平臺(tái)是整個(gè)數(shù)字化校園建設(shè)的重要組成部分,利用此平臺(tái)對(duì)校園內(nèi)散亂分布的數(shù)據(jù)進(jìn)行集成化整合,同時(shí)將原來分散、利用率低下的信息資源進(jìn)行數(shù)據(jù)挖掘,對(duì)于我校的發(fā)展戰(zhàn)略和決策支持具有重要意義。

二、發(fā)展現(xiàn)狀

我校從2006年開始著手進(jìn)行信息化校園建設(shè)工作,整體建設(shè)歷程具有階段性和分布性的特點(diǎn)。按照《信息化校園建設(shè)總體規(guī)劃》的部署,截至2010年,學(xué)校信息化基礎(chǔ)設(shè)施建設(shè)已基本完備,并完成了信息門戶平臺(tái)、統(tǒng)一身份認(rèn)證平臺(tái)和統(tǒng)一數(shù)據(jù)庫平臺(tái)三大公共基礎(chǔ)平臺(tái)的建設(shè)。

2012年1-6月,我校完成了應(yīng)用系統(tǒng)一期項(xiàng)目建設(shè),包括本科生管理服務(wù)、研究生管理服務(wù)、人事管理服務(wù)和辦公自動(dòng)化管理四個(gè)系統(tǒng);至2013年12月,我校完成了應(yīng)用系統(tǒng)二期項(xiàng)目建設(shè),包括招生管理、宿舍管理、畢業(yè)離校、就業(yè)管理等七個(gè)系統(tǒng),同時(shí)集成了教務(wù)管理系統(tǒng)和資產(chǎn)管理系統(tǒng)。

2014年至今,通過對(duì)基礎(chǔ)平臺(tái)和應(yīng)用系統(tǒng)的完善推廣,我校將管理信息系統(tǒng)建設(shè)作為支撐學(xué)校管理現(xiàn)代化的基礎(chǔ),現(xiàn)基本完成對(duì)學(xué)校各機(jī)關(guān)部處、教學(xué)教輔部門的核心管理業(yè)務(wù)的橫向整合。

統(tǒng)一數(shù)據(jù)庫平臺(tái)負(fù)責(zé)集中存儲(chǔ)和處理各種信息數(shù)據(jù),并為全校提供信息共享交換服務(wù)。為了實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的集成和數(shù)據(jù)共享,進(jìn)而為學(xué)校領(lǐng)導(dǎo)提供有力的決策支持,需要建立基于數(shù)據(jù)管理和綜合性技術(shù)方案的數(shù)據(jù)共享交換平臺(tái),在對(duì)大量數(shù)據(jù)進(jìn)行安全存儲(chǔ)的同時(shí),通過建立暢通的數(shù)據(jù)訪問通道,能夠有效協(xié)同地將數(shù)據(jù)進(jìn)行共享、分析及應(yīng)用,保證數(shù)據(jù)共享及交換的時(shí)效性、完整性和一致性。[1]

數(shù)據(jù)共享交換平臺(tái)主要需完成以下任務(wù):

1.數(shù)據(jù)的采集

負(fù)責(zé)采集更新各業(yè)務(wù)系統(tǒng)數(shù)據(jù),利用數(shù)據(jù)抽取或同步工具將數(shù)據(jù)采集至共享數(shù)據(jù)中心,同時(shí)生成數(shù)據(jù)更新報(bào)告。

2.數(shù)據(jù)的整理

按照學(xué)校制定的信息化標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)整合,報(bào)告異常數(shù)據(jù),保證數(shù)據(jù)的一致性和準(zhǔn)確性,并保留歷史數(shù)據(jù)。

3.數(shù)據(jù)的共享

對(duì)統(tǒng)一數(shù)據(jù)庫內(nèi)的部分或全部資源進(jìn)行共享和交換,可生成數(shù)據(jù)使用情況報(bào)告。

4.數(shù)據(jù)的挖掘分析

通過數(shù)據(jù)挖掘工具對(duì)共享數(shù)據(jù)和歷史數(shù)據(jù)進(jìn)行分析評(píng)估,用報(bào)表、視圖等可視化工具進(jìn)行展現(xiàn),為決策提供參考。

目前,我校統(tǒng)一數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)導(dǎo)入、共享數(shù)據(jù)查詢與維護(hù)、靈活報(bào)表管理、統(tǒng)一代碼管理、通用組合查詢顯示、設(shè)置數(shù)據(jù)查詢和維護(hù)權(quán)限以及數(shù)據(jù)同步等功能,但平臺(tái)功能僅局限于數(shù)據(jù)的查詢展示,尚不能實(shí)現(xiàn)校園內(nèi)各業(yè)務(wù)部門的信息交換交換功能。我們希望對(duì)各業(yè)務(wù)部門的資源、平臺(tái)進(jìn)行更充分的整合,使得應(yīng)用系統(tǒng)之間雖不具有直接關(guān)聯(lián),但數(shù)據(jù)交換可以在業(yè)務(wù)數(shù)據(jù)庫與數(shù)據(jù)共享交換平臺(tái)上完成,建成一個(gè)各應(yīng)用系統(tǒng)耦合度較低、安全性能較強(qiáng)、可以完成數(shù)據(jù)集中存儲(chǔ)與管理的數(shù)據(jù)共享與交換平臺(tái)。

三、實(shí)際需求

目前,建設(shè)以全局?jǐn)?shù)據(jù)為基礎(chǔ)的數(shù)據(jù)共享交換平臺(tái)已成為各高校信息化建設(shè)的核心內(nèi)容。通過其建設(shè)可以有效消除信息孤島,節(jié)約人力、物力、財(cái)力成本,提高工作效率。各職能部處可以通過該平臺(tái)獲取其他業(yè)務(wù)部門的數(shù)據(jù)信息,通過對(duì)數(shù)據(jù)的交換、共享、分析、挖掘,為廣大師生提供更加完善的服務(wù),為學(xué)校建設(shè)以及科學(xué)管理提供重要的依據(jù)。

另外,數(shù)據(jù)共享交換平臺(tái)的建設(shè)是高校信息化建設(shè)下一階段——智慧校園建設(shè)的工作基礎(chǔ)。完成對(duì)學(xué)校內(nèi)大數(shù)據(jù)有機(jī)的整合和繼承管理,掌握學(xué)校各項(xiàng)活動(dòng)中發(fā)生的龐大、海量數(shù)據(jù),并利用大數(shù)據(jù)處理技術(shù)對(duì)這些信息資源進(jìn)行挖掘、整理、分析,為學(xué)校的發(fā)展提供決策支持,是下一步我校信息化發(fā)展的重點(diǎn)工作。

經(jīng)過多年的建設(shè)與發(fā)展,我校網(wǎng)絡(luò)的基礎(chǔ)設(shè)施建設(shè)已經(jīng)基本完成,已經(jīng)初步建成了支撐學(xué)校日常運(yùn)行的校級(jí)統(tǒng)一信息系統(tǒng),在業(yè)務(wù)工作中發(fā)揮了積極的作用。但現(xiàn)有的這些系統(tǒng)基本上都是各自封閉的,隨著信息技術(shù)的發(fā)展以及教育改革的不斷深入,當(dāng)前信息系統(tǒng)的現(xiàn)狀已經(jīng)遠(yuǎn)不能滿足學(xué)校發(fā)展的要求,數(shù)據(jù)整合工作仍然面臨著諸多難題和挑戰(zhàn)。

1.數(shù)據(jù)資產(chǎn)意識(shí)薄弱

數(shù)據(jù)作為重要的無形資產(chǎn),其利用水平的高低可以直接反應(yīng)一個(gè)高校的教學(xué)科研水平和管理能力。目前我校對(duì)數(shù)據(jù)建設(shè)的意識(shí)相對(duì)薄弱,沒有充分認(rèn)識(shí)到數(shù)據(jù)也會(huì)在學(xué)校的教學(xué)科研管理中發(fā)揮重要作用,導(dǎo)致學(xué)校內(nèi)部業(yè)務(wù)系統(tǒng)林立,數(shù)據(jù)沒有形成統(tǒng)一的管理制度,數(shù)據(jù)資產(chǎn)不能發(fā)揮有效價(jià)值。

2.數(shù)據(jù)管理缺乏規(guī)范性

目前我校內(nèi)部已形成了多個(gè)業(yè)務(wù)系統(tǒng),各部門依據(jù)各自的業(yè)務(wù)需求,分別采用了不同的架構(gòu)及其開發(fā)技術(shù),設(shè)計(jì)了信息系統(tǒng)建設(shè)標(biāo)準(zhǔn)和數(shù)據(jù)標(biāo)準(zhǔn)。但這些系統(tǒng)在應(yīng)用及數(shù)據(jù)層面上彼此分離,導(dǎo)致各單位數(shù)據(jù)標(biāo)準(zhǔn)不一致,在數(shù)據(jù)共享平臺(tái)的建設(shè)過程中,不能有效分析數(shù)據(jù)庫表結(jié)構(gòu),在共享過程中時(shí)常出現(xiàn)匹配錯(cuò)誤等現(xiàn)象。

3.存在信息孤島

由于各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)維護(hù)及管理工作缺乏統(tǒng)一部署,導(dǎo)致我校各業(yè)務(wù)系統(tǒng)間缺少統(tǒng)一的數(shù)據(jù)格式和交換接口,雖然部分?jǐn)?shù)據(jù)可以通過直接傳輸?shù)刃问綄?shí)現(xiàn)數(shù)據(jù)資源的交換和共享,但這種傳統(tǒng)方法并不能及時(shí)有效地解決大量數(shù)據(jù)的交互問題,同時(shí)各類數(shù)據(jù)信息分別存儲(chǔ)于不同部門或不同地域(分布性)的不同數(shù)據(jù)庫(異構(gòu)性)中,客觀上形成了許多“信息孤島”。

4.數(shù)據(jù)挖掘與決策支持應(yīng)用較少

目前,我校的數(shù)據(jù)共享交換平臺(tái)主要應(yīng)用于數(shù)據(jù)的展示、查詢、統(tǒng)計(jì)等單一層面,對(duì)數(shù)據(jù)進(jìn)行深度挖掘分析的應(yīng)用較少。合理整合校內(nèi)數(shù)據(jù),不僅能有效提高數(shù)據(jù)的利用率,優(yōu)化管理結(jié)構(gòu),而且可以通過整合進(jìn)行數(shù)據(jù)的挖掘、分析和預(yù)測(cè),優(yōu)化學(xué)校管理結(jié)構(gòu)。通過數(shù)據(jù)整合可以大量減輕學(xué)校內(nèi)部行政、教學(xué)、教輔等部門繁雜的事務(wù)性管理工作,幫助其更加關(guān)注于本部門的業(yè)務(wù)職能,并為部門及整個(gè)學(xué)校的發(fā)展提供決策支持。

四、有效措施

1.建設(shè)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)

我校于2010年12月由東北財(cái)經(jīng)大學(xué)數(shù)字化校園基礎(chǔ)平臺(tái)建設(shè)組進(jìn)行統(tǒng)一規(guī)劃,制定并頒發(fā)了《東北財(cái)經(jīng)大學(xué)信息標(biāo)準(zhǔn)》(以下簡(jiǎn)稱“標(biāo)準(zhǔn)”)。標(biāo)準(zhǔn)的制訂參照教育部《高等學(xué)校管理信息標(biāo)準(zhǔn)》(CELTS-33)的制訂規(guī)范,并根據(jù)我校特點(diǎn)做了適當(dāng)補(bǔ)充和調(diào)整。

標(biāo)準(zhǔn)根據(jù)高等學(xué)校職能劃分和業(yè)務(wù)組成,將我校主要管理領(lǐng)域分為學(xué)校、學(xué)生、教學(xué)、研究生、教職工、科研、財(cái)務(wù)、辦公管理、圖書、資產(chǎn)與設(shè)備十個(gè)域,也就是對(duì)應(yīng)圖1的十個(gè)管理數(shù)據(jù)子集。

TB——通用/標(biāo)準(zhǔn)數(shù)據(jù)子集。作為其他十個(gè)業(yè)務(wù)數(shù)據(jù)子集的公共數(shù)據(jù)集,構(gòu)成高校主要管理業(yè)務(wù)的完整數(shù)據(jù)標(biāo)準(zhǔn)集。

標(biāo)準(zhǔn)從結(jié)構(gòu)上分為兩部分,即數(shù)據(jù)標(biāo)準(zhǔn)和代碼標(biāo)準(zhǔn)。數(shù)據(jù)標(biāo)準(zhǔn)包括一系列以管理對(duì)象為主體的數(shù)據(jù)項(xiàng),其作用是明確管理對(duì)象所具有的屬性,并使其在命名,類型,長度,取值范圍等方面標(biāo)準(zhǔn)化。代碼標(biāo)準(zhǔn)從屬于數(shù)據(jù)標(biāo)準(zhǔn),是對(duì)數(shù)據(jù)標(biāo)準(zhǔn)中數(shù)據(jù)項(xiàng)的屬性或取值范圍的描述。數(shù)據(jù)標(biāo)準(zhǔn)和代碼標(biāo)準(zhǔn)的層次結(jié)構(gòu)如圖2所示。代碼標(biāo)準(zhǔn)按照適用范圍不同分為國家標(biāo)準(zhǔn)、教育部標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、學(xué)校標(biāo)準(zhǔn)四個(gè)模塊。

數(shù)據(jù)標(biāo)準(zhǔn)為我校數(shù)據(jù)平臺(tái)的設(shè)計(jì)搭建提供了類似數(shù)據(jù)字典的參考作用,為信息交換、資源共享提供了基礎(chǔ)性條件,有效地增加了各業(yè)務(wù)部門間的溝通效率。但信息標(biāo)準(zhǔn)在新的形勢(shì)下也應(yīng)有新的擴(kuò)展,在建設(shè)過程中應(yīng)與時(shí)俱進(jìn),不斷加以補(bǔ)充完善。

2.建設(shè)數(shù)據(jù)共享交換平臺(tái)

數(shù)據(jù)共享交換平臺(tái)為校內(nèi)各業(yè)務(wù)系統(tǒng)提供了一個(gè)集成的數(shù)據(jù)倉庫,它將重要的、通用的數(shù)據(jù)集中到一個(gè)數(shù)據(jù)庫內(nèi),數(shù)據(jù)可以在各部門之間進(jìn)行有效的共享與利用。數(shù)據(jù)共享交換中心的建設(shè)有效解決了“信息孤島”問題,可以為各項(xiàng)決策提供強(qiáng)有力的支持,最終為實(shí)現(xiàn)大數(shù)據(jù)綜合分析提供一個(gè)可靠的、統(tǒng)一的數(shù)據(jù)支撐平臺(tái)。[2]

應(yīng)用系統(tǒng)與共享數(shù)據(jù)平臺(tái)之間是松散耦合,數(shù)據(jù)共享交換平臺(tái)的架構(gòu)如圖3所示。

在數(shù)據(jù)共享與交換平臺(tái)中,利用ETL工具通過簡(jiǎn)單配置實(shí)現(xiàn)異構(gòu)數(shù)據(jù)和公共數(shù)據(jù)庫的數(shù)據(jù)同步、數(shù)據(jù)的解析和清洗、數(shù)據(jù)的轉(zhuǎn)換等過程。管理員通過ETL客戶端可以創(chuàng)建復(fù)雜的同步任務(wù),只需要簡(jiǎn)單的拖拽就可以完成任務(wù)的配置。

通過數(shù)據(jù)共享交換平臺(tái),實(shí)現(xiàn)對(duì)ETL任務(wù)的統(tǒng)一監(jiān)控與管理。

截止2015年12月31日,我校數(shù)據(jù)交換共享平臺(tái)在運(yùn)任務(wù)42個(gè),涉及到十個(gè)系統(tǒng),包括財(cái)務(wù)數(shù)據(jù)同步、資產(chǎn)數(shù)據(jù)同步、教務(wù)數(shù)據(jù)同步、一卡通同步、科研數(shù)據(jù)同步和多媒體教學(xué)信息同步。其中,財(cái)務(wù)系統(tǒng)同步任務(wù)共執(zhí)行819次,資產(chǎn)設(shè)備同步任務(wù)共執(zhí)行748次,教務(wù)系統(tǒng)教務(wù)成績同步任務(wù)共執(zhí)行714次,教務(wù)上課授課同步任務(wù)共執(zhí)行714次,等等。2015年,所有數(shù)據(jù)同步任務(wù)共運(yùn)行6182次,交換數(shù)據(jù)量約15個(gè)T。

3.完善數(shù)據(jù)展現(xiàn)

完成數(shù)據(jù)整合后,如何對(duì)積累的海量數(shù)據(jù)進(jìn)行有效利用,充分挖掘其潛在價(jià)值是首要問題。按照教育信息化建設(shè)移動(dòng)化、智能化、云化的趨勢(shì),從數(shù)據(jù)的使用方式、新媒體展現(xiàn)形式、數(shù)據(jù)可視化等多角度來完善數(shù)據(jù)表現(xiàn),不斷加強(qiáng)信息技術(shù)與廣大師生教育教學(xué)、科研管理、公共服務(wù)等業(yè)務(wù)的深度融合。

(1)多層面多角度的數(shù)據(jù)使用

采用推送(訂購),拉?。ú樵儯┑刃问?,用綜合查詢、大數(shù)據(jù)綜合分析等形式為各級(jí)用戶服務(wù)。如各級(jí)管理者使用的通用查詢工具、數(shù)據(jù)管理服務(wù)、數(shù)據(jù)訂購服務(wù)、數(shù)據(jù)分析服務(wù)等。

(2)多種新媒體形式的數(shù)據(jù)展現(xiàn)

除了傳統(tǒng)的PC端數(shù)據(jù)展示之外,如何在現(xiàn)有移動(dòng)信息化技術(shù)之后出現(xiàn)的多種新媒體形式,包括微信、微博、移動(dòng)智能終端的進(jìn)行數(shù)據(jù)展現(xiàn),例如與微信平臺(tái)、移動(dòng)校園APP的結(jié)合,實(shí)現(xiàn)信息anyone,anywhere,anytime隨時(shí)可達(dá),是下一階段工作的重點(diǎn)。

(3)數(shù)據(jù)可視化

在Hadoop上將HDFS存儲(chǔ)的PB級(jí)的海量數(shù)據(jù)利用MapReduce處理之后,數(shù)據(jù)容量縮小為GB級(jí),然后利用R語言等類似工具進(jìn)行分析研究,最終轉(zhuǎn)化為能為決策支持提供支撐的KB級(jí)數(shù)據(jù),這依賴于Tableau等數(shù)據(jù)可視化工具。數(shù)據(jù)的收集、存貯、轉(zhuǎn)換、篩選、分析、歸納,一切都為最終的展示服務(wù),數(shù)據(jù)可視化工具能夠以一種簡(jiǎn)便易用的方式將復(fù)雜的數(shù)據(jù)呈現(xiàn)出來,使用戶更容易理解,并做出決策。

五、應(yīng)用特點(diǎn)

1.架構(gòu)合理,數(shù)據(jù)可控

以數(shù)據(jù)共享交換平臺(tái)為核心,依托ETL技術(shù)實(shí)現(xiàn)數(shù)據(jù)的共享與交換,采用星形模型是最常用的實(shí)現(xiàn)模式,它使整個(gè)數(shù)字化校園形成了一個(gè)松耦合集成系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)調(diào)度任務(wù)的運(yùn)行、監(jiān)控、維護(hù),整體系統(tǒng)靈活、安全、可控。

如圖6所示,首先,星形架構(gòu)采用不同業(yè)務(wù)系統(tǒng)與數(shù)據(jù)交換共享平臺(tái)直接聯(lián)接,而不必把多業(yè)務(wù)系統(tǒng)充分網(wǎng)狀互聯(lián),建設(shè)成本低,投入小,復(fù)雜度較小,易于后期的管理維護(hù)。其次,整體系統(tǒng)松耦合,因?yàn)椴扇⊥侥J綄?shí)現(xiàn)數(shù)據(jù)統(tǒng)一,獨(dú)立業(yè)務(wù)系統(tǒng)故障不影響其他系統(tǒng),單點(diǎn)故障不會(huì)對(duì)整體數(shù)字化校園系統(tǒng)造成沖擊。最后,當(dāng)某一業(yè)務(wù)系統(tǒng)升級(jí)或者替換,其基礎(chǔ)數(shù)據(jù)格式、內(nèi)容將發(fā)生變化,只需通過ETL調(diào)整其與數(shù)據(jù)共享交換平臺(tái)的接口,并不影響與其相關(guān)的其他業(yè)務(wù)系統(tǒng)的正常操作,實(shí)現(xiàn)成本低、效率高。

2.操作簡(jiǎn)單,體驗(yàn)良好

目前,高校的傳統(tǒng)業(yè)務(wù)系統(tǒng)并不兼容,彼此之間難以實(shí)現(xiàn)數(shù)據(jù)共享交流。我校使用的開源的ETL工具Kettle具有基于Java的圖形化界面,支持拖拽等方式的可視化設(shè)計(jì),能方便使用者便捷地對(duì)從業(yè)務(wù)系統(tǒng)抽取到的數(shù)據(jù)進(jìn)行傳輸、清洗和加載等。同時(shí),ETL屏蔽了應(yīng)用系統(tǒng)中較為復(fù)雜的業(yè)務(wù)邏輯,為基于數(shù)據(jù)倉庫的分析和應(yīng)用提供了統(tǒng)一的數(shù)據(jù)接口。利用數(shù)據(jù)共享與交換平臺(tái),ETL在不同的業(yè)務(wù)系統(tǒng)之間搭建了一座橋梁,實(shí)現(xiàn)數(shù)據(jù)、業(yè)務(wù)的互聯(lián)互通。

3.良好的彈性與可擴(kuò)充性

數(shù)據(jù)共享交換平臺(tái)的核心為ETL技術(shù),具有良好的可擴(kuò)充性。首先,ETL提供了一些可擴(kuò)展組件以支持某些ETL定制邏輯的實(shí)現(xiàn),同時(shí)支持自定義的SQL查詢、JavaScript和正則表達(dá)式等,可自行定制開發(fā)相關(guān)組件滿足學(xué)校業(yè)務(wù)邏輯的需要。另外,ETL技術(shù)支持典型的結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng)以及非結(jié)構(gòu)化數(shù)據(jù),作為應(yīng)用廣泛的開源工具,典型的分布式大數(shù)據(jù)架構(gòu)、數(shù)據(jù)立方體等數(shù)據(jù)源也都可以處理,整體架構(gòu)具備良好的可擴(kuò)充性。

六、下一步計(jì)劃

隨著人工智能與數(shù)據(jù)庫相關(guān)技術(shù)的發(fā)展,在做好數(shù)據(jù)清洗與整合的基礎(chǔ)上,有效地應(yīng)用數(shù)據(jù)挖掘手段進(jìn)一步處理數(shù)據(jù)、分析數(shù)據(jù),近年來,高校大數(shù)據(jù)挖掘與分析也成為技術(shù)研究的熱點(diǎn)。在完成數(shù)據(jù)整合的基礎(chǔ)上,不僅能完成傳統(tǒng)的數(shù)據(jù)庫的數(shù)據(jù)查詢、統(tǒng)計(jì)、錄入等功能,利用數(shù)據(jù)挖掘技術(shù)還可以發(fā)現(xiàn)數(shù)據(jù)中的隱含規(guī)則和潛在聯(lián)系,而且可以通過多種有效手段對(duì)數(shù)據(jù)進(jìn)行分析、對(duì)未來的發(fā)展進(jìn)行預(yù)判以及對(duì)可能出現(xiàn)的問題進(jìn)行防范。

1.數(shù)據(jù)挖掘基本概述

數(shù)據(jù)挖掘(Data Mining)一般是指在數(shù)據(jù)庫或數(shù)據(jù)倉庫中,利用各種分析方法與技術(shù),對(duì)過去累積的大量繁雜數(shù)據(jù)進(jìn)行分析、歸納與整合等工作,提取出有用的信息,例如趨勢(shì)、模式及相關(guān)性等,并將其中有價(jià)值的信息作為決策參考提供給決策者。通俗地說,數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)掘信息或知識(shí)。[3]

目前,數(shù)據(jù)挖掘技術(shù)已被廣泛應(yīng)用于醫(yī)療、商業(yè)、科研、金融、工程管理等領(lǐng)域。在高校中引入數(shù)據(jù)挖掘技術(shù),可以加快推進(jìn)學(xué)校管理方式的轉(zhuǎn)變,即以科學(xué)管理方式取代傳統(tǒng)管理方式,提高高校管理質(zhì)量和教學(xué)水平,提升人才培養(yǎng)效果,有效增強(qiáng)學(xué)校競(jìng)爭(zhēng)力。

2.數(shù)據(jù)挖掘的方法

(1)關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則的挖掘主要有兩個(gè)步驟:首先是要從數(shù)據(jù)集合中找到頻繁項(xiàng)集,然后通過找到的頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則挖掘的第一階段,必須從數(shù)據(jù)集合中,根據(jù)某一項(xiàng)目出現(xiàn)的頻率來找到隱含的頻繁項(xiàng)集,其中某項(xiàng)目組出現(xiàn)的頻率稱為支持度,只要某項(xiàng)集的支持度超過初始設(shè)定的最小支持度時(shí),就算找到了頻繁項(xiàng)集,然后再繼續(xù)尋找下一個(gè)集合。

關(guān)聯(lián)規(guī)則挖掘的第二階段,是找到頻繁項(xiàng)集中產(chǎn)生的關(guān)聯(lián)規(guī)則。系統(tǒng)預(yù)先設(shè)定一個(gè)最小信度,如果某一規(guī)則得到的信度超過最小信度,就稱這個(gè)規(guī)則為關(guān)聯(lián)規(guī)則。

(2)決策樹方法

決策樹的輸入是一組帶有類別標(biāo)記的樣本,最終會(huì)生成一棵二叉樹或多叉樹,節(jié)點(diǎn)、葉子和分支是它的基本組成部分。決策樹方法主要分為決策樹生成和決策樹剪枝這兩個(gè)步驟。

決策樹的頂端節(jié)點(diǎn)叫做根節(jié)點(diǎn),一切決策的過程是從根節(jié)點(diǎn)開始的。然后根據(jù)系統(tǒng)的需要和特定算法創(chuàng)建子節(jié)點(diǎn),最末端的節(jié)點(diǎn)成為葉子。在決策樹的分析過程中,每個(gè)節(jié)點(diǎn)都會(huì)遇到問題,對(duì)于問題的不同回答就產(chǎn)生不同的分支,直到最后產(chǎn)生葉子節(jié)點(diǎn)。這就是決策樹分類的整個(gè)過程。

(3)遺傳算法

遺傳算法是由生物進(jìn)化的過程演變而來的一種算法,含有三個(gè)基本過程(算子):選擇(繁殖),在舊的種群中選出具有較強(qiáng)生命力的個(gè)體,產(chǎn)生新的種群;重組(交叉),選擇兩個(gè)不同個(gè)體,轉(zhuǎn)換它們之間的部分基因,產(chǎn)生新的個(gè)體;突變(變異),通過對(duì)個(gè)體進(jìn)行某些基因的基因突變(1變成0,0變成1)產(chǎn)生新的個(gè)體。

3.數(shù)據(jù)挖掘的目標(biāo)

數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的,有意義的知識(shí),其主要功能有概念(類)描述、預(yù)測(cè)趨勢(shì)、關(guān)聯(lián)分析、聚類、偏差檢測(cè)、演化分析等。下面以概念(類)描述、預(yù)測(cè)趨勢(shì)、關(guān)聯(lián)分析這三個(gè)主要功能,結(jié)合高校實(shí)際情況進(jìn)行分析:

(1)概念(類)描述

是指通過數(shù)據(jù)區(qū)分、數(shù)據(jù)特征化比較可以得到對(duì)數(shù)據(jù)的概念或類的描述,簡(jiǎn)單來說就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。

例如:通過對(duì)學(xué)生基本信息數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘后,我們可以將接受助學(xué)貸款、參加勤工助學(xué)、有欠繳費(fèi)記錄等信息的學(xué)生劃分為經(jīng)濟(jì)困難的學(xué)生這一類別,并授權(quán)就業(yè)指導(dǎo)中心、各學(xué)院院辦等部門在數(shù)據(jù)共享交換平臺(tái)查看學(xué)生名單,以幫助輔導(dǎo)員更有針對(duì)性地了解個(gè)別學(xué)生生活情況,積極幫助這類學(xué)生參加勤工助學(xué)、社會(huì)實(shí)習(xí)工作等。

(2)預(yù)測(cè)趨勢(shì)

是指通過建立區(qū)分概念或數(shù)據(jù)類別的函數(shù)、模型,對(duì)未知的對(duì)象進(jìn)行類別預(yù)測(cè)并加以標(biāo)記。數(shù)據(jù)挖掘可以自動(dòng)在數(shù)據(jù)庫中尋找預(yù)測(cè)性信息,以往需要通過大量手工分析解決的問題如今可以迅速通過數(shù)據(jù)得出結(jié)論。

例如:對(duì)歷年學(xué)生選課時(shí)間、選課人數(shù)等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘后,系統(tǒng)可以自動(dòng)監(jiān)測(cè)到學(xué)生選課高峰期、某熱門課程等,可以為學(xué)校合理規(guī)劃選課時(shí)間,合理安排教室等做出預(yù)測(cè)、規(guī)劃。

(3)關(guān)聯(lián)分析

大量的數(shù)據(jù)中存在的某些可被發(fā)現(xiàn)的有用知識(shí)就是數(shù)據(jù)關(guān)聯(lián)。很多數(shù)據(jù)庫中都存在著數(shù)據(jù)關(guān)聯(lián),但并不為人所知,因此關(guān)聯(lián)就是希望找到隱藏在數(shù)據(jù)庫中的規(guī)律和有用的知識(shí)。

例如:將每位學(xué)生視為一個(gè)數(shù)據(jù)對(duì)象,將其學(xué)習(xí)成績、在校表現(xiàn)、獎(jiǎng)懲情況等屬性視為該數(shù)據(jù)對(duì)象的不同數(shù)據(jù)維度,進(jìn)行多維數(shù)據(jù)關(guān)聯(lián)后,可以構(gòu)建學(xué)生考核、測(cè)評(píng)標(biāo)準(zhǔn),建立評(píng)價(jià)指標(biāo)體系,對(duì)學(xué)生進(jìn)行科學(xué)測(cè)評(píng),減少傳統(tǒng)測(cè)評(píng)中的人為干擾,使對(duì)學(xué)生的評(píng)價(jià)更為客觀、全面和科學(xué),同時(shí)也更加便利。

我校的數(shù)據(jù)共享交換平臺(tái)存儲(chǔ)了非常豐富的教學(xué)、科研、管理等各方面的信息,范圍寬廣,數(shù)據(jù)復(fù)雜,一方面為我們提供了大量可供研究的數(shù)據(jù),另一方面在目標(biāo)的選擇、數(shù)據(jù)的取舍、算法的性能等方面又向我們提出了很大的挑戰(zhàn)。

隨著數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,我們希望未來可以透過數(shù)據(jù)表面,分析得到其內(nèi)在本質(zhì),獲得更有價(jià)值的信息,用更加科學(xué)系統(tǒng)的方法對(duì)學(xué)校的信息資源加以利用,優(yōu)化資源配置、提高教學(xué)質(zhì)量、提高學(xué)校綜合實(shí)力。

參考文獻(xiàn):

[1]戚麗,蔣東興,武海平.校園數(shù)據(jù)中心建設(shè)與管理方法的探索[J].中國教育信息化(高教職教),2002(7):54-55.

[2]丁智君.高校數(shù)字化校園的數(shù)據(jù)中心平臺(tái)建設(shè)[D].上海:復(fù)旦大學(xué),2009.

[3]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.3:88-100.

(編輯:王曉明)

猜你喜歡
數(shù)據(jù)交換數(shù)據(jù)可視化數(shù)據(jù)共享
XBRL在財(cái)務(wù)報(bào)表網(wǎng)絡(luò)數(shù)據(jù)交換中的應(yīng)用
可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
科學(xué)大數(shù)據(jù)的發(fā)展態(tài)勢(shì)及建議
我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
數(shù)字化迎新系統(tǒng)宿舍分配模塊的設(shè)計(jì)與實(shí)現(xiàn)
貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展戰(zhàn)略理解和實(shí)施建議
黎平县| 济南市| 老河口市| 襄汾县| 梁平县| 长乐市| 西和县| 县级市| 长宁区| 攀枝花市| 苏尼特左旗| 山东| 梧州市| 道真| 乌拉特前旗| 三台县| 潮安县| 三门峡市| 罗定市| 谷城县| 德阳市| 溆浦县| 宁波市| 临漳县| 澄城县| 恩施市| 沽源县| 叙永县| 陵川县| 阿图什市| 东莞市| 三河市| 阳信县| 天水市| 罗田县| 五原县| 杨浦区| 高唐县| 连城县| 上栗县| 明光市|