陳軍民
(江西外語外貿(mào)職業(yè)學院,江西 南昌 330099)
眾所周知,近幾年高校信息化建設發(fā)展迅速,業(yè)務部門根據(jù)各自的業(yè)務需求建立了很多信息管理系統(tǒng),為業(yè)務部門的工作提供了很大的便捷,如科研系統(tǒng)、教務系統(tǒng)、學工系統(tǒng)等。但這些信息管理系統(tǒng)的數(shù)據(jù)是運行在各自的數(shù)據(jù)庫管理平臺上,有著各自的表格定義、字段定義,和各自的存儲結(jié)構(gòu)。這些信息管理系統(tǒng)形成了一個個的“信息孤島”。
“信息孤島”無法適應高校發(fā)展的需要。決策層領(lǐng)導不能及時獲取全校數(shù)據(jù),做出正確的決策;職能部門無法及時掌握本部門員工的科研、教學、帶班等全面的信息;教師與學生,也不能通過統(tǒng)一的門戶網(wǎng)站,一鍵登錄查詢自己的各方面信息,或更新自己的信息。
“信息孤島”是高校信息化建設進一步發(fā)展的瓶頸?,F(xiàn)有的信息管理系統(tǒng)數(shù)據(jù)由于運行在各自的數(shù)據(jù)管理平臺上,數(shù)據(jù)存儲結(jié)構(gòu)不同,表格定義、字段定義等也不相同,數(shù)據(jù)不能相互共享,同時由于更新的時間點也不一樣,同一數(shù)據(jù)往往還存在出入,降低了數(shù)據(jù)的信任度。涉及到各部門的數(shù)據(jù),還是需要用傳統(tǒng)的方法,經(jīng)常性地需要重復收集數(shù)據(jù),按要求制作各種表格,整天忙于這些“雜事”,增加基層班主任、辦公干事等工作人員的工作量,增加學校的人力成本以致大家都以“表哥表妹”進行互稱調(diào)侃。辦工流程也沒有優(yōu)化,數(shù)據(jù)的審核,提交還是利用傳統(tǒng)方法,需要數(shù)據(jù)錄入口人員簽名,部門蓋章,領(lǐng)導簽字,過程繁瑣,沒有發(fā)揮信息化建設的應有作用。
解決“信息孤島”的唯一途徑就是建立校級層面的,能提供給全校共享的數(shù)據(jù)中心。只有這樣,決策層領(lǐng)導才能通過統(tǒng)一數(shù)據(jù)入口,及時獲取校級層面的統(tǒng)計數(shù)據(jù),做出正確地決策;職業(yè)部門通過統(tǒng)一的數(shù)據(jù)入口查詢本部門員工的完整信息;教師與學生通過一鍵登錄查看或更新自己的信息。只有這樣,才能保證數(shù)據(jù)的一致性,提高數(shù)據(jù)的信任度,職業(yè)部門的數(shù)據(jù)才能共享,不需要重復收集數(shù)據(jù),降低了學校的人力成本。
數(shù)據(jù)中心的建立,應基于現(xiàn)有的信息管理系統(tǒng)和其中的數(shù)據(jù)。一方面保護現(xiàn)有信息化建設的投資,另一方面,充分利用現(xiàn)有的數(shù)據(jù)。調(diào)研學?,F(xiàn)有信息管理系統(tǒng)的數(shù)據(jù)存儲平臺,分析數(shù)據(jù)的存儲結(jié)構(gòu)、表格定義、字段定義,對現(xiàn)有數(shù)據(jù)進行清洗與整合,提供給學校層面的門戶信息管理系統(tǒng)及后續(xù)可能加入的部門信息管理系統(tǒng)共享數(shù)據(jù)。數(shù)據(jù)中心的建立,還應該基于全校的視角,應對整個學校的辦工流程進行優(yōu)化,改變傳統(tǒng)的數(shù)據(jù)收集,處理、分發(fā),審核、簽名等辦公模式,實現(xiàn)“網(wǎng)上辦公”與“無紙化辦公”。
目前所流行的數(shù)據(jù)清洗與整合的方法是通過數(shù)據(jù)聯(lián)邦技術(shù)進行分布式數(shù)據(jù)訪問,將企事業(yè)單位中各部門業(yè)務系統(tǒng)需要的數(shù)據(jù)抽取到對業(yè)務系統(tǒng)更方便、更集中的數(shù)據(jù)端進行統(tǒng)一存儲和管理。分布式數(shù)據(jù)訪問所使用的技術(shù)是企業(yè)信息集成EII(Enterprise Information Integration),數(shù)據(jù)交換使用的則是ETL(Extract Transform Load)技術(shù),ETL是構(gòu)建數(shù)據(jù)倉庫的重要組成部分,EII 是數(shù)據(jù)聯(lián)邦技術(shù)將大量的異構(gòu)數(shù)據(jù)源作為一個單一的、統(tǒng)一的數(shù)據(jù)視圖的方式實時的提供給一個用戶或系統(tǒng)。在目前的高校信息自動化系統(tǒng)建設的中,ETL和EII技術(shù)通常是放到一起的,這樣才能更好的適應高校的信息化建設數(shù)據(jù)集成要求。
信息化建設中的數(shù)據(jù)清洗與整合主要是為了實現(xiàn)數(shù)據(jù)共享的目的,建立校級層面共享的數(shù)據(jù)中心,可以用于智能統(tǒng)計決策、業(yè)務數(shù)據(jù)的管理以及基于數(shù)據(jù)清洗與整合平臺的建設,但是這需要數(shù)據(jù)清洗與整合工具與WebSphereMQ服務、WebServices服務等進行對接,這樣才有利于數(shù)據(jù)的共享和實時傳輸。
目前國內(nèi)外已經(jīng)有不少關(guān)于數(shù)據(jù)清洗與整合方面的設計方案,許多數(shù)據(jù)庫生產(chǎn)廠家也發(fā)布了針對異構(gòu)數(shù)據(jù)清洗與整合的解決方案。如 IBM的 DB2聯(lián) 邦 系 統(tǒng)、Sybase 的 DI(Data Integration)、BEA的DSP(Data Service Platform),SQL Server 的 Integration Services等 都有各自的數(shù)據(jù)集成特點。許多生產(chǎn)數(shù)據(jù)庫管理軟件的供應商都提供數(shù)據(jù)抽取工具,這些數(shù)據(jù)清洗與整合工具在一定程度上實現(xiàn)了數(shù)據(jù)的清洗與整合。但這些數(shù)據(jù)清洗與整合工具大多數(shù)都不能實現(xiàn)數(shù)據(jù)集成的自動化,開發(fā)人員還需利用這些集成工具建立相應的管理控制程序。
還有其他公司提供的產(chǎn)品,比如IBM公司的WebSphere DataStagel就是一套有比較完善的解決方案的系統(tǒng)。DataStage 提供了圖形框架,可以使用該框架通過可視化圖形界面來設計和運行用于數(shù)據(jù)清洗與整合的任務,可以從多個不同平臺的數(shù)據(jù)庫中抽取需要的數(shù)據(jù),進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,再加載到各個應用系統(tǒng)數(shù)據(jù)庫里面。由于每一步操作都是在可視化圖形界面上進行的,所以使用很廣,做設計人員的技術(shù)要求不需要太高就可以完成。DataStage支持高度復雜的數(shù)據(jù)規(guī)則和海量數(shù)據(jù)的清洗與轉(zhuǎn)換,以及大量的預先構(gòu)建好的數(shù)據(jù)集成任務,如排序、合并、連接、過濾等,以便于高效地訪問用于清洗與轉(zhuǎn)換的關(guān)系數(shù)據(jù)庫。
在數(shù)據(jù)清洗與整合方面,國內(nèi)也有不少研究比較完善的成果,例如康賽信息技術(shù)有限公司的DCI數(shù)據(jù)交換平臺,集數(shù)據(jù)抽取、清洗、轉(zhuǎn)換及加載于一體,通過標準化各個業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù),向數(shù)據(jù)中心/倉庫提供可靠的數(shù)據(jù),實現(xiàn)部門內(nèi)的應用和跨部門的應用的業(yè)務數(shù)據(jù)間單向整合、雙向整合和多級數(shù)據(jù)共享,進而為實現(xiàn)商業(yè)智能、數(shù)據(jù)挖掘、應用集成、正確決策分析等提供必要的數(shù)據(jù)支撐。除了支持基礎的數(shù)據(jù)清洗整合工作以外,還結(jié)合實際的問題做了大量的擴展,提供了數(shù)據(jù)整合管理系統(tǒng)(DCI-MS)、智能調(diào)度、可視化設計等輔助系統(tǒng),以支持業(yè)務化的數(shù)據(jù)監(jiān)控和管理、數(shù)據(jù)源管理、多引擎管理、問題數(shù)據(jù)管理和可視化業(yè)務建模等。
在數(shù)據(jù)集成的實際應用上,某大學的信息中心在學校的教育教學信息化建設中使用數(shù)據(jù)聯(lián)邦技術(shù)建立了數(shù)據(jù)集成機制,通過數(shù)據(jù)倉庫對各個業(yè)務系統(tǒng)之間的數(shù)據(jù)清洗與整合進行統(tǒng)一的管理和監(jiān)控。數(shù)據(jù)交換平臺會根據(jù)學校各部門的數(shù)據(jù)存儲結(jié)構(gòu),建立一個共享數(shù)據(jù)中心,將學校基礎數(shù)據(jù)和業(yè)務數(shù)據(jù)的數(shù)據(jù)存儲標準進行有效的管理,再通過有效的機制及時共享到全校各業(yè)務系統(tǒng)中。對各業(yè)務系統(tǒng)中數(shù)據(jù)標準不一致的情況,要經(jīng)過數(shù)據(jù)的清洗與轉(zhuǎn)換,達到數(shù)據(jù)中心的規(guī)范要求才能進行數(shù)據(jù)通信,實時的共享給各個需要的業(yè)務系統(tǒng)里去,徹底解決高校的“信息孤島”問題。
在數(shù)據(jù)清洗與數(shù)據(jù)整合中,有比較成熟的開發(fā)技術(shù)與工具軟件和可借鑒的其它高校的解決方案。但數(shù)據(jù)清洗與數(shù)據(jù)整合是一個系統(tǒng)工程,每個高校現(xiàn)有的數(shù)據(jù)庫管理平臺不盡相同,面對的辦公流程不盡相同,利用數(shù)據(jù)的辦公流程不盡相同。本項目以江西外語外貿(mào)職業(yè)學院為例,在現(xiàn)有業(yè)務部門的數(shù)據(jù)管理系統(tǒng)基礎上,面對學校的實際問題,研究數(shù)據(jù)清洗與整合的技術(shù)方案與業(yè)務優(yōu)化問題,開發(fā)適合本校共享的數(shù)據(jù)中心。
江西外語外貿(mào)職業(yè)學院的信息化建設發(fā)展迅速,現(xiàn)有科研系統(tǒng)、學工系統(tǒng)、財務系統(tǒng)、教務系統(tǒng)、圖書系統(tǒng)等多個信息管理系統(tǒng),但這些信息管理系統(tǒng)的數(shù)據(jù)管理平臺各不相同,有SQL Server,Oracle,MySql等數(shù)據(jù)庫系統(tǒng),表格的定義,字段的含義,字段等各不相同。為了學校的長遠發(fā)展,迫切需要對現(xiàn)有的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)進行清洗與整合,建立一個全校能夠共享的數(shù)據(jù)中心。
為了項目的順利實施,須做好一些前期工作,明確研究內(nèi)容,研究目標,需要解決的關(guān)鍵問題,然后制定技術(shù)路線。
(一)研究內(nèi)容
1.研究學校現(xiàn)有業(yè)務系統(tǒng)平臺的數(shù)據(jù)結(jié)構(gòu)、表格定義、字段含義,字段長度、數(shù)據(jù)類型、數(shù)據(jù)安全機制等;
2.研究抽取現(xiàn)有業(yè)務平臺數(shù)據(jù),對數(shù)據(jù)進行清洗,對數(shù)據(jù)進行整合與優(yōu)化的技術(shù)方案;
3.結(jié)合學校各職能部門及師生員工近期問題與未來對數(shù)據(jù)共享的需求,研究學校共享數(shù)據(jù)中心的數(shù)據(jù)利用方案等。
(二)研究目標:開發(fā)對現(xiàn)有管理系統(tǒng)平臺的數(shù)據(jù)清洗與整合的軟件實驗性平臺,建立學校層面的數(shù)據(jù)共享中心,提出符合學校實際情況的,切實可行的,適應學校近期與未來長遠發(fā)展的信息化建設的技術(shù)解決方案與數(shù)據(jù)利用方案,徹底解決學校的“信息孤島”問題。
(三)需解決的關(guān)鍵問題:
擬解決的關(guān)鍵問題的有三個,第一,在保證數(shù)據(jù)隱私的情況下,盡可能獲取更多的樣本數(shù)據(jù);第二是數(shù)據(jù)抽取的訪問速度與并發(fā)控制問題;第三是數(shù)據(jù)利用如何符合職能部門及師生員工近期與未來對數(shù)據(jù)共享的需求。
(四)項目實施技術(shù)路線
下面以江西外語外貿(mào)職業(yè)學院為例,介紹高校信息化建設的技術(shù)路線。見圖1。
圖1 建立校級數(shù)據(jù)中心數(shù)據(jù)清洗與數(shù)據(jù)整合技術(shù)路線
在上述信息化建設的技術(shù)路線中,最關(guān)鍵的就是開發(fā)小范圍網(wǎng)絡數(shù)據(jù)清洗整合實驗平臺,開發(fā)實驗平臺應按以下四個步驟進行。
對學校各部門的業(yè)務系統(tǒng)及日常辦公數(shù)據(jù)進行調(diào)研分析。
確定需要數(shù)據(jù)清洗的具體范圍、確認各系統(tǒng)的業(yè)務流程、原系統(tǒng)使用數(shù)據(jù)庫平臺及版本,和數(shù)據(jù)存儲格式。推算出需要清洗數(shù)據(jù)量的多少,需要清洗的數(shù)據(jù)業(yè)務字典表,需要清洗的數(shù)據(jù)關(guān)聯(lián)關(guān)系,需要清洗的數(shù)據(jù)備份腳本等。
抽取各業(yè)務系統(tǒng)數(shù)據(jù)與日常辦公樣本數(shù)據(jù),對全校數(shù)據(jù)進行統(tǒng)一管理。
抽取各業(yè)務系統(tǒng)與日常辦樣本數(shù)據(jù)的數(shù)據(jù)庫數(shù)據(jù)與文件數(shù)據(jù),統(tǒng)一各業(yè)務部門的業(yè)務標識,制定全校統(tǒng)一的數(shù)據(jù)標準數(shù)據(jù)字典,對全校的數(shù)據(jù)庫數(shù)據(jù)與文件數(shù)據(jù)進行統(tǒng)一管理。
對現(xiàn)有數(shù)據(jù)進行清洗。這是項目研究的核心任務,為確保項目順利進行,分三個小步驟進行。首先應對現(xiàn)有數(shù)據(jù)進行預清洗,修改錯誤數(shù)據(jù),補齊缺失數(shù)據(jù),拋棄重復數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,刪除正態(tài)分布異常數(shù)據(jù),等。然后對數(shù)據(jù)進行建模。數(shù)據(jù)建模采用PowerdeSigner工具,數(shù)據(jù)模型必須真實反應學?,F(xiàn)有業(yè)務關(guān)系,便于開發(fā)人員理解,數(shù)據(jù)結(jié)構(gòu)精簡有效,符合未來高校信息化的發(fā)展,同時兼容未來大數(shù)據(jù)發(fā)展,人臉識別數(shù)據(jù)特殊存儲等。最后進行數(shù)據(jù)清洗。采用Kettle Spoon工具對數(shù)據(jù)進行清洗,并采用oracle數(shù)據(jù)庫對數(shù)據(jù)進行存儲。ETL開源工具如Kettle是一款開源的ETL工具,純JAVA編寫,可以在Window、Linux、Unix上運行,數(shù)據(jù)抽取高效穩(wěn)定。在Kettle Spoon工具中編寫JAVA代碼進行業(yè)務控制,并調(diào)用Job實現(xiàn)數(shù)據(jù)的實時清洗。在預算允許的情況下可申請購買第三方數(shù)據(jù)清洗工具及數(shù)據(jù)中心工具對數(shù)據(jù)進行清洗存儲。第四,建設統(tǒng)一開放靈活的數(shù)據(jù)傳輸接口。
采用企業(yè)總線ESB(開源框架Mule ESB,或付費ORACLE ESB等架構(gòu)進行設計)作為數(shù)據(jù)傳輸通訊的開放標準接口。為各業(yè)務系統(tǒng)提供標準業(yè)務數(shù)據(jù),達到數(shù)據(jù)清洗后保障現(xiàn)有數(shù)據(jù)的有效性及一致性要求。為今后的系統(tǒng)運營數(shù)據(jù)有效性提供良好的支撐。
具體實驗方案見下圖2:
圖2 數(shù)據(jù)清洗與數(shù)據(jù)整合實驗方案
結(jié)束語:信息化建設是一個系統(tǒng)工程,它不僅是技術(shù)的問題,更是人的問題與管理的問題,且每個單位所面對的情況都各不相同,所以在項目開始之前,必須做好充分的調(diào)研,技術(shù)上的儲備,建立科學的方案。建立校級數(shù)據(jù)中心可以解決“信息孤島”所產(chǎn)生的問題。其中的核心技術(shù),就是對現(xiàn)有業(yè)務系統(tǒng)的數(shù)據(jù)進行清洗與整合。