羅永有 梁超香
摘 要:文章通過高校信息建設的現(xiàn)狀分析,研究多業(yè)務系統(tǒng)異構(gòu)數(shù)據(jù)庫在數(shù)據(jù)集成中的關鍵問題及技術,給出了通過利用ODI技術結(jié)合高校實際情況、實現(xiàn)異構(gòu)數(shù)據(jù)庫邏輯上或物理上的集成,該集成模式可以有效地打通原本業(yè)務系統(tǒng)中的“零散數(shù)據(jù)”,消除“信息孤島”現(xiàn)象,實現(xiàn)數(shù)據(jù)格式標準化、數(shù)據(jù)訪問一致化、數(shù)據(jù)存儲集中化的信息同步和共享,推進高校信息化的建設。
關鍵詞:數(shù)據(jù)標準;數(shù)據(jù)集成;ETL
1 研究背景及現(xiàn)狀分析
隨著高校信息化建設的不斷深入,信息技術在各領域的應用也越來越廣泛,為了提高工作效率,各職能部門正在采用各種業(yè)務系統(tǒng)來滿足工作需要。在這個過程中,由于各個應用系統(tǒng)相對獨立,產(chǎn)生了大量凌亂、重復、歧義的數(shù)據(jù),形成了一個個的“信息孤島”。隨著高校對數(shù)據(jù)的深層次需求越發(fā)強烈,越來越多的應用場景對數(shù)據(jù)的訴求也越來越高,比如教師課程安排就離不開教師人事信息,學生成績錄入離不開學生信息,這些場景都離不開數(shù)據(jù)共享,離不開數(shù)據(jù)集成。這就迫切地需要一套高效、準確、可行性高的數(shù)據(jù)集成方案來實現(xiàn)高效的信息集成和共享[1]。
在實際情況中,各個部門由于業(yè)務和功能歸屬不同,在多年的信息化建設過程中,采用了不同的軟硬件環(huán)境,使用獨立的業(yè)務系統(tǒng)管理,這就導致了系統(tǒng)之間難以實現(xiàn)信息的互聯(lián)互通、信息共享和有效利用,給維護和管理造成很大的障礙。主要體現(xiàn)在以下幾個方面[2]。
(1)信息共享意識淡薄,缺乏整體頂層規(guī)劃和統(tǒng)一標準。
學校信息化建設的整體規(guī)劃跟不上教師在教育教學中對信息化的需求,未營造良好的信息環(huán)境,未完善推動信息化強有力發(fā)展的政策環(huán)境,采購決策者對信息系統(tǒng)建設的特點認識不夠,信息流向已經(jīng)從部門內(nèi)部走向部門之間,但是很多業(yè)務系統(tǒng)的建立還是遵循老的業(yè)務規(guī)則,以部門為邊界或者按部門內(nèi)部分工進行,只建設滿足特定需求,建設特定的業(yè)務系統(tǒng),實現(xiàn)各自維護自身系統(tǒng)和數(shù)據(jù)。同時,由于沒有統(tǒng)一的數(shù)據(jù)標準規(guī)范,購置的這些業(yè)務管理系統(tǒng)來自不同的軟件提供商,各自遵循不同的信息編碼規(guī)范和數(shù)據(jù)標準,這就難以實現(xiàn)信息共享、業(yè)務聯(lián)動以及部門之間的協(xié)同工作。
(2)受限于部門利益隔閡,業(yè)務聯(lián)動性差。
學校在設置職責和部門中體現(xiàn)了更專業(yè)化,但也增加了協(xié)調(diào)的難度,各個部門受不同利益的驅(qū)使,各自為政,都優(yōu)先考慮自己的利益。在信息化建設中,不愿意公開自己部門業(yè)務信息,不愿意在業(yè)務信息交集點進行統(tǒng)籌優(yōu)化管理,擔心業(yè)務信息受到安全威脅,更愿意使用獨立的專業(yè)管理系統(tǒng),這樣只能達到部門的目標而不是整體的目標,阻礙了內(nèi)部信息的傳遞,降低工作效率。
(3)業(yè)務系統(tǒng)分散,數(shù)據(jù)冗余和源頭的不統(tǒng)一。
經(jīng)過多年的信息化建設,高校不同業(yè)務部門紛紛購置了滿足各自業(yè)務需求的專業(yè)管理系統(tǒng),各系統(tǒng)之間相互獨立,存在了大量的公有信息,由于獨立采購獨立運維,如果某個系統(tǒng)中的基礎數(shù)據(jù)發(fā)生變化,其他業(yè)務系統(tǒng)仍然使用原來的數(shù)據(jù),如教務、人事、財務系統(tǒng)中對教師數(shù)據(jù)描述一致嗎?為什么我的個人信息在這些系統(tǒng)中不一樣呢?我們學校的師生數(shù)到底是多少?是以教務數(shù)據(jù)為準還是人事數(shù)據(jù)為準?這樣就造成了數(shù)據(jù)重復錄入及重復管理,且存在大量不一致,無法在數(shù)據(jù)統(tǒng)計和上報時提供準確的數(shù)據(jù),無法給領導決策提供有效的數(shù)據(jù)支持,還會造成新的困惑,更難以談及對全局數(shù)據(jù)的應用與輔助策略。
在高校信息化建設中的問題遠不止以上提及的幾項,但是它們卻是如何解決整合、集成校園內(nèi)眾多應用系統(tǒng)數(shù)據(jù)的關鍵,包括已有的和即將購置的專業(yè)管理系統(tǒng),使用戶能夠得到一個統(tǒng)一的應用環(huán)境,統(tǒng)一的服務界面,統(tǒng)一的數(shù)據(jù)資源。
2 基于ODI技術的數(shù)據(jù)集成介紹
數(shù)據(jù)集成,主要是將基于分散的信息系統(tǒng)的業(yè)務數(shù)據(jù)進行再集中、再統(tǒng)一管理的過程,是一個漸進的過程。
在實施數(shù)據(jù)集成的過程中,由于業(yè)務系統(tǒng)不同,采用的數(shù)據(jù)庫及結(jié)構(gòu)也不盡相同,它們提供的數(shù)據(jù)內(nèi)容、格式和質(zhì)量千差萬別,有時甚至會遇到數(shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問題,所以首要問題就是如何解決異構(gòu)數(shù)據(jù)源的整合,使其形成互聯(lián)互通的整體,形成有效數(shù)據(jù)在各部門和各業(yè)務系統(tǒng)中流動和共享,同時能進行有效的集成管理。ETL(Extract,Transform,Load)是實現(xiàn)數(shù)據(jù)集成的主要技術。
ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),將來源端的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換,加載到目的端的過程,目的是將分散、凌亂、標準不統(tǒng)一的數(shù)據(jù)按照預先定義好的數(shù)據(jù)倉庫模型整合到一起,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎,為學校的決策提供分析依據(jù)。
ETL處理方式如圖1所示。在整個數(shù)據(jù)倉庫的構(gòu)建中,ETL工作占整個工作的50%~70%,主要是為了解決數(shù)據(jù)異構(gòu)的問題,負責完成從數(shù)據(jù)源(各種業(yè)務系統(tǒng))中找到并取出當前主題所需要的那部分數(shù)據(jù),輸入統(tǒng)一的數(shù)據(jù)存儲中,也就是我們常說的中間庫,由于數(shù)據(jù)倉庫中各個主題的數(shù)據(jù)都是按照前端業(yè)務需求存放,因此,需要在抽取的過程中按照預先設計好的數(shù)據(jù)規(guī)則進行清洗或轉(zhuǎn)換,使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來適應新的標準需求,最后,將處理后的數(shù)據(jù)從統(tǒng)一的數(shù)據(jù)存儲平臺按增量或全量的形式加載到目的端的數(shù)據(jù)倉庫中,在數(shù)據(jù)加載過程中定時進行,并且不同主題的數(shù)據(jù)加載任務有各自不同的調(diào)度時間[3]。
3 柳州城市職業(yè)學院解決方案
信息系統(tǒng)集成要解決的首要問題是由于各部門業(yè)務管理不同產(chǎn)生的信息的異構(gòu)性問題,集成能否成功的關鍵不僅取決于基礎平臺的建設是否完善,更多的是在于信息化組織體系是否完備,管理制度是其邁向規(guī)范化的前提,是規(guī)避建設風險的保障。下文討論的是數(shù)據(jù)集成中幾個關鍵問題,需要各部門通力配合,協(xié)調(diào)完成[4]。
3.1 信息標準
高校信息化建設已經(jīng)從單一的部門內(nèi)部數(shù)據(jù)流通進入跨業(yè)務領域數(shù)據(jù)共享、實現(xiàn)業(yè)務聯(lián)動、建立統(tǒng)一信息系統(tǒng)集成階段。因此,為了使信息有序流通,保證信息的一致性和權(quán)威性,必須制定統(tǒng)一的信息標準。
信息標準為學校業(yè)務數(shù)據(jù)“如何存、存什么、存哪兒”提供了詳細的規(guī)范,標準是否規(guī)范決定了信息的交流與共享等性能。因此,在建立標準之前應首先考慮幾點內(nèi)容:(1)要充分采用目前已有的國家標準和教育部教育管理信息化標準以及其他相關行業(yè)的標準,建立適合自身特點的校內(nèi)信息標準體系。(2)盡量使用學校已發(fā)布的數(shù)據(jù)標準,使學校已有的信息資源得到最大程度的利用。(3)把局部的業(yè)務系統(tǒng)應用問題放在整體系統(tǒng)架構(gòu)中考慮,達到全局優(yōu)化,符合整體的效果。除此之外,信息標準必須遵循唯一性(一個代碼只唯一表示一個編碼對象)、實用性(要盡可能地反映分類對象的特點,便于記憶和填寫)、可擴展性(為新的編碼對象留有足夠的備用碼)等基本原則。在標準應用中,原則上學校制定的數(shù)據(jù)標準應首先遵從國家標準、教育部標準和相關行業(yè)標準。
根據(jù)學校實際情況,我們在建立信息標準中,大致建立了如下幾個規(guī)則。
(1)機構(gòu)編碼:采用4位編碼分別表示其中的機構(gòu)屬性、流水號以及內(nèi)設機構(gòu)編號。
(2)教職工編碼:采用10位編碼,其中包含了入校年份、崗位屬性以及流水號。職工號為教職工在學校工作期間唯一標識編號,不隨教職工的身份變更而發(fā)生變化。
(3)專業(yè)編碼:采用4位編碼表示系部、專業(yè)、學歷屬性等。
(4)學號編碼:采用9位編碼,包含了入學年份、專業(yè)編碼以及流水號。便于管理及集成的可靠性,學號是學生在學校內(nèi)的唯一標識編碼,學生一經(jīng)入學取得學號后,直至離校學號保持不變。不會因休學、轉(zhuǎn)專業(yè)等學籍異動而發(fā)生變化。
(5)班級編碼:采用7位編碼,包含入學年份,專業(yè)編碼前3位(因與學歷無關,故只取前3位),流水號。
學校公共數(shù)據(jù)標準具有權(quán)威性和唯一性,在編制好后,為確保信息化項目和學校整體教育教學信息化的正常運轉(zhuǎn),應采用統(tǒng)一的數(shù)據(jù)標準進行數(shù)據(jù)修改或按照系統(tǒng)集成要求開發(fā)數(shù)據(jù)交換接口。
3.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗是一個減少錯誤和不一致性、解決對象識別的過程,是利用相關技術過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務部門,確認是否過濾掉還是由業(yè)務部門修正,以提取出滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)的不符合性,主要體現(xiàn)在不完整的、錯誤的和重復的數(shù)據(jù),表現(xiàn)形式在一些應有的信息缺失,比如身份證號,在教務系統(tǒng)中此字段可能不是必須的,但是在學工系統(tǒng)、一卡通消費系統(tǒng)中,它就是必填字段。表1給出幾個常用的清洗項及處理方法。
數(shù)據(jù)清洗是一個反復的過程,不可能在幾天內(nèi)完成,在集成項目的建設初期、中期、建設完成之后都需要進行。數(shù)據(jù)清洗還需要特別注意的是不要將有用的數(shù)據(jù)過濾掉,在ETL開發(fā)初期可以定期向業(yè)務部門進行修正確認,每個過濾規(guī)則都要認真地進行驗證。
3.3 業(yè)務流程規(guī)范
數(shù)據(jù)集成中一個重要問題就是數(shù)據(jù)沖突問題,主要表現(xiàn)為來源不同的應用系統(tǒng)具有不同的數(shù)據(jù)源頭。因此,首先要規(guī)范數(shù)據(jù)來源的唯一性和權(quán)威性,而要確定源頭,必須要考慮的是該數(shù)據(jù)在整個集成項目中的活動生命周期,要從學校行政職能的劃分上去明確業(yè)務系統(tǒng)擁有的權(quán)威數(shù)據(jù),如學生信息數(shù)據(jù)源頭應來自教務系統(tǒng),教職工基本信息則由人事管理系統(tǒng)負責采集,這就確定了該系統(tǒng)作為其他系統(tǒng)的唯一數(shù)據(jù)源。數(shù)據(jù)集成平臺的數(shù)據(jù)流向如圖2所示。
凡是要集成到“中間庫”中的業(yè)務系統(tǒng)數(shù)據(jù),我們都需要明確該業(yè)務系統(tǒng)的權(quán)威數(shù)據(jù)是哪些,并且該業(yè)務系統(tǒng)需要“中間庫”提供哪些數(shù)據(jù),同時,數(shù)據(jù)源數(shù)據(jù)的添加或更改必須按照實際應用需求進行各種相應方式的同步更新,以確保公有基礎數(shù)據(jù)更新的及時性、準確性,為各業(yè)務系統(tǒng)的運行保駕護航。
3.4 實現(xiàn)思路
我們進行數(shù)據(jù)集成的一個目的就是維護數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率,以較低的代價高效率地使用異構(gòu)的數(shù)據(jù),而數(shù)據(jù)源就是學校各個業(yè)務系統(tǒng)的數(shù)據(jù)庫,是集成到中心庫的數(shù)據(jù)抽取的來源。集成中心庫中所有的數(shù)據(jù)都來自于各應用系統(tǒng),并保持同步更新。由于業(yè)務系統(tǒng)在集成之前都采用自己系統(tǒng)內(nèi)部的編碼標準和字段類型,因此,采用ETL數(shù)據(jù)集成工具,從多個數(shù)據(jù)源中抽取數(shù)據(jù),然后對數(shù)據(jù)進行必要的轉(zhuǎn)換、清洗和加載,最終得到統(tǒng)一的、完備的主題數(shù)據(jù)進入集成中心庫。在集成中,為了確保數(shù)據(jù)在交換過程中的安全性,保證原來分散的應用仍能獨立運作,需要在集成中心庫中根據(jù)業(yè)務需求建立中間表,將來自于業(yè)務系統(tǒng)的數(shù)據(jù)先加載到中間表,然后經(jīng)ODI工具轉(zhuǎn)換、清洗后再放入集成中心庫的生產(chǎn)表中[5]。
各業(yè)務系統(tǒng)之間不直接進行數(shù)據(jù)交換,業(yè)務系統(tǒng)需要的公共數(shù)據(jù)先集成到中間庫中,再由中間庫根據(jù)預先設定的對應關系推送這些數(shù)據(jù)到其他業(yè)務系統(tǒng)中。這樣做的好處是:降低各個業(yè)務系統(tǒng)的耦合度、增加項目的可擴展性、保證了數(shù)據(jù)質(zhì)量,并能有效地管理各業(yè)務系統(tǒng)間相互訪問的權(quán)限控制,同時保證了數(shù)據(jù)的安全性,確保了業(yè)務系統(tǒng)在中間庫短暫失效時依然能夠獨立運行。
3.5 集成方案
系統(tǒng)集成必須圍繞信息需求制定數(shù)據(jù)集成方案,并需結(jié)合信息標準數(shù)據(jù)流向規(guī)劃以及業(yè)務系統(tǒng)建設使用情況來確定集成邊界。需要集成方、信息技術中心、業(yè)務部門,第三方公司通力配合完成。
在進行集成同步方案時有兩種方式可以選擇,即全量和增量。全量集成指每次在數(shù)據(jù)同步時都將數(shù)據(jù)源上的所有數(shù)據(jù)一次性集成到目標數(shù)據(jù)庫中,以保證數(shù)據(jù)源和目標數(shù)據(jù)的一致性。增量集成每次只將業(yè)務系統(tǒng)上發(fā)生變化了的數(shù)據(jù)同步到目標庫中,以減輕數(shù)據(jù)庫服務器和網(wǎng)絡的負擔。選擇哪種方式多是以數(shù)據(jù)量的多少來決策,當數(shù)據(jù)量小的時候,可以采用全量更新數(shù)據(jù),但隨著業(yè)務增長,數(shù)據(jù)量成幾何方式增長時,每次更新的工作將是耗時耗力的,也是業(yè)務方無法忍受的。此時,就需要一種解決方案將全量同步更改為增量同步。
另外,集成的周期選擇,對實時性不強或一次同步數(shù)據(jù)量較大的數(shù)據(jù)集成,通常選擇定期集成,且常將執(zhí)行計劃設定在服務器壓力較小,網(wǎng)絡使用率較低的半夜或凌晨。無論是同步方式還是集成周期的選擇中,應根據(jù)業(yè)務需求確定,夠用即可[6]。
4 結(jié)語
在高校信息化建設的過程中,應用系統(tǒng)的集成是一項十分復雜且極具挑戰(zhàn)性的工作,同時也是一項必不可少的環(huán)節(jié)。只有各個部門通力合作,規(guī)范業(yè)務流程,確立數(shù)據(jù)標準,明確數(shù)據(jù)的權(quán)威來源,才能清除“信息孤島”,實現(xiàn)各個應用系統(tǒng)業(yè)務數(shù)據(jù)的互聯(lián)互通,推動信息化建設的快速發(fā)展。
[參考文獻]
[1]劉靜萍.數(shù)字化校園建設中基于ODI的數(shù)據(jù)集成平臺研究[J].青海師范大學學報(自然科學版),2016(2):16-20.
[2]孫瑋.基于ODI技術搭建高校數(shù)字化校園公共數(shù)據(jù)平臺[J].軟件工程師,2014(7):56-68.
[3]王超,吳薩.高校異構(gòu)系統(tǒng)數(shù)據(jù)整合的設計與實現(xiàn)[J].四川文理學院學報,2015(3):39-41.
[4]徐琦.基于大數(shù)據(jù)的高校數(shù)據(jù)整合模式研究[J].中國教育信息化,2015(15):60-63.
[5]孫歆,卓榮慶,王蜜.基于ODI的高校異構(gòu)系統(tǒng)數(shù)據(jù)整合模型研究[J].中國教育信息化,2015(5):54-57.
[6]李恒貝,唐惠燕,毛莉菊.基于數(shù)據(jù)整合的高校信息標準構(gòu)建研究[J].中國教育信息化,2011(15):13-15.
Abstract:This paper analyzes the status quo of information construction in colleges and universities, and studies the key issues and technologies of multi-service system heterogeneous database in data integration. It gives the logical or physical realization of heterogeneous database by using ODI technology combined with the actual situation of colleges and universities. Integration, the integration mode can effectively break up the “fragmented data” in the original business system, eliminate the “information island” phenomenon, realize data synchronization, data access consistency, data storage centralized information synchronization and sharing, and promote university informatization construction.
Key words:data standard; data integration; ETL