周浩成
(廣州城市理工學(xué)院,廣東 廣州 510800)
近年來,國民經(jīng)濟增長迅速,信息技術(shù)得到進一步發(fā)展,社會正式進入大數(shù)據(jù)時代。大數(shù)據(jù)憑借著高速性、多樣性以及規(guī)模性的特點,在許多領(lǐng)域有著良好的應(yīng)用,但是也對傳統(tǒng)技術(shù)產(chǎn)生一定的限制,導(dǎo)致傳統(tǒng)技術(shù)無法滿足當(dāng)前時代對于數(shù)據(jù)處理方面的需求。除此之外,在裝備管理等方面,大數(shù)據(jù)技術(shù)也有著非常好的應(yīng)用效果,隨著技術(shù)的革新發(fā)展,漸漸成為裝備管理的新引擎。
ETL過程指的是數(shù)據(jù)凈化和數(shù)據(jù)遷移,在企業(yè)數(shù)據(jù)管理策略中也占有非常重要的地位[1]。ETL過程可以在第一時間發(fā)現(xiàn)數(shù)據(jù)庫的需求,同時迅速將所需數(shù)據(jù)從源系統(tǒng)中抽取出來,經(jīng)過一系列的處理,將其加載到數(shù)據(jù)庫內(nèi)。
對于我國軍隊而言,裝備數(shù)據(jù)屬于軟裝備的范疇,既能夠加強軍隊裝備整體的工作效益基礎(chǔ),還可幫助軍隊提高整體作戰(zhàn)任務(wù)的行動力。目前來看,ETL技術(shù)裝備大數(shù)據(jù)分為幾大特點:
第一,種類多、關(guān)聯(lián)關(guān)系復(fù)雜。分析研究發(fā)現(xiàn),裝備管理數(shù)據(jù)分為3種:人、財、物,這3種資源相輔相成,相互交織,形成一個巨大且復(fù)雜的網(wǎng)絡(luò),實現(xiàn)自身的使命。例如,裝備和器材之間的保障關(guān)系、任務(wù)、能力和裝備間的映射關(guān)系以及裝備之間的戰(zhàn)場關(guān)系和數(shù)量關(guān)系等[2]。
第二,裝備數(shù)據(jù)量巨大。隨著科學(xué)技術(shù)的發(fā)展,裝備愈發(fā)復(fù)雜,使得在應(yīng)用過程中會產(chǎn)生大量的數(shù)據(jù),對于后續(xù)的數(shù)據(jù)處理分析帶來不小的難度。這些原位在線數(shù)據(jù)集對于改進研制、裝備應(yīng)用以及狀態(tài)監(jiān)控等提供了非常重要的參考[3]。
第三,產(chǎn)生頻率高、更新快。武器裝備每一天都會產(chǎn)生大量維修數(shù)據(jù)和故障數(shù)據(jù)或者入庫數(shù)據(jù)等,頻繁的產(chǎn)生將會影響到數(shù)據(jù)處理的準(zhǔn)確性和實時性,同時對歷史數(shù)據(jù)分析的定位聚焦要求更高,必須具備更加完善的計算方式。
ETL是建立數(shù)據(jù)倉庫的關(guān)鍵,為確保和現(xiàn)有數(shù)據(jù)庫的無縫管銜接,建立一個相互貫通的數(shù)據(jù)分析系統(tǒng)。在數(shù)據(jù)處理期間,必須遵循統(tǒng)一的制度標(biāo)準(zhǔn),通過對數(shù)據(jù)的清洗、轉(zhuǎn)換與處理,只有符合標(biāo)準(zhǔn)的數(shù)據(jù)才會被加載到數(shù)據(jù)庫內(nèi)。
數(shù)據(jù)抽取就是將結(jié)構(gòu)化或者非結(jié)構(gòu)化中的帶有實際意義的數(shù)據(jù)進行抽取,通過簡單處理,加載到數(shù)據(jù)庫。目前,最為常見的抽取方式包括兩種:增量抽取和全量抽取。當(dāng)系統(tǒng)正常運轉(zhuǎn)后,在不對其運轉(zhuǎn)產(chǎn)生影響的前提下,對各階段進行實時監(jiān)控,通過對新數(shù)據(jù)的增量抓取,選擇有意義的數(shù)據(jù)錄入數(shù)據(jù)庫。到目前為止,這種數(shù)據(jù)抽取方式能夠?qū)Χ喾N類型數(shù)據(jù)庫的連接工作起到支撐作用,滿足大數(shù)據(jù)的應(yīng)用需求[5]。
多源數(shù)據(jù)如果參數(shù)相同,并且可信度和精確度都存在一定的差異,則管理者獲取到的數(shù)據(jù)應(yīng)該屬于多源數(shù)據(jù)的一致性描述,可借助其中的專家經(jīng)驗信息和冗余信息,利用適當(dāng)?shù)囊?guī)范指數(shù)推動數(shù)據(jù)進行融合,這樣一來,便可以將數(shù)據(jù)集整體的置信度提高,保障系統(tǒng)的政策運轉(zhuǎn)。數(shù)據(jù)融合的另外一個功能就是能夠?qū)⒉灰恢碌臄?shù)據(jù)進行轉(zhuǎn)化,并且涉及一些商務(wù)規(guī)則的運算。不一致數(shù)據(jù)轉(zhuǎn)換屬于整合過程,讓所處于不同范圍的數(shù)據(jù)進行統(tǒng)一。
數(shù)據(jù)加載也叫作數(shù)據(jù)提交。對于系統(tǒng)后臺而言,其任務(wù)終點就是準(zhǔn)備好數(shù)據(jù)以供后續(xù)查詢,所以可以將數(shù)據(jù)組織為對稱、簡單的框架模型,也可叫作維度模型。該框架模型的建立,大大減少查詢時間,并且讓開發(fā)過程得到簡化。
在維度模型中,利用數(shù)據(jù)抽取和清洗服務(wù)的數(shù)據(jù)表進行劃定,分為維度表和事實表。其中,維度表通常用作事實表特性的描述,為決策者提供有用信息。另一方面,事實表常見于分析業(yè)務(wù)數(shù)據(jù)的集合,并且當(dāng)前所獲取的數(shù)據(jù)量巨大,所以存儲消耗也比較大。
數(shù)據(jù)加載就是將事實表加載到數(shù)據(jù)庫內(nèi)。因為數(shù)據(jù)抽取分為兩種,所以在加載過程中也可分為兩種:權(quán)力加載和增量加載。但是,兩者對數(shù)據(jù)的處理方式一致。另一方面,數(shù)據(jù)加載過程中,管理人員進一步查詢維度表,查看是否擁有代理鍵,如若不存在,則要對維度表進行更新,同時加載事實表[6]。
對于數(shù)據(jù)治理而言,數(shù)據(jù)標(biāo)準(zhǔn)體系是核心,能夠?qū)⒉煌瑪?shù)據(jù)源的數(shù)據(jù)基于ETL技術(shù)加載到數(shù)據(jù)庫,另外ETL清洗規(guī)則也是基于數(shù)據(jù)表示所編制的。傳統(tǒng)的數(shù)據(jù)模型、質(zhì)量、標(biāo)準(zhǔn)以及元數(shù)據(jù)等數(shù)據(jù)管理活動存在限制,只可以解決數(shù)據(jù)的局部訪問問題。
數(shù)據(jù)標(biāo)準(zhǔn)編制過程分為幾方面:定義業(yè)務(wù)問題、建立業(yè)務(wù)詞庫、了解數(shù)據(jù)、界定標(biāo)準(zhǔn)度量和結(jié)果測量等。
標(biāo)準(zhǔn)建設(shè)基于制度規(guī)則,對標(biāo)準(zhǔn)范圍進行擴充,使得數(shù)據(jù)標(biāo)準(zhǔn)更為精細(xì)化。需要注意的是,修改標(biāo)準(zhǔn)必須要確保及時,并且更新到業(yè)務(wù)系統(tǒng)內(nèi)。
數(shù)據(jù)抽取過程中,基于不同數(shù)據(jù)和不同業(yè)務(wù)的需求,在某些環(huán)節(jié),要將業(yè)務(wù)數(shù)據(jù)庫內(nèi)數(shù)據(jù)進行抽取,通過簡單的清洗與轉(zhuǎn)換,最后將有意義的數(shù)據(jù)加載到數(shù)據(jù)庫內(nèi),這一過程就叫作全量抽取[7]。
全量抽取,第一步要加載數(shù)據(jù)庫驅(qū)動程序,將其與需要抽取的數(shù)據(jù)源進行連接。并對連接情況進行判斷,如果連接失敗,需要記錄失敗的原因。要是連接成功,對表中記錄進行查詢,完成相應(yīng)的數(shù)據(jù)抽取工作,并且將數(shù)據(jù)轉(zhuǎn)入緩存區(qū),對其進行清洗。
因為數(shù)據(jù)具有多樣性的特點,因此業(yè)務(wù)系統(tǒng)難以為存儲數(shù)據(jù)的真實性和準(zhǔn)確性提供保障。
首先,分析能夠?qū)?shù)據(jù)結(jié)果產(chǎn)生影響的異常數(shù)據(jù),利用軟件進行識別,做出判斷,是否需要進行刪除。一般情況下,識別方式有兩種:物流法和統(tǒng)計法。在本次研究中,選取統(tǒng)計判別法對異常數(shù)據(jù)進行分析,在未知總體標(biāo)準(zhǔn)偏差前提下,來對正態(tài)樣本異常情況做出分析,該方式較為嚴(yán)謹(jǐn),效果較高[5]。其次,當(dāng)數(shù)據(jù)嚴(yán)重缺失的時候,也會對分析結(jié)果產(chǎn)生影響,所以需要對缺失值和異常值通過有效方式進行填補。最后,數(shù)據(jù)清洗結(jié)構(gòu)。通過數(shù)據(jù)清洗,可以糾正錯誤,刪除一些重復(fù)的信息。
利用裝備大數(shù)據(jù)治理,深入挖掘數(shù)據(jù)價值,能夠幫助軍隊摸清真實情況,提高數(shù)據(jù)資產(chǎn)的活性,進而提高裝備的精細(xì)化管理能力,為裝備運用新能力提供重要參考。
第一,數(shù)據(jù)地圖。其本質(zhì)就是提供數(shù)據(jù)資產(chǎn)的真實情況。用戶進行點擊,就可以查閱到表的質(zhì)量情況和血緣情況。第二,全鏈分析。主要包括數(shù)據(jù)安全、應(yīng)用、存儲、分析等方面,涵蓋范圍較廣,涉及多個領(lǐng)域。該模塊主要就是提供數(shù)據(jù)在全鏈上的搜索,例如輸入出倉號碼,就可以直接查詢到所有相關(guān)的信息。基于全鏈分析,能夠更加快速便捷的獲取到相應(yīng)的數(shù)據(jù)信息。第三,主題集市?;谘b備業(yè)務(wù)管理分析的需求,站在數(shù)據(jù)治理的層面,來建立主題數(shù)據(jù),通過主題集市的方式為軍隊提供標(biāo)準(zhǔn)化服務(wù)。根據(jù)不同的業(yè)務(wù)規(guī)則完成主題集市的搭建,對于跟業(yè)務(wù)主題存在關(guān)聯(lián)的實體組成實體域,這樣一來,有利于用戶的快速訪問,而且可以提高工作效率。
針對ETL技術(shù)大數(shù)據(jù)治理應(yīng)用,本文制定一套系統(tǒng)的治理方案,包括數(shù)據(jù)抽取、清洗以及加載等方面,并且建立業(yè)務(wù)模塊打通裝備數(shù)據(jù)流,深入挖掘數(shù)據(jù)管理分析價值,將數(shù)據(jù)流驅(qū)動裝備作為業(yè)務(wù)流,實現(xiàn)綜合分析計劃和知識圖譜的建立,從而為軍隊的決策管理提供重要參考。