摘要:數(shù)據(jù)倉(cāng)庫(kù)較傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理有了明顯的改善,為水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)的分析者提供了直觀易懂的數(shù)據(jù)結(jié)構(gòu)圖,為決策層做出決策提供有價(jià)值的信息。因此,將數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)應(yīng)用到水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)的設(shè)計(jì)中是一個(gè)必然的發(fā)展趨勢(shì)。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)結(jié)構(gòu)圖;OLAP
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)27-0003-02
Abstract: Compared to the traditional database, the Data Warehouse has been greatly improved as for the simple data processing. It can offer the LIMS analysts visual data structure diagram which is easy to be understood, and thus bring valuable information to the decision-makers. Therefore, there will be an irreversible trend for the Data Warehouse and OLAP technology to be applied into the LIMS design.
Key words: Data Warehouse; data structure diagram; OLAP
1 引言
因水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)收集的數(shù)據(jù)極其復(fù)雜,很多人進(jìn)入“數(shù)據(jù)豐富,知識(shí)貧乏”的尷尬境地[5]。如何能快速地從浩瀚的數(shù)據(jù)海洋中獲取信息,已經(jīng)成為人們研究的熱點(diǎn)話(huà)題。為了迎合當(dāng)前數(shù)據(jù)分析的需要,現(xiàn)今都是使用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)建立相應(yīng)平臺(tái)的數(shù)據(jù)庫(kù),為進(jìn)一步分析數(shù)據(jù)提供基礎(chǔ)。
2.數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)輸送信息的渠道,它能處理來(lái)自水質(zhì)監(jiān)測(cè)系統(tǒng)不同部門(mén)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不一致性問(wèn)題,將數(shù)據(jù)進(jìn)行清洗、整理等,將“臟”數(shù)據(jù)轉(zhuǎn)化為能夠?yàn)闆Q策者提供有價(jià)值的信息,為決策者提供了一種簡(jiǎn)單、易懂的直觀圖的數(shù)據(jù)分析環(huán)境。
2.1 數(shù)據(jù)倉(cāng)庫(kù)的特征
數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家Ralph Kimball說(shuō)“我們花了二十多年的時(shí)間將數(shù)據(jù)放入數(shù)據(jù)庫(kù),如今是該將它們拿出來(lái)的時(shí)候了[1]”,這句話(huà)概括性的說(shuō)明了數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)兩者之間內(nèi)在的聯(lián)系。數(shù)據(jù)倉(cāng)庫(kù)從當(dāng)初的設(shè)想到現(xiàn)在的發(fā)展,已很好地實(shí)現(xiàn)了對(duì)多個(gè)異構(gòu)的外部數(shù)據(jù)源進(jìn)行數(shù)據(jù)提取、清理、變換、裝入和刷新,其中數(shù)據(jù)清理和變換提高了數(shù)據(jù)的準(zhǔn)確性和一致性,從而為后面的分析和決策訪問(wèn)數(shù)據(jù)提供了便捷、易操作等特點(diǎn)[2]。
數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)是分層式的,而且其中的數(shù)據(jù)大部分與時(shí)間元素有關(guān)[4],但又不是時(shí)刻更新的,而是經(jīng)歷一段時(shí)間后,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換、綜合和分析后印上時(shí)間的烙印,隨著時(shí)間的流逝,經(jīng)過(guò)分析、加工后的數(shù)據(jù)會(huì)逐漸的以時(shí)間階梯的形式存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。
2.2 OLTP與OLAP的區(qū)別
目前數(shù)據(jù)處理分為聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP主要應(yīng)用在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,主要是對(duì)基本的、日常的事務(wù)進(jìn)行處理,例如銀行交易。OLAP主要應(yīng)用在數(shù)據(jù)倉(cāng)庫(kù)體系中,主要是對(duì)復(fù)雜的事務(wù)進(jìn)行分析操作,重點(diǎn)是決策支持與分析,提供直觀易讀的查詢(xún)結(jié)果。
3 體系結(jié)構(gòu)的類(lèi)型
3.1 水質(zhì)監(jiān)測(cè)系統(tǒng)的OLAP體系結(jié)構(gòu)
從邏輯上講,OLAP服務(wù)器為水質(zhì)監(jiān)測(cè)系統(tǒng)提供數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù),不必關(guān)心數(shù)據(jù)怎么存放和存放在什么地方。然而,OLAP服務(wù)器的物理結(jié)構(gòu)和實(shí)現(xiàn)必須考慮數(shù)據(jù)存放問(wèn)題。該系統(tǒng)主要是用特殊的SQL服務(wù)器實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)中日益增長(zhǎng)的OLAP處理的需要。關(guān)系存儲(chǔ)圖如圖1所示:
3.2水質(zhì)監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)
傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)可以高效率地完成數(shù)據(jù)的錄入、查詢(xún)、統(tǒng)計(jì)等功能,但由于水質(zhì)監(jiān)測(cè)的覆蓋范圍很廣,將會(huì)上報(bào)大量的數(shù)據(jù),以及數(shù)據(jù)庫(kù)系統(tǒng)中分析方法的嚴(yán)重不足,使得它無(wú)法發(fā)現(xiàn)數(shù)據(jù)中隱藏的相互聯(lián)系,也無(wú)法根據(jù)當(dāng)前的數(shù)據(jù)去預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),形成了嚴(yán)重的資源浪費(fèi)。
從語(yǔ)義上而言,數(shù)據(jù)倉(cāng)庫(kù)是具有一致性的一種數(shù)據(jù)存儲(chǔ)方式。它是圍繞某些重要主題建立的;能將多個(gè)異構(gòu)的數(shù)據(jù)源集成在一起;物理上能分別存放數(shù)據(jù),根據(jù)需要進(jìn)行裝入和訪問(wèn)。通常情況下,數(shù)據(jù)倉(cāng)庫(kù)被看做是一種體系結(jié)構(gòu)[5],能支持查詢(xún)、分析和決策。與傳統(tǒng)數(shù)據(jù)庫(kù)相比,提高了工作效率及具備良好的擴(kuò)展性。顯然,按實(shí)現(xiàn)某個(gè)具體任務(wù)的需要,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)有針對(duì)性的進(jìn)行抽取、進(jìn)行重新組織和存儲(chǔ),建立了數(shù)據(jù)集市,從而解決了從不同監(jiān)測(cè)點(diǎn)提取數(shù)據(jù)的難題。數(shù)據(jù)集市中的數(shù)據(jù)來(lái)自數(shù)據(jù)倉(cāng)庫(kù),而不是新的數(shù)據(jù)。為此,建立一個(gè)水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)是很有必要的。
數(shù)據(jù)倉(cāng)庫(kù)并不是一個(gè)新鮮事物,它仍是采用計(jì)算機(jī)存儲(chǔ)數(shù)據(jù),這些數(shù)據(jù)都是來(lái)源于分散的傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)的建立是為了決策者能盡可能地按分析所需處理數(shù)據(jù),提高工作效率。數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)相比,具備集成性、主體性、固定性及時(shí)序性等特征。
4 數(shù)據(jù)倉(cāng)庫(kù)在水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)中的應(yīng)用
4.1水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)流程圖
因數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)設(shè)計(jì)過(guò)程離不開(kāi)用戶(hù)的支持,需要不斷地與用戶(hù)進(jìn)行溝通,實(shí)時(shí)的獲取用戶(hù)的需求,因此在實(shí)現(xiàn)的過(guò)程中先不考慮系統(tǒng)的需求分析的具體化。借鑒CLDS方法設(shè)計(jì)該系統(tǒng)的數(shù)據(jù)流程圖圖2。
本文在水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)原有數(shù)據(jù)的基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的,所以在最初設(shè)計(jì)階段不需要考慮系統(tǒng)模塊獨(dú)立的需求分析,而是將其始終滲透到整個(gè)設(shè)計(jì)的過(guò)程中。
4.2 水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
因系統(tǒng)在架構(gòu)時(shí)是需要考慮日后的維護(hù)與功能拓展的必要性,在構(gòu)建時(shí)要重點(diǎn)考慮怎么架構(gòu)才是合理的,不能因?yàn)樾枰卣苟匦略O(shè)計(jì);在經(jīng)濟(jì)上也要考慮可行性,擴(kuò)展功能時(shí)不需要花很多錢(qián)。隨著技術(shù)的發(fā)展和時(shí)間的推移,從水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)功能會(huì)不斷完善的實(shí)際情況出發(fā)進(jìn)行考慮,采用數(shù)據(jù)倉(cāng)庫(kù)“自頂向下”的方法,設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)模型[3] 。
1)數(shù)據(jù)庫(kù)的星型結(jié)構(gòu)模型
數(shù)據(jù)庫(kù)是面向用戶(hù)和面向主題的,用星型結(jié)構(gòu)和雪花結(jié)構(gòu)進(jìn)行建模使用戶(hù)容易讀懂和理解。大部分模型都是建立在星型結(jié)構(gòu)上,充分展示它的多維性;雪花模型表數(shù)量多,降低了直觀性。水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)數(shù)據(jù)源的復(fù)雜性,選擇星型結(jié)構(gòu)建立數(shù)據(jù)庫(kù)。
2)邏輯模型設(shè)計(jì)
星型模型是通過(guò)事實(shí)表和維表的公共屬性構(gòu)建而成的一種多維結(jié)構(gòu),能夠清晰的體現(xiàn)出觀察者是從哪個(gè)角度對(duì)數(shù)據(jù)進(jìn)行分析的,因此該系統(tǒng)采用星型模型結(jié)構(gòu)來(lái)完成事實(shí)表的設(shè)計(jì)。
事實(shí)表設(shè)計(jì):本系統(tǒng)中創(chuàng)建的水質(zhì)監(jiān)測(cè)事實(shí)表主要包括監(jiān)測(cè)點(diǎn)區(qū)域(zone)、年份(year)、月份(month)、季度(quarter)、錄入人員(guest)、區(qū)域管理員(admin)、區(qū)域?qū)徍藛T(check)和河流(stream)等字段。time是一個(gè)集合的名字,該集合由監(jiān)測(cè)不同的時(shí)間組成,包含的元素是監(jiān)測(cè)區(qū)域不同時(shí)間段數(shù)據(jù)值,所有水質(zhì)監(jiān)測(cè)的數(shù)據(jù)按區(qū)域按時(shí)間分門(mén)別類(lèi)的存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,便于對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行分析操作。
5 結(jié)束語(yǔ)
本文闡述了數(shù)據(jù)倉(cāng)庫(kù)的特征,對(duì)水質(zhì)監(jiān)測(cè)(LIMS)系統(tǒng)采用數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)進(jìn)行了分析,同時(shí)采用星型結(jié)構(gòu)模型構(gòu)建數(shù)據(jù)庫(kù),采用OLAP技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析,提高工作效率。
參考文獻(xiàn):
[1]Ralph Kimball Laura Reeves,Margy Ross Warren Thornthw aite (肖明,王永紅,等譯).設(shè)計(jì)、開(kāi)發(fā)和部署數(shù)據(jù)倉(cāng)庫(kù)的專(zhuān)家方法[M].北京:電子工業(yè)出版社,2004.
[2]W.H.Inman,Bu lding the Data Warehouse[M]. New York John Wiley&Sons,1996.
[3]盧發(fā). 數(shù)據(jù)挖掘在中職學(xué)生紀(jì)律管理中的應(yīng)用[D.大連:大連理工大學(xué),2009.
[4]劉華敏.數(shù)據(jù)挖掘在高職院校學(xué)生成績(jī)分析中的應(yīng)用[D].合肥:安徽大學(xué),2011.
[5]JweiHan,Micheline Kamber,Jian Pei(范明,孟小峰,譯).數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].北京:機(jī)械工業(yè)出版社,2012.