趙谞博,韓 麗
(秦皇島港股份有限公司,河北 秦皇島 066002)
基于OLAP的秦皇島港口煤炭生產(chǎn)數(shù)據(jù)分析及可視化應(yīng)用
趙谞博,韓 麗
(秦皇島港股份有限公司,河北 秦皇島 066002)
從秦皇島港的基礎(chǔ)數(shù)據(jù)出發(fā),運(yùn)用OLAP數(shù)據(jù)分析技術(shù),通過(guò)維度建模的方式構(gòu)建了港口船舶、堆場(chǎng)、設(shè)備、費(fèi)收、客戶等煤炭生產(chǎn)主題數(shù)據(jù)倉(cāng)庫(kù)模型,使用時(shí)間序列指數(shù)平滑預(yù)測(cè)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,基于OLAP體系結(jié)構(gòu),對(duì)模型中的數(shù)據(jù)抽取、轉(zhuǎn)換和加載給出了詳細(xì)分析與設(shè)計(jì),針對(duì)所選主題設(shè)計(jì)和實(shí)現(xiàn)了OLAP多維分析功能,實(shí)現(xiàn)對(duì)煤炭生產(chǎn)數(shù)據(jù)的多角度、多側(cè)面、多層次綜合分析,完成港口煤炭生產(chǎn)數(shù)據(jù)可視化應(yīng)用體系建設(shè),為港口管理者提供可靠、直觀的有效數(shù)據(jù)支撐。
秦皇島港;OLAP;生產(chǎn)數(shù)據(jù)分析;可視化
隨著世界經(jīng)濟(jì)一體化進(jìn)程的日益深入,港口作為重要的交通樞紐和現(xiàn)代物流中心的核心節(jié)點(diǎn),隨著數(shù)據(jù)量的不斷累積,巨大的數(shù)據(jù)量與數(shù)據(jù)分析滯后帶來(lái)的問(wèn)題日益突出。由于港口業(yè)務(wù)數(shù)據(jù)具有海量、高維、網(wǎng)絡(luò)化及地理相關(guān)等數(shù)據(jù)特性,目前秦皇島港存在不具備對(duì)煤炭數(shù)據(jù)的綜合能力、缺乏對(duì)歷史煤炭數(shù)據(jù)的分析和預(yù)測(cè)、查詢結(jié)果缺乏分析能力、缺乏動(dòng)態(tài)的數(shù)據(jù)集成功能、缺乏決策支持功能等眾多數(shù)據(jù)分析問(wèn)題。如何借助OLAP等數(shù)據(jù)分析工具,挖掘繁雜分散數(shù)據(jù)源中隱含的信息,根據(jù)數(shù)據(jù)的分布找出規(guī)律,并根據(jù)此規(guī)律進(jìn)行分析決策,為貨主、港口企業(yè)、監(jiān)管部門、港口行政管理部門以及社會(huì)其他部門之間提供大量有價(jià)值的信息,為各級(jí)管理層科學(xué)的決策提供數(shù)據(jù)和理論支持,對(duì)港口的生產(chǎn)發(fā)展具有重要意義。因此,秦皇島港構(gòu)建港口煤炭生產(chǎn)數(shù)據(jù)的OLAP分析和可視化平臺(tái)勢(shì)在必行。
從國(guó)內(nèi)外港口企業(yè)信息化和OLAP技術(shù)的發(fā)展來(lái)看,OLAP分析技術(shù)和港口信息化程度都發(fā)展的比較成熟,綜合運(yùn)用到港口企業(yè)日常生產(chǎn)中能夠發(fā)揮重要的作用。港口信息化程度可以有效的為OLAP分析提供數(shù)據(jù)支持,二者相互配合能夠全面提高港口的數(shù)字化、信息化、科學(xué)化程度。本文旨在構(gòu)建煤炭主題數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu),使其適合OLAP分析技術(shù)的應(yīng)用要求,并設(shè)計(jì)基于煤炭生產(chǎn)數(shù)據(jù)的OLAP分析及可視化系統(tǒng)。首先,建立數(shù)據(jù)倉(cāng)庫(kù)星型模型,滿足OLAP對(duì)多維數(shù)據(jù)集的需求:分析數(shù)據(jù)特點(diǎn)確定相應(yīng)的主題域,以秦皇島港現(xiàn)有數(shù)據(jù)為基礎(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)模型。然后,設(shè)計(jì)煤炭生產(chǎn)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),對(duì)煤炭生產(chǎn)數(shù)據(jù)進(jìn)行OLAP分析,并通過(guò)時(shí)間序列指數(shù)平滑預(yù)測(cè)算法,用于預(yù)測(cè)秦皇島港吞吐量等信息的處理,以得到可信度較高的預(yù)測(cè)值;引入頻繁模式挖掘Apriori算法,用于挖掘秦皇島港生產(chǎn)業(yè)務(wù)中各個(gè)數(shù)據(jù)字段之間的關(guān)聯(lián)關(guān)系,并根據(jù)算法先驗(yàn)性質(zhì)對(duì)原有的基本算法進(jìn)行優(yōu)化分析。最后,重點(diǎn)論述煤炭生產(chǎn)數(shù)據(jù)可視化應(yīng)用過(guò)程。通過(guò)上述研究有效提高港口煤炭生產(chǎn)數(shù)據(jù)的綜合運(yùn)用能力,分析挖掘出數(shù)據(jù)背后的隱含信息,找到生產(chǎn)發(fā)展的有效突破點(diǎn),滿足港口企業(yè)生產(chǎn)和決策需求。
數(shù)據(jù)挖掘是從海量的信息中發(fā)掘有效的、潛在的、未知的、有價(jià)值信息的過(guò)程。數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,為港口煤炭生產(chǎn)數(shù)據(jù)管理中存在的分析和挖掘功能缺乏的問(wèn)題提供了解決方法。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到港口的生產(chǎn)和決策,通過(guò)大量的數(shù)據(jù)發(fā)現(xiàn)其中隱含的與企業(yè)生產(chǎn)發(fā)展有關(guān)的信息知識(shí),已經(jīng)成為研究熱點(diǎn)。
秦皇島港煤炭生產(chǎn)數(shù)據(jù)中蘊(yùn)含大量有價(jià)值的信息。面對(duì)繁雜又分散的數(shù)據(jù)資源,一般的信息處理方法,如報(bào)表統(tǒng)計(jì)、指標(biāo)查詢等無(wú)法挖掘出數(shù)據(jù)的隱含信息。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于秦皇島港的煤炭生產(chǎn)數(shù)據(jù)管理中,有效分析和挖掘數(shù)據(jù)中的隱含信息,提高數(shù)據(jù)利用率,通過(guò)有效的數(shù)據(jù)管理方法挖掘出港口煤炭生產(chǎn)數(shù)據(jù)之間的各種關(guān)系,挖掘的結(jié)果能夠指導(dǎo)秦皇島港乃至環(huán)渤海區(qū)域煤炭業(yè)務(wù)的發(fā)展,使得秦皇島港更好地把握煤炭業(yè)務(wù)經(jīng)營(yíng)狀況,更客觀地對(duì)煤炭業(yè)務(wù)做出決策,對(duì)提升港口的核心競(jìng)爭(zhēng)能力具有非常重要的意義。
概念模型設(shè)計(jì)就是需求分析,確定數(shù)據(jù)倉(cāng)庫(kù)建立所需的數(shù)據(jù)源,建立容易理解的數(shù)據(jù)模型,有效地完成用戶查詢和數(shù)據(jù)之間的映射,涉及到數(shù)據(jù)倉(cāng)庫(kù)使用者所提出的決策問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)的概念模型是面向秦皇島港煤炭業(yè)務(wù)而建立的,它為集成來(lái)自各個(gè)子公司煤炭系統(tǒng)的數(shù)據(jù)提供統(tǒng)一的概念視圖,概念模型的設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì)。首先,要完整而清晰的認(rèn)識(shí)到秦皇島港現(xiàn)有煤炭生產(chǎn)數(shù)據(jù)庫(kù)中的數(shù)據(jù)內(nèi)容,然后,通過(guò)建立數(shù)據(jù)倉(cāng)庫(kù)將原有煤炭生產(chǎn)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)進(jìn)行集成、重組,進(jìn)而組成新的數(shù)據(jù)集合,同時(shí)要充分調(diào)研企業(yè)管理者和決策者對(duì)煤炭生產(chǎn)數(shù)據(jù)分析的需求,以此確定系統(tǒng)邊界和定義主題域來(lái)反映數(shù)據(jù)倉(cāng)庫(kù)的概念模型。
本節(jié)采用維度建模的方式,建立符合OLAP要求的數(shù)據(jù)倉(cāng)庫(kù)模型。以星型模型為主,雪花模型為輔,根據(jù)港口船舶、堆場(chǎng)、設(shè)備、費(fèi)收、客戶等煤炭生產(chǎn)主題數(shù)據(jù)倉(cāng)庫(kù)建立數(shù)據(jù)倉(cāng)庫(kù)模型。針對(duì)以上不同的星型或雪花模型的設(shè)計(jì),延伸不同業(yè)務(wù)主題分析,主要分為設(shè)備與煤炭生產(chǎn)、堆場(chǎng)與煤炭生產(chǎn),船舶管理數(shù)據(jù),船舶與費(fèi)收等主題。本節(jié)采取星型模型和雪花模型的混合物,實(shí)現(xiàn)方式是:數(shù)據(jù)集是星型架構(gòu)的一部分,以促進(jìn)數(shù)據(jù)提取及分析,并利用雪花模型的中間層,以減少數(shù)據(jù)冗余度。根據(jù)以上業(yè)務(wù)主題所設(shè)計(jì)數(shù)據(jù)模型,由于主題眾多,本節(jié)以設(shè)備與煤炭生產(chǎn)主題為例,設(shè)計(jì)結(jié)果如圖1所示。
圖1 設(shè)備星型模型圖
在對(duì)煤炭生產(chǎn)系統(tǒng)進(jìn)行OLAP分析之前,需要進(jìn)行數(shù)據(jù)預(yù)處理,以符合OLAP分析要求。為了更好的對(duì)原始港口數(shù)據(jù)進(jìn)行預(yù)處理,本節(jié)通過(guò)基于時(shí)間序列指數(shù)平滑預(yù)測(cè)算法完成數(shù)據(jù)處理ETL過(guò)程,將處理后的數(shù)據(jù)轉(zhuǎn)換裝載到數(shù)據(jù)倉(cāng)庫(kù)中。針對(duì)港口設(shè)備維修的花費(fèi)周期、港口設(shè)備初期中期成本計(jì)算和堆存量的預(yù)測(cè)等業(yè)務(wù)采用了指數(shù)平滑預(yù)測(cè),通過(guò)相關(guān)實(shí)際數(shù)和預(yù)測(cè)值,用指數(shù)加權(quán)的方法進(jìn)行了預(yù)測(cè)。
(1)概念模型設(shè)計(jì)。對(duì)于設(shè)備與煤炭生產(chǎn)主題,經(jīng)過(guò)分 析,構(gòu)成為事實(shí)表度量值的是故障時(shí)間和工作時(shí)間,以上度量值是通過(guò)維度表中的維修記錄中的維修時(shí)間和工作記錄維表中的工作和檢查時(shí)間決定的,經(jīng)過(guò)分析,得出設(shè)備主題描述,見(jiàn)表1。
表1 設(shè)備主題描述
(2)邏輯模型設(shè)計(jì)。設(shè)備與煤炭生產(chǎn)主題數(shù)據(jù)倉(cāng)庫(kù)包含了多個(gè)多維數(shù)據(jù)集,并且多維數(shù)據(jù)集是基于以維表和事實(shí)表為基礎(chǔ)的數(shù)據(jù)模型。經(jīng)過(guò)分析,設(shè)計(jì)時(shí)間維,設(shè)備維,堆場(chǎng)維,維修記錄維,工作記錄維等五個(gè)維度表,見(jiàn)表2。
表2 維層次表
關(guān)于事實(shí)表,構(gòu)成為事實(shí)表度量值的是故障時(shí)間和工作時(shí)間,這兩個(gè)度量值是通過(guò)維度表中維修記錄中的維修時(shí)間和工作記錄維表中工作和檢查時(shí)間決定的,通過(guò)從數(shù)據(jù)倉(cāng)庫(kù)查詢出的數(shù)據(jù)計(jì)算得到的故障時(shí)間和工作時(shí)間。通過(guò)關(guān)聯(lián)規(guī)則算法對(duì)已有數(shù)據(jù)進(jìn)行強(qiáng)關(guān)聯(lián)規(guī)則篩選,得到頻繁項(xiàng)目集,并通過(guò)函數(shù)進(jìn)行記錄,對(duì)頻繁項(xiàng)目集進(jìn)行操作,選出具有強(qiáng)關(guān)聯(lián)規(guī)則的兩部分,并找出其中的關(guān)聯(lián)。例如可以找出季節(jié)和煤炭發(fā)往地的關(guān)系,找出在規(guī)定閾值以上的季節(jié)和煤炭發(fā)往地之間的強(qiáng)關(guān)聯(lián)規(guī)則。業(yè)務(wù)分析員可以在系統(tǒng)界面選擇要篩選的字段,通過(guò)后臺(tái)的運(yùn)行和篩選得出結(jié)論反饋到系統(tǒng)界面。
維度表成員設(shè)計(jì)和事實(shí)表度量值的設(shè)計(jì)如下:
時(shí)間維(Time):成員有年、季節(jié)、月、日期;層次是以年、季節(jié)、月、日期的順序構(gòu)成時(shí)間維的層次結(jié)構(gòu)。
設(shè)備維(Equipment):成員有設(shè)備名稱、設(shè)備型號(hào)、設(shè)備備注。
維修維(Repair):成員有維修總時(shí)間、組織停工時(shí)間、發(fā)生故障部位、維修所耗費(fèi)用。
工作時(shí)間維(Worktime):成員有啟動(dòng)前檢查時(shí)間、具體運(yùn)行時(shí)間。
堆場(chǎng)維(Yard):成員有堆場(chǎng)名稱、堆場(chǎng)責(zé)任人姓名。維度表的成員確定后,在事實(shí)表中要確定度量值,也就是本文使用數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)進(jìn)行分析時(shí)的對(duì)象,在設(shè)備與煤炭生產(chǎn)的數(shù)據(jù)倉(cāng)庫(kù)中,設(shè)置停工總時(shí)間、工作總時(shí)間作為度量值進(jìn)行分析,通過(guò)以上步驟,完成事實(shí)表和維度表的邏輯結(jié)構(gòu)設(shè)計(jì)。
(3)物理模型設(shè)計(jì)。由于篇幅所限,以時(shí)間維度為例,時(shí)間維度表包含了年-季度-月-日4個(gè)時(shí)間維度層次。時(shí)間維度是每一個(gè)多維數(shù)據(jù)集必需的。此多維數(shù)據(jù)集的唯一時(shí)間維度表見(jiàn)表3。
表3 時(shí)間維度表(time)
OLAP數(shù)據(jù)分析是港口各個(gè)主題與煤炭生產(chǎn)相關(guān)數(shù)據(jù)處理的主要方式。港口項(xiàng)目的核心在于數(shù)據(jù)的處理手段,本文采用基于Oracle的OLAP數(shù)據(jù)分析手段。根據(jù)之前設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)星型模型,建立立方體(CUBE),展示數(shù)據(jù)變化,以及對(duì)數(shù)據(jù)度量進(jìn)行數(shù)值化操作。具體的步驟是:AWM(Analytic Workspace Manager)工具是Oracle 12c數(shù)據(jù)庫(kù)的科學(xué)統(tǒng)計(jì)分析中間件,本節(jié)利用該工具創(chuàng)建維度,創(chuàng)建CUBE(立方體),進(jìn)行上卷和下鉆等操作,使用自定義的查詢語(yǔ)言直接訪問(wèn)Analysis Service服務(wù)中的多維數(shù)據(jù)集,也可以通過(guò)工具直接對(duì)度量值和維度拖拽查詢數(shù)據(jù),并可以通過(guò)前端展現(xiàn)工具滿足不同數(shù)據(jù)分析應(yīng)用需求,將數(shù)據(jù)以合理的形式展現(xiàn)給用戶。以同比分析為例,分析系統(tǒng)設(shè)計(jì)界面分析如圖2所示。
基于OLAP體系結(jié)構(gòu)設(shè)計(jì)數(shù)據(jù)的抽取、清洗和預(yù)計(jì)算等操作,將數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)。基于OLAP技術(shù)設(shè)計(jì)分析引擎,采用維度的選擇和旋轉(zhuǎn),任意維度的上鉆和下鉆,以及時(shí)間維的切片等操作來(lái)分析煤炭生產(chǎn)數(shù)據(jù),并利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)把數(shù)據(jù)信息轉(zhuǎn)換為圖像信息在屏幕上顯現(xiàn)出來(lái)。將數(shù)據(jù)倉(cāng)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖形元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。
圖2 煤炭生產(chǎn)數(shù)據(jù)同比分析界面
煤炭生產(chǎn)數(shù)據(jù)可視化開(kāi)發(fā)應(yīng)用主要從不同的數(shù)據(jù)層次挖掘數(shù)據(jù)信息的潛在價(jià)值,發(fā)現(xiàn)數(shù)據(jù)之美。通過(guò)以可視化交互的方式,從不同的層次維度,對(duì)數(shù)據(jù)分析鉆取結(jié)果進(jìn)行有效、直觀的展現(xiàn)。本節(jié)從煤炭生產(chǎn)數(shù)據(jù)中的客戶關(guān)系可視化設(shè)計(jì)角度出發(fā),闡述煤炭生產(chǎn)數(shù)據(jù)可視化應(yīng)用實(shí)現(xiàn)方式。通過(guò)從公司、委托人、煤種、時(shí)間等不同的層次維度,對(duì)數(shù)據(jù)分析鉆取并以可視交互的形式展現(xiàn)趨勢(shì)、同比、環(huán)比等數(shù)據(jù)分析結(jié)果,從而實(shí)現(xiàn)不同的層次維度基點(diǎn)上可視化分析鉆取展現(xiàn)。以火車調(diào)入數(shù)據(jù)信息為例,通過(guò)利用大數(shù)據(jù)分析技術(shù),所得到的分析結(jié)果如圖3所示。
(1)煤炭從中國(guó)中煤能源股份有限公司(專)的調(diào)進(jìn)量比較穩(wěn)定,從五月份開(kāi)始煤炭調(diào)進(jìn)量有增加趨勢(shì),之后又趨于平穩(wěn)。
(2)點(diǎn)擊調(diào)進(jìn)噸數(shù)降序排序,從中煤平朔集團(tuán)有限公司調(diào)進(jìn)的煤炭量在五月份最高。
綜上,通過(guò)煤炭生產(chǎn)數(shù)據(jù)可視化開(kāi)發(fā)應(yīng)用,將大數(shù)據(jù)、數(shù)據(jù)挖掘等先進(jìn)的信息技術(shù)運(yùn)用到港口煤炭生產(chǎn)數(shù)據(jù)可視化管理中,有效分析和挖掘煤炭數(shù)據(jù)中的隱含信息,將業(yè)務(wù)趨勢(shì)、相關(guān)性、同期比、環(huán)比等指標(biāo)以可視化效果展現(xiàn),將數(shù)據(jù)的潛在價(jià)值轉(zhuǎn)化為生產(chǎn)動(dòng)能,為港口優(yōu)化生產(chǎn)組織、挖潛增效提供新的突破口與增長(zhǎng)點(diǎn)。
圖3 客戶關(guān)系管理數(shù)據(jù)分析界面
本文在對(duì)秦皇島港煤炭生產(chǎn)業(yè)務(wù)詳細(xì)調(diào)研分析的基礎(chǔ)上,對(duì)煤炭生產(chǎn)數(shù)據(jù)進(jìn)行可視化分析,針對(duì)煤炭業(yè)務(wù)設(shè)計(jì)不同主題,建立星型模型為主的數(shù)據(jù)倉(cāng)庫(kù);設(shè)計(jì)OLAP分析系統(tǒng),應(yīng)用到煤炭生產(chǎn)業(yè)務(wù)主題中的各方面,處理港口煤炭主題數(shù)據(jù)倉(cāng)庫(kù)中的龐雜數(shù)據(jù),包括建立數(shù)據(jù)CUBE(立方體),便于用戶進(jìn)行鉆取、下鉆等OLAP基本操作;利用AWM分析中間件對(duì)CUBE(立方體)進(jìn)行可視化顯示;通過(guò)時(shí)間序列指數(shù)平滑預(yù)測(cè)算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,用于預(yù)測(cè)秦皇島港吞吐量等信息的處理,并得到可信度較高的預(yù)測(cè)值;引入頻繁模式挖掘Apriori算法挖掘煤炭業(yè)務(wù)中各數(shù)據(jù)字段之間的關(guān)聯(lián)關(guān)系;最后以火車調(diào)入數(shù)據(jù)信息為例,闡述了煤炭生產(chǎn)業(yè)務(wù)可視化應(yīng)用開(kāi)發(fā)思路。港口生產(chǎn)數(shù)據(jù)業(yè)務(wù)分析及可視化應(yīng)用利用數(shù)據(jù)挖掘方法對(duì)秦皇島港的煤炭業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,為港口的決策者提供科學(xué),準(zhǔn)確的決策支持,帶動(dòng)港口業(yè)務(wù)水平的提高,有助于發(fā)現(xiàn)隱含的煤炭業(yè)務(wù)之間的相關(guān)性,通過(guò)挖掘煤炭業(yè)務(wù)與其他業(yè)務(wù)之間的關(guān)聯(lián),有效提高秦皇島港煤炭業(yè)務(wù)的經(jīng)濟(jì)效益。
[1]侯貴賓.港口煤炭生產(chǎn)管理可視化集成平臺(tái)[J].港口科技,2013,(8):59-60.
[2]蘇俊鵬.基于聚類和關(guān)聯(lián)規(guī)則的港口生產(chǎn)數(shù)據(jù)挖掘研究[D].北京:北京交通大學(xué),2014,29-40.
[3]劉洋.基于數(shù)據(jù)采集的設(shè)備管控系統(tǒng)在港口的應(yīng)用[J].港口科技,2015,(11):46-48.
OLAP-based Analysis and Visual Application of Coal Production Data at Qinhuangdao Port
Zhao Xubo,Han Li
(Qinhuangdao Port Co.,Ltd.,Qinhuangdao 066002,China)
In this paper,starting with the fundamental data of the Qinhuangdao port,we used the OLAP process to build the data library model for such involved subjects of the port as vessels,storage yards,equipment,charges and customers,etc.,used the time series exponential smoothing forecasting to pre-treat the data in advance,and then based on the OLAP architecture,analyzed and designed in detail the extraction,conversion and loading of the data in the model.In this way,we designed and realized the OLAP multi-dimensional analytic function for the subjects chosen,rendered the coal production data available for multi-perspective,multi-faceted and multi-layered analysis and accomplished the construction of the port coal production data visualized application system.
Qinhuangdao port;OLAP;production data analysis;visualization
F253.9;F407.21
A
1005-152X(2017)09-0171-04
10.3969/j.issn.1005-152X.2017.09.039
2017-08-10
趙谞博(1979-),男,河北張家口人,高級(jí)工程師,碩士,主要研究方向:港口企業(yè)物流信息化等。