陳玉東,姚 青
(山東大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 濟南250101)
以業(yè)務(wù)流程的優(yōu)化與再造為核心的業(yè)務(wù)流程智能(business process intelligence,BPI)是以業(yè)務(wù)過程中的流程數(shù)據(jù)為基礎(chǔ)進行知識模式的挖掘,從而實現(xiàn)流程的優(yōu)化,進而提高企業(yè)在當(dāng)今復(fù)雜多變的商業(yè)環(huán)境中的核心競爭力。數(shù)據(jù)抽?。╡xtract)、轉(zhuǎn)換(transformation)、裝載(loading)作為數(shù)據(jù)倉庫的基礎(chǔ),是BPI系統(tǒng)中至關(guān)重要的組成部分。ETL完成的質(zhì)量決定了數(shù)據(jù)倉庫中數(shù)據(jù)的準(zhǔn)確性和完整性,進而決定了整個BPI系統(tǒng)的流程優(yōu)化的成敗?;谏虅?wù)智能的評估系統(tǒng)是一個以業(yè)務(wù)流程優(yōu)化為目的的業(yè)務(wù)流程智能系統(tǒng),該系統(tǒng)以流程實例數(shù)據(jù)為基礎(chǔ),通過對流程實例的數(shù)據(jù)進行評估,實現(xiàn)流程的再造與優(yōu)化。而ETL作為整個系統(tǒng)的基礎(chǔ)更是重中之重,確保數(shù)據(jù)一致性和準(zhǔn)確性、統(tǒng)一又足夠深度的維度,同時兼顧數(shù)據(jù)合理性。本文結(jié)合流程數(shù)據(jù)的特點,搭建了一個業(yè)務(wù)流程數(shù)據(jù)轉(zhuǎn)換架構(gòu) (business process transformation framework,BPTF),用于解決流程數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換問題;結(jié)合該架構(gòu)制定了一系列適用于業(yè)務(wù)流程數(shù)據(jù)轉(zhuǎn)換規(guī)則,確保轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中的流程數(shù)據(jù)的準(zhǔn)確性和完整性;最后給出了相應(yīng)的數(shù)據(jù)轉(zhuǎn)換算法。
BPI已經(jīng)越來越廣泛的應(yīng)用于企業(yè)的流程再造和優(yōu)化,可以將它總結(jié)為基于商務(wù)智能在業(yè)務(wù)流程中的應(yīng)用[1,2],業(yè)務(wù)流程管理系統(tǒng)記錄了許多類型的事件,包括每個活動的開始和結(jié)束時間,它的輸入輸出數(shù)據(jù),執(zhí)行它需要的資源,以及活動和流程執(zhí)行期間的失敗。通過將流程日志清洗聚集到一個數(shù)據(jù)倉庫,并且用商務(wù)智能技術(shù)分析他們,提取關(guān)于發(fā)生在過去的高或低質(zhì)量的執(zhí)行情況的知識,并用這些信息解釋為什么會發(fā)生這樣的事,并預(yù)測流程執(zhí)行的潛在問題。每個業(yè)務(wù)流程智能系統(tǒng)都是以流程數(shù)據(jù)為基礎(chǔ)構(gòu)建的[3],而ETL是保證整個系統(tǒng)數(shù)據(jù)質(zhì)量的關(guān)鍵??梢?,ETL是保證業(yè)務(wù)流程智能系統(tǒng)得以準(zhǔn)確高效執(zhí)行的關(guān)鍵。
基于商務(wù)智能的流程評估系統(tǒng)是BPI的實際應(yīng)用,通過搭建流程評估體系,利用數(shù)據(jù)挖掘中對數(shù)據(jù)處理的思想和方法,對異常、特例等噪聲數(shù)據(jù)進行清洗、轉(zhuǎn)換,更好地分析各個評估指標(biāo),以實現(xiàn)企業(yè)流程的評估、優(yōu)化和再造[4]。ETL就是整個系統(tǒng)的基礎(chǔ)和關(guān)鍵組成部分。文獻(xiàn)[5-7]給出了ETL通用架構(gòu),并根據(jù)不同的領(lǐng)域設(shè)置限制條件,進而設(shè)計了適合所在領(lǐng)域的ETL 系統(tǒng)。文獻(xiàn) [7]給出了基于XML的通用的數(shù)據(jù)轉(zhuǎn)換規(guī)則。文獻(xiàn) [8]通過映射的方法將數(shù)據(jù)轉(zhuǎn)換描述成源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射,并給出了相應(yīng)的數(shù)據(jù)轉(zhuǎn)換算法。本文的研究背景中的流程評估系統(tǒng)需求的流程數(shù)據(jù)具有維度、粒度等的不確定性;且現(xiàn)有流程數(shù)據(jù)大都存在于異構(gòu)的數(shù)據(jù)源中,數(shù)據(jù)格式及對同類數(shù)據(jù)的描述都具有極大的差異性,因此流程數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換過程相較通用ETL過程具有更高的準(zhǔn)確性和完整性需求,但文獻(xiàn)中的通用ETL 顯然無法滿足流程評估系統(tǒng)的需求。
本文在現(xiàn)有的通用ETL數(shù)據(jù)轉(zhuǎn)換方法的基礎(chǔ)上,結(jié)合BPI的思路給出了在商務(wù)智能需求下的流程數(shù)據(jù)的轉(zhuǎn)換問題解決方案,結(jié)合流程數(shù)據(jù)的特點以及流程評估系統(tǒng)的具體需要,搭建了適用于業(yè)務(wù)流程數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換架構(gòu),制定了適用于流程數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換規(guī)則,并通過實例給出說明,為面向流程的數(shù)據(jù)倉庫研究工作提供配合和支持。
基于商務(wù)智能的評估系統(tǒng)是一個通過對已執(zhí)行成功的業(yè)務(wù)流程數(shù)據(jù)進行挖掘來實現(xiàn)流程的分析評估進而達(dá)到系統(tǒng)的優(yōu)化。本節(jié)針對流程數(shù)據(jù)提出ETL的方法。
數(shù)據(jù)轉(zhuǎn)換的目的就是將存儲于異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的目標(biāo)數(shù)據(jù)格式,以備加載到數(shù)據(jù)倉庫中,而業(yè)務(wù)流程的數(shù)據(jù)轉(zhuǎn)換的源數(shù)據(jù)就是被抽取到臨時數(shù)據(jù)庫中的流程日志。圖1給出業(yè)務(wù)流程數(shù)據(jù)轉(zhuǎn)換架構(gòu)。已從數(shù)據(jù)源中抽取出的流程日志存儲在一個臨時的數(shù)據(jù)庫1中,數(shù)據(jù)轉(zhuǎn)換引擎從臨時數(shù)據(jù)庫1中提取一個流程日志并從規(guī)則庫中導(dǎo)入轉(zhuǎn)換規(guī)則,生成數(shù)據(jù)倉庫中的事實表和維表,并暫時存儲在臨時數(shù)據(jù)庫2中,以備后續(xù)的加載工作。
圖1 基于流程數(shù)據(jù)的ETL數(shù)據(jù)轉(zhuǎn)換架構(gòu)
臨時數(shù)據(jù)庫1:用于異構(gòu)的數(shù)據(jù)源中的流程日志通過數(shù)據(jù)抽取獲得的數(shù)據(jù)的臨時存儲。
ETL數(shù)據(jù)轉(zhuǎn)換引擎:用于數(shù)據(jù)轉(zhuǎn)換的自動化和轉(zhuǎn)換規(guī)則的自動識別以及異常的處理,是整個架構(gòu)的中心。
基于xml的轉(zhuǎn)換規(guī)則庫:存儲定義好的流程轉(zhuǎn)換規(guī)則。
規(guī)則解析器:解析基于xml的轉(zhuǎn)換規(guī)則,以便轉(zhuǎn)換引擎的識別。
臨時數(shù)據(jù)庫2:存儲轉(zhuǎn)換完成的流程數(shù)據(jù),以便后續(xù)的加載工作。
企業(yè)的合并重組,通常會對其經(jīng)營模式帶來改變,其財務(wù)管理機制也將受到影響。例如,生產(chǎn)型企業(yè)與銷售型企業(yè)合并后,新企業(yè)的經(jīng)營范圍將大幅擴展。若生產(chǎn)型企業(yè)占據(jù)了主導(dǎo)地位,則財務(wù)部門的管理范圍將向銷售、儲運等環(huán)節(jié)延展。反之亦然。但在這一過程中,財務(wù)資源會密集交接,人員變更將更為頻繁。傳統(tǒng)的財務(wù)管理機制,無法應(yīng)對規(guī)模擴大、審核延長等管理體系的變化。
異常處理:轉(zhuǎn)換過程中出現(xiàn)的異常情況處理,可以與業(yè)務(wù)人員進行交互。
用戶需求:流程優(yōu)化需要的屬性集以及相關(guān)業(yè)務(wù)領(lǐng)域知識和參數(shù)。
系統(tǒng)的工作原理:首先輸入用戶的具體需求,ETL 數(shù)據(jù)轉(zhuǎn)換引擎調(diào)用轉(zhuǎn)換規(guī)則1 (見3.3),生成目標(biāo)表如圖2所示,同時將相關(guān)的參數(shù)返回規(guī)則庫,然后引擎從臨時數(shù)據(jù)庫1調(diào)入源數(shù)據(jù),同時分析從源數(shù)據(jù)到目標(biāo)表數(shù)據(jù)所需轉(zhuǎn)換規(guī)則,調(diào)用相應(yīng)的規(guī)則,生成目標(biāo)表數(shù)據(jù),并存儲于臨時數(shù)據(jù)庫2中。假如客戶是保險行業(yè),則數(shù)據(jù)轉(zhuǎn)換的對象就是保險行業(yè)的流程數(shù)據(jù),首先輸入的是保險行業(yè)的知識和客戶的需求,例如客戶滿意度與流程時間和賠付的額度以及同行業(yè)的相同流程平均時間和平均賠付額度有關(guān),流程時間低于行業(yè)相同流程平均時間,賠付額度高于平均額度則客戶滿意度高,如式 (1)所示,具體的a、b取值根據(jù)實際客戶需求,行業(yè)平均流程時間和行業(yè)平均賠付額度以表格形式存儲。若客戶要求時間的最小計量單位是小時,則最小的時間粒度為時,若沒有要求最小計量單位則參照規(guī)則2 (見3.3),這里數(shù)據(jù)引擎就將這個公式以及a、b等參數(shù)值以及行業(yè)平均流程時間和行業(yè)平均賠付額度的表格以及最小時間粒度返回規(guī)則庫;同時數(shù)據(jù)引擎調(diào)用轉(zhuǎn)換規(guī)則1 (見3.3)生成目標(biāo)事實表和維表,從臨時數(shù)據(jù)庫1中調(diào)入數(shù)據(jù)開始數(shù)據(jù)轉(zhuǎn)換。
圖2 目標(biāo)表
數(shù)據(jù)轉(zhuǎn)換規(guī)則是數(shù)據(jù)轉(zhuǎn)換的中心,它是否合理決定著數(shù)據(jù)轉(zhuǎn)換的質(zhì)量和效率。業(yè)務(wù)流程數(shù)據(jù)轉(zhuǎn)換的轉(zhuǎn)換規(guī)則更是決定著流程優(yōu)化的成功與否。本節(jié)結(jié)合流程日志的特點,制定流程轉(zhuǎn)換規(guī)則如下:
(1)最大維度原則,即最大滿足評估系統(tǒng)的需求,使數(shù)據(jù)倉庫事實表中的流程屬性盡可能的多,確保后來的流程評估系統(tǒng)能夠從各個需要的維度進行挖掘。
(3)最小粒度原則,即將具有維度層次的流程屬性的粒度設(shè)置為可能最小,例如流程中的時間維度和地域維度,流程日志中按秒記錄數(shù)據(jù),如果我們能夠確定將來我們的評估系統(tǒng)的數(shù)據(jù)分析是只精確到天,那么我們轉(zhuǎn)換時可按天匯總數(shù)據(jù),如不確定則按秒?yún)R總數(shù)據(jù),確保評估系統(tǒng)將來可以按秒分析數(shù)據(jù)。
(4)統(tǒng)一數(shù)據(jù)格式規(guī)則,即異構(gòu)的數(shù)據(jù)源會有不同的數(shù)據(jù)描述方式,這里統(tǒng)一成相同的格式。例如在保險行業(yè)中用來描述保險種類可以采用12345,也可以采用abcde,這里統(tǒng)一用12345來表示。
(5)限制流程值域規(guī)則,有些數(shù)據(jù)在流程日志中是不可能存在的,例如行政審批時間應(yīng)該是工作日時間,不應(yīng)在8-18時之外。超出值域統(tǒng)一用-1表示。并做記錄統(tǒng)一返回異常處理,經(jīng)由業(yè)務(wù)人員確定并修改。
(6)聚集運算規(guī)則,即一些屬性是評估系統(tǒng)需要的,但是流程屬性中不是直接存在的需要通過一定的公式計算才能夠取得的。例如服務(wù)行業(yè)中的客戶滿意度是日志中不存在的屬性,但卻是流程評估的重要指標(biāo),它是時間、花費等多個屬性按照一定的公式計算而來的綜合指標(biāo)。
(7)沒有結(jié)束節(jié)點的流程處理,沒有結(jié)束節(jié)點的流程分為2種情況,一種是日志記錄不完全,可能是日志記錄異常,即流程時間戳存在斷點或者重疊;也可能是流程異常,即日志中記錄了流程異常。另一種情況是流程未完成,即同一流程不存在流程異常以及時間上的斷點和重疊。第一種情況記錄返回由業(yè)務(wù)人員確定,并補充完整,并加載到數(shù)據(jù)倉庫,如無法補充完整則刪除該流程;第二種情況則記錄返回,待該流程完成以后,同后續(xù)流程日志增量抽取。
算法1:生成目標(biāo)表算法,通過輸入的相關(guān)行業(yè)知識和用戶的特殊要求生成數(shù)據(jù)轉(zhuǎn)換的目標(biāo)表
輸入:集合A:用戶需求,即用戶進行流程優(yōu)化需要流程的屬性
N 維表:相應(yīng)的行業(yè)知識,即數(shù)據(jù)轉(zhuǎn)換處理流程所屬行業(yè)中的知識。包括特殊屬性的計算公式和附屬參數(shù) (如3.1中的客戶滿意度),該行業(yè)一些特有知識 (如3.1中的保險行業(yè)的同等流程平均賠付時間和額度),以及部分屬性的約束條件 (例如約束時間的最小粒度為天)
本文采用的實例描述了一家保險公司的理賠處理過程,總共有3512個實例,其中包括了交通意外險、車險、綜合意外險、健康險、家財險、投資理財險等不同險種。數(shù)據(jù)轉(zhuǎn)換前對客戶需求進行分析,獲得客戶的具體要求以及保險行業(yè)的相關(guān)行業(yè)知識如下:流程的開始時間從客戶電話向保險公司開始報案并且保險公司備案開始計時,流程的結(jié)束時間為客戶獲得賠付時間或者保險公司通知客戶不滿足賠付條件時間。理財保險的開始時間為客戶投保時間,結(jié)束時間為客戶取回本金的時間。另外,客戶滿意度的預(yù)測公式采用式 (1),其中a,b分別取0.4,0.6;行業(yè)平均時間和平均賠付額度以表格形式加入數(shù)據(jù)轉(zhuǎn)換引擎進行轉(zhuǎn)換。本實驗的時間粒度精確到小時,保險的種類按照交通意外險1、車險2、綜合意外險3、健康險4、家財險5、投資理財險6統(tǒng)一表示。
實驗開始時流程數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取,被存儲于臨時數(shù)據(jù)庫1。數(shù)據(jù)引擎通過臨時數(shù)據(jù)庫1中的流程數(shù)據(jù)和上述的行業(yè)知識生成如圖3所示目標(biāo)事實表和維表。數(shù)據(jù)引擎按照轉(zhuǎn)換規(guī)則完成數(shù)據(jù)轉(zhuǎn)換,并存儲于臨時數(shù)據(jù)庫2,加載到數(shù)據(jù)倉庫。
圖3 保險理賠流程的事實表和維表
為了驗證轉(zhuǎn)換數(shù)據(jù)的準(zhǔn)確性,從數(shù)據(jù)倉庫中隨機查詢交通意外險,綜合意外傷害險,健康險等各2 個實例,按照流程ID,保險種類,流程時間,行業(yè)平均時間,賠付額度,行業(yè)平均賠付額度,預(yù)測客戶滿意度等項以表格形式輸出見表1。
通過手動計算與上表進行對比,數(shù)據(jù)完全正確。證明本文的數(shù)據(jù)轉(zhuǎn)換方案是可行性和正確性
數(shù)據(jù)轉(zhuǎn)換是ETL過程的核心組成部分,也是整個流程評估系統(tǒng)的質(zhì)量保證。本文的基于商務(wù)智能的流程評估評估系統(tǒng)中ETL 的研究是建立在流程數(shù)據(jù)的基礎(chǔ)上的。根據(jù)流程數(shù)據(jù)的特點,建立了適合流程數(shù)據(jù)轉(zhuǎn)換的ETL 數(shù)據(jù)轉(zhuǎn)換架構(gòu)并定制了流程數(shù)據(jù)的轉(zhuǎn)換規(guī)則,實現(xiàn)了轉(zhuǎn)換過程中的規(guī)則的自動匹配。結(jié)果顯示本文研究的方法能夠快速準(zhǔn)確的實現(xiàn)流程數(shù)據(jù)的轉(zhuǎn)換,為之后的分析評估和流程優(yōu)化和再造打下良好的基礎(chǔ)。
表1 輸出的測試結(jié)果
[1]Wenan Tan.A business process intelligence system for enterprise process performance management[J].IEEE Transactions on Systems,Man and Cybernetics.Part C,Applications and Reviews,2008,38 (6):745-756.
[2]Svetlana Mansmann.OLAP technology for business process intelligence:Challenges and solutions [G].LNCS 4654:Springer Verlag Berlin Heidelberg,2007:111-122.
[3]Amadou Sienou.Business process and risk models enrichment:Considerations for business intelligence [C]//IEEE International Conference on e-Business Engineering,2008:732-735.
[4]WANG Zhenyu.The research of process mining assessment used in business intelligence [C]//Computer and Information Science,2012:179-183.
[5]BI Kun.The design and research for ETL system [J].Software Guide,2010,9 (5):172-175 (in Chinese). [畢錕.ETL系統(tǒng)的設(shè)計及其研究 [J].軟件導(dǎo)報,2010,9 (5):172-175.]
[6]ZHAO Jun.Design and implementation of ETL in the common date center[J].Computer Applications and Software,2011,28 (10):167-170 (in Chinese). [趙俊,公共數(shù)據(jù)中心的ETL的設(shè)計與實現(xiàn) [J].計算機應(yīng)用與軟件,2011,28 (10):167-170.]
[7]FAN Jinhua.Design and research of universal ETL framework in report system [J].Computer Technology and Development,2009,19 (6):202-209 (in Chinese).[范金花.報表系統(tǒng)中ETL通用架構(gòu)的設(shè)計與研究 [J].計算機技術(shù)與發(fā)展,2009,19 (6):202-209.]
[8]YUAN Man.Data mapping algorithm between heterogeneous data sources based on metadata-driven [J].Journal of Northeast Forestry University,2011,39 (12):128-131 (in Chinese). [袁滿,基于元數(shù)據(jù)驅(qū)動的異構(gòu)數(shù)據(jù)模型映射算法[J].東北林業(yè)大學(xué)學(xué)報,2011,39 (12):128-131.]
[9]Malik S.A framework for ETL workflow management for efficient business decision-making [C]//International Conference on Software and Computing Technology,2010:110-114.
[10]Qin Hanlin.Research on extract,transform and load (ETL)in land and resources star schema data warehouse[C]//Fifth International Symposium on Computational Intelligence and Design,2012:120-123.
[11]Li Lunan.A framework study of ETL processes optimization based on metadata repository [C]//2nd International Conference on Computer Engineering and Technology,2010:3664-3668.