羅劍
摘 要: 針對現(xiàn)代企業(yè)海量數(shù)據(jù)管理的目標(biāo)和任務(wù),從日益增長的用戶需求出發(fā)劃分人力資源數(shù)據(jù)倉庫主題,搭建數(shù)據(jù)獲取、數(shù)據(jù)管理和數(shù)據(jù)使用三個遞進(jìn)層次的商務(wù)智能平臺架構(gòu)。結(jié)合某大型國有物流企業(yè)SAP-BI實施項目案例,全面闡述了數(shù)據(jù)倉庫建設(shè)中基于擴(kuò)展星形結(jié)構(gòu)信息立方體的數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和加載的完整過程,指出了系統(tǒng)建設(shè)中增量數(shù)據(jù)傳輸和性能優(yōu)化手段等關(guān)鍵技術(shù)點(diǎn)。實踐表明,該商務(wù)智能平臺能夠協(xié)助企業(yè)人力資源戰(zhàn)略決策,有效提升管理水平。
關(guān)鍵詞: 人力資源; 商務(wù)智能; 數(shù)據(jù)倉庫; 擴(kuò)展星形結(jié)構(gòu); 信息立方體
中圖分類號:TP392 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2014)04-18-03
Abstract: To deal with the object and assignment for massive data management of modern enterprise, HR data warehouse themes have been partitioned according to increasing demand of customers. BI platform architecture is constructed from three progressive stages including data acquisition, data management and data usage. Combing with a SAP-BI case of one large state-owned logistics company, the procedure of extracting, washing, transferring and loading in data warehouse based on InfoCube is illustrated completely. The key technology including increment transmission and performance optimization etc in system implementation is pointed out. The practice results show that the BI platform can assist HR strategic decisions and enhance the management level effectively.
Key words: human resource; BI; data warehouse; extended star schema; InfoCube
0 引言
人力資源管理信息化(e-HR)[1]推動了從行政事務(wù)管理向戰(zhàn)略性人力資源管理的轉(zhuǎn)變,同時大幅度提高了企業(yè)人力資源管理的工作效率和技術(shù)含量。然而,e-HR系統(tǒng)面向一線工作人員,所生成的日常事務(wù)型明細(xì)數(shù)據(jù)無法幫助決策者全面和實時地掌握企業(yè)級的多維統(tǒng)計信息,數(shù)據(jù)倉庫很好地解決了這個問題。數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、隨時間變化的支持管理人員決策的數(shù)據(jù)集合[2],包含粒度可變的企業(yè)數(shù)據(jù)。以決策者需求和未來發(fā)展為導(dǎo)向設(shè)計和構(gòu)建數(shù)據(jù)倉庫是企業(yè)商務(wù)智能解決方案的堅實基礎(chǔ)。本文以筆者參與實施的某大型國有物流集團(tuán)人力資源商務(wù)智能項目為例加以闡述,該項目基于SAP-BI[3]套件開發(fā)完成。其中的SAP-BW是一整套覆蓋數(shù)據(jù)倉庫建設(shè)周期的產(chǎn)品包,包括數(shù)據(jù)倉庫的建模、數(shù)據(jù)集成和轉(zhuǎn)換、數(shù)據(jù)存儲和管理、元數(shù)據(jù)管理和數(shù)據(jù)可視化分析等產(chǎn)品。
1 建設(shè)目標(biāo)
現(xiàn)階段該集團(tuán)公司已經(jīng)實現(xiàn)基于SAP 產(chǎn)品的ERP業(yè)務(wù)和財務(wù)系統(tǒng),全面覆蓋下屬各行業(yè)子公司,集團(tuán)整體信息化建設(shè)已然跨越集中建設(shè)階段,正處于成熟應(yīng)用向創(chuàng)新應(yīng)用轉(zhuǎn)變的關(guān)鍵時期。隨著SAP ERP系統(tǒng)的上線運(yùn)行,產(chǎn)生了海量的事務(wù)型數(shù)據(jù),這對數(shù)據(jù)的管理和利用提出新的挑戰(zhàn),建設(shè)為決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用服務(wù)的數(shù)據(jù)倉庫成為當(dāng)前的緊迫任務(wù)。因此,面向集團(tuán)管理層的人事管理需求,基于維度劃分?jǐn)?shù)據(jù)粒度,完成人事管理日常數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,構(gòu)建多維星形數(shù)據(jù)模型,是人力資源數(shù)據(jù)倉庫建設(shè)實施的首要目標(biāo)和任務(wù)。
2 建設(shè)主題
該集團(tuán)公司人力資源管理相關(guān)的需求共涉及人力資源領(lǐng)域四個主題,分別為:人事管理、組織管理、時間管理和薪酬管理。人事管理是對企業(yè)人才結(jié)構(gòu)的總體評價。作為集團(tuán)職能部門,人力資源部需統(tǒng)計、查詢員工數(shù)據(jù),如人員結(jié)構(gòu)、員工合同、在崗職工分布、新增人員總量及錄用、人員減少情況和人員退休預(yù)測等,以便為公司的各項人力資源決策提供可靠的基礎(chǔ)依據(jù)。組織管理可實現(xiàn)下屬公司的定員編制數(shù)、機(jī)構(gòu)數(shù)量的統(tǒng)計,可以根據(jù)機(jī)構(gòu)類別、機(jī)構(gòu)規(guī)格、經(jīng)營類型、機(jī)構(gòu)經(jīng)濟(jì)類型、專業(yè)板塊、專業(yè)子板塊、機(jī)構(gòu)專業(yè)隊伍類別等維度進(jìn)行組合分析。時間管理可實現(xiàn)員工和部門的匯總上班天數(shù)、休假天數(shù)、加班天數(shù)和出勤/缺勤天數(shù)等數(shù)據(jù)統(tǒng)計,為薪酬核算和績效考核提供相關(guān)支持。薪酬管理幫助人力資源部及時掌握下屬公司各類員工的工資數(shù)據(jù)和福利數(shù)據(jù),在公司層面掌控成本,為與市場和行業(yè)的工資福利進(jìn)行比較提供有力的數(shù)據(jù)依據(jù)。
3 藍(lán)圖設(shè)計
3.1 BI架構(gòu)
SAP商務(wù)智能系統(tǒng)架構(gòu)如圖1所示。它以數(shù)據(jù)倉庫、在線分析處理(OLAP)、數(shù)據(jù)挖掘三種技術(shù)的整合為基礎(chǔ),建立企業(yè)數(shù)據(jù)中心和業(yè)務(wù)分析模型,以提高企業(yè)獲取經(jīng)營分析信息的能力。
系統(tǒng)架構(gòu)由四部分組成。
⑴ 數(shù)據(jù)源:系統(tǒng)的數(shù)據(jù)來源。通常包括企業(yè)內(nèi)部信息和外部信息,既存放于關(guān)系數(shù)據(jù)庫中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。
⑵ 數(shù)據(jù)存儲與管理:數(shù)據(jù)倉庫的關(guān)鍵點(diǎn)。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。
⑶ OLAP服務(wù):對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。
⑷ 前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。
3.2 物理模型
與用戶視覺交互的前端數(shù)據(jù)常常以報表的形式展現(xiàn),這些報表是高度匯總的數(shù)據(jù)集合,源頭是SAP-HR業(yè)務(wù)系統(tǒng)的明細(xì)數(shù)據(jù)。不失一般性,下面以組織管理主題中的“職務(wù)層級分布表”為實現(xiàn)目標(biāo),具體探討數(shù)據(jù)倉庫物理模型的建立過程。內(nèi)容如表1所示。必須指出的是本文為便于討論,需要從案例報表出發(fā)建模,而在實際項目中應(yīng)從多個報表歸納出主題,不能為了實現(xiàn)單個報表進(jìn)行大量的建模工作。
3.2.1 數(shù)據(jù)源
數(shù)據(jù)倉庫本身不產(chǎn)生數(shù)據(jù),所有存儲的數(shù)據(jù)都來源于SAP-HR業(yè)務(wù)系統(tǒng)。數(shù)據(jù)源是一個指向SAP-HR業(yè)務(wù)系統(tǒng)數(shù)據(jù)存放地址的指針,通過該指針可以將業(yè)務(wù)明細(xì)數(shù)據(jù)抽取到數(shù)據(jù)倉庫永久存儲區(qū)域(PSA)。結(jié)合職務(wù)層級分布表內(nèi)容,對應(yīng)的數(shù)據(jù)源如表2所示。業(yè)務(wù)數(shù)據(jù)源0HR_PA_0中只包含必要的關(guān)鍵字段,說明在某個月份某個員工在崗,至于該員工的具體信息可以到對應(yīng)的主數(shù)據(jù)源中查找。這種二維數(shù)據(jù)表間的關(guān)聯(lián)關(guān)系正是關(guān)系數(shù)據(jù)庫的典型特征,說明數(shù)據(jù)源指向的SAP-HR業(yè)務(wù)系統(tǒng)后臺結(jié)構(gòu)是基于關(guān)系數(shù)據(jù)庫構(gòu)成。
3.2.2 信息對象
信息對象主要用于存放主數(shù)據(jù)信息,有特征和關(guān)鍵值兩類。特征是用來描述事物主要特點(diǎn)的字段,具有惟一性。在InfoCube中被分配到每一個維度,一個維度可以有多個特征,也稱為維度特征。關(guān)鍵值存放在InfoCube的事實表中,用來對量化數(shù)據(jù)進(jìn)行描述。職務(wù)層級表用到的信息對象如表3所示,數(shù)據(jù)抽取轉(zhuǎn)換加載來源于表中對應(yīng)的數(shù)據(jù)源。
3.2.3 數(shù)據(jù)存儲對象
從數(shù)據(jù)源抽取的存放在數(shù)據(jù)倉庫PSA中的原始業(yè)務(wù)數(shù)據(jù)只是簡單的拷貝,不能直接使用,數(shù)據(jù)存儲對象(DSO)提供了前期的數(shù)據(jù)清洗和轉(zhuǎn)換。DSO仍然是二維表結(jié)構(gòu),存儲明細(xì)數(shù)據(jù),支持關(guān)鍵值的覆蓋和合計。為了將業(yè)務(wù)數(shù)據(jù)的一條記錄從最初的“日歷年/月”和“人員編號”兩個特征擴(kuò)展到包含“公司代碼”、“組織單位”、“員工組”、“員工子組”等特征,轉(zhuǎn)換規(guī)則先后使用了兩層DSO結(jié)構(gòu),如圖2和圖3所示。圖2的轉(zhuǎn)換規(guī)則從數(shù)據(jù)源0HR_PA_0至第一層DSO,其中關(guān)鍵值“員工人數(shù)”直接設(shè)置為常數(shù)1,因為一條員工記錄就對應(yīng)一名員工。圖3中增加的特征來源于讀取的員工主數(shù)據(jù),讀取的依據(jù)是人員編號和日歷年/月的聯(lián)合主鍵,這種特征屬性的時間相關(guān)性是人力資源業(yè)務(wù)的鮮明特點(diǎn)。比如某個員工在某個時間段屬于某個組織單位,在另一個時間段完全可能屬于不同的組織單位,其他特征的情況類似。因此必須是人員編號和日歷年/月的聯(lián)合主鍵才能惟一確定具體特征值。
再者可以看出第二層DSO通過讀取主數(shù)據(jù)使得二維表冗余度大大增加,數(shù)據(jù)倉庫的這種設(shè)計方法和關(guān)系數(shù)據(jù)庫設(shè)計模式大相徑庭,卻為將平面二維數(shù)據(jù)加載到多維信息立方體奠定了良好的基礎(chǔ)。
3.2.4 信息立方體
InfoCube是根據(jù)最終用戶請求塑造的多維擴(kuò)展星形結(jié)構(gòu),是最主要的用于報表的模型。它通過關(guān)聯(lián)多張二維平面表實現(xiàn)多維結(jié)構(gòu),支持快速而高效的直接數(shù)據(jù)存取。InfoCube中心是事實表,如圖4所示,由時間維、公司組織維、崗位維和員工維的id和關(guān)鍵值“員工人數(shù)”構(gòu)成。在事實表周圍是維表,每個維表結(jié)構(gòu)由事先指定的若干特征維度sid組成,維表記錄數(shù)等于特征維度記錄數(shù)的笛卡爾積。主數(shù)據(jù)表不在InfoCube中,它們通過sid表和維度表關(guān)聯(lián)。
4 關(guān)鍵技術(shù)
4.1 增量傳輸
從數(shù)據(jù)源抽數(shù)到PSA的方式根據(jù)數(shù)據(jù)量的多少分為兩種。一種是全量抽數(shù),既每次都將可用的數(shù)據(jù)全部抽取,已抽的數(shù)據(jù)會重復(fù)抽取,這種方式適用于數(shù)據(jù)量較小的情況;另一種方式是增量抽取,只抽取上次抽完后增刪改過的數(shù)據(jù),已抽的數(shù)據(jù)不會再次抽取,這種方式適用于大數(shù)據(jù)量的情況。人事數(shù)據(jù)倉庫的數(shù)據(jù)源如人事管理和培訓(xùn)活動管理使用全量抽數(shù),時間管理和工資核算使用增量抽數(shù)。這里需注意,因為人事涉及的增量數(shù)據(jù)源使用附加鏡像(ADD),第一層DSO關(guān)鍵值轉(zhuǎn)換規(guī)則不能是覆蓋只能是合計。此外,盡管采用全量抽數(shù)的人事數(shù)據(jù)源的數(shù)據(jù)量相比后勤和財務(wù)等模塊的數(shù)據(jù)量為小,但是實際項目中仍然有可能很龐大,用戶不愿意接受每次低效的重復(fù)抽數(shù),可以采用“假增量”的抽取模式,既只抽取距今一個時間段的數(shù)據(jù),規(guī)定用戶超過該時間段的數(shù)據(jù)不能增刪和修改。該時間段內(nèi)的數(shù)據(jù)其實還是全量抽取,但是也僅抽取這個時間段的數(shù)據(jù)量,如此大大降低了從業(yè)務(wù)系統(tǒng)抽數(shù)的負(fù)載。
4.2 性能優(yōu)化
數(shù)據(jù)倉庫中信息立方體蘊(yùn)含的多維度海量數(shù)據(jù)使得實時查詢成為奢望,一般情況是滯后若干時間獲取統(tǒng)計數(shù)據(jù)??梢灾饕獜囊韵聝蓚€方面考慮加快查詢速度。
⑴ 建立聚集。聚集是數(shù)據(jù)倉庫經(jīng)常使用的性能優(yōu)化方法,是以空間換時間的方法。對信息立方體的數(shù)據(jù)按照指定的子集進(jìn)行數(shù)據(jù)匯總,匯總數(shù)據(jù)存放在不同的獨(dú)立事實表中,根據(jù)常用的查詢種類,一個基本事實表可以設(shè)置多個聚集事實表。在報表運(yùn)行中,系統(tǒng)自動根據(jù)報表的查詢維度找到最合適也就是數(shù)據(jù)量最少的聚集事實表讀取數(shù)據(jù)。由于數(shù)據(jù)量的減少,降低了報表的運(yùn)行時間。
⑵ 使用虛擬信息提供者??梢岳肂I中的各種虛擬的信息提供者來把不同的數(shù)據(jù)對象,如DSO或信息立方體的數(shù)據(jù)融合在一個虛擬的信息提供者中。在信息立方體中存放基于關(guān)鍵指標(biāo)的聚集數(shù)據(jù),在數(shù)據(jù)存儲對象中存放詳細(xì)的業(yè)務(wù)數(shù)據(jù)。通過追溯的功能,可以瀏覽不同階層的聚集或明細(xì)數(shù)據(jù)。這樣的設(shè)計保證了匯總數(shù)據(jù)與詳細(xì)數(shù)據(jù)的一致性,提高了數(shù)據(jù)訪問的效率,降低了數(shù)據(jù)的冗余。
5 結(jié)束語
目前數(shù)據(jù)倉庫技術(shù)已趨成熟,許多產(chǎn)品供應(yīng)商推出了商品化軟件,包括ORACLE、IBM、MICROSOFT、SAS、TERADATA、SAP等。由于國外企業(yè)率先使用ERP系統(tǒng)且更早注重基于數(shù)據(jù)的分析和企業(yè)管理決策的支持,因此數(shù)據(jù)倉庫產(chǎn)品被廣泛應(yīng)用于國外企業(yè)的數(shù)據(jù)管理領(lǐng)域。比較而言,國內(nèi)企業(yè)對于數(shù)據(jù)倉庫的需求和建設(shè)仍處于起步時期,且側(cè)重點(diǎn)在于應(yīng)用,既如何選擇合適的國際化產(chǎn)品并結(jié)合自身業(yè)務(wù)環(huán)境特點(diǎn)二次開發(fā)構(gòu)造合適的數(shù)據(jù)倉庫,為數(shù)據(jù)挖掘和商務(wù)智能提供便利條件。此外,能夠極大提升查詢性能的內(nèi)存計算技術(shù)[4]開始嶄露頭角,這將是下階段商務(wù)智能領(lǐng)域發(fā)展的方向。
參考文獻(xiàn):
[1] 鄔錦雯.人力資源管理信息化[M].清華大學(xué)出版社,2006.
[2] William H.Inmon.Building the Data Warehouse[M]. USA:Wiley,2007.
[3] 陳永杰.SAP商務(wù)智能完全解決方案[M].機(jī)械工業(yè)出版社, 2008.
[4] HANA中國社區(qū)[EB/OL].http://www.hanainchina.net/.