劉亞貞
在數(shù)字經(jīng)濟(jì)時(shí)代, 數(shù)據(jù)被譽(yù)為價(jià)值連城的“新黃金”。 今年3月,黨的二十屆二中全會(huì)通過了《黨和國家機(jī)構(gòu)改革方案》,提出組建國家數(shù)據(jù)局,這一舉措將打造出“數(shù)據(jù)化國家隊(duì)”,必將推動(dòng)數(shù)據(jù)“新黃金”更加充分地實(shí)現(xiàn)數(shù)據(jù)要素價(jià)值,促進(jìn)全民共享數(shù)字經(jīng)濟(jì)發(fā)展紅利。數(shù)據(jù)要素作為全新的生產(chǎn)要素,已經(jīng)成為商業(yè)銀行業(yè)務(wù)發(fā)展的內(nèi)生增長力,科學(xué)的數(shù)據(jù)治理機(jī)制和治理模式是發(fā)揮數(shù)據(jù)要素價(jià)值的基石。
2022年底,《國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱《意見》)中指出,要壓實(shí)企業(yè)的數(shù)據(jù)治理責(zé)任,在數(shù)據(jù)采集匯聚、加工處理、流通交易、共享利用等各環(huán)節(jié),推動(dòng)企業(yè)依法依規(guī)承擔(dān)相應(yīng)責(zé)任?!兑庖姟穼?duì)于商業(yè)銀行全鏈路的數(shù)據(jù)治理能力提出了新的挑戰(zhàn)。
本文旨在通過探討數(shù)據(jù)供應(yīng)鏈路為什么要建立、如何建立、如何監(jiān)控,再進(jìn)一步思考數(shù)據(jù)供應(yīng)鏈路監(jiān)控所依賴的平臺(tái)支撐能力,為基于數(shù)據(jù)供應(yīng)鏈路監(jiān)控的數(shù)據(jù)治理提供思路。
為什么要建立數(shù)據(jù)供應(yīng)鏈路
所謂數(shù)據(jù)供應(yīng)鏈路,即數(shù)據(jù)供應(yīng)架構(gòu)中,從數(shù)據(jù)源到數(shù)據(jù)應(yīng)用的數(shù)據(jù)加工傳輸路徑。在多元異構(gòu)的數(shù)據(jù)源完成數(shù)據(jù)采集之后,借助于實(shí)時(shí)高效的數(shù)據(jù)通道工具,將原始數(shù)據(jù)保存在數(shù)據(jù)湖中。數(shù)據(jù)處理模塊相當(dāng)于巨大的數(shù)據(jù)加工廠,由許多7×24小時(shí)運(yùn)作的數(shù)據(jù)加工生產(chǎn)線組成,將數(shù)據(jù)湖的原始數(shù)據(jù)加工成數(shù)據(jù)成品或半成品,存放在數(shù)據(jù)服務(wù)組件數(shù)據(jù)庫中。數(shù)據(jù)服務(wù)組件把數(shù)據(jù)成品或半成品,包裝成數(shù)據(jù)服務(wù),實(shí)現(xiàn)數(shù)據(jù)的企業(yè)級(jí)共享和復(fù)用,對(duì)前端應(yīng)用即時(shí)賦能。以上從數(shù)據(jù)源、數(shù)據(jù)通道、數(shù)據(jù)湖、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)組件,到數(shù)據(jù)應(yīng)用的全流程,即構(gòu)成端到端的數(shù)據(jù)供應(yīng)鏈路。
在數(shù)據(jù)使用的實(shí)際過程中,往往存在以下痛點(diǎn):一是數(shù)據(jù)線缺少端到端的全路徑數(shù)據(jù)供應(yīng)鏈路;二是缺少數(shù)據(jù)應(yīng)用驅(qū)動(dòng)的統(tǒng)一數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)質(zhì)量檢核異常告警沒有與數(shù)據(jù)鏈路打通;三是缺少端到端的實(shí)時(shí)監(jiān)控,各環(huán)節(jié)的監(jiān)控結(jié)果沒有與數(shù)據(jù)鏈路打通,數(shù)據(jù)延遲或者作業(yè)加工報(bào)錯(cuò)無法快速確定影響范圍。
從業(yè)務(wù)分析視角看,大量的用戶訴求和數(shù)據(jù)問題的解決依賴于“全域端到端的數(shù)據(jù)供應(yīng)鏈路” 的建設(shè)。舉例如下:
其一,數(shù)據(jù)問題溯源慢。當(dāng)監(jiān)管報(bào)送數(shù)據(jù)出現(xiàn)問題的時(shí)候,依靠人工溯源,問題定位難度大、耗時(shí)長,且往往只能局部解決問題,不能有效地進(jìn)行根因分析,無法從根本上實(shí)現(xiàn)標(biāo)本兼治。數(shù)據(jù)作業(yè)加工層級(jí)多、依賴關(guān)系復(fù)雜,依賴運(yùn)維人員逐層逐個(gè)確認(rèn)、解決,耗時(shí)長,影響監(jiān)管報(bào)送時(shí)效,同時(shí)可能造成問題數(shù)據(jù)傳播,影響其他數(shù)據(jù)應(yīng)用。
其二,數(shù)據(jù)需求激活難。業(yè)務(wù)部門通過數(shù)據(jù)資產(chǎn)平臺(tái)或數(shù)據(jù)字典等,只能查詢到銀行可用數(shù)據(jù),不清楚數(shù)據(jù)來源于哪里,無法定位可信數(shù)據(jù)源;數(shù)據(jù)之間的關(guān)系理不清,不了解指標(biāo)的加工邏輯,無法基于現(xiàn)有數(shù)據(jù)高效地提出數(shù)據(jù)應(yīng)用需求;部分?jǐn)?shù)據(jù)無明確保存期限,數(shù)據(jù)不斷膨脹,作業(yè)加工效率低,數(shù)據(jù)流轉(zhuǎn)慢。
其三,數(shù)據(jù)應(yīng)用場景斷點(diǎn)多。同一筆交易往往聯(lián)動(dòng)多個(gè)組件,每個(gè)組件記錄下局部關(guān)注的要素和信息,難以實(shí)現(xiàn)跨組件數(shù)據(jù)的關(guān)聯(lián)整合;難以構(gòu)建完整的端到端數(shù)據(jù)分析應(yīng)用閉環(huán),“九龍治水”格局不利于數(shù)據(jù)整合利用與監(jiān)控。
其四,數(shù)據(jù)運(yùn)營難度大。數(shù)據(jù)供應(yīng)監(jiān)控缺少整體的監(jiān)控管理視圖,無法掌握數(shù)據(jù)供應(yīng)架構(gòu)中整體資源的使用情況;缺少數(shù)據(jù)的供應(yīng)鏈路,在應(yīng)急處置或者數(shù)據(jù)作業(yè)版本變更時(shí),無法快速獲取數(shù)據(jù)的影響范圍。數(shù)據(jù)血緣不清晰,特別是數(shù)據(jù)加工層,加工環(huán)節(jié)血緣難以追溯,數(shù)據(jù)線運(yùn)營最大的痛點(diǎn)就是無法確定異常數(shù)據(jù)的影響范圍。
隨著商業(yè)銀行業(yè)務(wù)的快速發(fā)展,累積出越來越龐雜的業(yè)務(wù)系統(tǒng),與此同時(shí),數(shù)據(jù)也不再局限于某個(gè)數(shù)據(jù)庫,某個(gè)業(yè)務(wù)系統(tǒng),而是在銀行內(nèi)部廣泛分布、流轉(zhuǎn)和使用,形成大量的數(shù)據(jù)加工傳輸鏈路。這種情況下,商業(yè)銀行只有基于應(yīng)用視角,構(gòu)建全域、全鏈路的數(shù)據(jù)監(jiān)控能力,才能夠跟上國家數(shù)字經(jīng)濟(jì)建設(shè)的新步伐。
如何構(gòu)建數(shù)據(jù)供應(yīng)鏈路
過去,我們主要通過解析作業(yè)腳本獲取數(shù)據(jù)血緣,部分腳本不能解析到數(shù)據(jù)項(xiàng)血緣,導(dǎo)致無法獲取全量數(shù)據(jù)血緣。據(jù)了解,頭部互聯(lián)網(wǎng)公司的數(shù)據(jù)鏈路基于全面的元數(shù)據(jù)體系構(gòu)建,粒度到數(shù)據(jù)項(xiàng),數(shù)據(jù)血緣從元數(shù)據(jù)登記要素中獲得。 綜合來講,全面數(shù)據(jù)血緣的獲取,可以以健全的元數(shù)據(jù)要素登記規(guī)范為主要依賴途徑,以解析采集日志、作業(yè)加工日志、代碼腳本等作為補(bǔ)充途徑。
1.基于元數(shù)據(jù)的數(shù)據(jù)血緣構(gòu)建
提升數(shù)據(jù)血緣解析的元數(shù)據(jù)質(zhì)量,為數(shù)據(jù)鏈路建立提供數(shù)據(jù)基礎(chǔ)與質(zhì)量保障。
(1)元數(shù)據(jù)登記全覆蓋原則
全域數(shù)據(jù)的治理和應(yīng)用需要完整的元數(shù)據(jù)提供基礎(chǔ)支撐,因此元數(shù)據(jù)的登記對(duì)象應(yīng)覆蓋數(shù)據(jù)供應(yīng)架構(gòu)全域,元數(shù)據(jù)的登記對(duì)象包括貼源數(shù)據(jù)、數(shù)據(jù)組件數(shù)據(jù)、數(shù)據(jù)服務(wù)、作業(yè)進(jìn)程、算法和模型等;元數(shù)據(jù)的來源模塊包括數(shù)據(jù)采集、數(shù)據(jù)湖、數(shù)據(jù)處理、數(shù)據(jù)組件、數(shù)據(jù)服務(wù)總線等。元數(shù)據(jù)的各來源模塊按照架構(gòu)治理要求規(guī)范登記元數(shù)據(jù)信息。
(2)元數(shù)據(jù)登記全要素原則
在保證全域數(shù)據(jù)登記元數(shù)據(jù)的基礎(chǔ)上,每類對(duì)象所登記元數(shù)據(jù)信息項(xiàng)完整,登記要素包括但不限于業(yè)務(wù)屬性,如業(yè)務(wù)定義、業(yè)務(wù)規(guī)則、業(yè)務(wù)管理部門等;數(shù)據(jù)屬性,如數(shù)據(jù)類型、數(shù)據(jù)口徑、投產(chǎn)后時(shí)效性、前置數(shù)據(jù)等;管理屬性,如查詢次數(shù)、調(diào)用次數(shù)、最新投產(chǎn)時(shí)間、安全等級(jí)等;歷史版本,如版本號(hào)、修改時(shí)間、修改人、變更方式等。以元數(shù)據(jù)為驅(qū)動(dòng),可以完善數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,落地?cái)?shù)據(jù)血緣溯源能力。
(3)元數(shù)據(jù)事前登記、實(shí)時(shí)更新原則
為保證全域數(shù)據(jù)可查可用,提高數(shù)據(jù)質(zhì)量,應(yīng)按照在數(shù)據(jù)的配置和設(shè)計(jì)階段定義元數(shù)據(jù)并登記的原則,建立事前、實(shí)時(shí)的元數(shù)據(jù)和數(shù)據(jù)血緣基礎(chǔ)信息。對(duì)于數(shù)據(jù)湖數(shù)據(jù),應(yīng)在采集任務(wù)配置部署上線前,定義元數(shù)據(jù),同步登記在元數(shù)據(jù)庫,并實(shí)時(shí)變更;對(duì)于加工的數(shù)據(jù),包括組件數(shù)據(jù)、算法和模型、數(shù)據(jù)服務(wù)等,在設(shè)計(jì)完成后,部署上線前定義元數(shù)據(jù),同步登記在元數(shù)據(jù)庫;當(dāng)設(shè)計(jì)變更時(shí),在變更部署上線前,完成元數(shù)據(jù)庫的更新。
以上原則保證元數(shù)據(jù)與設(shè)計(jì)態(tài)一致,并保證實(shí)時(shí)性。設(shè)計(jì)態(tài)與生產(chǎn)態(tài)的一致性需要在開發(fā)和上線測試環(huán)節(jié)保證?!霸O(shè)計(jì)即編碼”開發(fā)環(huán)境越完善,該一致性越容易維護(hù)。
2.基于數(shù)據(jù)血緣的數(shù)據(jù)鏈路構(gòu)建
交易線通過“全局流水號(hào)”建立鏈路,數(shù)據(jù)線通過“數(shù)據(jù)血緣”建立鏈路。數(shù)據(jù)產(chǎn)品的加工規(guī)則要追溯到數(shù)據(jù)源,數(shù)據(jù)鏈路記錄關(guān)鍵節(jié)點(diǎn)數(shù)據(jù)(包括數(shù)據(jù)源、數(shù)據(jù)湖、數(shù)據(jù)組件、數(shù)據(jù)服務(wù)等)之間的映射關(guān)系。數(shù)據(jù)鏈路的建立依賴于較好的數(shù)據(jù)血緣基礎(chǔ),數(shù)據(jù)血緣在數(shù)據(jù)設(shè)計(jì)階段即生成,數(shù)據(jù)血緣可以通過解析組件數(shù)據(jù)的加工規(guī)則、數(shù)據(jù)服務(wù)的封裝規(guī)則獲得?;跀?shù)據(jù)血緣建立從數(shù)據(jù)源到服務(wù)調(diào)用的端到端的數(shù)據(jù)供應(yīng)鏈路,針對(duì)數(shù)據(jù)表的異常,能快速確定影響路徑和范圍。
3.基于數(shù)據(jù)認(rèn)責(zé)制的數(shù)據(jù)鏈路管控
《意見》指出,分別界定數(shù)據(jù)生產(chǎn)、流通、使用過程中各參與方享有的合法權(quán)利,建立數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營權(quán)等分置的產(chǎn)權(quán)運(yùn)行機(jī)制。對(duì)于商業(yè)銀行的數(shù)據(jù)資產(chǎn)而言,建立一條數(shù)據(jù)含義透明、數(shù)據(jù)之間血緣關(guān)系明確、數(shù)據(jù)提供方和使用方登記清晰、各個(gè)節(jié)點(diǎn)數(shù)據(jù)有人維護(hù)的高速運(yùn)轉(zhuǎn)數(shù)據(jù)鏈路非常必要。具體來講,就是貼源數(shù)據(jù)有負(fù)責(zé)人,加工后的數(shù)據(jù)(組件數(shù)據(jù)、數(shù)據(jù)服務(wù)、算法模型)有創(chuàng)建人;對(duì)各個(gè)階段的數(shù)據(jù)按照一定的檢核規(guī)則進(jìn)行質(zhì)量檢查,檢核出現(xiàn)的問題能溯源到責(zé)任人進(jìn)行質(zhì)量整改。
如何監(jiān)控?cái)?shù)據(jù)供應(yīng)鏈路
從數(shù)據(jù)應(yīng)用視角監(jiān)控端到端的數(shù)據(jù)供應(yīng)鏈路,將質(zhì)量檢核和運(yùn)維監(jiān)控結(jié)果反饋到數(shù)據(jù)鏈路上,并及時(shí)反饋給下游業(yè)務(wù)應(yīng)用方。
1.節(jié)點(diǎn)上的數(shù)據(jù)質(zhì)量檢核
建立數(shù)據(jù)質(zhì)量統(tǒng)一管理,并與數(shù)據(jù)鏈路打通。對(duì)數(shù)據(jù)采集、數(shù)據(jù)湖存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)組件等模塊提供的數(shù)據(jù)質(zhì)量檢核結(jié)果進(jìn)行分類匯總,生成數(shù)據(jù)質(zhì)量檢核報(bào)告;解析數(shù)據(jù)質(zhì)量檢核報(bào)告,對(duì)于異常的檢核結(jié)果,生成數(shù)據(jù)質(zhì)量檢核異常結(jié)果報(bào)告;通過已經(jīng)建立的數(shù)據(jù)供應(yīng)鏈路,解析異常數(shù)據(jù)的影響路徑和范圍,并發(fā)出告警。
2.鏈路上的數(shù)據(jù)運(yùn)維監(jiān)控
建立端到端的全流程實(shí)時(shí)監(jiān)控,并與數(shù)據(jù)鏈路打通。對(duì)數(shù)據(jù)采集、數(shù)據(jù)通道傳輸、數(shù)據(jù)入湖、數(shù)據(jù)出湖、作業(yè)任務(wù)、服務(wù)調(diào)用等作業(yè)進(jìn)行端到端的監(jiān)控;任務(wù)失敗后,需要將失敗消息發(fā)送到運(yùn)維平臺(tái)進(jìn)行應(yīng)急處置;同時(shí)需要將任務(wù)失敗影響到的數(shù)據(jù)表公布給數(shù)據(jù)供應(yīng)鏈路,解析影響范圍并告警。預(yù)警是基于基線監(jiān)控,基線是動(dòng)態(tài)的,由業(yè)務(wù)方提出能接受的最晚產(chǎn)出時(shí)間、業(yè)務(wù)重要性等級(jí)等,當(dāng)執(zhí)行某作業(yè)發(fā)生問題的時(shí)候,關(guān)鍵場景以電話告警 。
數(shù)據(jù)鏈路監(jiān)控需要的平臺(tái)能力
數(shù)據(jù)供應(yīng)鏈路監(jiān)控的實(shí)施路徑方面,建議能夠建立統(tǒng)一的數(shù)據(jù)管理平臺(tái)進(jìn)行數(shù)據(jù)鏈路的整合和監(jiān)控,系統(tǒng)越多越分散,管控的難度越大。數(shù)據(jù)管理平臺(tái)應(yīng)包括兩大功能:一是構(gòu)建數(shù)據(jù)供應(yīng)鏈路,基于數(shù)據(jù)血緣建立數(shù)據(jù)鏈路,保證從數(shù)據(jù)源到數(shù)據(jù)應(yīng)用各個(gè)環(huán)節(jié)的數(shù)據(jù)透明化,實(shí)現(xiàn)全量數(shù)據(jù)資產(chǎn)的“數(shù)據(jù)全鏈路分析”, 滿足日益增長的數(shù)據(jù)溯源需求;二是數(shù)據(jù)供應(yīng)鏈路的運(yùn)營監(jiān)測,建立數(shù)據(jù)供應(yīng)鏈路的全景監(jiān)控視圖,提供數(shù)據(jù)鏈路監(jiān)控的服務(wù)與視圖展示功能。
數(shù)據(jù)鏈路監(jiān)控的核心還是數(shù)據(jù)管控,應(yīng)實(shí)現(xiàn)統(tǒng)籌采集,項(xiàng)目級(jí)采集上升為企業(yè)級(jí)采集;在采集入湖之前進(jìn)行檢核,集中檢核主數(shù)據(jù);監(jiān)控應(yīng)該從系統(tǒng)運(yùn)營上升為企業(yè)級(jí)運(yùn)營。
作為商業(yè)銀行數(shù)據(jù)治理的抓手,數(shù)據(jù)供應(yīng)鏈路監(jiān)控應(yīng)基于先進(jìn)技術(shù)和智慧數(shù)據(jù),構(gòu)建全面感知,精準(zhǔn)運(yùn)營的數(shù)據(jù)供應(yīng)鏈路,提升數(shù)據(jù)的可用、可信、可流通、可追溯水平,為全面支持?jǐn)?shù)字中國藍(lán)圖的實(shí)現(xiàn)貢獻(xiàn)力量。