張新建
摘要:人民銀行支付系統(tǒng)作為我國社會(huì)資金流動(dòng)的大動(dòng)脈,累積了海量的真實(shí)交易數(shù)據(jù),為充分挖掘這些交易數(shù)據(jù)蘊(yùn)含的有價(jià)值信息,該文對(duì)基于支付系統(tǒng)數(shù)據(jù)的大數(shù)據(jù)分析平臺(tái)進(jìn)行了研究,并提出了設(shè)計(jì)模型,以期為支付系統(tǒng)數(shù)據(jù)分析研究提供參考。
關(guān)鍵詞:支付系統(tǒng);交易數(shù)據(jù);大數(shù)據(jù)平臺(tái)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)06-0068-02
人民銀行建設(shè)并運(yùn)營的中國現(xiàn)代化支付系統(tǒng)是我國社會(huì)資金在包括企業(yè)和個(gè)人在內(nèi)的各經(jīng)濟(jì)實(shí)體之間進(jìn)行流動(dòng)的主要通道,隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,支付系統(tǒng)累積的交易數(shù)據(jù)也呈現(xiàn)爆炸式增長,通過對(duì)這些海量且來源于真實(shí)經(jīng)濟(jì)活動(dòng)的數(shù)據(jù)進(jìn)行挖掘、分析,必然能夠得到反映經(jīng)濟(jì)活動(dòng)規(guī)律的有價(jià)值信息。
當(dāng)前基于傳統(tǒng)技術(shù)構(gòu)建的數(shù)據(jù)分析平臺(tái)普遍存在分析能力不足、業(yè)務(wù)數(shù)據(jù)訪問流程復(fù)雜等缺點(diǎn),尤其是在對(duì)海量數(shù)據(jù)進(jìn)行分析處理時(shí),存在處理速度過慢、分析結(jié)果價(jià)值低等不可容忍缺陷,因此應(yīng)用傳統(tǒng)架構(gòu)的數(shù)據(jù)分析平臺(tái)不適用于支付數(shù)據(jù)的挖掘分析,而建立一個(gè)基于支付系統(tǒng)數(shù)據(jù)的大數(shù)據(jù)分析平臺(tái),從而讓數(shù)據(jù)產(chǎn)生價(jià)值,就顯得尤為迫切。
1 支付系統(tǒng)數(shù)據(jù)的特點(diǎn)
1.1 數(shù)據(jù)規(guī)模大
中國現(xiàn)代化支付系統(tǒng)(CNAPS)作為人民銀行開發(fā)設(shè)計(jì)的金融基礎(chǔ)設(shè)施,主要提供商業(yè)銀行之間跨行的支付清算服務(wù),是為商業(yè)銀行之間和商業(yè)銀行與中國人民銀行之間的支付業(yè)務(wù)提供最終資金清算的系統(tǒng),是各商業(yè)銀行電子匯兌系統(tǒng)資金清算的樞紐系統(tǒng),是連接國內(nèi)外銀行重要的橋梁,也是金融市場的核心支持系統(tǒng)。通過支付系統(tǒng)的交易數(shù)據(jù)量非常大,2017年,支付系統(tǒng)平均每月處理的業(yè)務(wù)量超過2億筆。
1.2 數(shù)據(jù)格式化程度高
通過支付系統(tǒng)的交易數(shù)據(jù),格式化程度較高,每條交易數(shù)據(jù),都包含完整的發(fā)起方、發(fā)起賬號(hào)、收款方、收款賬戶等信息,便于數(shù)據(jù)的存儲(chǔ)和分析。
1.3 數(shù)據(jù)安全性要求高
支付系統(tǒng)的交易數(shù)據(jù),均是真實(shí)的交易記錄,包含交易雙方的真實(shí)信息,數(shù)據(jù)安全性要求很高,需要嚴(yán)格保密,防止數(shù)據(jù)泄露。
1.4 數(shù)據(jù)分析的實(shí)時(shí)性要求較低
通過大數(shù)據(jù)平臺(tái),對(duì)支付系統(tǒng)數(shù)據(jù)進(jìn)行分析的實(shí)時(shí)性要求較低,可以進(jìn)行離線分析和處理。
2 支付系統(tǒng)大數(shù)據(jù)分析平臺(tái)架構(gòu)設(shè)計(jì)
根據(jù)支付系統(tǒng)數(shù)據(jù)的生命周期,支付系統(tǒng)大數(shù)據(jù)分析平臺(tái)架構(gòu)應(yīng)當(dāng)包括四個(gè)部分:數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理層、數(shù)據(jù)應(yīng)用層,除此之外,還需要包括貫穿整個(gè)數(shù)據(jù)生命周期的數(shù)據(jù)管理模塊和數(shù)據(jù)安全模塊。
由于支付系統(tǒng)大數(shù)據(jù)分析的實(shí)時(shí)性要求不高,因此,可以采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop系統(tǒng)作為技術(shù)框架,Hadoop系統(tǒng)通過部署在多臺(tái)普通的PC機(jī)上,利用網(wǎng)絡(luò)互聯(lián)和協(xié)同機(jī)制,提供高速數(shù)據(jù)傳輸和處理能力,同時(shí)也具有穩(wěn)定的性能,適合進(jìn)行支付系統(tǒng)數(shù)據(jù)分析。基于Hadoop系統(tǒng)的支付系統(tǒng)大數(shù)據(jù)平臺(tái)的架構(gòu)如圖1所示。
2.1 數(shù)據(jù)采集層
數(shù)據(jù)源主要包括支付系統(tǒng)交易數(shù)據(jù),主要采用清算總中心統(tǒng)一下發(fā)的屬地?cái)?shù)據(jù)。雖然支付系統(tǒng)交易數(shù)據(jù)的格式化程度較高,但是也存在半格式化、非格式化的數(shù)據(jù),因此,在進(jìn)行數(shù)據(jù)采集時(shí)需要對(duì)數(shù)據(jù)源進(jìn)行統(tǒng)一的格式化處理。同時(shí),為了提供數(shù)據(jù)分析的能力,還需要從工商、稅務(wù)等部門采集區(qū)域、行業(yè)、公司類別等輔助信息。
2.2 數(shù)據(jù)存儲(chǔ)層
Hadoop系統(tǒng)的底層存儲(chǔ)建立在HDFS基礎(chǔ)上,HDFS的全稱是Hadoop分布式文件系統(tǒng)。HDFS具有傳統(tǒng)分布式文件系統(tǒng)的很多特征,但也有自己的顯著特點(diǎn),HDFS被設(shè)計(jì)成一個(gè)高容錯(cuò)的系統(tǒng),能夠部署在廉價(jià)的PC機(jī)器上,提供很高吞吐量的并發(fā)數(shù)據(jù)訪問,非常適合在大規(guī)模數(shù)據(jù)集上進(jìn)行數(shù)據(jù)訪問和數(shù)據(jù)分析。HDFS通過將數(shù)據(jù)計(jì)算任務(wù)劃分為不同的文件塊,并分派至不同計(jì)算機(jī),實(shí)現(xiàn)了數(shù)據(jù)的物理存儲(chǔ)和邏輯存儲(chǔ)的有機(jī)統(tǒng)一,能夠有效提升數(shù)據(jù)運(yùn)算的效率,然后將計(jì)算結(jié)果匯總,實(shí)現(xiàn)對(duì)大數(shù)據(jù)平臺(tái)計(jì)算能力的拓展,同時(shí),分布式計(jì)算適用于大量數(shù)據(jù)的離線處理過程中。
支付系統(tǒng)大數(shù)據(jù)分析平臺(tái),利用Hadoop系統(tǒng)的Spark技術(shù),通過流式數(shù)據(jù)訪問,有效降低了存儲(chǔ)資源的使用率和網(wǎng)絡(luò)帶寬的占用量,實(shí)現(xiàn)對(duì)海量存儲(chǔ)的實(shí)時(shí)分析,為科學(xué)決策提供精準(zhǔn)的數(shù)據(jù)支撐。同時(shí)利用HDFS的分塊存儲(chǔ)機(jī)制,將支付系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)塊進(jìn)行分布式存儲(chǔ),同時(shí)通過構(gòu)建元數(shù)據(jù)信息進(jìn)行管理,能搞實(shí)現(xiàn)數(shù)據(jù)的高速并發(fā)訪問,有助于提高數(shù)據(jù)挖掘和分析的效率。在數(shù)據(jù)計(jì)算分析的基礎(chǔ)上,進(jìn)行匯總分析,拓展了大數(shù)據(jù)分析平臺(tái)的計(jì)算能力,提高了數(shù)據(jù)安全性和可用性。
2.3 數(shù)據(jù)處理層
數(shù)據(jù)處理層是支付系統(tǒng)大數(shù)據(jù)分析平臺(tái)的核心,基于Hadoop技術(shù)的數(shù)據(jù)處理層關(guān)注的核心是如何處理支付系統(tǒng)大數(shù)據(jù)平臺(tái)采集的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并進(jìn)行有效的整合,充分發(fā)揮數(shù)據(jù)挖掘、分析的能力。
支付系統(tǒng)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)處理,可以針對(duì)不同的應(yīng)用場景進(jìn)行數(shù)據(jù)梳理,具體包括:1)數(shù)據(jù)查詢:通過關(guān)鍵字組合、時(shí)間點(diǎn)限制,查詢支付系統(tǒng)數(shù)據(jù)中符合條件的記錄,這也是支付系統(tǒng)大數(shù)據(jù)分析平臺(tái)的基本功能。2)數(shù)據(jù)重組:根據(jù)不同的關(guān)鍵字信息和要求,以相應(yīng)的字段為坐標(biāo),對(duì)支付系統(tǒng)的數(shù)據(jù)進(jìn)行重組,以適應(yīng)不同的應(yīng)用場景。3)交互式報(bào)表:能夠根據(jù)用戶的查詢條件,提供差異化的數(shù)據(jù)報(bào)表,為用戶的數(shù)據(jù)查詢提供便利,同時(shí)也能夠批量處理用戶提供的報(bào)表;4)數(shù)據(jù)字典:通過采集工商、稅務(wù)等信息,構(gòu)建與區(qū)域、產(chǎn)業(yè)相關(guān)的數(shù)據(jù)字典,為數(shù)據(jù)應(yīng)用提供服務(wù)。
2.4 數(shù)據(jù)應(yīng)用層
通過支付系統(tǒng)大數(shù)據(jù)分析平臺(tái),為各種外部應(yīng)用提供服務(wù)和接口,充分挖掘支付系統(tǒng)大數(shù)據(jù)的潛力。具體包括:1)電信詐騙:通過提取支付系統(tǒng)交易數(shù)據(jù)的異常信息,為電信詐騙案件提供線索,能夠有效提高電信詐騙的偵破概率。2)反洗錢:分析交易數(shù)據(jù),及時(shí)發(fā)現(xiàn)洗錢行為的路徑和金額,為反洗錢行為提供數(shù)據(jù)支撐。3)區(qū)域信息聚合。將指定區(qū)域(省、市、縣)的交易數(shù)據(jù)進(jìn)行聚合,進(jìn)行橫向、縱向的比對(duì)分析,為政府決策提供支撐。4)產(chǎn)業(yè)信息聚合。根據(jù)數(shù)據(jù)處理層提供的數(shù)據(jù)字典,將不同產(chǎn)業(yè)的交易數(shù)據(jù)進(jìn)行聚合,分析不同產(chǎn)業(yè)的發(fā)展情況。
2.5 數(shù)據(jù)管理模塊
基于Hadoop技術(shù)的支付系統(tǒng)大數(shù)據(jù)分析平臺(tái),在數(shù)據(jù)管理上圍繞數(shù)據(jù)處理任務(wù)進(jìn)行設(shè)計(jì),重點(diǎn)針對(duì)異構(gòu)數(shù)據(jù)實(shí)現(xiàn)標(biāo)準(zhǔn)化的數(shù)據(jù)管理,特別是要重點(diǎn)考量元數(shù)據(jù)架構(gòu)的設(shè)計(jì)、數(shù)據(jù)的生命周期、以及任務(wù)處理的調(diào)度等,以提高系統(tǒng)的數(shù)據(jù)管理質(zhì)量。同時(shí)需要建立嚴(yán)格的數(shù)據(jù)管理制度,以數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)為抓手,確保數(shù)據(jù)管理有章可循。
2.6 數(shù)據(jù)安全模塊
基于Hadoop技術(shù)支付系統(tǒng)大數(shù)據(jù)分析平臺(tái),需要建立貫穿整個(gè)生命周期的數(shù)據(jù)安全模塊,支付系統(tǒng)交易數(shù)據(jù)的安全性要求非常高,數(shù)據(jù)安全模塊的核心是冗余存儲(chǔ)和并行網(wǎng)絡(luò)控制,通過建立嚴(yán)格的訪問控制協(xié)議,提升大數(shù)據(jù)分析平臺(tái)的安全性。
3 結(jié)束語
本文在對(duì)支付系統(tǒng)數(shù)據(jù)的特點(diǎn)進(jìn)行分析后,提出了對(duì)支付系統(tǒng)數(shù)據(jù)進(jìn)行分析的大數(shù)據(jù)平臺(tái),并詳細(xì)介紹了各個(gè)平臺(tái)模塊(層)的設(shè)計(jì)和作用,受限于客觀條件,本平臺(tái)尚在開發(fā)之中,并未完全建成,筆者將在今后的工作中,繼續(xù)對(duì)此進(jìn)行探索。
參考文獻(xiàn):
[1] 孟小峰, 慈祥. 大數(shù)據(jù)的管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展, 2013(1).
[2] 于文. 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)與企業(yè)信息化[J]. 通信世界, 2016(23).
【通聯(lián)編輯:謝媛媛】