張輝帥
(上海眾恒信息產(chǎn)業(yè)股份有限公司, 上海 200042)
基于列存儲的公共信用檔案數(shù)據(jù)管理設(shè)計與實現(xiàn)
張輝帥
(上海眾恒信息產(chǎn)業(yè)股份有限公司, 上海 200042)
以各政府部門多源異構(gòu)的公共信用檔案數(shù)據(jù)管理為目標,分析了傳統(tǒng)行存儲模式的問題,提出了列存儲模式,設(shè)計了存儲結(jié)構(gòu),并分析其相較于行存儲模式的優(yōu)勢?;诹写鎯Φ男庞脵n案數(shù)據(jù)管理模型,實現(xiàn)了上海市公共信用信息服務平臺信用檔案信息的數(shù)據(jù)存儲和管理。
信用檔案; 信用信息; 數(shù)據(jù)管理; 列存儲; 多源異構(gòu)
所謂公共信用信息,是指由行政機關(guān)、司法機關(guān)、法律法規(guī)授權(quán)的具有管理公共事務職能的組織以及公共企事業(yè)單位、群團組織等,在其履行職責、提供服務過程中產(chǎn)生或者獲取的,可用于識別自然人、法人和其他組織(以下統(tǒng)稱信息主體)信用狀況的數(shù)據(jù)和資料[1]。國家發(fā)改委也將行政許可、行政處罰信息作為方便社會了解市場主體信用狀況的數(shù)據(jù)之一,納入公共信用信息的范疇,并要求各行政部門自作出行政決定之日起7個工作日內(nèi)上網(wǎng)公開,提高行政管理透明度和政府公信力[2]。
本文研究的信用檔案數(shù)據(jù),是指單個自然人、法人或其他組織的所有公共信用信息的數(shù)據(jù)集合。
公共信用檔案數(shù)據(jù)具有如下主要特點:
(1) 主鍵編碼穩(wěn)定且唯一
公共信用信息都具備識別信息主體的統(tǒng)一社會信用代碼,該代碼穩(wěn)定且唯一,可以作為法人或自然人信用信息數(shù)據(jù)主鍵。根據(jù)國家標準[3],法人和其他組織使用全國統(tǒng)一賦碼的18位統(tǒng)一社會信用代碼作為識別身份的編碼,自然人則使用18位身份證號碼。統(tǒng)一代碼覆蓋了所有法人和自然人主體。一個主體只能擁有一個統(tǒng)一代碼,一個統(tǒng)一代碼只能賦予一個主體。并且,統(tǒng)一代碼一經(jīng)賦予,在其主體存續(xù)期間,主體信息即使發(fā)生任何變化,統(tǒng)一代碼均保持不變。
(2) 以結(jié)構(gòu)化數(shù)據(jù)信息為主
公共信用信息數(shù)據(jù)基于各個政府部門已有的管理數(shù)據(jù)(例如工商部門的企業(yè)注冊登記信息、公安部門的行駛證登記信息、民政部門的婚姻登記信息等等),通過比對清洗加工而成的。而這些管理數(shù)據(jù)是各政府部門現(xiàn)有的信息化系統(tǒng)日常行政工作(例如行政審批、行政處罰等)中產(chǎn)生的,通常情況下都是結(jié)構(gòu)化的數(shù)據(jù)信息。另外,國家發(fā)改委也針對“雙公示”信息(行政許可公示信息和行政處罰公示信息)分別制定了18個字段和20個字段的結(jié)構(gòu)化數(shù)據(jù)標準[4],包括行政相對人代碼、許可或處罰決定日期、許可項目名稱、處罰名稱等。
(3) 來源部門繁多
截止2017年1月,上海市公共信用信息服務平臺依托上海政務外網(wǎng),已實現(xiàn)全市100家部門的公共信用信息數(shù)據(jù)歸集,期中包含44家市級行政機關(guān)、11家中央在滬單位、2家人民團體、2家司法機關(guān)、11家公用事業(yè)單位、14家社會組織、16家區(qū)縣[5]。接入部門的數(shù)量非常多,數(shù)據(jù)交換過程中的交換節(jié)點管理、清洗比對任務的維護難度較大。
(4) 數(shù)據(jù)類別和數(shù)據(jù)結(jié)構(gòu)復雜
以上海市公共信用信息服務平臺數(shù)據(jù)為例,上海市公共信用信息資源目錄共5198項,包括法人信息事項4072項、自然人1126項。按信息類別可以分為登記類、資質(zhì)類、監(jiān)管類、判決類、執(zhí)行類、管理類和公益類8類。登記類包括工商登記、社會組織登記、稅務登記等;資質(zhì)類信息包括行政許可、資質(zhì)認定,以及執(zhí)業(yè)許可、職業(yè)資格等;監(jiān)管類信息,包括違法違規(guī)記錄、行政處罰等。執(zhí)行類和判決類來自司法機關(guān)。履約類包括欠繳公積金,擾亂用電秩序,破壞公共基礎(chǔ)設(shè)施,逃票等信息。部分資源目錄事項示例,如表1所示。
表1 公共信用信息資源目錄事項示例表
可以看到,元數(shù)據(jù)中除第1、第2項為“統(tǒng)一社會信用代碼”和“企業(yè)名稱”之外(對于自然人為“身份證號碼”和“個人姓名”),其他各資源目錄事項的元數(shù)據(jù)都不一致。這是因為各部門、各行業(yè)、各領(lǐng)域都具有不同的業(yè)務規(guī)范和數(shù)據(jù)標準,導致信用信息資源目錄的元數(shù)據(jù)名稱、格式、標準、長度、類型千差萬別。以上海市公共信用信息服務平臺資源目錄為例,字段最多的資源目錄事項有34個字段,最少的有8個字段;另外,除國家制定的行政許可信息和行政處罰信息數(shù)據(jù)標準之外,沒有一個資源目錄事項的字段是一致的。因此,基于信用檔案數(shù)據(jù)的這些特點,需要找一套合理有效的數(shù)據(jù)存儲模式來管理它們。
采用行存儲模式管理信用檔案數(shù)據(jù)時,一種方案是對各信用信息資源目錄事項進行抽象,統(tǒng)一合并歸納為少數(shù)的幾個信用信息資源類別(例如登記類、資質(zhì)類、監(jiān)管類等8大類),再統(tǒng)一制定這8類的數(shù)據(jù)標準和結(jié)構(gòu),形成8張表結(jié)構(gòu)。另一種方案是完全按照來源部門的數(shù)據(jù)結(jié)構(gòu)進行映射,目標表和原始表一一對應,不對表結(jié)構(gòu)進行任何變化,以上海市信用平臺為例,5198個資源目錄事項形成5198張表。
第一種方案問題在于可操作性不強。目前還無法找到一個完美的分類標準能夠覆蓋所有的公共信用信息資源目錄事項。并且,信用信息資源目錄的元數(shù)據(jù)標準很難用進行統(tǒng)一。例如登記類信息中,工商企業(yè)注冊登記信息和單用途預付卡登記備案信息的元數(shù)據(jù)完全不一致。
第二種方案問題一方面在于數(shù)據(jù)管理和開發(fā)維護的成本較大。軟件系統(tǒng)需要對5198張表進行開發(fā)和管理,在未來新的資源目錄事項加入時,需要不斷地新建表,對軟件代碼的可擴展性和兼容性的要求較高。另一方面,在數(shù)據(jù)查詢應用場景下(例如,通過統(tǒng)一社會信用代碼查詢指定單個企業(yè)的信用數(shù)據(jù)),軟件系統(tǒng)的性能和效率低下。其工作機制流程如下:
1) 用戶輸入統(tǒng)一社會信用代碼或身份證號碼查詢指定主體的信用檔案數(shù)據(jù);
2) 軟件代碼掃描每一張數(shù)據(jù)表(5198張表),逐個找到這些表中主鍵與輸入條件匹配的信用數(shù)據(jù)記錄;
3) 將這些數(shù)據(jù)記錄關(guān)聯(lián)起來進行展示。
為了解決上述行存儲模式所面臨的問題,本文采用列存儲的方式,將5198項信用信息數(shù)據(jù)進行統(tǒng)一管理。所有公共信用檔案的元數(shù)據(jù)統(tǒng)一在“數(shù)據(jù)名稱表T_HEADER”中進行存儲,所有數(shù)據(jù)記錄在“數(shù)據(jù)內(nèi)容表T_DATA”中進行存儲,兩張表的表結(jié)構(gòu)如下,如表2、表3所示。
表2 數(shù)據(jù)名稱表T_HEADER表結(jié)構(gòu)
數(shù)據(jù)名稱表T_HEADER統(tǒng)一管理所有資源目錄事項的元數(shù)據(jù)名稱信息、元數(shù)據(jù)類型、元數(shù)據(jù)字典標準、元數(shù)據(jù)長度,以及這個元數(shù)據(jù)字段在信用檔案中的展示的順序、寬度和名稱等。并通過ZYMLID與數(shù)據(jù)內(nèi)容表T_DATA中的具體數(shù)據(jù)進行關(guān)聯(lián)。
表3 數(shù)據(jù)內(nèi)容表T_DATA表結(jié)構(gòu)
數(shù)據(jù)內(nèi)容表T_DATA統(tǒng)一管理所有的數(shù)據(jù)記錄,這些數(shù)據(jù)記錄是嚴格按照T_HEADER的元數(shù)據(jù)標準進行存儲的,分別用A1至A30存放每個元數(shù)據(jù)字段所對應的具體數(shù)據(jù)。法人的統(tǒng)一社會信用代碼和單位名稱、自然人的身份證號碼和姓名單獨用兩個字段“CREDITCODE”和“NAME”單獨存放。
在信用檔案數(shù)據(jù)查詢的應用場景下,列存儲模式的工作機制流程如下:
(1) 用戶輸入統(tǒng)一社會信用代碼或身份證號碼;
(2) 軟件系統(tǒng)首先在數(shù)據(jù)內(nèi)容表T_DATA中進行匹配,將CREDITCODE字段中所有符合條件的數(shù)據(jù)記錄全部找到;
(3) 以ZYMLID為外鍵,在數(shù)據(jù)名稱表T_HEADER中找到這些數(shù)據(jù)記錄對應的表頭名稱信息、類型信息、長度信息、信用檔案中展示的先后順序、展示的寬度、展示的別名等等;
(4) 將這些數(shù)據(jù)記錄關(guān)聯(lián)起來進行展示。
(1) 應用系統(tǒng)開發(fā)成本低
在列存儲模式下,應用系統(tǒng)只需針對兩張表進行開發(fā)。不需要像行存儲模式下關(guān)注5198張表,為每張表單獨建立實體類進行讀寫維護的開發(fā)。大大降低了應用系統(tǒng)軟件的開發(fā)時間和維護成本。
(2) 數(shù)據(jù)易于擴展
隨著未來新的部門不斷接入,新的信用信息資源目錄事項不斷增加,在基于列存儲的數(shù)據(jù)管理模式下,只需要在數(shù)據(jù)內(nèi)容標T_DATA中新增數(shù)據(jù)記錄,并把對應數(shù)據(jù)記錄的元數(shù)據(jù)信息插入數(shù)據(jù)名稱表T_HEADER中即可。不需要修改軟件程序,也不需要新增表實體或修改表結(jié)構(gòu)就可以完成擴展,并保持來源部門的原始數(shù)據(jù)結(jié)構(gòu)不變。
(3) 查詢應用的效率高
在此模式下,軟件系統(tǒng)不需要掃描幾千張表,只需要對兩張表進行操作即可。大大提高了應用系統(tǒng)的查詢效率。
截止2017年1月,上海市信用平臺歸集了包括行政機關(guān)、司法機關(guān)以及公用事業(yè)單位在內(nèi)的100家單位數(shù)據(jù),信息事項5198項,可供查詢法人數(shù)據(jù)1043萬條、自然人數(shù)據(jù)近3億條。依托上海誠信網(wǎng)、市信用平臺APP、市民信箱、法人一證通等,實現(xiàn)信用檔案在線查詢功能,遠郊區(qū)縣依托行政事務服務中心設(shè)立服務窗口,構(gòu)建線上線下綜合查詢渠道。如圖1所示。
圖1 法人信用檔案查詢頁面
在基于列存儲的信用信息數(shù)據(jù)管理模式下,上海市信用平臺的已累計提供法人信用信息查詢377萬次、自然人查詢1194萬次。在2015年,上海市信用平臺圓滿完成“為全市法人和市民在線免費提供一次信用查詢報告”市政府實事項目,全市106萬法人和531萬自然人參與在線查詢,如圖2所示。
圖2 自然人信用檔案查詢頁面
在應用過程中,我們也發(fā)現(xiàn)列存儲模式下的一些缺點,例如統(tǒng)計報表和信用數(shù)據(jù)專題分析等應用的開發(fā)實現(xiàn)相對行存儲較為困難。下一步,可以考慮同時保留行存儲和列存儲的混合存儲模式,并采用分布式大數(shù)據(jù)架構(gòu)對行存儲模式下的數(shù)據(jù)進行管理,滿足統(tǒng)計報表和信用數(shù)據(jù)分析需求的同時,兼顧系統(tǒng)性能和效率。
[1] 上海市人民政府 《上海市公共信用信息歸集和使用管理辦法》(滬府令38號).
[2] 國家發(fā)展改革委《關(guān)于認真做好行政許可和行政處罰等信用信息公示工作的通知》(發(fā)改電〔2015〕557號).
[3] GB32100—2015《法人和其他組織統(tǒng)一社會信用代碼編碼規(guī)則》.
[4] 國家發(fā)改委 《關(guān)于規(guī)范行政許可和行政處罰等信用信息數(shù)據(jù)標準的通知》(發(fā)改電〔2015〕806號).
[5] 上海市公共信用信息目錄(2016版).
ResearchonPublicCreditArchiveDataManagementBasedonColumn-basedStorageModel
Zhang Huishuai
(Shanghai Triman Information & Technology Co., Ltd,Shanghai 200042, China)
This research aims at the management of multi-source heterogeneous credit archive data from various government departments, analyzes the disadvantage of row-based storage model. It brings forward the coloumn-based storage model, designs the database structure and analyzes its advantage over the row-based model. Based on the coloumn-based model, this research implements the credit archive data storage and management of the Shanghai public credit information service platform.
Credit archive; Credit information; Data management; Column-based storage model; Multi-source heterogeneous
1007-757X(2017)12-0044-03
張輝帥(1986-),男,工程師,學士,研究方向:信用大數(shù)據(jù)。
TP311
A
2017.07.28)