張?jiān)品?/p>
(上海股權(quán)托管交易中心 上海市 201203)
2020年3月1日施行的最新版《證券法》明確,“按照國(guó)務(wù)院規(guī)定設(shè)立的區(qū)域性股權(quán)市場(chǎng)為非公開發(fā)行證券的發(fā)行、轉(zhuǎn)讓提供場(chǎng)所和設(shè)施,具體管理辦法由國(guó)務(wù)院規(guī)定。”《國(guó)務(wù)院辦公廳關(guān)于規(guī)范發(fā)展區(qū)域性股權(quán)市場(chǎng)的通知》(國(guó)辦發(fā)〔2017〕11 號(hào))規(guī)定,“區(qū)域性股權(quán)市場(chǎng)是主要服務(wù)于所在省級(jí)行政區(qū)域內(nèi)中小微企業(yè)的私募股權(quán)市場(chǎng),是多層次資本市場(chǎng)體系的重要組成部分,是地方人民政府扶持中小微企業(yè)政策措施的綜合運(yùn)用平臺(tái)。”根據(jù)中國(guó)證券業(yè)協(xié)會(huì)編著的《中國(guó)證券業(yè)發(fā)展報(bào)告(2020)》之《專題報(bào)告:2019年區(qū)域性股權(quán)市場(chǎng)和柜臺(tái)市場(chǎng)發(fā)展綜述》顯示,截至2019年底,全國(guó)34 家區(qū)域性股權(quán)市場(chǎng)共有掛牌公司2.88 萬(wàn)家(其中股份公司1.11 萬(wàn)家),展示企業(yè)11.07 萬(wàn)家,登記托管企業(yè)43275 家,累計(jì)為企業(yè)實(shí)現(xiàn)各類融資11294.9 億元,為區(qū)域性股權(quán)市場(chǎng)提供服務(wù)的中介機(jī)構(gòu)7571 家,合格投資者91.10 萬(wàn)戶。經(jīng)過(guò)多年努力,34 家區(qū)域性股權(quán)市場(chǎng)共助推800 多家企業(yè)成功轉(zhuǎn)入新三板、滬深交易所等市場(chǎng)。這些龐大的數(shù)據(jù),是我國(guó)資本市場(chǎng)發(fā)展建設(shè)、助推中小微企業(yè)發(fā)展的寶貴資源。但是,多年以來(lái),這些數(shù)據(jù)沒(méi)有得到充分挖掘和有效利用,甚至為數(shù)不少的區(qū)域性股權(quán)市場(chǎng)在向監(jiān)管機(jī)構(gòu)報(bào)送監(jiān)管數(shù)據(jù)時(shí),尚存在報(bào)告數(shù)據(jù)標(biāo)準(zhǔn)不一、依據(jù)不足、無(wú)明細(xì)支撐、差錯(cuò)率高、參雜主觀因素等問(wèn)題。究其原因,主要就是沒(méi)有功能健全的、科學(xué)合理的、自動(dòng)化程度高的數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)。因此,需要一個(gè)功能強(qiáng)大的、有效整合市場(chǎng)中各個(gè)分支系統(tǒng)數(shù)據(jù)的數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),為數(shù)據(jù)深度挖掘、大數(shù)據(jù)分析、人工智能等數(shù)據(jù)處理系統(tǒng)提供支撐,最終為國(guó)家資本市場(chǎng)發(fā)展、中小微企業(yè)發(fā)展戰(zhàn)略提供決策參考。
(1)滿足監(jiān)管部門數(shù)據(jù)報(bào)送要求。根據(jù)監(jiān)管部門的需求,對(duì)多維度數(shù)據(jù)進(jìn)行自動(dòng)化采集,再進(jìn)行定制化分析、類別化統(tǒng)計(jì),生成指定格式的報(bào)表,及時(shí)報(bào)送給監(jiān)管機(jī)構(gòu)。為達(dá)到報(bào)表生成準(zhǔn)確、全面、及時(shí),需要采用靈活的報(bào)表工具,為適應(yīng)業(yè)務(wù)發(fā)展中新變化,需要通過(guò)插件技術(shù)以方便地?cái)U(kuò)充報(bào)表內(nèi)容和格式。
(2)為市場(chǎng)參與者精準(zhǔn)畫像、精準(zhǔn)評(píng)級(jí)。通過(guò)數(shù)據(jù)采集、提煉、統(tǒng)計(jì),準(zhǔn)確得到企業(yè)的財(cái)務(wù)、經(jīng)營(yíng)、管理、信用、客戶分布、行業(yè)排名等情況;中介機(jī)構(gòu)的服務(wù)特色、適應(yīng)范圍、優(yōu)長(zhǎng)劣短;投資者的投資偏好、風(fēng)險(xiǎn)承受能力、獲利途徑,對(duì)各市場(chǎng)參與主體實(shí)施分層分類管理,為實(shí)現(xiàn)精準(zhǔn)化、差異化服務(wù)奠定基礎(chǔ)。
圖1:數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)架構(gòu)
圖2:系統(tǒng)軟件架構(gòu)
(3)深度挖掘數(shù)據(jù),提供增值服務(wù)。通過(guò)對(duì)數(shù)據(jù)的深度挖掘、定量或定性分析、構(gòu)建數(shù)學(xué)模型等,為各市場(chǎng)參與主體推送有價(jià)值的研究報(bào)告,提供增值服務(wù),幫助掛牌企業(yè)對(duì)接適合的投資或服務(wù)主體,幫助市場(chǎng)服務(wù)機(jī)構(gòu)為掛牌企業(yè)提供精準(zhǔn)金融服務(wù),幫助投資者、企業(yè)并購(gòu)方等精準(zhǔn)對(duì)接目標(biāo)對(duì)象,為投資者的投資操作提供決策參考。
(4)為市場(chǎng)監(jiān)管提供有力支撐。通過(guò)企業(yè)跟蹤、商業(yè)信用評(píng)估、輿情預(yù)警、綜合分析等手段,對(duì)市場(chǎng)參與主體已經(jīng)出現(xiàn)或可能出現(xiàn)的非法集資、信披滯后、信披造假、失信違約等風(fēng)險(xiǎn)事件及時(shí)做出提示,為市場(chǎng)監(jiān)管的預(yù)警提示、防微杜漸、及時(shí)發(fā)現(xiàn)、準(zhǔn)確處理提供了有力支撐,同時(shí)為建立市場(chǎng)征信體系發(fā)揮重要作用。
(5)節(jié)省人力成本,提高工作效率。統(tǒng)計(jì)系統(tǒng)的自動(dòng)化操作,讓業(yè)務(wù)人員從繁瑣的事務(wù)性工作中解脫出來(lái),專注做好高附加值的服務(wù)工作。
(1)數(shù)據(jù)整合使用。區(qū)域性股權(quán)市場(chǎng)的數(shù)據(jù)大都分散在交易撮合、登記結(jié)算、代理買賣、行情揭示、信息披露、綜合金融服務(wù)平臺(tái)、掛牌與監(jiān)管管理、檔案、輿情信用監(jiān)測(cè)、客戶關(guān)系管理等多個(gè)業(yè)務(wù)系統(tǒng)上,各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都是局部性信息,格式單一、數(shù)據(jù)維度少,而且各系統(tǒng)數(shù)據(jù)接口標(biāo)準(zhǔn)不統(tǒng)一。但是,監(jiān)管部門要求報(bào)送的數(shù)據(jù)覆蓋面廣、維度多、時(shí)效性強(qiáng);市場(chǎng)服務(wù)需要的數(shù)據(jù)需要集中,形成大數(shù)據(jù)庫(kù),而且這個(gè)大數(shù)據(jù)庫(kù)是以創(chuàng)造智能決策為目標(biāo),通過(guò)對(duì)多源數(shù)據(jù)的提取、融合、梳理,最終整合形成的可分析、可利用的價(jià)值數(shù)據(jù)庫(kù)。因此,需要設(shè)計(jì)統(tǒng)一的數(shù)據(jù)交換協(xié)議、接口規(guī)范標(biāo)準(zhǔn),滿足集合性、目標(biāo)性、可分解性、整體性的多元化要求;基于已形成的標(biāo)準(zhǔn)體系,運(yùn)用功能強(qiáng)大的數(shù)據(jù)采集引擎、數(shù)據(jù)運(yùn)算引擎、數(shù)據(jù)分析引擎、數(shù)據(jù)存儲(chǔ)引擎,對(duì)各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行梳理、分析、歸納、整合,最終形成有價(jià)值的數(shù)據(jù)集。
(2)數(shù)據(jù)隱私保護(hù)。大數(shù)據(jù)的獲取、存儲(chǔ)、利用,無(wú)一不涉及安全隱私問(wèn)題,區(qū)域性股權(quán)市場(chǎng)的數(shù)據(jù)同樣涉及到大量企業(yè)、機(jī)構(gòu)、個(gè)人的隱私信息,如何在保護(hù)用戶隱私的前提下對(duì)數(shù)據(jù)進(jìn)行分析利用,是需要解決的重要問(wèn)題。采取的辦法有,通過(guò)自建CA 認(rèn)證中心、手機(jī)密碼令牌加強(qiáng)對(duì)用戶的安全認(rèn)證,在數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)分析等各個(gè)環(huán)節(jié)通過(guò)數(shù)字加密及簽名技術(shù)保證數(shù)據(jù)的完整性和安全性,通過(guò)非對(duì)稱加密算法對(duì)敏感信息的加密保護(hù),提升數(shù)據(jù)存儲(chǔ)的安全級(jí)別。
(3)系統(tǒng)分布式處理。區(qū)域性股權(quán)市場(chǎng)各個(gè)業(yè)務(wù)系統(tǒng)沉淀的數(shù)據(jù)有結(jié)構(gòu)化的也有非結(jié)構(gòu)化的,數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的功能是多層次和多元化的,因此采取分布式布局是必要的選擇。在分布式處理模式下,具有不同功能的、或擁有不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)通過(guò)通信網(wǎng)絡(luò)連接起來(lái),在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)同完成大規(guī)模信息處理任務(wù)。具體應(yīng)用的技術(shù)或系統(tǒng)包括:Redis 內(nèi)存存儲(chǔ)、MapReduce 多任務(wù)并行模型和HDFS 分布式文件系統(tǒng),上述技術(shù)或系統(tǒng)可以很好地解決大數(shù)據(jù)采集、計(jì)算、分析、存儲(chǔ)的計(jì)算瓶頸問(wèn)題。
(1)投資者數(shù)據(jù)。主要包括投資者基本信息、賬戶信息、股權(quán)交易數(shù)據(jù)、非交易過(guò)戶數(shù)據(jù)、存管銀行數(shù)據(jù)、資金流水?dāng)?shù)據(jù)、關(guān)聯(lián)經(jīng)紀(jì)人信息等。
(2)企業(yè)數(shù)據(jù)。主要包括企業(yè)工商信息、股東名冊(cè)、董監(jiān)高資料、財(cái)務(wù)報(bào)表、定期公告、臨時(shí)公告、權(quán)益分派數(shù)據(jù)、發(fā)行可轉(zhuǎn)債情況、違規(guī)處罰情況、誠(chéng)信檔案信息、輿情監(jiān)測(cè)數(shù)據(jù)等。
(3)中介機(jī)構(gòu)數(shù)據(jù)。主要包括中介機(jī)構(gòu)工商信息、中介機(jī)構(gòu)年檢情況、中介機(jī)構(gòu)資格承繼信息、中介機(jī)構(gòu)新增資格申請(qǐng)信息、違規(guī)處罰情況、誠(chéng)信檔案信息、承接項(xiàng)目情況等。
(4)市場(chǎng)數(shù)據(jù)。主要包括市場(chǎng)行情信息、報(bào)價(jià)信息、成交信息、孵化基地信息、戰(zhàn)略合作機(jī)構(gòu)信息、掛牌儀式信息、市場(chǎng)培訓(xùn)信息等。
1.4.1 業(yè)務(wù)數(shù)據(jù)維護(hù)
(1)中介機(jī)構(gòu)管理功能,實(shí)現(xiàn)中介機(jī)構(gòu)基本信息、年費(fèi)繳納信息、資質(zhì)證書信息和相關(guān)聯(lián)絡(luò)人信息維護(hù)。
(2)網(wǎng)點(diǎn)管理功能,實(shí)現(xiàn)孵化基地信息查詢、維護(hù)和統(tǒng)計(jì)。
(3)戰(zhàn)略合作信息維護(hù)功能,實(shí)現(xiàn)戰(zhàn)略合作信息查詢、維護(hù)和統(tǒng)計(jì)。
(4)資助政策維護(hù)功能,實(shí)現(xiàn)資助政策查詢、維護(hù)和統(tǒng)計(jì)。
(5)同類市場(chǎng)數(shù)據(jù)統(tǒng)計(jì)功能,實(shí)現(xiàn)各類指標(biāo)的查詢、維護(hù)和統(tǒng)計(jì)。
(6)托管企業(yè)維護(hù)功能,實(shí)現(xiàn)托管股數(shù)、托管家數(shù)查詢、維護(hù)和統(tǒng)計(jì)。
1.4.2 查詢統(tǒng)計(jì)
(1)企業(yè)融資管理功能,實(shí)現(xiàn)企業(yè)掛牌前融資、企業(yè)掛牌后融資、企業(yè)股權(quán)質(zhì)押、企業(yè)信用貸款、可轉(zhuǎn)債維護(hù)和統(tǒng)計(jì)。
(2)企業(yè)分紅數(shù)據(jù)管理功能,實(shí)現(xiàn)掛牌企業(yè)權(quán)益分派查詢、維護(hù)和統(tǒng)計(jì)。
(3)掛牌企業(yè)信息綜合管理功能。
(4)掛牌企業(yè)股東名冊(cè)查詢和統(tǒng)計(jì)功能。
(5)可轉(zhuǎn)債信息查詢和統(tǒng)計(jì)功能。
(6)投資者基本信息查詢和統(tǒng)計(jì)功能。
(7)投資者和經(jīng)紀(jì)機(jī)構(gòu)對(duì)應(yīng)關(guān)系查詢和統(tǒng)計(jì)功能。
(8)數(shù)據(jù)文件導(dǎo)入功能,實(shí)現(xiàn)交易結(jié)算系統(tǒng)、行情揭示系統(tǒng)、網(wǎng)站系統(tǒng)、綜合金融服務(wù)平臺(tái)系統(tǒng)、掛牌與監(jiān)管管理系統(tǒng)等數(shù)據(jù)的導(dǎo)入。
(9)報(bào)表生成功能,通過(guò)靈活的報(bào)表插件功能,實(shí)現(xiàn)監(jiān)管報(bào)表和市場(chǎng)報(bào)表批量生成。
(10)掛牌企業(yè)財(cái)報(bào)數(shù)據(jù)采集功能,支持合并報(bào)表和非合并報(bào)表。
1.4.3 系統(tǒng)管理
包括角色管理、角色權(quán)限管理、用戶管理、部門管理、系統(tǒng)內(nèi)公告管理、密碼修改等功能。
數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的架構(gòu)需要滿足以下特征:
(1)擴(kuò)展性:支持增量式的快速擴(kuò)展;
(2)可用性:采用應(yīng)用層的容錯(cuò)機(jī)制,提高可用性;
(3)靈活性:使用靈活可動(dòng)態(tài)改變的數(shù)據(jù)模型;
(4)一致性:支持分布式事務(wù)處理一致性模型。
數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)架構(gòu)如圖1所示,該圖展示了數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)架構(gòu)中關(guān)鍵組件。
數(shù)據(jù)采集:支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)采集。對(duì)于不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML 樹、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對(duì)多個(gè)異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來(lái)自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個(gè)新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。另外通過(guò)數(shù)據(jù)采集引擎驅(qū)動(dòng)實(shí)時(shí)數(shù)據(jù)采集、定時(shí)任務(wù)采集、API 接口數(shù)據(jù)推送等多種數(shù)據(jù)采集操作。
計(jì)算引擎和實(shí)時(shí)處理引擎:支持消息隊(duì)列的Events(支持實(shí)時(shí)的事件)的輸入,上游源源不斷產(chǎn)生數(shù)據(jù)并放入消息隊(duì)列,計(jì)算引擎不斷消費(fèi)、處理消息隊(duì)列中的數(shù)據(jù),處理完成之后,數(shù)據(jù)寫入下游系統(tǒng),這個(gè)過(guò)程不斷持續(xù)進(jìn)行。計(jì)算引擎的讀寫是基于內(nèi)存,將迭代過(guò)程的中間數(shù)據(jù)緩存到內(nèi)存中,根據(jù)需要多次重復(fù)使用。由于減少了硬盤讀寫,能夠?qū)⒍鄠€(gè)操作進(jìn)行合并后計(jì)算,因此提升了計(jì)算速度。第四代計(jì)算引擎,比如Spark 和Flink,已經(jīng)支持流計(jì)算,大大提高了實(shí)時(shí)性。
圖3:MapReduce 軟件框架
圖4:上海股交中心綜合金融服務(wù)平臺(tái)
數(shù)據(jù)存儲(chǔ)引擎:針對(duì)結(jié)構(gòu)化數(shù)據(jù)集、非結(jié)構(gòu)化數(shù)據(jù)集使用不同的數(shù)據(jù)存儲(chǔ)引擎,滿足數(shù)據(jù)的存儲(chǔ)管理和查詢分析。
查詢引擎:用可視化模式,選擇需要分析的業(yè)務(wù)數(shù)據(jù)范圍,再利用鼠標(biāo)簡(jiǎn)單拖拽維度數(shù)據(jù)和度量數(shù)據(jù)進(jìn)行 OLAP 多維分析,就可以按地區(qū)、細(xì)分市場(chǎng)、類別和年份等維度查看數(shù)據(jù),并對(duì)應(yīng)生成準(zhǔn)確的可視化數(shù)據(jù)分析圖表,直觀展現(xiàn)數(shù)據(jù)分析結(jié)果。
相較于傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),該數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的主要優(yōu)勢(shì)在于:
(1)支持多元結(jié)構(gòu)數(shù)據(jù)處理。傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,該數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)支持結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。結(jié)構(gòu)化數(shù)據(jù)是在企業(yè)業(yè)務(wù)應(yīng)用中使用最多的一部分?jǐn)?shù)據(jù),也是其中比重最小的一部分?jǐn)?shù)據(jù);與之相比,非結(jié)構(gòu)化數(shù)據(jù)含金量更高,例如系統(tǒng)日志數(shù)據(jù)、用戶的點(diǎn)擊行為等,這些數(shù)據(jù)的量級(jí)是結(jié)構(gòu)化數(shù)據(jù)的幾十倍。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和處理,大數(shù)據(jù)技術(shù)不再局限于傳統(tǒng)的二維表結(jié)構(gòu),可以利用矩陣、向量以及圖的形式進(jìn)行存儲(chǔ)和計(jì)算,能夠提供更加豐富的數(shù)據(jù)分析手段,包括行為計(jì)算、自然語(yǔ)言處理、圖像計(jì)算、關(guān)聯(lián)關(guān)系計(jì)算等,這些手段能夠更好地挖掘數(shù)據(jù)價(jià)值。
(2)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)采用分布式架構(gòu)設(shè)計(jì),通過(guò)內(nèi)存分析、并行計(jì)算、讀寫緩存等技術(shù)大大縮短了數(shù)據(jù)處理和分析的時(shí)間周期。
(3)實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展。隨著應(yīng)用需求與容量的不斷增長(zhǎng),該數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)支持水平擴(kuò)展,不需對(duì)系統(tǒng)架構(gòu)進(jìn)行變更,只做硬件擴(kuò)容,并部署服務(wù)軟件,即可滿足系統(tǒng)容量擴(kuò)展要求。數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)擴(kuò)容增加新節(jié)點(diǎn)之后,該系統(tǒng)自動(dòng)根據(jù)忙閑程度在所有節(jié)點(diǎn)之間均衡數(shù)據(jù),該操作無(wú)需人工干預(yù),占用系統(tǒng)資源很少。數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)可以通過(guò)增加集群節(jié)點(diǎn)的方式提高性能,性能提升可實(shí)現(xiàn)線性增長(zhǎng)。
(4)實(shí)現(xiàn)了實(shí)時(shí)同步全量分析。傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)采用抽樣分析的手段進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,分析結(jié)果主要是面向群體的統(tǒng)計(jì)報(bào)表,維度是有限制的,統(tǒng)計(jì)的數(shù)據(jù)是在一定周期內(nèi)的,結(jié)果往往已經(jīng)是過(guò)時(shí)的了。該數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)是在全量數(shù)據(jù)之上進(jìn)行數(shù)據(jù)分析,利用機(jī)器學(xué)習(xí)技術(shù)和算法建模,實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)分析,能夠完全勾勒出企業(yè)的DNA,新的Key/Value 形式的存儲(chǔ)結(jié)構(gòu)擺脫了對(duì)維度的限制,可以更加方便地進(jìn)行數(shù)據(jù)挖掘分析。
(5)提高容錯(cuò)能力。傳統(tǒng)的分布式計(jì)算框架MPI(message passing interface,信息傳遞接口)雖然編程接口靈活且功能強(qiáng)大,但由于編程接口復(fù)雜且對(duì)容錯(cuò)性支持不高,無(wú)法支撐在大規(guī)模數(shù)據(jù)上的復(fù)雜操作。該數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)分布式計(jì)算框架MapReduce,將對(duì)數(shù)據(jù)的處理歸結(jié)為Map 和Reduce 兩大類操作,從而簡(jiǎn)化了編程接口并提高了系統(tǒng)的容錯(cuò)性。
(6)該數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)具有更為鮮明的行業(yè)特性。以區(qū)域性股權(quán)市場(chǎng)行業(yè)為應(yīng)用場(chǎng)景,深入結(jié)合行業(yè)背景和應(yīng)用特點(diǎn),依據(jù)行業(yè)所能獲取到的數(shù)據(jù)資源,定制出適合該類場(chǎng)景的算法、模型和解決方案。
(7)為建設(shè)云計(jì)算平臺(tái)奠定基礎(chǔ)。隨著互聯(lián)網(wǎng)、云計(jì)算技術(shù)的專業(yè)化分工,云平臺(tái)的應(yīng)用越來(lái)越普遍?;跀?shù)據(jù)統(tǒng)計(jì)系統(tǒng),可以建設(shè)“區(qū)域性股權(quán)市場(chǎng)云”,再對(duì)接包括輿情信息公有云、工商數(shù)據(jù)云在內(nèi)的其他公有云,即可建成一個(gè)高可擴(kuò)展性、超大規(guī)模、高可用性、成本低廉的數(shù)據(jù)中心。再進(jìn)一步地通過(guò)實(shí)施虛擬化、網(wǎng)格計(jì)算、自動(dòng)化管理等云計(jì)算技術(shù),就可逐步把區(qū)域性股權(quán)市場(chǎng)內(nèi)部的數(shù)據(jù)中心建設(shè)成跨越至區(qū)域性股權(quán)市場(chǎng)之外的具有公共云平臺(tái)特性的云計(jì)算平臺(tái)。
數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的技術(shù)實(shí)現(xiàn)采用層次化、模塊化結(jié)構(gòu),系統(tǒng)軟件架構(gòu)如圖2所示。
(1)數(shù)據(jù)分析層:包括數(shù)據(jù)采集和數(shù)據(jù)分析二個(gè)部分。數(shù)據(jù)采集是數(shù)據(jù)分析生命周期中的重要一環(huán),通過(guò)實(shí)時(shí)數(shù)據(jù)推送、定時(shí)任務(wù)數(shù)據(jù)抓取、批量文件導(dǎo)入、應(yīng)用API 接口對(duì)接等多種方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。數(shù)據(jù)分析的第一步是數(shù)據(jù)提取,從復(fù)雜格式的數(shù)據(jù)中提?。╡xtract)出需要的數(shù)據(jù);第二步是數(shù)據(jù)清洗;第三步是數(shù)據(jù)轉(zhuǎn)換(transform),根據(jù)不同的應(yīng)用場(chǎng)景、分析工具、分析系統(tǒng)的不同需要,將數(shù)據(jù)轉(zhuǎn)換成不同的數(shù)據(jù)格式,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載(load)到數(shù)據(jù)庫(kù)中去。
(2)編程模型層:主要采用MapReduce 和Storm 技術(shù)。MapReduce 是一個(gè)軟件框架,基于該框架能夠方便地編寫應(yīng)用程序,這些應(yīng)用程序能夠運(yùn)行在服務(wù)器集群上,并以一種可靠的、具有容錯(cuò)能力的方式并行地處理TB 級(jí)別的海量數(shù)據(jù)集。Mapper 負(fù)責(zé)分解任務(wù),即把復(fù)雜的任務(wù)分解為若干個(gè)“簡(jiǎn)單的任務(wù)”,然后各自獨(dú)立處理,這樣做的好處,一是數(shù)據(jù)或計(jì)算的規(guī)模相對(duì)原任務(wù)要大大縮??;二是用就近計(jì)算原則,把任務(wù)分配到存放著所需數(shù)據(jù)的節(jié)點(diǎn)上進(jìn)行計(jì)算;三是這些小任務(wù)可以并行計(jì)算,彼此間幾乎沒(méi)有依賴關(guān)系。Reducer 負(fù)責(zé)對(duì)Mapper 階段的結(jié)果進(jìn)行匯總,對(duì)多個(gè)map任務(wù)的輸出,按照不同的分區(qū),通過(guò)網(wǎng)絡(luò)copy 到不同的reduce 節(jié)點(diǎn),然后再對(duì)多個(gè)map 任務(wù)的輸出進(jìn)行合并、排序。MapReduce 軟件框架如圖3所示。
(3)數(shù)據(jù)存儲(chǔ)層:包括Hcatalog(元數(shù)據(jù))、Hbase(數(shù)據(jù)存儲(chǔ))、Redis(數(shù)據(jù)存儲(chǔ))。Redis 是一個(gè)key-value 存儲(chǔ)系統(tǒng),它支持存儲(chǔ)的value 類型很多,包括string(字符串)、list(鏈表)、set(集合)和zset(有序集合),這些數(shù)據(jù)類型都支持push/pop、add/remove 及更豐富的操作,正因如此,redis 能夠支持多種不同方式的排序。Redis 在服務(wù)器端構(gòu)建分布式存儲(chǔ),把當(dāng)前任務(wù)切分處理,合理解決單個(gè)服務(wù)器內(nèi)存、磁盤空間有限無(wú)法處理海量的緩存數(shù)據(jù)的問(wèn)題。
(4)數(shù)據(jù)集成層:主要采用HDFS 分布式文件系統(tǒng),HDFS充分滿足了流數(shù)據(jù)模式訪問(wèn)和超大文件處理的需求,該系統(tǒng)可以運(yùn)行于廉價(jià)的商用服務(wù)器上,它所具有的高容錯(cuò)、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等優(yōu)勢(shì)特征,為海量數(shù)據(jù)存儲(chǔ)提供了可靠保障。
(5)安全防護(hù)設(shè)計(jì):具體措施包括:用戶認(rèn)證、密碼策略、權(quán)限控制、日志審計(jì)、數(shù)據(jù)加密。
用戶認(rèn)證:數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)用戶主要由三部分組成:應(yīng)用用戶、數(shù)據(jù)報(bào)送用戶、系統(tǒng)管理用戶,安全目標(biāo)是禁止未認(rèn)證的訪問(wèn)請(qǐng)求,確保所有訪問(wèn)請(qǐng)求都經(jīng)過(guò)了正確認(rèn)證且授權(quán),通過(guò)組件認(rèn)證、動(dòng)態(tài)令牌、動(dòng)態(tài)驗(yàn)證碼、用戶名和密碼等多種安全認(rèn)證機(jī)制,完成安全目標(biāo)。
密碼策略:目標(biāo)是防范弱口令攻擊和猜測(cè)用戶口令行為,采用密碼復(fù)雜性策略及無(wú)規(guī)律方式、規(guī)定時(shí)間密碼失效、要求修改密碼、密碼錯(cuò)誤鎖定等安全策略。
權(quán)限控制:確保所有用戶的權(quán)限都是其工作所必須的最小權(quán)限,權(quán)限的申請(qǐng)必須經(jīng)授權(quán)審批。權(quán)限分為操作權(quán)限和授權(quán)權(quán)限,兩種權(quán)限體系相互隔離。系統(tǒng)用戶又分為管理員、審計(jì)員、操作員,三種權(quán)限相互獨(dú)立、相互制約。
日志審計(jì):安全目標(biāo)是自動(dòng)記錄所有的訪問(wèn)請(qǐng)求,提供事后審計(jì)分析。日志記錄的內(nèi)容包括:用戶登錄、用戶注銷、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)庫(kù)啟動(dòng)停止恢復(fù)、切換審計(jì)、授權(quán)和回收權(quán)限審計(jì)、SET審計(jì)等。
數(shù)據(jù)加密:目標(biāo)是保證敏感數(shù)據(jù)以密文的形式存儲(chǔ),在開發(fā)測(cè)試環(huán)境測(cè)試數(shù)據(jù),須經(jīng)過(guò)數(shù)據(jù)脫敏技術(shù)處理后再行使用。
上海股權(quán)托管交易中心率先設(shè)計(jì)并開發(fā)了《數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)》,由本文作者領(lǐng)銜設(shè)計(jì)研發(fā),是國(guó)內(nèi)首個(gè)支持區(qū)域性股權(quán)市場(chǎng)數(shù)據(jù)統(tǒng)計(jì)分析、自動(dòng)向監(jiān)管機(jī)構(gòu)報(bào)送監(jiān)管數(shù)據(jù)的信息技術(shù)系統(tǒng)。該系統(tǒng)于2014年7月立項(xiàng),2015年12月完成第一期開發(fā)并投入使用,第二期開發(fā)自2015年12月啟動(dòng),至2016年9月完成并全部上線運(yùn)營(yíng)。期間,利用采集的數(shù)據(jù)樣本,多次進(jìn)行數(shù)據(jù)模擬訓(xùn)練,尋找合適的數(shù)據(jù)模型,建立相應(yīng)的算法模型,經(jīng)過(guò)多次迭代升級(jí)后,系統(tǒng)逐漸成熟,可以支持分布式系統(tǒng)架構(gòu),實(shí)現(xiàn)并行計(jì)算、內(nèi)存分析、讀寫緩存等先進(jìn)的技術(shù)應(yīng)用,滿足大數(shù)據(jù)并發(fā)系統(tǒng)處理要求。
現(xiàn)在,上海股交中心數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)已經(jīng)納入規(guī)模更大的“上海股交中心綜合金融服務(wù)平臺(tái)”。該平臺(tái)是以互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等核心技術(shù)為基礎(chǔ),按照新概念互聯(lián)網(wǎng)金融發(fā)展理念,以服務(wù)中小微企業(yè)為核心,面向企業(yè)、投資者、金融機(jī)構(gòu)、中介服務(wù)機(jī)構(gòu)開放的綜合金融生態(tài)服務(wù)系統(tǒng),該平臺(tái)由門戶平臺(tái)、市場(chǎng)服務(wù)平臺(tái)、企業(yè)服務(wù)平臺(tái)、業(yè)務(wù)管理平臺(tái)和數(shù)據(jù)支撐平臺(tái)組成,如圖4所示。
上海股交中心數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)是數(shù)據(jù)支撐平臺(tái)里的核心應(yīng)用,有了以數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)為核心的數(shù)據(jù)支撐平臺(tái)對(duì)數(shù)據(jù)的驅(qū)動(dòng)、匯聚、分析、應(yīng)用,使得市場(chǎng)服務(wù)平臺(tái)、企業(yè)服務(wù)平臺(tái)、業(yè)務(wù)管理平臺(tái)、門戶平臺(tái)等上層模塊的高性能擴(kuò)展、多樣化展現(xiàn)、定制化服務(wù)成為可能。
經(jīng)過(guò)2年多的開發(fā)和升級(jí),以及近4年的運(yùn)營(yíng)和完善,上海股交中心數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)已日趨完善,為準(zhǔn)確及時(shí)報(bào)送監(jiān)管數(shù)據(jù)、科學(xué)完整提供數(shù)據(jù)樣本、快速提升服務(wù)能級(jí)、有力促進(jìn)中小微企業(yè)融資發(fā)展、大力推動(dòng)資本市場(chǎng)建設(shè)、有效助力決策機(jī)構(gòu)科學(xué)決策發(fā)揮了重要作用。上海股交中心數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)是行業(yè)的先行者,其設(shè)計(jì)思路、技術(shù)路線、應(yīng)用實(shí)踐在全國(guó)場(chǎng)外資本市場(chǎng)中具有較高的推廣應(yīng)用價(jià)值。
數(shù)據(jù)是資本市場(chǎng)的核心資源,用好了數(shù)據(jù),就為資本市場(chǎng)注入了活力。當(dāng)前,包括區(qū)域性股權(quán)市場(chǎng)在內(nèi)的中國(guó)場(chǎng)外資本市場(chǎng),普遍缺少活力,交易不活躍,融資能力不強(qiáng),對(duì)企業(yè)缺乏吸引力,因此,場(chǎng)外資本市場(chǎng)充分挖掘、利用好市場(chǎng)的數(shù)據(jù)資源,是搞活場(chǎng)外資本市場(chǎng)、有效發(fā)揮市場(chǎng)功能的重要舉措,意義重大,利在千秋。
本文討論的數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),在上海股權(quán)托管交易中心已經(jīng)得到運(yùn)用,效果顯著,值得推廣。但是,該系統(tǒng)在技術(shù)應(yīng)用上還不足夠領(lǐng)先,導(dǎo)致在業(yè)務(wù)規(guī)劃上還不足夠完善。當(dāng)前,信息技術(shù)進(jìn)步一日千里,新的、先進(jìn)的技術(shù)的應(yīng)用,必然促動(dòng)業(yè)務(wù)的革新升級(jí)。未來(lái)的數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)必須要全面引入互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈等先進(jìn)技術(shù),讓數(shù)據(jù)的挖掘和應(yīng)用更加廣泛、更加深入、更加智能化、更加精準(zhǔn)化、更加具有實(shí)用價(jià)值,更好地促進(jìn)資本市場(chǎng)發(fā)展乃至國(guó)家經(jīng)濟(jì)發(fā)展。作為中國(guó)場(chǎng)外資本市場(chǎng)最早的建設(shè)者和從業(yè)者、上海股權(quán)托管交易中心的建設(shè)者和從業(yè)者、信息技術(shù)和證券業(yè)務(wù)復(fù)合型人員,我愿意為先進(jìn)技術(shù)的應(yīng)用、證券業(yè)務(wù)的革新做出應(yīng)有的貢獻(xiàn)。