余洋軍
摘 要: 建立大數(shù)據(jù)征信系統(tǒng),能消除信息不對稱,提供更快、更精準的信用決策??梢酝ㄟ^對實時交易數(shù)據(jù)的大數(shù)據(jù)分析,分析用戶是否有異常貸款、借新還舊、信用惡化等實時評估并進行預警。根據(jù)人口屬性、社會交往、行為偏好等信息構(gòu)建用戶消費畫像。為互金、大數(shù)據(jù)、支付、銀行、保險、電商等各領(lǐng)域提供決策依據(jù)。本文將介紹基于爬蟲技術(shù)如何在征信系統(tǒng)中的應用和實現(xiàn)。
關(guān)鍵詞: 社會信用體系;信用平臺系統(tǒng);網(wǎng)絡爬蟲
一、征信系統(tǒng)的現(xiàn)狀與發(fā)展
(一)社會信用體系建設的意義
社會信用體系是一個龐大的系統(tǒng),主要涉及三個方面:一是規(guī)范、約束信用行為的法律體系;二是促進企業(yè)自覺履行承諾的誠信體系;三是幫助債權(quán)方判別交易對象信用狀況、違約風險、降低信用交易成本的征信體系。建立和完善社會信用體系是我國社會主義市場經(jīng)濟不斷走向成熟的重要標志之一。信用是市場經(jīng)濟的通行證?,F(xiàn)代市場經(jīng)濟是建立在法制基礎(chǔ)上的信用經(jīng)濟。沒有信用,就沒有秩序,市場經(jīng)濟就不能健康發(fā)展。在市場經(jīng)濟尚不完善的我國,雖然實現(xiàn)了經(jīng)濟的騰飛,但是相應的社會信用體系建設依然滯后。當前,信用狀況差是我國社會主義市場經(jīng)濟發(fā)展的一個薄弱環(huán)節(jié),已成為影響和制約經(jīng)濟發(fā)展的突出因素。由于缺乏足夠的信用,直接導致不少企業(yè)陷入危機。面對目前這種情況,建立健全現(xiàn)代市場經(jīng)濟的社會信用體系尤為迫切。
(二)征信系統(tǒng)現(xiàn)狀
近些年隨著消費金融的不斷深入發(fā)展,征信行業(yè)逐步得到大家的重視。目前國內(nèi)征信只是初步建立了完整產(chǎn)業(yè)體系,其在各個環(huán)節(jié)尚存在不同問題。相比美國成熟征信市場來說,目前中國仍處于數(shù)據(jù)源爭奪戰(zhàn)中,各家征信機構(gòu)仍將數(shù)據(jù)資源視為核心競爭力。目前國內(nèi)與“征信服務”相關(guān)的公司有2000多家,其中完成備案的企業(yè)征信機構(gòu)約135家左右。相對于企業(yè)征信較容易獲取牌照,央行尚未完全放開個人征信牌照,目前僅以芝麻信用、前海征信、騰訊征信、拉卡拉征信、中智誠征信、中誠信征信、鵬元征信和華道征信等八家作為個人征信試點機構(gòu)。除這八家試點之外,還有很多創(chuàng)業(yè)平臺為機構(gòu)客戶提供個人信用服務,如算話征信、新顏征信、立木征信、探知數(shù)據(jù)、聚信立等等。這類平臺作為大數(shù)據(jù)出身,在數(shù)據(jù)采集、數(shù)據(jù)處理方面具有豐富經(jīng)驗,并且并不局限于金融行業(yè),同時在切入征信時,大多會選擇從營銷入手,再向信用延展。例如大數(shù)據(jù)公司集奧聚合,其數(shù)據(jù)優(yōu)勢體現(xiàn)在運營商和互聯(lián)網(wǎng)方面,目前其不僅為客戶提供精準營銷等服務,還提供信用評估產(chǎn)品,涉足征信行業(yè)。目前征信機構(gòu)在整合多維度數(shù)據(jù)源后,才能建設模型并提供具體征信服務。例如新顏征信結(jié)合自身海量互聯(lián)網(wǎng)金融數(shù)據(jù),建立起龐大的反欺詐庫,同時通過授權(quán)數(shù)據(jù)和政府公開數(shù)據(jù)進行有效地交叉驗證。目前不同征信機構(gòu)在數(shù)據(jù)源方面,都形成了自己的差異化優(yōu)勢。在場景應用上,目前大多數(shù)征信機構(gòu)還是集中于金融領(lǐng)域,而不少機構(gòu)已經(jīng)開始積極拓展金融以外的信用應用場景,比如個人租房,上下游企業(yè)交易,甚至談戀愛等等。征信就像在陌生企業(yè)和陌生人群交易之間的建立起了無形的信用中介,對交易的順利進行和風險控制有很大的幫助。例如芝麻信用近期與OFO單車及蘑菇租房等進行深度跨界合作,將信用產(chǎn)品應用于出行和租房領(lǐng)域。
然而目前國內(nèi)各家征信機構(gòu)仍處于數(shù)據(jù)源爭奪戰(zhàn)中,仍將數(shù)據(jù)資源視為核心競爭力,同時還存在各種問題,例如:采集場景是互相割裂、數(shù)據(jù)源不全面、數(shù)據(jù)質(zhì)量不高、盈利模式單一、法律保障體系不完善等。
(三)征信系統(tǒng)未來方向
相關(guān)數(shù)據(jù)顯示,我國每年因為誠信缺失造成的經(jīng)濟損失約為數(shù)千億元。所以征信市場空間較大,產(chǎn)業(yè)資本及金融資本出于風控、完善生態(tài)體系目的,加緊布局征信。未來征信一定會采用大數(shù)據(jù)等技術(shù)降低征信成本,而且征信市場最終會形成高集中度等特征。大數(shù)征信的技術(shù)關(guān)鍵在于數(shù)據(jù)整合、數(shù)據(jù)挖掘和評級模型。數(shù)據(jù)整合體現(xiàn)為將出現(xiàn)在多個數(shù)據(jù)源中個人信息甄別同一個人,并整合成完整的個體信息。伴隨著政策的放開,我國征信市場發(fā)展迅速,初步形成政府背景下信用信息機構(gòu)、社會征信機構(gòu)、評級公司等機構(gòu)的多元化征信市場。征信系統(tǒng)的未來發(fā)展趨勢,預計制度保障層面將更為完善,行業(yè)層面將細分化,數(shù)據(jù)等基礎(chǔ)資源供給將趨于優(yōu)化,機構(gòu)在場景方面將更加廣泛。就目前形勢來看征信業(yè)存在極為明顯的規(guī)模經(jīng)濟,隨著數(shù)據(jù)庫規(guī)模的擴大和查詢量的增加,業(yè)務成本逐步降低,并且隨著數(shù)據(jù)數(shù)量和質(zhì)量的提升,在激烈的市場競爭下,會出現(xiàn)一批非常優(yōu)秀的征信公司和產(chǎn)品。
二、爬蟲技術(shù)分類及工作原理
爬蟲是一種按照一定的規(guī)則,自動地抓取網(wǎng)頁信息的程序或者腳本,可以自動采集所有其能夠訪問到的頁面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。其按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲。 在實際應用中通常根據(jù)實際需要將幾種爬蟲技術(shù)相結(jié)合來使用。在爬蟲系統(tǒng)框架中,主要過程由采集器,解析器,數(shù)據(jù)存取三部分組成。采集器的主要工作是負責給多線程中的各個爬蟲線程分配工作任務。解析器的主要工作是對已經(jīng)采集下來網(wǎng)頁資源,對關(guān)心的數(shù)據(jù)進行解析處理。數(shù)據(jù)存取是對已經(jīng)解析好網(wǎng)頁資源,進行數(shù)據(jù)結(jié)構(gòu)化整理,生成可用的數(shù)據(jù)資源,最終實現(xiàn)數(shù)據(jù)落地入庫。
Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。由于每個爬蟲實現(xiàn)機制的不同,需要根據(jù)實現(xiàn)情況來關(guān)注Robots協(xié)議。
三、征信系統(tǒng)中爬蟲系統(tǒng)設計與實現(xiàn)
(一)征信系統(tǒng)整體設計架構(gòu)
(二)征信系統(tǒng)(運營商爬蟲)各服務組件
征信系統(tǒng)爬蟲由多個具體模塊組成,現(xiàn)以運營商爬蟲為例介紹具體實現(xiàn)方案。運營商爬蟲模塊由用戶授權(quán)(API輸入用戶名、密碼和短信驗證)進行登陸相應運營商網(wǎng)站,來獲取該用戶相關(guān)信息。由于國內(nèi)運營商(中國聯(lián)通是統(tǒng)一的官網(wǎng)除外)是每個省份獨立維護的,其登陸、驗證及數(shù)據(jù)獲取都是相對獨立的,必須針對中國電信、中國移動的每個省份單獨處理。征信系統(tǒng)爬蟲模塊各服務組成如右:endprint
(三)征信系統(tǒng)(運營商爬蟲)具體實現(xiàn)
運營商爬蟲開發(fā)選取Java語言開發(fā),整個上采用Sping-boot、WebClient、Selenium 等技術(shù)。整體流程為主線程循環(huán)請求spider-route服務,通過指定任務類型(ISP)獲取運營商數(shù)據(jù)攫取任務請求。通過前置條件檢驗后,再根據(jù)外部服務(www.ip138.com)網(wǎng)站獲取所需要運營商類型(中國聯(lián)通、移動和電信)和省份,自動分配對應的爬蟲處理器來完成具體工作。一般情況下,分布式的多線程爬蟲處理器被調(diào)用后,會根據(jù)具體運營商情況來進行登陸前準備工作:將需要的圖片驗證碼發(fā)回給spider-manager,處理任務結(jié)束線程,由spider-manager提供驗證碼入口并生成新任務。此時分布式的多線程爬蟲處理器又被調(diào)用,并且保證在正確的處理節(jié)點完成登陸工作。由于采用授權(quán)方式獲取數(shù)據(jù),在獲取用戶相關(guān)個人信息時,處理器會調(diào)用運營商官網(wǎng)接口發(fā)授權(quán)短信,通過同上操作步驟,讓用戶輸入正確的短信驗證碼。在驗證短信授權(quán)后,通知spider-manager登陸狀態(tài),同時對用戶的基礎(chǔ)信息、通話、短信、網(wǎng)絡、賬單、繳費等信息爬取后,保存到緩存中后將運營商登出。系統(tǒng)再根據(jù)緩存中的運營信結(jié)果信息自動尋找相對應的解析器,將緩存中信息解析成JSON格式,并將數(shù)據(jù)發(fā)送給spider-manager進行存儲并調(diào)用spider-data進行數(shù)據(jù)結(jié)構(gòu)化處理。由于處理器和解析器都為分布式多線程任務,對登陸、爬取、解析通過spider-manager進行統(tǒng)一調(diào)度,登陸后采取Cookies傳遞保證訪問的路徑都處于已經(jīng)授權(quán)狀態(tài)。
(四)系統(tǒng)性能要求
1.穩(wěn)定性:整個系統(tǒng)的處理能力在40萬任務/天以上(30臺Worker),峰值處理能力在4萬任務/小時,關(guān)鍵服務都是主從配置??赏ㄟ^簡單增加worker數(shù)量來進行無限很想擴容。
2.擴展性:可以根據(jù)業(yè)務的擴展需求進行動態(tài)、快速的擴展,擴展期間不影響現(xiàn)有系統(tǒng)的正常工作。(硬件資源需提前準備好)
3.安全性:服務間調(diào)用都以SSL為加強對數(shù)據(jù)的安全性保護。用戶賬戶密碼等身份信息都做了加密處理。
4.維護性:Gatewary、Manager、Router、Worker等所有服務都可以全自動部署。部署過程中對系統(tǒng)的穩(wěn)定性不受影像論文什么的都需要公司蓋章,這個找哪位響?!鰁ndprint