楊瀾
一、大數(shù)據(jù)分析挖掘科學(xué)
(一)大數(shù)據(jù)分析背景
以大規(guī)模、多類(lèi)型、高速度和高價(jià)值為特征的大數(shù)據(jù)是繼互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算之后IT行業(yè)的又一新興技術(shù)。我們說(shuō)生活在“大數(shù)據(jù)”時(shí)代,其意思是指我們擁有收集、存儲(chǔ)、處理大量信息的能力和工具,而這些信息的規(guī)模是我們聞所未聞的。隨著電商平臺(tái)、社交網(wǎng)絡(luò)和數(shù)字媒體的快速發(fā)展,網(wǎng)頁(yè)、圖像、地理信息、聲音、視頻、日志等數(shù)據(jù)量呈現(xiàn)出井噴式增長(zhǎng)。FaceBook的照片存儲(chǔ)量已經(jīng)超過(guò)100億張,超過(guò)1PB。淘寶網(wǎng)每天會(huì)產(chǎn)生超過(guò)數(shù)千萬(wàn)條的交易數(shù)據(jù),每天數(shù)據(jù)量總大小超過(guò)50TB。國(guó)際數(shù)據(jù)資訊(IDC)公司發(fā)布的最新報(bào)告顯示:全球數(shù)據(jù)量大約每?jī)赡攴环A(yù)計(jì)到2020年全球?qū)碛?5ZB的數(shù)據(jù)量,其中的絕大多部分是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)風(fēng)潮的涌進(jìn)對(duì)諸如商業(yè)銀行在內(nèi)的傳統(tǒng)金融機(jī)構(gòu)產(chǎn)生了巨大的沖擊。以阿里巴巴為代表的電商平臺(tái)紛紛利用大數(shù)據(jù)技術(shù)開(kāi)展精準(zhǔn)營(yíng)銷(xiāo),引導(dǎo)越來(lái)越多的消費(fèi)者體驗(yàn)網(wǎng)購(gòu)和移動(dòng)支付的便捷性,加速金融脫媒,致使商業(yè)銀行傳統(tǒng)業(yè)務(wù)的拓展步履維艱;電子商務(wù)市場(chǎng)和金融創(chuàng)新的迅速發(fā)展不斷擠壓著商業(yè)銀行的市場(chǎng)份額和盈利空間,傳統(tǒng)金融機(jī)構(gòu)以凈利潤(rùn)差收入為主的經(jīng)營(yíng)發(fā)展模式面臨嚴(yán)峻挑戰(zhàn)?;ヂ?lián)網(wǎng)銀行不再像傳統(tǒng)銀行那樣依靠廣設(shè)網(wǎng)點(diǎn)去占領(lǐng)市場(chǎng),而是通過(guò)現(xiàn)代數(shù)字通訊、互聯(lián)網(wǎng)、移動(dòng)通信以及互聯(lián)網(wǎng)相關(guān)技術(shù),借助大數(shù)據(jù)、云計(jì)算等方式為客戶提供金融服務(wù)。傳統(tǒng)銀行業(yè)必須進(jìn)行改革,必須想方設(shè)法高效的存儲(chǔ)和分析這些數(shù)據(jù),努力利用數(shù)據(jù)展開(kāi)分析、挖掘和預(yù)測(cè),讓數(shù)據(jù)產(chǎn)生價(jià)值。
(二)數(shù)據(jù)分析挖掘工具
利用大數(shù)據(jù)離不開(kāi)合理的分析挖掘工具,傳統(tǒng)的數(shù)據(jù)分析挖掘工具類(lèi)型廣泛,主要以SPSS、SAS、R為主。然而,這些傳統(tǒng)的數(shù)據(jù)分析挖掘工具在分析中小型數(shù)據(jù)量時(shí)表現(xiàn)出眾,但處理GB、TB、PB級(jí)以上的數(shù)據(jù)時(shí)的效率幾乎是災(zāi)難性的。另外,不得不提的一點(diǎn)是,2006年Apache軟件基金發(fā)布了第一個(gè)Hadoop開(kāi)源版本,加州大學(xué)伯克利分校實(shí)驗(yàn)室也于2009年研發(fā)誕生Spark。這兩項(xiàng)技術(shù)的誕生和飛速發(fā)展無(wú)疑相當(dāng)于在我們面對(duì)一份饕餮盛宴無(wú)從下手的情況下,給予了我們一副刀叉。
(三)數(shù)據(jù)分析挖掘算法
就像銼刀和石頭本身并不能構(gòu)成雕像一樣,有了工具和數(shù)據(jù)并不等于能夠做有價(jià)值的事情。這時(shí)我們就需要數(shù)據(jù)分析科學(xué),數(shù)據(jù)分析是一門(mén)古老的科學(xué),幾百年來(lái),經(jīng)過(guò)科學(xué)家的探索和積累,研發(fā)出了很多經(jīng)典的數(shù)據(jù)分析算法,比如:關(guān)聯(lián)分析、聚類(lèi)分析、回歸分析、判別分析、決策樹(shù)、集成學(xué)習(xí)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等等。常見(jiàn)的數(shù)據(jù)挖掘算法有如下幾種:樸素貝葉斯分類(lèi)器Naive Bayes、SVM支持向量機(jī)、關(guān)聯(lián)式規(guī)則Apriori算法、K-Means算法、PageRank。
二、大數(shù)據(jù)與金融機(jī)構(gòu)的結(jié)合點(diǎn)
(一)金融機(jī)構(gòu)大數(shù)據(jù)分析的意義
在國(guó)內(nèi),大數(shù)據(jù)正如火如荼的發(fā)展,眾多金融機(jī)構(gòu)紛紛布局。股份制銀行成為在大數(shù)據(jù)發(fā)展方面相當(dāng)活躍的群體,其將大數(shù)據(jù)技術(shù)應(yīng)用在產(chǎn)品創(chuàng)新、客戶營(yíng)銷(xiāo)、運(yùn)營(yíng)優(yōu)化和風(fēng)險(xiǎn)控制等領(lǐng)域。例如,光大銀行研發(fā)生成“陽(yáng)光理財(cái)”資產(chǎn)配置系統(tǒng)用以整合分散數(shù)據(jù)、中信銀行與銀聯(lián)商務(wù)合作開(kāi)發(fā)基于商戶信息和POS流水交易數(shù)據(jù)進(jìn)行風(fēng)控的“POS貸”等。為了提高核心競(jìng)爭(zhēng)力,搶占市場(chǎng)份額,應(yīng)對(duì)來(lái)自同業(yè)的挑戰(zhàn),金融機(jī)構(gòu)亟需充分利用大數(shù)據(jù)這把利器,開(kāi)發(fā)特色產(chǎn)品,提高收益,提升影響力。
現(xiàn)實(shí)經(jīng)營(yíng)數(shù)據(jù)也時(shí)刻提醒著金融機(jī)構(gòu)要勇于應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn),掌握大數(shù)據(jù)核心技術(shù),從海量數(shù)據(jù)中精準(zhǔn)、高效地挖掘出有用信息,自下而上地支持業(yè)務(wù)轉(zhuǎn)型的現(xiàn)實(shí)需要。充分利用企業(yè)經(jīng)營(yíng)數(shù)據(jù),能從根本上提升服務(wù)質(zhì)量,留住高質(zhì)量客戶,提升經(jīng)營(yíng)決策水平,實(shí)現(xiàn)管理上的精細(xì)化、標(biāo)準(zhǔn)化、流程化、自動(dòng)化。針對(duì)挖掘數(shù)據(jù)的發(fā)展方向,進(jìn)行精準(zhǔn)化營(yíng)銷(xiāo)、搶占市場(chǎng)資源、提高利潤(rùn)收入,實(shí)現(xiàn)營(yíng)銷(xiāo)上的個(gè)性化、體驗(yàn)化和場(chǎng)景化。
(二)金融機(jī)構(gòu)大數(shù)據(jù)分析現(xiàn)狀
在大數(shù)據(jù)時(shí)代,經(jīng)營(yíng)數(shù)據(jù)成為決策中最為重要的參考要素。金融機(jī)構(gòu)在長(zhǎng)年的運(yùn)營(yíng)過(guò)程中積累了海量數(shù)據(jù),這使得其在大數(shù)據(jù)分析方面有先天性優(yōu)勢(shì),如何利用好這個(gè)優(yōu)勢(shì)是金融機(jī)構(gòu)的重要課題。隨著業(yè)務(wù)管理水平的不斷提升和業(yè)務(wù)經(jīng)營(yíng)模式的轉(zhuǎn)型,傳統(tǒng)金融機(jī)構(gòu)越來(lái)越重視通過(guò)數(shù)據(jù)來(lái)輔助決策,對(duì)機(jī)構(gòu)內(nèi)數(shù)據(jù)管理提出了更高的要求。與此同時(shí),隨著業(yè)務(wù)需求的不斷增加、客戶數(shù)據(jù)范圍的不斷擴(kuò)大、客戶數(shù)據(jù)之間關(guān)系的日趨復(fù)雜等現(xiàn)狀,利用大數(shù)據(jù)分析手段,支撐機(jī)構(gòu)高效穩(wěn)定安全運(yùn)營(yíng)是大數(shù)據(jù)分析的目的和價(jià)值所在。
近幾年來(lái)傳統(tǒng)金融機(jī)構(gòu)大力推廣“科技推動(dòng)業(yè)務(wù)發(fā)展”的理念,這契合了目前企業(yè)界和學(xué)術(shù)界所推崇的“數(shù)據(jù)化運(yùn)營(yíng)”的概念,只有數(shù)據(jù)化運(yùn)營(yíng),才可以滿足精細(xì)化的效益提升。而數(shù)據(jù)挖掘和數(shù)據(jù)分析的高效運(yùn)用則是數(shù)據(jù)化運(yùn)營(yíng)的技術(shù)保障和基礎(chǔ)所在。數(shù)據(jù)化運(yùn)營(yíng)有很多方向,例如:網(wǎng)站及移動(dòng)應(yīng)用的流量監(jiān)控分析、目標(biāo)用戶行為研究、精準(zhǔn)營(yíng)銷(xiāo)策劃與推廣、機(jī)構(gòu)運(yùn)營(yíng)風(fēng)險(xiǎn)預(yù)警及管控等。
三、大數(shù)據(jù)互聯(lián)時(shí)代下金融機(jī)構(gòu)的挑戰(zhàn)與風(fēng)險(xiǎn)
眾所周知,金融機(jī)構(gòu)在大數(shù)據(jù)發(fā)展方面擁有天然的優(yōu)勢(shì)。因此,近兩年金融機(jī)構(gòu)在這方面的發(fā)展如雨后春筍般興起,多家金融機(jī)構(gòu)都積極部署著自己的電商平臺(tái)。與此同時(shí),很多金融機(jī)構(gòu)也逐漸看到大數(shù)據(jù)互聯(lián)下金融機(jī)構(gòu)的發(fā)展問(wèn)題,紛紛與大型互聯(lián)網(wǎng)公司合作。
雖然大數(shù)據(jù)互聯(lián)時(shí)代能夠促使金融機(jī)構(gòu)更好的服務(wù)客戶、推薦產(chǎn)品、提高營(yíng)業(yè)效率、防范風(fēng)險(xiǎn),金融機(jī)構(gòu)也普遍看到了數(shù)據(jù)的價(jià)值,并且努力進(jìn)行大數(shù)據(jù)及互聯(lián)網(wǎng)平臺(tái)建設(shè)。但是,如何進(jìn)行有效的數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用也成為更嚴(yán)峻和迫切的課題。同時(shí),在金融機(jī)構(gòu)應(yīng)用大數(shù)據(jù)互聯(lián)網(wǎng)產(chǎn)品或者技術(shù)時(shí)也存在著一定的問(wèn)題。
(一)基礎(chǔ)數(shù)據(jù)不夠全面、質(zhì)量差、可用性低
金融機(jī)構(gòu)內(nèi)部數(shù)據(jù)碎片化嚴(yán)重,存在數(shù)據(jù)孤島,各種數(shù)據(jù)往往存儲(chǔ)在不同數(shù)據(jù)庫(kù)并由不同部門(mén)負(fù)責(zé)管理,沒(méi)有辦法打通,形成數(shù)據(jù)孤島。此外,目前金融機(jī)構(gòu)由于系統(tǒng)設(shè)計(jì)開(kāi)發(fā)時(shí)對(duì)預(yù)處理不重視、數(shù)據(jù)檢查不規(guī)范,導(dǎo)致產(chǎn)生的數(shù)據(jù)質(zhì)量差,很大程度上制約了大數(shù)據(jù)的精算能力。
(二)金融機(jī)構(gòu)競(jìng)爭(zhēng)版圖重組
互聯(lián)網(wǎng)及大數(shù)據(jù)行業(yè)不斷與金融行業(yè)融合,一部分互聯(lián)網(wǎng)及大數(shù)據(jù)行業(yè)將觸角延伸至金融業(yè),導(dǎo)致了更激烈的版圖競(jìng)爭(zhēng)。在大數(shù)據(jù)互聯(lián)時(shí)代下,未來(lái)金融機(jī)構(gòu)主要圍繞著金融環(huán)境、戰(zhàn)略和產(chǎn)品三方面展開(kāi)競(jìng)爭(zhēng),三方面的競(jìng)爭(zhēng)也使得原有的金融機(jī)構(gòu)版圖發(fā)生變化。誰(shuí)發(fā)展的好,就會(huì)占得先機(jī)獲取更多的利益。相反,誰(shuí)沒(méi)有跟上腳步,便可能蠶食原有的規(guī)模。
(三)技術(shù)架構(gòu)與技術(shù)決策風(fēng)險(xiǎn)
首先,要解決以何種方式構(gòu)建分布式的數(shù)據(jù)倉(cāng)庫(kù),并滿足可擴(kuò)展大量服務(wù)器集群的需求;探究如何實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分析處理,實(shí)現(xiàn)分鐘級(jí)甚至是秒級(jí)計(jì)算分析等問(wèn)題。此外,大數(shù)據(jù)的運(yùn)維還要求在保證數(shù)據(jù)穩(wěn)定性、支持高并發(fā)性的同時(shí)減少服務(wù)器的負(fù)載。最后,大數(shù)據(jù)本身也還處于成長(zhǎng)期,金融機(jī)構(gòu)在進(jìn)行大數(shù)據(jù)建設(shè)時(shí)技術(shù)的失誤也會(huì)造成選擇風(fēng)險(xiǎn)。
(四)安全管理
金融數(shù)據(jù)規(guī)模的不斷增長(zhǎng)對(duì)存儲(chǔ)設(shè)備的物理安全性要求也越來(lái)越高,同時(shí)對(duì)數(shù)據(jù)的多副本與容錯(cuò)機(jī)制也提出更高的要求。大數(shù)據(jù)建設(shè)需要打通金融機(jī)構(gòu)的各個(gè)系統(tǒng)數(shù)據(jù)流以實(shí)現(xiàn)數(shù)據(jù)資源共享,在這種情況下如何有效地保護(hù)客戶隱私,也將是一個(gè)重大挑戰(zhàn)。此外,如何通過(guò)合法合規(guī)的途徑獲取外部數(shù)據(jù)也是金融機(jī)構(gòu)需要考慮的一個(gè)問(wèn)題。
四、金融機(jī)構(gòu)如何在“大數(shù)據(jù)互聯(lián)”時(shí)代下更好的發(fā)展
有了發(fā)展方向,那么金融機(jī)構(gòu)應(yīng)該在何種方面采取行動(dòng),如何順應(yīng)大數(shù)據(jù)互聯(lián)時(shí)代的潮流,發(fā)展好自己的業(yè)務(wù)呢?總體來(lái)說(shuō),金融機(jī)構(gòu)建設(shè)一般認(rèn)為可以分為四步走:基于數(shù)據(jù)存儲(chǔ)、分布式計(jì)算、大數(shù)據(jù)挖掘與分析和數(shù)據(jù)服務(wù)。此外,還要注意以下三點(diǎn)。
(一)完善數(shù)據(jù)規(guī)范化與安全管控
首先,將數(shù)據(jù)規(guī)范化與安全管控納入機(jī)構(gòu)整體風(fēng)控體系中,全面協(xié)調(diào)各相關(guān)部門(mén),共同推動(dòng)數(shù)據(jù)安全的建設(shè),實(shí)現(xiàn)內(nèi)部監(jiān)督與外部約束相結(jié)合;其次,細(xì)化數(shù)據(jù)安全建設(shè)的指標(biāo),將其納入到各崗位的考核內(nèi)容中去,達(dá)到激勵(lì)約束;最后,實(shí)現(xiàn)對(duì)客戶的風(fēng)險(xiǎn)提示責(zé)任,形成管理合力。
(二)加強(qiáng)與第三方的合作
一方面,在電子信息化時(shí)代,電商平臺(tái)可以以較小的投入換取大量的數(shù)據(jù)流,而傳統(tǒng)的金融機(jī)構(gòu)卻無(wú)此優(yōu)勢(shì),常常處于信息鏈的末端,獲得信息量較小。因此傳統(tǒng)金融機(jī)構(gòu)可以利用自己的規(guī)模及客戶量?jī)?yōu)勢(shì)與第三方電商平臺(tái)進(jìn)行合作,在保證客戶隱私信息不被泄露的前提下加強(qiáng)信息的共享;另一方面,還應(yīng)重視網(wǎng)絡(luò)社交新媒體,通過(guò)多渠道獲取客戶畫(huà)像。
(三)培養(yǎng)專(zhuān)業(yè)人才、建立大數(shù)據(jù)分析平臺(tái)
金融機(jī)構(gòu)應(yīng)重視對(duì)新興產(chǎn)業(yè)人才的培養(yǎng),建立屬于自己的大數(shù)據(jù)分析團(tuán)隊(duì),主要應(yīng)包括:需求挖掘人員、項(xiàng)目管理人員、架構(gòu)設(shè)計(jì)人員、開(kāi)發(fā)實(shí)施人員、運(yùn)維操作人員、測(cè)試實(shí)施人員等。