王日宏 王曉龍
摘要:當(dāng)今,隨著計(jì)算機(jī)和網(wǎng)絡(luò)的飛速發(fā)展,人們無論在工作中還是在日常生活中用到計(jì)算機(jī)的機(jī)會(huì)越來越多,由此產(chǎn)生的信息量也就越來越巨大,如此巨大的網(wǎng)絡(luò)信息量,標(biāo)志著人們已經(jīng)進(jìn)入了“大數(shù)據(jù)”時(shí)代?!按髷?shù)據(jù)”時(shí)代下的信息具有體量大、高復(fù)雜性、增長(zhǎng)速度快等特點(diǎn),從具有如此復(fù)雜特性的信息中挖掘出用戶所需要的信息,難度比以往要高了許多。特別對(duì)于銀行這一行業(yè),數(shù)據(jù)決定著它的未來發(fā)展。雖然有些銀行可能還沒有意識(shí)到數(shù)據(jù)爆炸性增長(zhǎng)帶來的問題,但是數(shù)據(jù)對(duì)于銀行的重要性已經(jīng)成為業(yè)界的共識(shí)。數(shù)據(jù)挖掘作為一種數(shù)據(jù)處理技術(shù),在現(xiàn)如今數(shù)據(jù)量巨大的銀行業(yè)領(lǐng)域中正逐步受到重視。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;銀行;數(shù)據(jù)挖掘
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)07-1369-02
1 概述
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但潛在有用的信息和知識(shí)的過程。并且數(shù)據(jù)挖掘又是與計(jì)算機(jī)科學(xué)相關(guān),包括人工智能、數(shù)據(jù)庫知識(shí)、機(jī)器學(xué)習(xí)、神經(jīng)計(jì)算和統(tǒng)計(jì)分析等多學(xué)科領(lǐng)域和方法的交叉學(xué)科,數(shù)據(jù)挖掘能夠自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分析,并歸納總結(jié),推理,分析數(shù)據(jù),從而幫助決策者對(duì)信息預(yù)測(cè)和決策其作用。
2 數(shù)據(jù)挖掘的相關(guān)概念
數(shù)據(jù)挖掘的主要方法包括遺傳算法、決策樹、神經(jīng)網(wǎng)絡(luò)、K—近鄰算法等。遺傳算法是一種最佳的空間搜索方法。它通過應(yīng)用算法的適應(yīng)函數(shù)來決定搜索的方向,運(yùn)用一些人工運(yùn)算模擬生物種群“多樣性”和“優(yōu)勝劣汰”的過程,進(jìn)行一代一代的周而復(fù)始的演化,首先將群體中較劣的初始解通過復(fù)制、交叉和變異3個(gè)基本算子優(yōu)化求解的技術(shù),再在求解空間隨機(jī)和定向搜索特征的多次迭代,直到求得問題的最優(yōu)解。決策樹是一種用樹枝狀結(jié)構(gòu)來展示數(shù)據(jù)受各變量影響的分析預(yù)測(cè)模型,樹型結(jié)構(gòu)表示分類或者決策集合,決策樹是采用自上到下的遞歸模式,樹的非終端節(jié)點(diǎn)表示屬性,葉節(jié)點(diǎn)表示所屬的不同類別。通過計(jì)算各個(gè)決策的期望值,選出最優(yōu)解。神經(jīng)網(wǎng)絡(luò)是一種模仿人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,依據(jù)其非線形預(yù)測(cè)模型,通過模式識(shí)別的方式展開,獲取的知識(shí)需要存儲(chǔ)在網(wǎng)絡(luò)各單元之間的連接權(quán)中。人工神經(jīng)網(wǎng)絡(luò)能夠完成分類和聚類等挖掘。K—鄰近算法是一種常用的基于距離度量的分類方法。K—近鄰算法假設(shè)整個(gè)訓(xùn)練集不僅包含數(shù)據(jù)集,而且包含每個(gè)元組期望的類別標(biāo)簽。
數(shù)據(jù)挖掘通過預(yù)測(cè)未來趨勢(shì)及行為,做出前攝的、基于知識(shí)的決策,其主要有以下五類功能。
2.1 關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為時(shí)序關(guān)聯(lián)、簡(jiǎn)單關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
2.2 概念描述
概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。
2.3 自動(dòng)預(yù)測(cè)趨勢(shì)和行為
數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。
2.4 聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。
2.5 偏差檢測(cè)
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。
3 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘
近年來,隨著互聯(lián)網(wǎng)上的信息量高速增加,無論是商業(yè)、經(jīng)濟(jì)政治以及其他領(lǐng)域,都面臨著“大數(shù)據(jù)”時(shí)代,所謂“大數(shù)據(jù)”,顧名思義就是大量的信息數(shù)據(jù)。大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘是最關(guān)鍵的工作,它將幫助在復(fù)雜的,量巨大的數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。
數(shù)據(jù)挖掘在商業(yè)領(lǐng)域應(yīng)用更是廣泛,這里有一個(gè)關(guān)于在大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘成功的案例。在美國(guó)沃爾瑪超市,我們可以看到尿布與啤酒這兩個(gè)毫不相干的產(chǎn)品通常擺在一起出售,而且銷售量還非常不錯(cuò)。原來這是沃爾瑪公司利用龐大的數(shù)據(jù)系統(tǒng),對(duì)其顧客的購物行為進(jìn)行購物籃分析時(shí)發(fā)現(xiàn),一些年輕的父親下班后經(jīng)常要到超市給嬰兒買尿布,他們中40%的人同時(shí)也會(huì)為自己買一些啤酒。通過數(shù)據(jù)挖掘技術(shù),他們?cè)邶嫶蟮?、模糊的信息量中找到了這對(duì)他們有用的信息,于是,超市工作人員便把兩者擺在一起出售后,取得了銷量倍增的效果,獲得了更多的利潤(rùn)。
4 數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用
在信息化高速發(fā)展的背景下,各銀行積累了海量的數(shù)據(jù),由于銀行產(chǎn)品具有相當(dāng)?shù)耐|(zhì)性,因此銀行之間的差別,往往在于誰掌握了客戶關(guān)系以及海量的業(yè)務(wù)和客戶信息背后的獨(dú)特業(yè)務(wù)規(guī)律,誰就可以科學(xué)地制定決策,提高競(jìng)爭(zhēng)力。
數(shù)據(jù)挖掘在銀行業(yè)的主要應(yīng)用之一是對(duì)貸款方進(jìn)行信用風(fēng)險(xiǎn)評(píng)估??赏ㄟ^構(gòu)建信用評(píng)級(jí)模型,如FICO評(píng)估模型、神經(jīng)網(wǎng)絡(luò)模型、貝葉斯分析模型等來對(duì)貸款方進(jìn)行風(fēng)險(xiǎn)評(píng)估。對(duì)于銀行賬戶的信用評(píng)估,可采用直觀量化的評(píng)分技術(shù)。以信用評(píng)分為例,通過由數(shù)據(jù)挖掘模型確定的權(quán)重,來給每項(xiàng)申請(qǐng)的各指標(biāo)打分,加總得到該申請(qǐng)人的信用評(píng)分情況。銀行根據(jù)信用評(píng)分來決定是否接受申請(qǐng),確定信用額度。
數(shù)據(jù)挖掘在銀行業(yè)的另一主要應(yīng)用是客戶管理。發(fā)現(xiàn)和開拓新客戶對(duì)任何一家銀行來說都至關(guān)重要。通過探索性的數(shù)據(jù)挖掘方法,如自動(dòng)探測(cè)聚類,可以用來找出客戶數(shù)據(jù)庫中的特征,預(yù)測(cè)對(duì)于銀行營(yíng)銷活動(dòng)的響應(yīng)率??梢园芽蛻暨M(jìn)行聚類分析讓其自然分群,通過對(duì)客戶的服務(wù)收入、風(fēng)險(xiǎn)、成本等相關(guān)因素的分析、預(yù)測(cè)和優(yōu)化,找到新的可贏利目標(biāo)客戶【6】。運(yùn)用決策樹模型,通過對(duì)客戶貢獻(xiàn)的期望值的計(jì)算將客戶進(jìn)行分類,可以把客戶按照期望值的不同來進(jìn)行分組,分為頂級(jí)客戶、黃金客戶、一般客戶三種類型,然后再依據(jù)不同類型客戶的特點(diǎn)提供有針對(duì)性的特色服務(wù),提高客戶的忠誠(chéng)度;運(yùn)用數(shù)據(jù)挖掘還可以預(yù)防客戶流失,在發(fā)現(xiàn)有客戶流失的特征后,采取額外增值服務(wù)、特殊待遇和激勵(lì)忠誠(chéng)度等措施保留客戶。例如,可以預(yù)測(cè)哪些客戶將停止在本銀行貸款,而去其他銀行貸款。銀行可以采取降低貸款利率,提高貸款額度等措施來保持這些客戶的信任。數(shù)據(jù)挖掘技術(shù)可以識(shí)別導(dǎo)致客戶轉(zhuǎn)移的關(guān)聯(lián)因子,用模式找出當(dāng)前客戶中相似的可能轉(zhuǎn)移者,通過孤立點(diǎn)分析法可以發(fā)現(xiàn)客戶的異常行為,從而使銀行避免不必要的客戶流失。
5 結(jié)束語
誰擁有了客戶信息,誰就擁有了未來。在“大數(shù)據(jù)”時(shí)代下,數(shù)據(jù)挖掘技術(shù)可以為銀行提供大量的有用信息,這對(duì)于銀行業(yè)來說是非常重要的,通過運(yùn)用數(shù)據(jù)挖掘技術(shù),使銀行高層決策者們可以得到準(zhǔn)確的潛在客戶、客戶分類、忠誠(chéng)度等有用信息,指導(dǎo)他們制定最優(yōu)的銀行營(yíng)銷策略,降低運(yùn)營(yíng)成本,調(diào)高利潤(rùn)。
參考文獻(xiàn):
[1] 蔣翊凌.基于數(shù)據(jù)倉庫的銀行業(yè)務(wù)數(shù)據(jù)挖掘研究[D].上海:華東師范大學(xué),2006.
[2] Jiawei Han,Micheline Kamber數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[3] 張赫.數(shù)據(jù)挖掘及其在客戶關(guān)系管理中的應(yīng)用[M].上海:復(fù)旦大學(xué)出版社,2007.
[4] 劉健.基于數(shù)據(jù)挖掘的客戶關(guān)系管理設(shè)計(jì)與研究[J].技術(shù)應(yīng)用,2008(6).
[5] 王實(shí).銀行業(yè)CRM理論與實(shí)務(wù)[M].北京:電子工業(yè)出版社,2005.
[6] 孟娟.數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用[J].大眾商務(wù),2010.
[7] 常雪琦,劉偉.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用分析——以銀行業(yè)為例[J].信息技術(shù)與信息化,2009(5).
[8] 孔德漢.數(shù)據(jù)挖掘技術(shù)在銀行業(yè)客戶關(guān)系管理中的應(yīng)用[J].合作經(jīng)濟(jì)與科技,2010(20).
[9] 鄭華.基于數(shù)據(jù)挖掘銀行客戶關(guān)系管理系統(tǒng)構(gòu)建研究[J].廣西輕工業(yè),2008(10).