田甜 蔡雅雅 李爽
關(guān)鍵詞:銀行卡;數(shù)據(jù)挖掘;實(shí)時(shí)推薦
1引言
傳統(tǒng)的顧客推薦系統(tǒng)根據(jù)用戶的過(guò)去行為做出推薦,或者應(yīng)用傳統(tǒng)的關(guān)聯(lián)規(guī)則模型的APRIORI算法[1],計(jì)算出所有的頻繁集,根據(jù)預(yù)設(shè)的支持度和置信度,計(jì)算出不同的事物間的關(guān)聯(lián)度。但是,這種方法具有相對(duì)局限性,截至2019年年末,中國(guó)銀行卡累計(jì)發(fā)卡量達(dá)85.3億張,持卡人超過(guò)10億,我國(guó)境內(nèi)受理商戶累計(jì)2363萬(wàn)戶,由此每天產(chǎn)生了海量的交易數(shù)據(jù)。推薦算法在人類生活中很早就已經(jīng)得到了應(yīng)用,如向朋友推薦可能感興趣的人、可能感興趣的書籍、可能喜歡吃的食物。而隨著互聯(lián)網(wǎng)昀普及,這種推薦方式逐漸從人們的生活經(jīng)驗(yàn)中轉(zhuǎn)移到了大型的數(shù)據(jù)中心和研究中心,使用數(shù)學(xué)公式和現(xiàn)代化的分析工具進(jìn)行分析。從最開始的各類熱點(diǎn)排行榜[2],到之后的各類網(wǎng)站推出的“猜你喜歡”[3],再到根據(jù)用戶行為數(shù)據(jù)分析得到有效數(shù)據(jù)的各種個(gè)性化推薦系統(tǒng)。應(yīng)用傳統(tǒng)的方法在數(shù)據(jù)集合中挖掘消費(fèi)行為,不僅效率低下,而且需要大量手工分析,不利于實(shí)現(xiàn)系統(tǒng)的實(shí)時(shí)性和有效性。本文介紹了一種基于海量銀行卡的數(shù)據(jù)挖掘推薦系統(tǒng),無(wú)須借助商業(yè)挖掘工具,就能實(shí)現(xiàn)實(shí)時(shí)和非實(shí)時(shí)推薦。
2數(shù)據(jù)挖掘簡(jiǎn)介
2.1確定對(duì)象
數(shù)據(jù)挖掘先要確定目標(biāo),然后對(duì)現(xiàn)有資源進(jìn)行評(píng)估,再確定問(wèn)題是否能通過(guò)數(shù)據(jù)挖掘來(lái)解決。挖掘的最后結(jié)果是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)該有預(yù)見性和目標(biāo)性。一般而言,數(shù)據(jù)挖掘側(cè)重解決四類問(wèn)題,即分類、聚類、關(guān)聯(lián)、預(yù)測(cè)[4]。
2.2分類問(wèn)題
分類問(wèn)題屬于預(yù)測(cè)性問(wèn)題,與預(yù)測(cè)問(wèn)題的區(qū)別在于其預(yù)測(cè)結(jié)果是類別(如A,B,C三類),而不是一個(gè)具體的數(shù)值(如100、1000)[5]。在商業(yè)應(yīng)用中,分類問(wèn)題實(shí)踐中使用最多,如預(yù)測(cè)哪些客戶會(huì)參與某個(gè)促銷活動(dòng),預(yù)測(cè)哪些客戶在未來(lái)一段時(shí)間是否會(huì)停止使用銀行卡。解決這一類問(wèn)題的前提是通過(guò)歷史數(shù)據(jù)的收集,明確某些用戶的分類結(jié)果,確認(rèn)分類成功的前提是要有明確的樣本集。
2.3聚類問(wèn)題
聚類主要解決的是把一群對(duì)象劃分成若干個(gè)組的問(wèn)題,其主要特征是需要明確的數(shù)據(jù)支持,僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息將數(shù)據(jù)分組。目標(biāo)是組內(nèi)的對(duì)象相互之間是相似的,而不同組中的對(duì)象是不同的。例如,需要選擇的若干個(gè)指標(biāo)項(xiàng)(如渠道、商戶類型、交易金額等),對(duì)已有的用戶群進(jìn)行劃分,特征相似的用戶聚為一類,特征不同的用戶分屬于不同的類。
2.4關(guān)聯(lián)問(wèn)題
關(guān)聯(lián)問(wèn)題主要是解決世界上萬(wàn)事萬(wàn)物間千絲萬(wàn)縷的聯(lián)系的問(wèn)題。關(guān)聯(lián)分析可從大量數(shù)據(jù)中發(fā)現(xiàn)事物、特征或者數(shù)據(jù)之間頻繁出現(xiàn)的相互依賴關(guān)系和關(guān)聯(lián)關(guān)系。這些關(guān)聯(lián)并不總是事先知道的,而是通過(guò)集中數(shù)據(jù)的關(guān)聯(lián)分析獲得的。例如,一群持卡人去了多種商戶類型的商戶,哪些同時(shí)去的商戶類型的概率比較高:去了A商戶的同時(shí),接下來(lái)去哪些商戶的概率比較高。
2.5預(yù)測(cè)問(wèn)題
預(yù)測(cè)主要指的是預(yù)測(cè)變量的取值為連續(xù)數(shù)值型的情況。預(yù)測(cè)的目的是利用過(guò)去已有的知識(shí)和發(fā)生過(guò)的事情來(lái)更好地了解未來(lái),以及做出合理的期望。例如,預(yù)測(cè)下一年度的GDP增長(zhǎng)率以及銀聯(lián)卡產(chǎn)業(yè)下一年度的新增持卡人數(shù)等。預(yù)測(cè)問(wèn)題的解決更多的是采用統(tǒng)計(jì)學(xué)的技術(shù),如回歸分析和時(shí)間序列分析。
2.6實(shí)時(shí)推薦系統(tǒng)
本文介紹的實(shí)時(shí)推薦系統(tǒng)分為三個(gè)部分,即數(shù)據(jù)ETL流程、行為數(shù)據(jù)挖掘和營(yíng)銷實(shí)施(圖1)。
(1)數(shù)據(jù)ETL流程:數(shù)據(jù)抽取、轉(zhuǎn)換、加載、集成的實(shí)時(shí)性。
(2)行為數(shù)據(jù)挖掘:通過(guò)數(shù)據(jù)挖掘,以產(chǎn)生決策支持的實(shí)時(shí)性。
(3)營(yíng)銷實(shí)施:將決策支持付諸于實(shí)施的實(shí)時(shí)性。
3數(shù)據(jù)準(zhǔn)備
根據(jù)不同的業(yè)務(wù)問(wèn)題,選取不同的、相關(guān)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。下文以營(yíng)銷“麻辣風(fēng)暴”為例,數(shù)據(jù)的篩選分為兩個(gè)方面,即數(shù)據(jù)口徑和樣品集范圍。
3.1數(shù)據(jù)口徑
根據(jù)營(yíng)銷的目標(biāo)導(dǎo)向,旨在發(fā)掘商戶間的關(guān)聯(lián)信息進(jìn)行針對(duì)性營(yíng)銷,挖掘相關(guān)聯(lián)的商戶間的持卡人的線下消費(fèi)交易行為,所以數(shù)據(jù)口徑確定為:數(shù)據(jù)的度量口徑為交易金額、交易筆數(shù)、活動(dòng)持卡人數(shù)等;由于營(yíng)銷的主要渠道是線下到店商戶交易,因此消費(fèi)的渠道為銀行銀商POS或其他線下消費(fèi)。
3.2樣品集合
3.2.1時(shí)間
營(yíng)銷時(shí)間的篩選。首先,不同商戶間商戶類型的關(guān)聯(lián)性會(huì)隨著刷卡時(shí)間的不同出現(xiàn)差異。其次,對(duì)于營(yíng)銷的響應(yīng)度而言,樣品時(shí)間越長(zhǎng)營(yíng)銷響應(yīng)度越低。因此,確定了營(yíng)銷的投送時(shí)間,也就確定了數(shù)據(jù)的篩選時(shí)間。最后,節(jié)假日的不同也會(huì)影響商戶間的關(guān)聯(lián)行為。例如,“火鍋類餐飲”商戶在冬季消費(fèi)的關(guān)聯(lián)性與在夏季消費(fèi)的關(guān)聯(lián)性可能會(huì)出現(xiàn)不同。原因一是,樣品集合在冬季較多。原因二是,樣品集在夏季消費(fèi)的商戶與在冬季消費(fèi)的商戶對(duì)比會(huì)各有側(cè)重。另外,營(yíng)銷時(shí)間的篩選基準(zhǔn)為“一個(gè)月”,可以根據(jù)營(yíng)銷目標(biāo)的月份進(jìn)行針對(duì)性篩選。例如,在12月對(duì)“麻辣風(fēng)暴”進(jìn)行營(yíng)銷,數(shù)據(jù)的樣品集可以選擇上一年12月的同比數(shù)據(jù),或者是同年10月的環(huán)比數(shù)據(jù)。篩選的時(shí)間范圍可以按照“季度”調(diào)整。以季度篩選,可以提高關(guān)聯(lián)性的精確度,但卻影響了結(jié)果的響應(yīng)度。篩選的時(shí)間范圍也可以按照“年度”調(diào)整,以“年度”調(diào)整一般用于研究報(bào)告,周期比較長(zhǎng),運(yùn)行的時(shí)間也較長(zhǎng)。
3.2.2卡數(shù)量
此項(xiàng)主要針對(duì)的是卡樣品集的篩選。由于不同商戶間商戶受理的銀行卡張數(shù)不同,需要篩選的卡的樣品集合也不一樣。考慮到樣品集合的運(yùn)行效率和樣品集合的準(zhǔn)確度,選擇以最大10萬(wàn)為準(zhǔn),依次為5萬(wàn)或者1萬(wàn)以下。由此可以綜合考慮商戶的規(guī)模集。
3.2.3地區(qū)
針對(duì)商戶的受理地區(qū)的選擇,根據(jù)商戶類型的不同,進(jìn)行針對(duì)篩選。如果是本地餐飲類,可以考慮篩選受理地區(qū)為“本地”的關(guān)聯(lián)餐飲商戶,如“麻辣風(fēng)暴”“點(diǎn)都德”“海底撈火鍋”。如果是旅游業(yè)態(tài)為主的商戶,如“迪斯尼度假區(qū)”“歡樂谷”“世博園”,則需要關(guān)注全國(guó)各地的關(guān)聯(lián)商戶。
4數(shù)據(jù)清洗及預(yù)處理
由研究數(shù)據(jù)的質(zhì)量、應(yīng)用異常值分析模塊、進(jìn)行相關(guān)性分析、選擇相關(guān)因子、排除相關(guān)數(shù)據(jù)、進(jìn)行數(shù)據(jù)的清理轉(zhuǎn)換、建立相關(guān)的匯總寬表、調(diào)整數(shù)據(jù)結(jié)構(gòu)等模塊組成,為進(jìn)一步的分析做準(zhǔn)備,并確定將要進(jìn)行的挖掘操作的各個(gè)字段的類型。
(1)異常值分析模塊:應(yīng)用到所有的挖掘模型,用來(lái)確定異常的數(shù)據(jù),適用于大多數(shù)的模型。
(2)數(shù)據(jù)審查模塊:檢查數(shù)據(jù)的分布情況。
(3)相關(guān)性分析模塊:適用于因子較多的模型,用來(lái)篩選合適的因子經(jīng)過(guò)數(shù)據(jù)審查的模塊。
如果發(fā)現(xiàn)具有大量的金額值小于5元的測(cè)試數(shù)據(jù),就會(huì)影響關(guān)聯(lián)的效果。因此,在數(shù)據(jù)的清洗過(guò)程中,還要清除交易金額值小于5元的測(cè)試數(shù)據(jù)。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)轉(zhuǎn)換成一張分析表,這張分析表是針對(duì)關(guān)聯(lián)算法而建立的。
5數(shù)據(jù)算法流程
關(guān)聯(lián)算法的模型分為兩大步驟,即挖掘出關(guān)聯(lián)商戶、挖掘出相關(guān)人群。
算法的開始確認(rèn)5個(gè)主要參數(shù):I,J,K,L和S。I代表的是樣品的時(shí)間參數(shù):J代表的是樣品的卡張數(shù):K代表的是關(guān)聯(lián)商戶的名單:L代表的是目標(biāo)人群的卡量;S代表的是持卡人RFM評(píng)分結(jié)果。經(jīng)過(guò)兩個(gè)流程的梳理,再挖掘出營(yíng)銷關(guān)聯(lián)強(qiáng)商戶和營(yíng)銷的目標(biāo)人群。
算法:Generate_P romotion_List。
輸入:商戶消費(fèi)信息庫(kù),記作M;個(gè)人消費(fèi)庫(kù),記作D;商戶類別庫(kù),記作L。
輸出:營(yíng)銷人群列表L
方法:(1)掃描商戶消費(fèi)信息庫(kù)M-次,收集目標(biāo)營(yíng)銷商戶C集合的人群列表;(2)掃描個(gè)人消費(fèi)信息庫(kù)D-次,收集目標(biāo)C的所有商戶消費(fèi)記錄B;(3)調(diào)用confidence_ calc來(lái)計(jì)算關(guān)聯(lián)關(guān)系。該執(zhí)行過(guò)程如下,如果B中商戶消費(fèi)中,消費(fèi)記錄則消費(fèi)N的計(jì)數(shù)增加l,對(duì)N按照置信度計(jì)數(shù);(4)掃描商戶消費(fèi)信息庫(kù)M,篩選關(guān)聯(lián)度緊密用戶自定義的商戶類別(餐飲、百貨、大型倉(cāng)儲(chǔ)式超級(jí)市場(chǎng)),選擇指定商戶篩選出人群列表L;(5)IF M.card_no=L.card_no then收集該卡的交易行為;(6)對(duì)個(gè)人RFM評(píng)分S;(7)根據(jù)分值S返回營(yíng)銷列表L。
6結(jié)果分析
通過(guò)大量數(shù)據(jù)分析實(shí)驗(yàn),結(jié)果表明,川菜的代表“麻辣風(fēng)暴”人群和粵菜的代表“天天漁港”人群關(guān)聯(lián)商戶有明顯差異。例如,去過(guò)“麻辣風(fēng)暴”的入群比較喜歡去“歡樂谷”和“科技館”:去過(guò)“天天漁港”的人群比較喜歡去“植物園”和“海洋水族館”。以下是部分輸出結(jié)果展示。
如上輸出結(jié)果所示,比較“麻辣風(fēng)暴”和“天天漁港”主題挖掘結(jié)果:在每家商戶中,均有不同的關(guān)聯(lián)度最高的商戶。在商戶中,有相同的商戶地點(diǎn),也有不同的商戶地點(diǎn)。結(jié)果顯示,在同餐飲商戶類別中,不同商戶的關(guān)聯(lián)結(jié)果是不一致的,證明了結(jié)果的差異性和有效性。
7結(jié)束語(yǔ)
在“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)量異常龐大,以不同類型的結(jié)構(gòu)加速數(shù)據(jù)生產(chǎn),支持龐大的數(shù)據(jù)分析規(guī)模是一項(xiàng)非常有意義的工作。本文介紹了一種數(shù)據(jù)挖掘量化的方法和系統(tǒng),該過(guò)程描述了從粗放式營(yíng)銷到活動(dòng)卡營(yíng)銷,再到區(qū)域性營(yíng)銷,最后到精準(zhǔn)營(yíng)銷的數(shù)據(jù)量的變化過(guò)程,進(jìn)一步說(shuō)明應(yīng)用該方法不僅增加了營(yíng)銷的準(zhǔn)確性,而且增加了營(yíng)銷的有效性。其中,粗放式營(yíng)銷是指對(duì)已經(jīng)發(fā)卡的卡片進(jìn)行大規(guī)模營(yíng)銷:活動(dòng)卡營(yíng)銷是指針對(duì)全國(guó)活動(dòng)的卡片進(jìn)行營(yíng)銷:區(qū)域性營(yíng)銷是指針對(duì)特定地區(qū)的所有卡片進(jìn)行大面積營(yíng)銷:精準(zhǔn)營(yíng)銷是根據(jù)挖掘后驗(yàn)證的關(guān)聯(lián)結(jié)果進(jìn)行的針對(duì)性營(yíng)銷。系統(tǒng)對(duì)大量數(shù)據(jù)進(jìn)行分析,并對(duì)大數(shù)據(jù)集合進(jìn)行了大數(shù)據(jù)集的查詢和推薦實(shí)驗(yàn),通過(guò)數(shù)據(jù)及效果驗(yàn)證,營(yíng)銷的效果更好,成本也得到了有效控制,極大地增加了營(yíng)銷的精準(zhǔn)性和有效性。