国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K2算法的精準營銷研究

2019-07-15 11:18趙會群李子木慕善文
計算機應用與軟件 2019年7期
關鍵詞:貝葉斯畫像信用卡

趙會群 李子木 郭 峰 慕善文

(北方工業(yè)大學計算機學院 北京 100144) (大規(guī)模流數(shù)據(jù)集成與分析技術北京市重點實驗室(北方工業(yè)大學) 北京 100144)

0 引 言

“數(shù)據(jù)畫像”是指通過對用戶屬性、行為、偏好等信息的分析,從中抽象出標簽化的模型。“數(shù)據(jù)畫像”不僅有助于理解數(shù)據(jù)分布并評估數(shù)據(jù)質(zhì)量,還有助于發(fā)現(xiàn)、記錄和評估企業(yè)元數(shù)據(jù)。分析結果用于確定候選數(shù)據(jù)系統(tǒng)的適用性,通常為早期決策和后期解決方案的設計提供支持。大多數(shù)情況下,數(shù)據(jù)在不知時間、地點何種形式、何種手段被收集在一起,通過“數(shù)據(jù)畫像”可以有目的地收集整理,為決策提供精準的服務。數(shù)據(jù)畫像”的概念在很早就有提出,但由于之前的數(shù)據(jù)量級、維度和對數(shù)據(jù)的分析能力有限,分析得到的“數(shù)據(jù)畫像”價值普遍不高。如今大數(shù)據(jù)時代來臨,MapReduce和Spark這樣的大數(shù)據(jù)處理框架日益成熟,再加上電商平臺越來越受到人們的青睞,使得企業(yè)、專家和學者開始將目光投向了電子商務的大數(shù)據(jù)分析,而“數(shù)據(jù)畫像”作為數(shù)據(jù)分析的重要一環(huán),再次進入了人們的視線。

對于“數(shù)據(jù)畫像”,目前的研究多是從“數(shù)據(jù)畫像”的呈現(xiàn)方式和“數(shù)據(jù)畫像”與推薦算法結合這兩個方向開展的?!皵?shù)據(jù)畫像”的呈現(xiàn)方式多種多樣,可以使用文字、語言、圖像甚至視頻的方式將用戶的多維度特征展現(xiàn)出來。而“數(shù)據(jù)畫像”與推薦算法結合的研究則可以將數(shù)據(jù)畫像應用到產(chǎn)品中,使得推薦算法得到更好的優(yōu)化。這兩個熱點研究領域確實有很大的研究價值,但它們的主要研究重點都沒有放在“數(shù)據(jù)畫像”的構建上,而是在“數(shù)據(jù)畫像”生成的基礎上進行研究。本文著重于如何構建用戶畫像模型,如何定義用戶畫像模型,如何優(yōu)化用戶畫像模型的表達,如何適配不同的推薦算法是一個挑戰(zhàn),是目前研究中很少關注的問題。

同時,推薦算法和服務推薦系統(tǒng)的研究已經(jīng)有很長的歷史,也衍生出多種推薦算法,這些算法在不同的領域各自發(fā)揮著優(yōu)勢,但也存在一些不足。

? 基于內(nèi)容推薦:冷啟動問題和語義處理困難。

? 協(xié)同過濾推薦:冷啟動問題、數(shù)據(jù)稀疏問題。

? 基于規(guī)則推薦:規(guī)則抽取難、耗時、個性化程度低。

? 基于效用推薦:效用函數(shù)構建難,靈活性差。

? 基于知識推薦:知識難獲取。

目前推薦算法與“數(shù)據(jù)畫像”相結合的研究越來越多,而推薦算法的這些不足也會給“數(shù)據(jù)畫像”的構建帶來挑戰(zhàn)。本文從用戶畫像建模入手,構建獨立于推薦算法的用戶畫像模型。把用戶行為的期待解釋成用戶畫像出現(xiàn)的概率,這樣可以用概率論方法計算行為發(fā)生的可能性,為行為分析和預測奠定基礎。鑒于傳統(tǒng)的推薦算法存在諸多缺陷和處理困難,本文探討一種更加完善的推薦算法。根據(jù)本文對用戶畫像模型的定義,提出了一種基于貝葉斯網(wǎng)絡模型的用戶行為預測推薦算法,該算法是通過基礎的貝葉斯網(wǎng)絡演變而來,并與實際業(yè)務相結合,可以更加精準地完成對用戶的畫像和用戶行為的預測。

1 數(shù)據(jù)畫像模型

本節(jié)主要闡述數(shù)據(jù)畫像概率分配模型的概念,描述不同數(shù)據(jù)標簽發(fā)生的關系,從而建立數(shù)據(jù)畫像模型。

1.1 標簽定義

首先給出標簽定義。

標簽用于表現(xiàn)用戶的屬性、行為或者特征,可以通過一組標簽來描述一類人群的屬性特征和行為方式,標簽主要包含以下幾個維度的信息:

1) 數(shù)據(jù)標簽的名稱,用于描述行為特征,并與其他標簽進行區(qū)分;

2) 數(shù)據(jù)標簽所在的問題域,例如房地產(chǎn)銷售,信用卡銷售等;

3) 事件發(fā)生的時刻;

4) 標簽觸發(fā)行為對象,如瀏覽建設銀行信用卡中的“建設銀行信用卡”是標簽對象;

6) 標簽發(fā)生的位置或是地點,如用戶在APP中瀏覽房源,那APP就是發(fā)生瀏覽行為的位置信息。

一個事件的發(fā)生一定會有一組標簽可以將它表現(xiàn)出來。

例1:用戶辦理信用卡的標簽為:。其中的“信用卡辦理”、“瀏覽信用卡”是用戶的行為標簽,09-6-28為事件發(fā)生的時刻,超級英雄信用卡為用戶的行為對象,某銀行的app則是標簽發(fā)生的位置。

1.2 標簽維度的選擇

當今的電商平臺,用戶在選擇自己中意的商品時,往往會留下大量的訪問痕跡,與此同時也會出現(xiàn)大量不同類型的標簽。然而,并不是所有標簽對“數(shù)據(jù)畫像”的生成都有用,一些類似流量,跳轉(zhuǎn)次數(shù)的數(shù)據(jù)統(tǒng)計對畫像的研究價值并不高,有些甚至會對研究造成干擾。因此首先需要將冗余的數(shù)據(jù)進行清洗,保留最有用的標簽來構造數(shù)據(jù)畫像模型。一個好的“數(shù)據(jù)畫像”能夠清晰地呈現(xiàn)出用戶的屬性和偏好,與之最直接相關的維度便是用戶的行為標簽。以用戶辦理信用卡為例,通過“瀏覽信用卡”,“信用卡辦理”等標簽,可以將用戶的行為習慣勾勒出來,通過對行為的分析更容易得到理想的“數(shù)據(jù)畫像”。同時,用戶關注的行為對象也十分重要,如信用卡中的免年費卡、高額度卡,汽車中的中型車、SUV等。這些是用戶最關注的商品,通過這些標簽可以讓畫像更加完善,而且也給后續(xù)的推薦指出了明確的方向。相比之下,流量、時間這類標簽由于隨機性較大,對于本次的研究幫助有限。因此本文主要對行為標簽和偏好標簽進行深入探討。

1.3 數(shù)據(jù)畫像概率分配模型

“數(shù)據(jù)畫像”需要由標簽來構建,而標簽的出現(xiàn)是有概率的,例如當出現(xiàn)了瀏覽信用卡的標簽,卻并不一定會出現(xiàn)辦理信用卡的標簽。而當這些標簽的概率產(chǎn)生變化時,由它們生成的畫像也會有概率上的變化。設某一個數(shù)據(jù)畫像LSP=,把稱為該數(shù)據(jù)畫像的概率分配模型,記為:LSM。其中,labp={|i=1,2,…,n},n為構成數(shù)據(jù)畫像的所有標簽的個數(shù),pi是labi出現(xiàn)的概率,operp={|j=1,2,…,m},m為構成數(shù)據(jù)畫像的所有算子的個數(shù),pj是operj出現(xiàn)的概率。P與Pi、Pj滿足如下概率分配公式:

(1)

數(shù)據(jù)畫像因果模型:設LSP=為一個用戶行為的數(shù)據(jù)畫像,如果oper僅由因果“~”操作構成,則它的概率分配模型中P可以通過下式求解:

(2)

式中:left(labi)表示標簽labi左操作數(shù),operj(labi)表示標簽labi左算子。

數(shù)據(jù)畫像概率分配模型與數(shù)據(jù)畫像概念的不同之處在于,數(shù)據(jù)畫像僅僅強調(diào)標簽結構整體出現(xiàn)的隨機性,而數(shù)據(jù)畫像概率分配模型強調(diào)構成數(shù)據(jù)畫像每一個標簽出現(xiàn)的隨機性,是對用戶行為特征更加具體、深刻的表達。

例2:以信用卡申請中客戶行為分析為例,分析客戶在瀏覽了信用卡卡種之后,有可能會查看相關的同類信用卡,也可能會進行信用卡辦理,使用“~”符號來表示行為之間因果關系。

A瀏覽信用卡~A瀏覽同類信用卡;

A瀏覽信用卡~A信用卡辦理;

A瀏覽同類信用卡~A信用卡辦理;

寫成表達式的形式:

LS=A瀏覽信用卡~1A信用卡辦理+1A瀏覽信用卡~2A瀏覽同類信用卡+

2A瀏覽信用卡~3A信用卡辦理

數(shù)據(jù)畫像概率分配模型中的P可以如下計算:

LSM=P(A瀏覽信用卡)×P(A瀏覽同類信用卡/A瀏覽信用卡) ×P(~1)×P(~1)×P(+1)×P(A信用卡辦理/{A瀏覽信用卡,A瀏覽同類信用卡})×P(~2) ×P(~3)×P(+2)

推論:設數(shù)據(jù)畫像因果模型LSM,當且僅當總可以有一個貝葉斯網(wǎng)絡模型與LSM對應。

證明:【充分條件】 已知一個數(shù)據(jù)畫像因果模型LSM,按照以下步驟構造貝葉斯網(wǎng)絡:

步驟1:對每一個概率運算的操作數(shù)構造一對節(jié)點,對概率運算構造一個有向邊,讓左操作數(shù)對應的節(jié)點(父節(jié)點)指向右操作數(shù)對應的節(jié)點(子節(jié)點);

步驟2:如果有相同的父節(jié)點,或者相同的子節(jié)點,合并相同節(jié)點;

步驟3:重復上述步驟直到所有的概率運算被構建。

完成步驟1-步驟3后LSM對應的貝葉斯網(wǎng)絡即可構造,定理的充分性得證。

【必要性】 完成充分性證明步驟的相反步驟即可證明定理的必要性證明。

步驟1:對每一對父子節(jié)點構造概率運算,父節(jié)點對應左操作數(shù),子節(jié)點對應右操作數(shù);

步驟2:如果有相同的父節(jié)點,或者相同的子節(jié)點,差分成單個因果運算;

步驟3:重復上述步驟直到所有的父子節(jié)點被差分完畢。

完成上述步驟1-步驟3即可完成數(shù)據(jù)畫像的因果模型。證畢。

例3:例2中構建的數(shù)據(jù)畫像因果模型為:

LSM=P(A瀏覽信用卡)×P(A瀏覽同類信用卡/A瀏覽信用卡) ×P(A信用卡辦理/{A瀏覽信用卡,A瀏覽同類信用卡})

對應的貝葉斯網(wǎng)絡模型如圖1所示。

圖1 對應的貝葉斯網(wǎng)絡模型

2 算法研究

本節(jié)討論基于數(shù)據(jù)畫像模型的用戶行為分析算法,包括:用戶數(shù)據(jù)畫像模型構造算法,用戶行為預測算法。

2.1 用戶畫像因果模型

上一節(jié)中提到,一個數(shù)據(jù)畫像因果模型總可以用一個貝葉斯網(wǎng)絡模型表現(xiàn)出來。下面給出基于K2[1]算法的貝葉斯網(wǎng)絡模型概率求解算法。

算法1貝葉斯網(wǎng)絡模型求解算法

input:一組標有次序的n個標簽節(jié)點(數(shù)據(jù)記錄),貝葉斯網(wǎng)絡中父節(jié)點的上界。

output:輸出P(x1,x2,…,xn)數(shù)據(jù)畫像概率

算法過程如下:使用評分函數(shù):g(i,ρi)=max(∏(di-1)!/Hij+Di-1)∏Hijk),將每個標簽節(jié)點與其所有的上層節(jié)點進行計算,將分數(shù)最高的上層節(jié)點或上層節(jié)點結構作為該標簽節(jié)點的父節(jié)點。按順序遍歷完所有節(jié)點后,所有標簽組成的結構即為一個用戶畫像因果模型,而它的輸出則是該數(shù)據(jù)畫像形成的概率。

算法1的時間復雜度是O(N×M),其中N是輸入標簽流的長度,M是標簽屬性長度??臻g復雜度也為O(N×M)。算法1是對基于傳統(tǒng)K2算法的改進。

2.2 用戶行為預測算法

這里把用戶行為分析和預測大體分兩種,一種是可能消費用戶的預測,另一種是消費可能性比較小的預測。即,分別計算出消費可能性,如果小于預測閥值,則不是消費用戶,否則就是可能的消費者。預測閾值可以根據(jù)行業(yè)專家的經(jīng)驗設置。

為了預測可能消費者的行為,可以設置一個稱為是“成功”的標簽,加入到貝葉斯網(wǎng)絡中,通過計算相關的后驗概率即可求出消費的可能性,即計算P(lab1,lab2,…,labn,labn+1)和P(x1,x2,…,xn,xn+1)。為此,用貝葉斯網(wǎng)絡求解消費可能性的算法如算法2所示。

算法2基于貝葉斯網(wǎng)絡用戶行為預測。

Input: 貝葉斯網(wǎng)絡模型

Output:P(x1,x2,…,xn,xn+1)。

begin

1.ρi+1:=0;

2.g(i+1,ρi+1)=max(∏(di+1-1)!/Hi+1j+di-1)∏Hi+1jk);

3.Pold:=g(i+1,ρi+1);

4. OK:=true;

5.dowhileOKand|ρi|<μ

6.g(i+1,ρi+1∪ {z})=max(g(i+1,pred(xi+1)});

7.Pnew:=g(i+1,ρi+1∪ {z})

8.ifPnew>Poldthen

9.Pold:=Pnew;

10.ρi+1:=ρi+1∪ {z}

11.P(xi+1/pare(xi+1))=Pnew

12.P(x1,x2,…,xn,xn+1)=P(xi+1/pare(xi+1))

13.else

14. OK:=false;

15.enddo

16.ifP(xn+1/(x1,x2,…,xn))>Psuccthen

17.printP(xn+1/(x1,x2,…,xn))+″是可能用戶″

18.else

19.print″不是潛在的用戶″

20.endif

21.end

算法2的時間復雜度和空間復雜度與算法1相同。

3 實 驗

本節(jié)以信用卡銷售的真實場景作為實驗背景,對提出的算法進行實驗,包括:(1) 基于數(shù)據(jù)畫像模型的用戶行為預測分析;(2) 基于貝葉斯網(wǎng)絡模型的用戶行為預測分析。給出了用戶畫像模型的構造效率和行為預測算法的成功率對比。

3.1 信用卡營銷應用場景

某銀行與無線通信網(wǎng)絡運營商建立了業(yè)務合作協(xié)議,在協(xié)議條款下,銀行可以根據(jù)通信網(wǎng)絡運營商提供的日志文件分析用戶行為。日志文件樣本及處理后的數(shù)據(jù)如圖2、圖3所示。

圖2 APP運行日志數(shù)據(jù)

手機號|APP|行為|每小時發(fā)生多少次|卡種

136234|001|1|7501

136465|003|001|3|8745

136965|006|004|2|7323

136932|007|002|11|6979

137543|004|003|3|8436

137534|005|007|4|7866

134703|007|003|9|8546

138654|003|002|7|7605

136568|002|004|3|8603

圖3 經(jīng)過一次預處理的APP運行日志數(shù)據(jù)

其中,電話號經(jīng)過加密處理,APP和行為做了簡單的分類編碼。

上述日志文件中的數(shù)據(jù)有多種標簽,同時也可能會有我們感興趣的標簽結構,就像圖4中的信用卡用戶申請因果關系圖。

圖4 信用卡用戶申請因果關系圖

如果加注各個節(jié)點的概率,父節(jié)點產(chǎn)生子節(jié)點的概率,圖4可以看作是一個信用卡申請的貝葉斯網(wǎng)絡模型。如果把“信用卡辦理”節(jié)點看成是“成功”節(jié)點,圖4也是一個貝葉斯網(wǎng)絡預測模型。

3.2 算法實驗

本實驗使用的數(shù)據(jù)來自某銀行信用卡的APP運行日志文件,如表1所示。實驗選取了5個樣本數(shù)據(jù)集。

表1 實驗數(shù)據(jù)集

實驗環(huán)境配置參數(shù)如表2所示。這里使用了兩種實驗環(huán)境。

表2 實驗環(huán)境參數(shù)表

實驗為使用貝葉斯網(wǎng)絡構造算法構建數(shù)據(jù)畫像模型,即利用算法1實現(xiàn)圖4信用卡營銷貝葉斯網(wǎng)絡模型。

實驗中對父節(jié)點個數(shù)不斷調(diào)整,對比實驗結果后,使用最合適的父節(jié)點個數(shù),通過K2算法構建數(shù)據(jù)畫像模型,運行界面如圖5所示。

圖5 算法1的Spark運行界面

表3為實驗的運行結果。

表3 算法1輸出結果

算法2的運行時間如圖6所示。

圖6 貝葉斯網(wǎng)絡求解時間圖

通過圖6可以看出,基于貝葉斯網(wǎng)絡的數(shù)據(jù)畫像模型和大數(shù)據(jù)的處理架構,運算時間會逐漸趨于平緩。

第二組實驗是用戶行為預測算法實現(xiàn),包括算法1和算法2。

圖7是基于貝葉斯網(wǎng)絡的預測效果和傳統(tǒng)預測效果的比較。縱軸是預測成功率,橫坐標是兩種預測算法運行的數(shù)據(jù)集。

圖7 兩種不同途徑預測成功率比較

從圖7可以看出,基于貝葉斯網(wǎng)絡的預測方法有較高的預測成功率。其原因是采用了算法2對各個節(jié)點的概率進行了分析,分析得更為全面。

4 相關研究

本節(jié)從數(shù)據(jù)畫像模型構建、推薦算法、消費者行為預測等方面綜述相關研究工作。

數(shù)據(jù)畫像(用戶畫像)模型的專項研究并不多見。文獻[2]提出網(wǎng)絡群體和個體畫像的方法,通過收集群體屬性和個體屬性,發(fā)現(xiàn)傳播內(nèi)容、挖掘興趣特征收集數(shù)據(jù)畫像。提出的數(shù)據(jù)畫像構造方法只適合社交媒體中的群體劃分和網(wǎng)絡新聞的真?zhèn)伪嫖?。文獻[3]提出一種基于本體的數(shù)據(jù)畫像模型,通過分析網(wǎng)頁使用者的行為數(shù)據(jù),提用戶屬性和興趣特征,從而構建一類用戶的本體模型,為用戶推薦提供支持。同類研究還有文獻[4-5]。上述研究中一般把數(shù)據(jù)畫像簡單地看作特性標簽的數(shù)據(jù)集合,數(shù)據(jù)畫像的構建與推薦算法密切相關。

推薦算法與系統(tǒng)研究是近年來的熱點研究課題,與客戶行為預測相關的研究也很多。文獻[6]提出一種基于貝葉斯推斷的推薦算法。通過對影視作品評價歷史,統(tǒng)計一對伙伴對該作品評級的條件概率。根據(jù)直接伙伴/間接伙伴關系,用戶通過社交網(wǎng)絡傳播評價反饋從而構造貝葉斯網(wǎng)絡,通過貝葉斯網(wǎng)絡預測新作品的可能評價等級。實驗表明該系統(tǒng)可以有效地克服冷啟動和數(shù)據(jù)稀疏問題。

文獻[7]針對事件推薦中一般假設各種因素有相同影響度,而造成推薦的準確性的質(zhì)疑問題,研究不同影響因素權重的評估方法。把事件發(fā)生的地點、時間和社交偏好等因素轉(zhuǎn)化為相關的條件規(guī)約,通過計算相關條件的敏感密度函數(shù)給出各種因素影響的事件排名,從而實現(xiàn)個性化推薦。提出了實現(xiàn)上述思想的推薦系統(tǒng)框架SoCaST,通過真實數(shù)據(jù)集檢驗了上述框架的有效性。文獻[8]提出了一種關聯(lián)規(guī)則挖掘與本體語義分析相結合的推薦算法。首先采用OWL建立本體語義信息字典和模型,然后再利用關聯(lián)規(guī)則挖掘算法Apriori進行關聯(lián)分析,從而找到與產(chǎn)品相關的帶有語義信息的產(chǎn)品推薦。創(chuàng)新之處是把語義模型與關聯(lián)規(guī)則挖掘相結合,從而直接給出產(chǎn)品推薦,不需要對推薦信息的再解釋。文獻[9]通過分析比較Apriori和FPGrowth在數(shù)據(jù)流在線執(zhí)行效率后,給出FPGrowth算法更適合作為在線推薦算法的結論。把FPGrowth應用到音樂推薦中,取得了比較好的效果,但文中沒有具體介紹如何在線分析的細節(jié),沒有對流式大數(shù)據(jù)的處理難度進行分析,沒有給出數(shù)據(jù)如何過濾和篩選的算法。文獻[10]提出了一種基于統(tǒng)計相關性度量的算法,通過統(tǒng)計相關性給出蘊含關系的概率,在兩個樣本集上測試了算法的有效性。該算法可以用于基于關聯(lián)規(guī)則的推薦系統(tǒng)。該工作與Apriori算法相似,而且僅僅在樣本集上進行實驗,缺少使用效果的評估。文獻[11]針對協(xié)同過濾算法的冷啟動問題和內(nèi)容推薦算法的語義瓶頸問題,提出了一種多內(nèi)容協(xié)同過濾模型。采用多視圖聚類挖掘網(wǎng)頁中相關和相似的數(shù)據(jù)項,并應用于協(xié)同過濾中,從而解決了數(shù)據(jù)稀疏問題。文獻[12]針對社會化推薦系統(tǒng)的需求,推薦算法的冷啟動和數(shù)據(jù)稀疏問題,對社會化推薦系統(tǒng)的研究進展進行綜述,對信任推理算法、推薦關鍵技術及其應用進展進行前沿概括、比較和分析。最后,對社會化推薦系統(tǒng)中有待深入研究的難點、熱點及發(fā)展趨勢進行展望。同類研究還有文獻[13-15]。

5 結 語

由于不同領域有不同的數(shù)據(jù)畫像表述,所以給出一個普遍適用的數(shù)據(jù)畫像模型顯得十分困難。本文在標簽概率分布的基礎上構建數(shù)據(jù)畫像模型,提出基于該模型的用戶行為分析和用戶推薦算法。本文的主要貢獻如下:

1) 提出了數(shù)據(jù)畫像概念和數(shù)據(jù)畫像概率分配模型,提出了標簽結構提取、基于數(shù)據(jù)畫像概率分配模型的系列推薦算法,形成了完整的推薦算法技術。

2) 提出了基于貝葉斯網(wǎng)絡模型的推薦算法。通過增加成功節(jié)點或失敗節(jié)點,構建貝葉斯網(wǎng)絡預測模型,對大概率后驗概率進行排序,從而給出推薦。

本文所述研究工作還有需要完善的地方,如進一步增加貝葉斯網(wǎng)絡的結構,建立更復雜的網(wǎng)絡,給出更完備的數(shù)據(jù)畫像模型等。在推薦算法方面還需要進一步驗證在更大、更復雜的數(shù)據(jù)集下算法的運行效率。另外,還需要擴展數(shù)據(jù)畫像模型的應用領域,在不同應用場景下驗證該模型的適用性。這也是下一步的研究工作重點。

猜你喜歡
貝葉斯畫像信用卡
威猛的畫像
畫像
基于貝葉斯網(wǎng)絡的海盜襲擊事件影響因素
招商銀行:招行兩大APP支持信用卡免費還款
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
信用卡資深用戶
貝葉斯公式的應用和推廣
畫像
注意!有些信用卡不激活也收費