張小可 沈文明 杜翠鳳
摘要:為了解決用戶(hù)興趣變化動(dòng)態(tài)推薦的問(wèn)題,通過(guò)利用用戶(hù)的實(shí)時(shí)上網(wǎng)數(shù)據(jù)動(dòng)態(tài)更新貝葉斯網(wǎng)絡(luò)各種興趣的概率,結(jié)合興趣閾值刻畫(huà)用戶(hù)畫(huà)像并實(shí)現(xiàn)移動(dòng)應(yīng)用的實(shí)時(shí)推薦。經(jīng)過(guò)實(shí)驗(yàn)表明,該算法能夠有效挖掘用戶(hù)的興趣,并具有較好的擴(kuò)展性。
關(guān)鍵詞:用戶(hù)畫(huà)像 貝葉斯網(wǎng)絡(luò) 興趣閾值 動(dòng)態(tài)推薦
1 引言
用戶(hù)畫(huà)像(Persona)最早是由交互設(shè)計(jì)之父Alan Cooper提出的,他認(rèn)為用戶(hù)畫(huà)像是真實(shí)用戶(hù)的虛擬代表,是根據(jù)一系列用戶(hù)的真實(shí)數(shù)據(jù)而挖掘出的目標(biāo)用戶(hù)模型[1]。通常用戶(hù)畫(huà)像是根據(jù)用戶(hù)的目標(biāo)、行為、觀點(diǎn)的差異抽取用戶(hù)的典型特征,把用戶(hù)的基本屬性(年齡、性別、地域)、購(gòu)買(mǎi)能力、行為特征、興趣愛(ài)好、心理特征、社交網(wǎng)絡(luò)大致地標(biāo)簽化。
用戶(hù)畫(huà)像研究是當(dāng)前的一個(gè)熱門(mén)話題,不少學(xué)者對(duì)移動(dòng)互聯(lián)網(wǎng)、互聯(lián)網(wǎng)的數(shù)據(jù)構(gòu)建用戶(hù)畫(huà)像,描述用戶(hù)的群體特征,從而為精準(zhǔn)營(yíng)銷(xiāo)提供數(shù)據(jù)支撐。曾鴻等通過(guò)對(duì)新浪微博數(shù)據(jù)進(jìn)行采集分析,構(gòu)建用戶(hù)畫(huà)像模型,描述企業(yè)用戶(hù)群體的行為特征,支撐精準(zhǔn)營(yíng)銷(xiāo)[1];張慷通過(guò)提取用戶(hù)的上網(wǎng)行為特征,同時(shí)結(jié)合相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合以及交叉分析,構(gòu)建通信用戶(hù)的畫(huà)像模型[2];黃文彬等在分析移動(dòng)用戶(hù)的基站軌跡基礎(chǔ)上,采用頻繁模式挖掘、構(gòu)建概率矩陣等方法,構(gòu)建包含地理位置信息的用戶(hù)畫(huà)像模型[3];王慶福采用貝葉斯網(wǎng)絡(luò)構(gòu)建用戶(hù)興趣模型,以用戶(hù)興趣模型來(lái)刻畫(huà)用戶(hù)畫(huà)像[4]。在借鑒已有研究成果的基礎(chǔ)上,本文通過(guò)對(duì)移動(dòng)互聯(lián)網(wǎng)用戶(hù)的歷史數(shù)據(jù)進(jìn)行多元回歸分析,得到貝葉斯網(wǎng)絡(luò)的初始參數(shù),再利用Netica軟件構(gòu)造一個(gè)BN(Bayesian Networks,貝葉斯網(wǎng)絡(luò))模型,并根據(jù)用戶(hù)實(shí)時(shí)發(fā)生的業(yè)務(wù)行為更新網(wǎng)絡(luò)的參數(shù),以此刻畫(huà)每個(gè)用戶(hù)的畫(huà)像。
2 用戶(hù)畫(huà)像構(gòu)建的相關(guān)研究
2.1 用戶(hù)畫(huà)像的定義
用戶(hù)畫(huà)像的本質(zhì)就是消費(fèi)者特征“可視化”。用戶(hù)畫(huà)像首先通過(guò)用戶(hù)一系列的行為信息進(jìn)行用戶(hù)行為的初步“刻畫(huà)”;然后關(guān)聯(lián)用戶(hù)的動(dòng)態(tài)行為數(shù)據(jù)進(jìn)行畫(huà)像的完善,以此提高用戶(hù)需求偏好的準(zhǔn)確度。本文先通過(guò)回歸分析歸納用戶(hù)的行為信息,再通過(guò)貝葉斯網(wǎng)絡(luò)關(guān)聯(lián)動(dòng)態(tài)數(shù)據(jù),更新用戶(hù)對(duì)需求的偏好概率。
2.2 用戶(hù)畫(huà)像構(gòu)建思路
基于用戶(hù)畫(huà)像的定義,本文刻畫(huà)用戶(hù)畫(huà)像的步驟如圖1所示。
2.3 多元線性回歸模型
多元線性回歸模型是反映自變量與因變量之間“緊密性”的關(guān)系。因此,本文在分析用戶(hù)的生活習(xí)慣和消費(fèi)行為的基礎(chǔ)上,采用多元線性回歸的方法來(lái)衡量用戶(hù)對(duì)某種移動(dòng)應(yīng)用的初始興趣度。
多元線性回歸模型:假設(shè)影響因變量Y的自變量個(gè)數(shù)為N,自變量記為x1, x2, …, xn,則自變量與因變量是線性關(guān)系:
Y=β0+β1x1+β2x2+…+βnxn+ε (1)
其中,β1, β2, …, βn是回歸系數(shù);ε是與x1, x2, …, xn無(wú)關(guān)的未知參數(shù),取值范圍為(0, σ2)。
2.4 貝葉斯網(wǎng)絡(luò)
眾所周知,用戶(hù)的興趣可能會(huì)受到身邊的朋友、同事或者家人的影響而發(fā)生改變?;诖耍疚膶⑼ㄟ^(guò)貝葉斯網(wǎng)絡(luò)構(gòu)建一種適應(yīng)用戶(hù)興趣變化的動(dòng)態(tài)推薦方法。
(1)貝葉斯定理
貝葉斯定理源于一個(gè)“逆向概率”的問(wèn)題。如果袋子里有N個(gè)白球、M個(gè)黑球,則摸到黑球的“正向概率”容易得出;那么如果事前并不知道白球和黑球的比例,經(jīng)過(guò)隨機(jī)摸出幾個(gè)球后,如何推測(cè)黑白球的比例呢?因此,貝葉斯的推斷不需要客觀的依據(jù),它實(shí)際上需要一個(gè)估計(jì)值,然后根據(jù)實(shí)際的結(jié)果對(duì)估計(jì)值不斷修正。后來(lái),Pierre Simona將貝葉斯的理論進(jìn)一步發(fā)展為條件概率,幫助人們?cè)诟怕氏嚓P(guān)的決策過(guò)程中,通過(guò)新獲得的觀察結(jié)果來(lái)更正對(duì)概率的判斷。在事件B出現(xiàn)的前提下,事件A出現(xiàn)的概率等于A和B都出現(xiàn)的概率除以B出現(xiàn)的概率,具體如下:
(2)
其中,P(A|B)是后驗(yàn)概率;P(A)是先驗(yàn)概率;P(B|A)/P(B)是一個(gè)調(diào)整因子,是在已知某些觀測(cè)所得到的結(jié)果。在預(yù)估先驗(yàn)概率的前提下,再加入觀測(cè)結(jié)果,通過(guò)觀測(cè)結(jié)果來(lái)增強(qiáng)或者削弱先驗(yàn)概率,由此得到更接近事實(shí)的后驗(yàn)概率[5]。
(2)貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是基于概率推理的圖形化概率網(wǎng)絡(luò),是不確定知識(shí)表達(dá)與推理領(lǐng)域最有效的理論模型之一。它將經(jīng)典的概率論與圖論結(jié)合起來(lái),用于發(fā)現(xiàn)隨機(jī)變量之間的潛在關(guān)系,適用于表述和分析不確定的事件,可以從分散的、粗糙的信息中作出推理[6-7]。
假定有隨機(jī)變量組合X={X1, X2, …, Xn},xi表示Xi的取值。表達(dá)式p(X1=x1, X2=x2, …, Xn=xn)表示一個(gè)聯(lián)合概率,即變量X1, X2, …, Xn的值分別是x1, x2, …, xn的概率。因此,給定一個(gè)隨機(jī)變量集合的完全聯(lián)合概率函數(shù)就能計(jì)算所有的邊緣概率和更低階的聯(lián)合概率[6]。為了更直觀表達(dá)聯(lián)合概率,用一個(gè)條件概率鏈表示聯(lián)合概率:
(3)
為了更直觀表達(dá)變量之間的聯(lián)合概率分布和條件的獨(dú)立性,后人用貝葉斯網(wǎng)絡(luò)來(lái)展現(xiàn)節(jié)點(diǎn)間相互依賴(lài)的關(guān)系,這種網(wǎng)絡(luò)表示的方法能夠大量地節(jié)約概率推理的計(jì)算。
如圖2所示,一個(gè)貝葉斯網(wǎng)絡(luò)是一個(gè)DAG(Directed Acyclic Graph,有向無(wú)環(huán)圖),由代表變量節(jié)點(diǎn)及連接這些節(jié)點(diǎn)的有向邊構(gòu)成[7]。
貝葉斯網(wǎng)絡(luò)用B(G, P)表示,圖2中的節(jié)點(diǎn)代表隨機(jī)變量,節(jié)點(diǎn)之間的有向邊反映節(jié)點(diǎn)之間的依賴(lài)關(guān)系。指向節(jié)點(diǎn)X的所有節(jié)點(diǎn)是X的父節(jié)點(diǎn),T和L是節(jié)點(diǎn)X的父節(jié)點(diǎn),表示T和L引起了X,T和L與X都存在因果關(guān)系,因此貝葉斯網(wǎng)絡(luò)有時(shí)叫做因果網(wǎng)[7]。貝葉斯網(wǎng)絡(luò)還蘊(yùn)含獨(dú)立性假設(shè),貝葉斯網(wǎng)絡(luò)規(guī)定圖中的任一節(jié)點(diǎn)Xi條件獨(dú)立于由Xi的父節(jié)點(diǎn)給定的非Xi后代節(jié)點(diǎn)構(gòu)成的任何節(jié)點(diǎn)子集,即如果用A(Xi)表示非Xi后代節(jié)點(diǎn)構(gòu)成的任何節(jié)點(diǎn)子集,用Πi表示變量Xi的父節(jié)點(diǎn)集,πi表示Πi的配置情況,πi表示某一具體的配置[8]。對(duì)于每個(gè)Xi將有一個(gè)子集Πi{X1, X2, …, Xi-1},使得Xi與A(Xi)={X1, X2, …, Xi-1}\Πi給定Πi的前提下是條件獨(dú)立的[7]。正如圖2所示,網(wǎng)絡(luò)中的節(jié)點(diǎn)T、L和X之間是一種收斂連接,在X光結(jié)果未知的條件下,T和L是相互獨(dú)立的;在警報(bào)X已知的情況下,T和L是相互依賴(lài)的,即不滿足:P(T, L|X)=P(T|X)P(L|X)。網(wǎng)絡(luò)中的節(jié)點(diǎn)S、L和B之間是一種發(fā)散連接,在節(jié)點(diǎn)S已知的條件下,L和B條件獨(dú)立,即滿足:P(L, B|S)=P(L|S)P(B|S)。節(jié)點(diǎn)L既是S和X順序連接路徑上的頭對(duì)頭型節(jié)點(diǎn),則在已知節(jié)點(diǎn)L取值的條件下,X獨(dú)立于網(wǎng)絡(luò)中的節(jié)點(diǎn)S,即網(wǎng)絡(luò)模型得到的聯(lián)合概率為:
P(A, S, T, L, B, X, D)=P(A)P(S)P(T|A)P(L|S)
P(B|S)P(X|T, L)P(D|T, L, B) (4)
3 實(shí)驗(yàn)過(guò)程
3.1 采用多元線性回歸計(jì)算用戶(hù)的初始興趣度
通過(guò)運(yùn)營(yíng)商的流量詳單記錄,選擇某地市100萬(wàn)用戶(hù)的上網(wǎng)數(shù)據(jù)記錄,首先抽取用戶(hù)上網(wǎng)記錄的核心特征,然后根據(jù)公式(1)計(jì)算每個(gè)用戶(hù)的實(shí)時(shí)興趣度。通過(guò)對(duì)用戶(hù)上網(wǎng)應(yīng)用的特征提取,歸納出9種代表性的應(yīng)用:移動(dòng)社交、手機(jī)游戲、手機(jī)電視、移動(dòng)電子閱讀、移動(dòng)定位服務(wù)、收集搜索、手機(jī)內(nèi)容共享、移動(dòng)支付、移動(dòng)電子商務(wù)。
根據(jù)上面介紹的多元線性回歸方程,則某種應(yīng)用的初始興趣度為:
Yi=β1Mi+β2Ti (5)
其中,Yi表示第i種商品的初始興趣度;Mi表示瀏覽網(wǎng)頁(yè)的次數(shù);Ti表示瀏覽網(wǎng)頁(yè)的時(shí)間。通過(guò)公式(5)可以計(jì)算每個(gè)用戶(hù)對(duì)每種應(yīng)用的初始興趣度,該興趣度可作為貝葉斯網(wǎng)絡(luò)中每種應(yīng)用的初始興趣度。
3.2 構(gòu)造用戶(hù)畫(huà)像的貝葉斯模型
把上述9種應(yīng)用構(gòu)造貝葉斯網(wǎng)絡(luò),9個(gè)節(jié)點(diǎn)代表9種不同移動(dòng)應(yīng)用,節(jié)點(diǎn)間的有向弧代表用戶(hù)的初始興趣度,本文利用Netica軟件構(gòu)造一個(gè)BN模型,某個(gè)用戶(hù)初始興趣的貝葉斯網(wǎng)絡(luò)如圖3所示。
3.3 利用實(shí)時(shí)興趣調(diào)整BN網(wǎng)絡(luò)中的概率
當(dāng)獲得用戶(hù)的上網(wǎng)信息時(shí),BN網(wǎng)絡(luò)中的概率就會(huì)自動(dòng)更新。貝葉斯網(wǎng)絡(luò)最強(qiáng)大之處在于從每個(gè)階段結(jié)果所獲得的概率都是數(shù)學(xué)與科學(xué)的反映[9]。也就是說(shuō),假設(shè)了解用戶(hù)上網(wǎng)的足夠信息,根據(jù)這些信息獲得統(tǒng)計(jì)知識(shí),網(wǎng)絡(luò)就會(huì)推斷合理的用戶(hù)興趣。當(dāng)發(fā)現(xiàn)用戶(hù)使用移動(dòng)支付時(shí),則BN網(wǎng)絡(luò)的概率調(diào)整如圖4所示。
由圖4可知,當(dāng)發(fā)現(xiàn)用戶(hù)使用移動(dòng)支付后,用戶(hù)的可能使用定位服務(wù)的概率明顯提升。同時(shí),還發(fā)現(xiàn)用戶(hù)使用了移動(dòng)社交的服務(wù),那么用戶(hù)的BN網(wǎng)絡(luò)的概率調(diào)整如圖5所示。
由圖5可知,當(dāng)用戶(hù)使用移動(dòng)社交后,用戶(hù)的收集內(nèi)容共享、定位服務(wù)的概率得到提升。運(yùn)營(yíng)商可以根據(jù)實(shí)時(shí)的用戶(hù)興趣不斷更新BN網(wǎng)絡(luò)的概率,當(dāng)發(fā)現(xiàn)用戶(hù)對(duì)某種應(yīng)用的概率大于δ時(shí)(δ為用戶(hù)對(duì)某種應(yīng)用的興趣閾值),運(yùn)營(yíng)商可以對(duì)該用戶(hù)進(jìn)行應(yīng)用推薦。根據(jù)應(yīng)用推薦后,再跟蹤用戶(hù)的使用程度,以此來(lái)動(dòng)態(tài)調(diào)整用戶(hù)對(duì)某種應(yīng)用的興趣閾值。
3.4 基于貝葉斯網(wǎng)絡(luò)挖掘的用戶(hù)畫(huà)像結(jié)果
表1為用戶(hù)A、用戶(hù)B和用戶(hù)C一周登錄手機(jī)APP后所使用的應(yīng)用,根據(jù)用戶(hù)的登錄次數(shù)、逗留時(shí)間計(jì)算出他們的興趣度,得到不同的應(yīng)用興趣集。
從實(shí)驗(yàn)數(shù)據(jù)得到用戶(hù)的興趣閾值δ為0.638。在表1中,可以預(yù)測(cè)用戶(hù)A感興趣的應(yīng)用為{移動(dòng)社交,移動(dòng)定位服務(wù),手機(jī)內(nèi)容共享,移動(dòng)支付,移動(dòng)電子商務(wù)};用戶(hù)B感興趣的應(yīng)用為{手機(jī)游戲,收集搜索,移動(dòng)支付,移動(dòng)電子商務(wù)};用戶(hù)C感興趣的應(yīng)用為{移動(dòng)社交,手機(jī)游戲,移動(dòng)電子閱讀,移動(dòng)支付,移動(dòng)電子商務(wù)}。根據(jù)這些數(shù)據(jù)挖掘的信息,運(yùn)營(yíng)商或者移動(dòng)應(yīng)用供應(yīng)商就可以為不同的用戶(hù)提供網(wǎng)上的個(gè)性化信息服務(wù)和推薦用戶(hù)喜愛(ài)的移動(dòng)應(yīng)用,提高運(yùn)營(yíng)商和移動(dòng)應(yīng)用供應(yīng)商的服務(wù)效率及利潤(rùn)。
4 結(jié)束語(yǔ)
本文采用貝葉斯網(wǎng)絡(luò)對(duì)用戶(hù)上網(wǎng)數(shù)據(jù)進(jìn)行實(shí)時(shí)更新,以便實(shí)現(xiàn)用戶(hù)應(yīng)用的個(gè)性化推薦服務(wù)。它能夠使先驗(yàn)知識(shí)和實(shí)時(shí)數(shù)據(jù)有機(jī)地結(jié)合,實(shí)時(shí)更新網(wǎng)絡(luò)中的概率,并通過(guò)較為直觀的概率關(guān)聯(lián)關(guān)系來(lái)挖掘用戶(hù)的興趣,為構(gòu)建用戶(hù)畫(huà)像提供了有力的數(shù)據(jù)支撐。實(shí)驗(yàn)表明,采用貝葉斯網(wǎng)絡(luò)刻畫(huà)實(shí)時(shí)的用戶(hù)畫(huà)像,能夠動(dòng)態(tài)跟蹤用戶(hù)預(yù)測(cè)用戶(hù)的興趣愛(ài)好,為運(yùn)營(yíng)商和移動(dòng)應(yīng)用供應(yīng)商提供個(gè)性化的應(yīng)用推薦切實(shí)可行的方法。
參考文獻(xiàn):
[1] 曾鴻,吳蘇倪. 基于微博的大數(shù)據(jù)用戶(hù)畫(huà)像與精準(zhǔn)營(yíng)銷(xiāo)[J]. 現(xiàn)代經(jīng)濟(jì)信息, 2016(16): 306-308.
[2] 張慷. 手機(jī)用戶(hù)畫(huà)像在大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)方案[J]. 信息通信, 2014(2): 266-267.
[3] 黃文彬,徐山川,吳家輝,等. 移動(dòng)用戶(hù)畫(huà)像構(gòu)建研究[J]. 現(xiàn)代情報(bào), 2016,36(10): 54-61.
[4] 王慶福. 貝葉斯網(wǎng)絡(luò)在用戶(hù)興趣模型構(gòu)建中的研究[J]. 無(wú)線互聯(lián)科技, 2016(12): 101-102.
[5] 湯偉. Android應(yīng)用程序框架安全機(jī)制研究及改進(jìn)[D]. 寧波: 寧波大學(xué), 2011.
[6] 葉加加,趙逢禹. 基于興趣預(yù)測(cè)和熱點(diǎn)分析的聯(lián)合推薦算法研究[J]. 軟件導(dǎo)刊, 2016,15(9): 25-28.
[7] 李儉川,胡蔦慶,秦國(guó)軍,等. 貝葉斯網(wǎng)絡(luò)理論及其在設(shè)備故障診斷中的應(yīng)用[J]. 中國(guó)機(jī)械工程, 2003,14(10): 896-900.
[8] 李伯宇. 通用決策模型生成及推理系統(tǒng)的實(shí)現(xiàn)及研究[D]. 西安: 西安理工大學(xué), 2004.
[9] 郭振興. 分布式網(wǎng)絡(luò)故障管理的監(jiān)測(cè)站點(diǎn)部署技術(shù)研究[D]. 長(zhǎng)沙: 湖南大學(xué), 2011.
[10] 魏芳. 基于貝葉斯網(wǎng)絡(luò)的用戶(hù)興趣發(fā)現(xiàn)[D]. 西安: 西安建筑科技大學(xué), 2007.
[11] Neil M, Fenton N, Forey S, et al. Using Bayesian belief networks to predict the Reliability of military vehicles[J]. Computing and Control Engineering Journal, 2001,12(1): 11-20.
[12] 陳麗花. 基于貝葉斯網(wǎng)絡(luò)的網(wǎng)上用戶(hù)興趣預(yù)測(cè)分析[J]. 煤炭技術(shù), 2010,9(6): 163-165.
[13] 胡春玲,吳信東,胡學(xué)鋼,等. 基于貝葉斯網(wǎng)絡(luò)的頻繁模式興趣度計(jì)算及剪枝[J]. 軟件學(xué)報(bào), 2011,22(12): 2934-2950.★