姜建武,李景文,陸妍玲,葉良松
(桂林理工大學 測繪地理信息學院,廣西 桂林 541004)
?
基于用戶畫像的信息智能推送方法*
姜建武,李景文,陸妍玲,葉良松
(桂林理工大學 測繪地理信息學院,廣西 桂林 541004)
針對傳統(tǒng)信息推送服務由于缺少對用戶個人綜合因素的考慮,存在針對性差、推廣轉(zhuǎn)化率低的問題,在大數(shù)據(jù)理論基礎上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體,通過構(gòu)建行為-主題、主題-詞匯及行為-詞匯三位一體的數(shù)學模型,研究基于用戶畫像的信息本體提取方法。采用包含對象、時間、地點、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計算本體權(quán)重,以此構(gòu)建用戶畫像。設計了基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。
用戶畫像;信息推送;信息本體;大數(shù)據(jù)
基于“用戶畫像”的信息智能推送服務已經(jīng)廣泛應用于亞馬遜、京東、阿里、百度、百分點、騰訊等電商和信息服務企業(yè),國內(nèi)外眾多學者也對其進行了深入研究。彭藝等研究了云環(huán)境下智能推送服務在數(shù)字化教學中的應用[1];顏友軍研究了移動平臺上基于本體知識庫的問答與Web服務推送系統(tǒng)[2];赫磊研究了基于云平臺的智慧旅游信息推送系統(tǒng)[3];黃舒榕提出了基于JXTA的移動智能小區(qū)信息推送服務平臺[4];劉海等采用4C理論構(gòu)建了服裝領域的“用戶畫像”數(shù)據(jù)庫,并在此基礎上構(gòu)建了精準營銷細分模型[5];莫靜泱構(gòu)建了B/S架構(gòu)的用戶健康消費智能推送系統(tǒng)[6];肖鋒等圍繞LBS服務、情景模型和智能信息推送,提出了基于位置的智能信息服務模式[7-8]。然而,這些研究都是傳統(tǒng)的信息推送方法,缺少對用戶的偏好、時間、購買力等個人因素的考慮,導致推送信息泛濫,缺乏精準性。本文研究了用戶畫像數(shù)學模型的構(gòu)建及基于用戶畫像的智能信息推送方法,通過對用戶網(wǎng)絡行為數(shù)據(jù)和個人信息數(shù)據(jù)的采集、處理,建立用戶畫像數(shù)學模型,提取信息本體、計算本體權(quán)重,構(gòu)建用戶個人信息畫像,并融入信息智能推送過程,提供面向用戶的個性化精準信息推送服務。
1.1 信息本體的確定
用戶畫像又稱用戶角色[9],是一種大數(shù)據(jù)環(huán)境下用戶信息標簽化方法。信息本體是一種語義本體,分為靜態(tài)(如人口屬性、商業(yè)屬性等)和動態(tài)兩類。靜態(tài)本體來自用戶注冊信息,該類本體自成標簽,在實際提取中主要進行數(shù)據(jù)清洗工作。動態(tài)本體隱藏于用戶隨機互聯(lián)網(wǎng)行為中,具有隱蔽性,需通過數(shù)據(jù)分析,挖掘隱藏信息并提取本體,其提取過程如圖1所示。
圖1 動態(tài)本體提取過程
圖1中,K表示主題集合,M表示行為集合,Nm表示第m個行為中的詞匯個數(shù),α,β為先驗參數(shù)。
動態(tài)本體的提取分為數(shù)據(jù)預處理、行為-主題建模、主題-詞匯建模和行為-詞匯建模四個部分,其中行為-主題模型與主題-詞匯模型服從Dirichlet分布,行為-詞匯模型服從Multiomial分布。
(1)行為數(shù)據(jù)預處理
首先過濾用戶行為數(shù)據(jù),去除非文本信息,且只保留行為文本中的動詞和名詞[10],然后求解各詞匯的TF-IDF指標,保留指標在70%以上的詞匯,構(gòu)成動態(tài)本體數(shù)據(jù)源。
其中,TF指詞項頻率,TF-IDF指逆文檔頻率[11],TF-IDF指標的計算公式為:
(1)
式(1)中,N代表互聯(lián)網(wǎng)行為總集,ni為詞匯i出現(xiàn)過的行為集合,j為某一行為記錄,fi,j表示詞i在j中出現(xiàn)的次數(shù)[12]。
(2)行為-主題建模
從參數(shù)為α的Dirichlet分布中抽取各文檔M對應的行為-主題分布模型,記為θm,則有[10]:
θm~Dir(α),m∈[1,M]
(2)
其中整個行為庫中主題的生成概率為:
(3)
(3) 主題-詞匯建模
從參數(shù)為β的Dirichlet分布中抽取各主題K對應的主題-詞匯分布模型,記為φk,則:
φk~Dir(β), k∈[1,K]
(4)
其中所有主題中詞匯生成的概率為:
(5)
根據(jù)主題生成概率和詞匯生成概率得出主題-詞匯的聯(lián)合分布為:
p(w,z|α,β)=p(w|z,β)p(z|α)
(6)
(4) 行為-詞匯建模
根據(jù)主題-詞匯分布模型和行為-主題分布模型,則行為m對應的第n個詞匯的計算過程為:
① 從θm中采樣一個主題,記為Zm,n,則[10]:
(7)
② 根據(jù)計算的主題Zm,n,從φk中取出與Zm,n對應的特定單詞Wm,n:
Wm,n~Mult(Zm,n)
(8)
在以上求解過程中,Wm,n為獲取量,Zm,n為隱含量,本文采用Gibbs Sampling采樣法求解Zm,n,由于圖1中①和②兩過程均服從Dirichlet-Multiomial共軛分布,根據(jù)前述所得的聯(lián)合分布p(w,z|α,β),并將行為Z中的第i個詞對應的主題記為Zi,i表示去除下標為i的詞,假設已經(jīng)觀測的詞wi=t,則有如下推導:
p(zi=k|z,w)∝p(zi=k,wi=t|z,w)
(9)
(10)
根據(jù)以上兩式,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:
(11)
通過以上步驟,提取用戶隨機互聯(lián)網(wǎng)行為中的動態(tài)信息本體,綜合靜態(tài)信息本體,構(gòu)成用戶畫像數(shù)學模型的label參數(shù)。label只能表示用戶的興趣偏向內(nèi)容,而無法體現(xiàn)偏向程度,需計算label權(quán)重p(i)。
1.2 本體權(quán)重的計算
權(quán)重用于表示用戶對某一本體的偏向程度。靜態(tài)本體相對穩(wěn)定,權(quán)重設為1。目前,用戶畫像標簽權(quán)重的計算主要考慮對象、時間、地點、內(nèi)容4個因素,文中提出用戶隨機互聯(lián)網(wǎng)行為的對象、時間、地點、內(nèi)容、行為和重返次數(shù)6因素事件描述法,可更全面地描述用戶的隨機互聯(lián)網(wǎng)行為。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機行為動態(tài)本體的權(quán)重計算方法如下:
(1) 對象
對象即互聯(lián)網(wǎng)上區(qū)分用戶的標識(Cookie、IP、Email、身份證等),不同標識的可信度不同。對象權(quán)重為該標識可信度值與可信度值總和的比值,即:
(12)
(2) 時間
時間包含時間戳和時間間隔兩方面內(nèi)容。時間戳用于標識事件發(fā)生、結(jié)束的時刻,時間間隔用于標識瀏覽時間,則時間對動態(tài)本體的權(quán)重T(label)記為瀏覽本體的時間與用戶所有上網(wǎng)時間的比值,即:
(13)
(3) 地點(接觸點)
地點是用戶互聯(lián)網(wǎng)行為的接觸點(天貓、官網(wǎng)等),用戶行為接觸點的不同,對標簽的影響亦不同。為不同接觸點設置重要程度度量值,則地點對本體的權(quán)重L(label)為:
(14)
(4) 內(nèi)容
內(nèi)容是動態(tài)本體權(quán)重的重要組成部分,標識了一個互聯(lián)網(wǎng)行為的核心,用C(label)表示,即該動態(tài)本體包含詞匯的最大TF-IDF指標:
(15)
(5) 行為
行為是用戶對網(wǎng)站內(nèi)容的操作,如瀏覽、收藏等,不同的行為具有的權(quán)重不同,用A(label)表示,計算公式為:
(16)
(6) 重返次數(shù)
重返次數(shù)體現(xiàn)了用戶對該網(wǎng)站(產(chǎn)品、內(nèi)容)的關注程度,這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”。重返次數(shù)采用R(label)表示,其權(quán)重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值,計算公式為:
(17)
1.3 用戶畫像最終數(shù)學模型
用戶畫像最終數(shù)學模型如式(18)所示。
C(label)+A(label)+R(label)]×0.2×ri}
(18)
式中l(wèi)abeli表示某一方面用戶的信息標簽,p(i)表示該標簽的權(quán)重,Obj(label)、T(label)、L(label)、C(label)、A(label)、R(label)為事件對應六方面內(nèi)容對標簽的權(quán)重,r為衰減因子,用來描述信息本體對某一標簽的興趣隨著時間變化的衰減程度。
推送技術的模式分為操作式推送和觸發(fā)式推送兩種[15]?;谟脩舢嬒竦闹悄苄畔⑼扑拖到y(tǒng)是操作式推送與觸發(fā)式推送的結(jié)合體,即客戶端操作觸發(fā)信息推送與服務器主動推送二者相結(jié)合。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權(quán)重計算、信息推送三個階段,具體過程如下:
(1) 數(shù)據(jù)獲取及處理
用戶基本數(shù)據(jù)(年齡、體重等)通過注冊信息獲取,該部分信息相對穩(wěn)定,為靜態(tài)信息本體(如表1所示),權(quán)重定為1。動態(tài)本體隱藏于用戶行為中,通過用戶互聯(lián)網(wǎng)行為抓取,實現(xiàn)電商、社交、媒體等信息的獲取。對數(shù)據(jù)進行預處理,主要獲取網(wǎng)頁的標題信息,過濾用戶行為中非文本信息,只保留動詞與名詞,且只保留TF-IDF指標在70%以上的詞匯,并按照對象、時間、地點、內(nèi)容、行為五方面內(nèi)容以天為單位存儲至數(shù)據(jù)庫(如表2所示)。
表1 靜態(tài)本體記錄表
表2 互聯(lián)網(wǎng)行為記錄表
(2)動態(tài)信息本體獲取
通過行為-主題建模、主題-詞匯建模、行為-詞匯建模三個過程,從用戶行為庫中挖掘動態(tài)信息本體,提取行為主體及主題詞匯。
(3)動態(tài)信息本體權(quán)重計算
根據(jù)對象、時間、地點、內(nèi)容、行為五個方面,依據(jù)動態(tài)信息本體權(quán)重計算公式求解其聯(lián)合影響權(quán)重。
(4)用戶畫像構(gòu)建
根據(jù)步驟(1)、(2)、(3)所得結(jié)果,結(jié)合用戶畫像數(shù)學模型,構(gòu)建特定用戶的用戶畫像,采用非關系型數(shù)據(jù)庫MongoDB以Bson格式存儲。對用戶畫像做可視化處理,直觀顯示用戶偏向內(nèi)容及偏向程度,如圖2所示。
圖2 用戶畫像柱狀圖
(5)信息推送
將用戶畫像中各信息本體按照權(quán)重排列,采用LBS技術定位用戶實時位置,以位置和信息本體為查詢條件,查詢信息數(shù)據(jù)庫,將查詢結(jié)果組合、排序,為用戶提供符合個人情況的智能信息,如圖3。
圖3 推送結(jié)果
本文提出的信息本體概念利于用戶描述和計算機處理,基于行為-主題、主題-詞匯及行為-詞匯模型的信息本體提取方法和采用對象、時間、地點、內(nèi)容、行為和重返次
數(shù)的聯(lián)合影響權(quán)重計算方法構(gòu)建的用戶畫像數(shù)學模型,能夠較好地描述用戶偏好。本文設計的基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下的精準營銷提供了一種新的方法。
[1] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.
[2] 顏友軍.移動平臺上基于本體知識庫的問答與Web服務推送系統(tǒng)[D].南京:南京大學,2013.
[3] 赫磊.基于云平臺的智慧旅游信息推送系統(tǒng)研究[D].西安:西安工業(yè)大學,2014.
[4] 黃舒榕.基于JXTA的移動智能小區(qū)信息推送服務平臺的設計與實現(xiàn)[D].廈門:廈門大學,2014.
[5] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準營銷細分模型研究[J].絲綢,2015,52(12):37-42.
[6] 莫靜泱.基于數(shù)據(jù)挖掘的用戶個性化健康消費智能推送系統(tǒng)設計與實現(xiàn)[D].南京:南京郵電大學,2015.
[7] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術研究[J].測繪與空間地理信息,2015 (6):125-127.
[8] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務推送方法[J].測繪通報,2016(4):96-98.
[9] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建?!獜木呦蟮匠橄骩J].設計藝術研究,2014,4(6):62-64.
[10] 何建云,陳興蜀,杜敏,等.基于改進的在線LDA模型的主題演化分析[J].中南大學學報(自然科學版),2015(2):547-553.
[11] 周品.云時代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.
[12] 張亮.數(shù)字圖書館多層次閱讀擴展系統(tǒng)[D].杭州:浙江大學,2010.
[13] LDA-math-LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzH-J3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK-0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.
[14] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.
[15] 石巖.基于智能推送技術的個性化服務系統(tǒng)研究[J].現(xiàn)代情報,2006,26(10):146-148.
Intelligent information push method based on user portrait
Jiang Jianwu,Li Jingwen,Lu Yanling,Ye Liangsong
(College of Geomatics and Geoinformation,Guilin University of Technology,Guilin 541004,China)
Traditional information push service lack of consideration of user's personal factors, so has two problems of low efficiency and low conversion, to solve these problems, this paper presents a new intelligent information push method based on user portrait and big data theory. This method abstracts user as a structured information noumenon, through building behavior-theme, theme-words and behavior-words mathematical model, to study the information ontology extraction method based on the user portrait. The body weight is calculated by six aspects including the object, time, place, content , behavior and return times, comprehensive information ontology and weight to build a user portrait and design a intelligent information push process based on user portrait. The method provides a new way for the intelligent information push in the large data environment.
user portrait; information push; information ontology; big data
廣西自然科學基金項目(2014GXNSFDA118032);廣西科學研究與技術開發(fā)計劃項目(1598019-4);廣西桂林市科技攻關項目(20140108-2)
TP399
A
10.19358/j.issn.1674- 7720.2016.23.025
姜建武,李景文,陸妍玲,等. 基于用戶畫像的信息智能推送方法[J].微型機與應用,2016,35(23):86-89,92.
2016-08-13)
姜建武(1992-),通訊作者,男,碩士研究生,主要研究方向:GIS理論和應用。E-mail: 1126926348@qq.com。
李景文(1971-),男,博士,教授,主要研究方向:GIS理論和應用。
陸妍玲(1988-),女,碩士研究生,講師,主要研究方向:GIS理論和應用。