国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于話單數(shù)據(jù)的移動通信用戶畫像研究①

2018-11-14 11:37:16張海旭胡訪宇趙家輝
計算機系統(tǒng)應(yīng)用 2018年11期
關(guān)鍵詞:詞云話單社交生活

張海旭,胡訪宇,趙家輝

1(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,合肥 230027)

2(安徽省公安廳 科技信息化處,合肥 230061)

1 引言

隨著我國移動通信市場的迅速發(fā)展,手機已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?用戶在使用手機的過程中產(chǎn)生了大量的個人歷史數(shù)據(jù),這些數(shù)據(jù)可以概括為以下幾種: 1)位置信息,通過全球定位裝置(Global Positioning System,GPS)、手機信號塔等方式獲取的地理位置信息; 2)使用信息,記錄了用戶在何時使用了手機做了什么; 3)社交信息,隱含在話單數(shù)據(jù),GPS以及通訊錄等數(shù)據(jù)里.這些歷史數(shù)據(jù)隱含了與用戶相關(guān)的個性化信息,反映了用戶的生活習(xí)慣和社交模式.這些數(shù)據(jù)為研究用戶屬性和特征提供了新的渠道.

話單數(shù)據(jù)是運營商計費所產(chǎn)生的.話單數(shù)據(jù)有被動產(chǎn)生、覆蓋范圍廣、成本低、分析周期短等優(yōu)點,已經(jīng)在了解人們的移動模式[1],理解人類行為動力學(xué)特征[2,3],感知用戶所在地區(qū)的地理環(huán)境、生活方式、交通狀況和發(fā)展水平等[4,5]方面廣泛地使用.例如Etienne Thuillier等[6]使用話單數(shù)據(jù),根據(jù)用戶每天與預(yù)設(shè)區(qū)域的關(guān)系,將用戶劃分為6類,在此基礎(chǔ)上,對用戶進(jìn)行以一周時間為周期的聚類分析,發(fā)現(xiàn)了12種類型的周活動模式.楊喜平、方志祥[7]等利用移動電話位置數(shù)據(jù),理解人類時空聚散模式.Schneider等[8]借鑒復(fù)雜網(wǎng)絡(luò)中模體的概念,發(fā)現(xiàn)人們?nèi)粘I钪写嬖诘?7中網(wǎng)絡(luò)結(jié)構(gòu),然后使用模體來概括來自不同國家人們的時空移動模式.Jiang等[9]以新加坡為例,演示了如何使用手機通話詳細(xì)記錄(CDR)數(shù)據(jù),其中包含數(shù)百萬匿名用戶,以提取可與基于活動的方法相媲美的個人移動網(wǎng)絡(luò).

手機話單數(shù)據(jù)中含有豐富的時空信息和社交信息,目前基于話單數(shù)據(jù)的研究多集中在分析數(shù)據(jù)中的時空信息.本文同時利用話單數(shù)所包含的時空信息和社交信息,提取用戶特征,發(fā)現(xiàn)特征相似的用戶群體和為用戶創(chuàng)建個性化詞云名片,完成對用戶畫像.文本研究,為理解用戶特征提供新的視角,為生產(chǎn)生活的提高、相關(guān)政策的制定提供了參考.

2 數(shù)據(jù)集與研究方法

2.1 實驗數(shù)據(jù)集

本文手機通話數(shù)據(jù)由合作單位某運營商提供,為保護(hù)用戶隱私,用戶號碼已作匿名化處理.數(shù)據(jù)分為兩部分: 手機通話話單數(shù)據(jù),由10 000名用戶在2013年6月一個月期間通話產(chǎn)生的話單數(shù)據(jù),數(shù)據(jù)格式如表1所示; 基站小區(qū)位置信息數(shù)據(jù),14 549個基站小區(qū)的GPS坐標(biāo)、行政劃分、道路等信息,數(shù)據(jù)格式如表2所示.其中手機用戶選取條件如下:

1) 用戶號碼注冊于一個匿名的高科技工業(yè)區(qū)注冊;

2) 用戶在2013年6月1日~6月30日一個月內(nèi)的通話總時長大于100分鐘.

表1 話單數(shù)據(jù)格式

表2 通信小區(qū)信息格式

2.2 研究方法

本文同時利用話單數(shù)所包含的時空信息和社交信息,從用戶日常移動模式和社交生活兩個方面來刻畫用戶特征.在提取特征時,提出衡量用戶移動隨機程度的移動方向熵特征和衡量用戶社交集中程度的社交熵特征.對用戶一個月內(nèi)的特征進(jìn)行分析,然后使用KMEANS聚類算法[10]用戶進(jìn)行聚類分析,完成用戶群體劃分.接著時間窗口設(shè)為一周,利用每周內(nèi)特征的均值與均方差,給用戶打上標(biāo)簽,完成對用戶個性化特征的刻畫,構(gòu)建用戶詞云名片.

(1) 用戶特征定義

為了描述用戶的移動模式,本文從移動強度、活動范圍、移動隨機程度以及出行的隨機性等角度提出定義用戶移動模式的特征; 從用戶社交圈的規(guī)模、主動程度、社交上的精力以及會交往集中程度等角度提出定義用戶社交生活的特征.

與朋友發(fā)生的相互通話是一個人社交生活中的重要表現(xiàn)形式.通過對用戶的通話時長、聯(lián)系人數(shù)量、主叫比率和社交熵進(jìn)行提取,以得到反映用戶的社交能力的特征.

定義1.移動距離特征定義為在一定時間內(nèi)用戶移動軌跡的長度,是用戶移動強度的體現(xiàn),公式為:

定義2.回旋半徑特征定義為在一定時間內(nèi)用戶通話發(fā)生時刻所在地點偏離移動軌跡重心距離的標(biāo)準(zhǔn)差,可以表示用戶的移動范圍,公式為:

定義3.訪問點個數(shù)特征定義為用戶的所有發(fā)起通話地點的個數(shù),可以反映用戶活動的規(guī)律,公式為:

定義4.將以東西方向為橫坐標(biāo)軸,南北方向為縱坐標(biāo)軸組成的坐標(biāo)系均分成12個方向區(qū)間計算出用戶每次出行方向,然后統(tǒng)計用戶出行方向位于各方向區(qū)間的概率計算其信息熵作為用戶的移動方向熵特征,反映用戶出行方向的隨機性,公式為:

定義5.通話時長特征定義為指用戶在一段時間內(nèi)所有通話時間的總和,可以反映用戶在“電話社交”中的活躍程度,公式為:

定義6.聯(lián)系人數(shù)量特征定義為所有和用戶發(fā)生通話行為的人數(shù)總和,可以體現(xiàn)用戶社交圈的規(guī)模,公式為:

定義7.主叫比率特征定義為在一定時間內(nèi)用戶主叫通話次數(shù)與總的通話次數(shù)的比率,可以體現(xiàn)用戶在社交中的主動程度,公式為:

定義8.在一段時間內(nèi)用戶與n個用戶發(fā)生總共N次通話,其中與n個用戶的通話次數(shù)分別為計算熵值作為用戶的社交熵特征.社交熵特征可以反映社會交往集中程度,公式為:

(2) 特征相關(guān)性分析

為了從整體上了解用戶,將時間窗口T設(shè)定為一個月,計算用戶在一個月時間內(nèi),在移動模式和社交生活兩方面的特征向量FT,FT的定義如下:

為了進(jìn)一步了解代表移動模式和社交生活的特征,為了消除特征之間的差異性,對每一維特征進(jìn)行zscore標(biāo)準(zhǔn)化:

通過計算標(biāo)準(zhǔn)化后特征之間的相關(guān)系數(shù),分析本文提取特征之間的相關(guān)性.

(3) 用戶群體發(fā)現(xiàn)

本文選擇使用多特征對用戶進(jìn)行聚類,根據(jù)話單數(shù)據(jù)發(fā)現(xiàn)移動模式和社交模式類似的用戶群體.首先將代表用戶將時間窗口T設(shè)為一個月,提取用戶一個月內(nèi)的八個特征.考慮到本文提取的八個特征間可能存在一定的相關(guān)性并且可能存在冗余和噪聲,本文對八個特征進(jìn)行主成分分析,提取主要特征成分.選擇保留90%以上的方差信息,來確定主成分的個數(shù).在此基礎(chǔ)上根據(jù)提取的主成分使用K-MEANS聚類算法對用戶進(jìn)行聚類,發(fā)現(xiàn)用戶群體.因為K-MEANS聚類算法是一種簡單、快速的算法,并且當(dāng)處理大數(shù)據(jù)集時,也可保持伸縮性和高效性,所有選擇它作為本文的距離算法.

(4) 用戶詞云名片生成

詞云圖一種基于信息文本詞頻的可視化形式,是對文本信息中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺化的展現(xiàn).詞云圖可以將重點內(nèi)容突出,過濾掉的低頻低質(zhì)的內(nèi)容,使得瀏覽者只要一眼掃過便可領(lǐng)略主旨.詞云圖被廣泛的使用在藝術(shù)、新聞學(xué)、社交網(wǎng)絡(luò)等不同的領(lǐng)域.生成詞云圖的方法有很多,如Wordle、WordItOut還有Python庫wordcould,本文采用WordItOut工具,為用戶生成詞云名片.

本文借助詞云圖方式為用戶制作詞云名片,使用戶特點被清晰地呈現(xiàn).構(gòu)建用戶詞云名片,關(guān)鍵是要找到用戶與眾不同的特點,利用一定的規(guī)則生成用戶標(biāo)簽.本文根據(jù)用戶特征值的均值和均方差,將特征值位處于整體分布兩端的用戶打上標(biāo)簽,為生成詞云名片提供數(shù)據(jù).然后將用戶的標(biāo)簽數(shù)據(jù)送入WordItOut工具,為用戶生成個性化的詞云名片.

3 實驗和分析

3.1 數(shù)據(jù)預(yù)處理

由于CDR數(shù)據(jù)需要關(guān)聯(lián)了小區(qū)的位置信息才能用于對用戶定位,而二者主要通過位置區(qū)ID和小區(qū)ID建立起關(guān)聯(lián).統(tǒng)計發(fā)現(xiàn),數(shù)據(jù)集中的小區(qū)ID已經(jīng)具有唯一性,故刪除了CDR數(shù)據(jù)中小區(qū)ID缺失或未被包含在小區(qū)信息數(shù)據(jù)集里的記錄,最終共得到9514位用戶的2380 598條話單數(shù)據(jù).

3.2 特征提取

將時間窗口T設(shè)為一個月,提取用戶一個月內(nèi)的八個特征.用戶移動模式特征的概率密度分布如圖1所示,用戶社交生活特征的概率密度分布如圖2所示.移動距離、回旋半徑、通話時長和聯(lián)系人數(shù)量特征值主要集中在一定范圍內(nèi),超過一定值后,概率會迅速下降且出現(xiàn)重尾現(xiàn)象,特征值較大的用戶稀疏的存在.主叫比率和社交熵概率密度函數(shù)服從正態(tài)分布.訪問點個數(shù)的峰值處于較小數(shù)值段,概率密度函數(shù)在達(dá)到峰值前增長較快,達(dá)到峰值后下降比較緩慢.和訪問點個數(shù)特征的概率密度函數(shù)相反,用戶的移動方向熵的峰值處于較大的數(shù)值段,在達(dá)到峰值前增長緩慢,達(dá)到峰值后下降很快,說明存在少量出行方向隨機性很強的用戶.

3.3 特征相關(guān)性分析

為了進(jìn)一步了解代表移動模式和社交生活的特征,計算標(biāo)準(zhǔn)化后特征之間的相關(guān)系數(shù),結(jié)果如表3所示.由表3可知,特征間存在6對顯著相關(guān)(0.50.8)的特征對.對顯著相關(guān)的特征對解釋如下:

圖1 四種移動模式特征的概率密度分布

圖2 四種社交生活特征的概率密度分布

表3 不同特征之間的相關(guān)性

(1)移動距離和回旋半徑(r=0.551)、移動距離和訪問點個數(shù)(r=0.644)存在顯著的相關(guān)性.這個不難理解,用戶移動距離越大,可能伴隨著活動范圍越大、發(fā)生通話的地點越多.

(2)訪問點個數(shù)和通話時長(r=0.616)、訪問點個數(shù)和聯(lián)系人數(shù)量(r=0.570)存在顯著的相關(guān)性.因為本實驗中的社交信息是由話單數(shù)據(jù)體現(xiàn),所以通話時間長、聯(lián)系人比較多的用戶記錄的話單數(shù)據(jù)越詳細(xì),導(dǎo)致他們的訪問點數(shù)目也比較多.

(3)聯(lián)系人數(shù)量和通話時長(r=0.577)、聯(lián)系人數(shù)量和社交熵(r=0.706)存在顯著的相關(guān)性.用戶聯(lián)系人數(shù)量越多,總的通話時長也有很大概率越大,同樣由于社交熵的定義,用戶的社交熵也很大概率越大.

3.4 用戶群體發(fā)現(xiàn)

將時間窗口T設(shè)為一個月,提取用戶一個月內(nèi)的八個特征.對用戶特征值進(jìn)行主成分分析,選擇保留90%以上的方差信息,保留了六個主成分.對保留的特征主成分使用K-MEANS聚類算法對用戶進(jìn)行群體劃分,參考輪廓系數(shù),通過測試和調(diào)整,最終確定k=4.將每一類的聚類中心點作圖如圖3(a)所示.為了對聚類結(jié)果有清楚的認(rèn)識,使用每一類用戶的原始八個特征對聚類結(jié)果進(jìn)行展示.計算每一類用戶的原特征的平均值,將每一類用戶的特征平均值作圖如圖3(b)所示.

從圖3(a)中可以看到用戶在特征主成分上被很好地分離開了,尤其是在占主導(dǎo)作用的前3個主成分方面.接下來根據(jù)圖3(b)對用戶群體發(fā)現(xiàn)結(jié)果進(jìn)行解釋說明.

Cluster 1共有4735人,占比為49.8%.這部分用戶最多,他們的日常移動模式特征和社交生活特征值均在平均值上下0.5左右,反映了數(shù)據(jù)集中大部分用戶的移動模式和社交生活的特點.

Cluster 2共有2227人,占比為23.4%.他們?nèi)粘R苿幽J教卣髦稻撬念愑脩糁凶钚〉?在社交生活特征方面,在通話時長特征與大部分用戶相仿的前提下,社交熵特征和聯(lián)系人數(shù)量特征值比大部分用戶小,主叫比率特征值卻最大,說明這類用戶日常移動性較差,社交圈相對集中,并且通話多數(shù)都是主動.

Cluster 3共有2119人,占比為22.3%.在日常移動模式特征方面,回旋半徑特征和大部分用戶相同,訪問點個數(shù)特征和移動距離特征比大部分用戶大,移動方向熵特征卻比大部分用戶小; 在社交生活特征方面,四種特征值都比大部分用戶大.這代表這類用戶的活動范圍雖然和大部分用戶差不多,但但移動距離更大,活動地點更多并且移動更有規(guī)律,平時通話時間長,聯(lián)系人多,社交圈也比較廣,與朋友聯(lián)系一般為主動聯(lián)系.

圖3 用戶聚類結(jié)果

Cluster 4共有433人,占比為4.5%.這類用戶最少,他們除了移動方向熵特征、主叫比率特征外的其他特征都遠(yuǎn)大于其他用戶,他們活動范圍廣,移動距離長,訪問點多,通話時間長,社交圈也廣,是數(shù)據(jù)集中最活躍的那一部分群體.

3.5 用戶詞云名片生成

構(gòu)建用戶詞云名片的關(guān)鍵是制訂規(guī)則發(fā)現(xiàn)用戶與眾不同的特點并生成標(biāo)簽數(shù)據(jù).本文標(biāo)簽制訂規(guī)則如表4所示,首先計算每一維特征整體均值mean和均方差std.將特征值fT落在區(qū)間外的用戶按照表4所示規(guī)則添加標(biāo)簽.

人們的工作生活多數(shù)以星期作為周期,因此將時間窗口T設(shè)為一個星期,這樣樣可以獲得更多的用戶標(biāo)簽,以對用戶進(jìn)行更詳細(xì)的分析.計算用戶的特征向量fT,然后根據(jù)表4所示規(guī)則計算用戶標(biāo)簽,最后將每位用戶獲得的標(biāo)簽分別送入WordItOut工具,就生成了用戶的詞云名片.

表4 標(biāo)簽制訂規(guī)則

取實驗中兩名用戶的用戶詞云名片展示如圖4,可以發(fā)現(xiàn)用戶1的詞云名片中DD-Ⅱ、AP-Ⅱ、CD-Ⅱ和CC-Ⅱ比較突出,它們表示用戶1的移動距離特征、訪問點個數(shù)特征、通話時長特征和聯(lián)系人數(shù)量特征位于區(qū)間中,其它特征處于正常水平.這表明用戶1移動距離大,訪問地點多,同時通話時間長,聯(lián)系人比較多.基于此可以推測用戶1可能是在較大城市區(qū)域內(nèi)從事聯(lián)系交流工作的室外工作者;而用戶2的詞云名片中DE-Ⅰ、CR-Ⅱ和AP-Ⅰ比較突出,它們表示用戶2的移動方向熵特征和訪問點個數(shù)特征位于區(qū)間中,主叫比率特征位于區(qū)間中,其它特征處于正常水平.這表明用戶2活動地點少且移動具有規(guī)律性,通話多為主叫,基于此用戶2可能是喜歡宅在某些地點,用電話處理日常生活的人.

圖4 用戶詞云名片

4 總結(jié)

本文利用用戶話單數(shù)據(jù)提取出多個反映用戶時空信息和社交信息的特征,在真實的數(shù)據(jù)上通過對特征的綜合分析,完成了對移動通信用戶的畫像研究.基于用戶的多方面特征,發(fā)現(xiàn)了四類移動模式和社交生活相似性的用戶群體,創(chuàng)建了用戶詞云名片的使得用戶個體的特點可以被清晰地呈現(xiàn).以本文研究為基礎(chǔ),移動通信運營商可以針對用戶特點制訂相應(yīng)的套餐并向用戶推薦,其他利益相關(guān)企業(yè)可以針對用戶特點推薦相關(guān)的商品,實現(xiàn)精準(zhǔn)營銷; 在城市治理方面,可以通過對用戶的移動性和行為模式的分析,識別非法營運車輛的從業(yè)人員.

由于話單數(shù)據(jù)是由通話事件觸發(fā)采樣的,因此用戶移動行為、社交行為只有在通話行為發(fā)生的情況下才能被記錄,所以本文結(jié)果具有一定的局限性.受實驗話單數(shù)據(jù)獲取途徑的限制,不能在更大數(shù)據(jù)集下對本文提出的方法和分析結(jié)果進(jìn)行進(jìn)一步地研究.今后的工作將主要從兩個方向進(jìn)行展開: 第一,挖掘話單數(shù)據(jù)中隱含更多的特征,從多角度對用戶間的差異性進(jìn)行表達(dá); 第二,獲得信息更加豐富的實驗數(shù)據(jù),增加數(shù)據(jù)種類,通過多種數(shù)據(jù)對比、融合來刻畫用戶畫像.

猜你喜歡
詞云話單社交生活
病毒也有“社交生活”
奧秘(2021年6期)2021-09-10 12:36:26
基于PyQt5界面的詞云制作軟件設(shè)計
病毒的“社交生活”
大飛機(2021年4期)2021-07-19 04:46:34
河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學(xué)初探
傳統(tǒng)節(jié)日表情包設(shè)計分析
Web文本挖掘及可視化
價值工程(2018年14期)2018-05-03 04:09:18
采用大數(shù)據(jù)技術(shù)的移動DPI關(guān)聯(lián)算法探索及實現(xiàn)
基于SCI文獻(xiàn)分析的呼吸病學(xué)發(fā)展態(tài)勢研究
圖學(xué)學(xué)報(2014年2期)2014-03-06 05:42:52
GSM-R移動交換機ASN.1話單的解碼
卢龙县| 沙田区| 武隆县| 乳源| 都安| 苍溪县| 凤冈县| 鲁山县| 沁水县| 北碚区| 娄烦县| 邵阳市| 运城市| 巩义市| 吐鲁番市| 柘荣县| 大渡口区| 互助| 高尔夫| 临猗县| 柯坪县| 读书| 甘德县| 璧山县| 河池市| 汉川市| 鄂尔多斯市| 康平县| 中西区| 建始县| 香格里拉县| 偃师市| 泾源县| 定兴县| 琼结县| 石景山区| 始兴县| 桑日县| 重庆市| 平武县| 泸州市|