邱運芬 張暉 李波 楊春明 趙旭劍
摘要 地理位置作為用戶生活軌跡的具體表現(xiàn),在人群分類中有著舉足輕重的作用。地理位置數(shù)據(jù)具有高維稀疏性,已有人群分類方法需對位置數(shù)據(jù)進行特征選擇并提前確定特征數(shù),實際應用中存在不便。針對該問題,提出基于地理位置人群分類的一種非參數(shù)聚類方法。該方法首先利用分層狄利克雷過程(Hierarchical Dirichlet Process,HDP)無監(jiān)督學習出最佳特征個數(shù);然后利用潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)對位置數(shù)據(jù)進行特征選取,同時得到功能特征概率矩陣;最后將其作為聚類權(quán)向量計算用戶間的相似度,利用親和力聚類(Affinity Propagation,AP)實現(xiàn)人群分類。實驗結(jié)果表明,該方法較傳統(tǒng)方法消耗時間更少、占用內(nèi)存更低,且同時具有較高的Fmeasure。
關(guān)鍵詞 地理位置;人群分類;分層狄利克雷過程;潛在狄利克雷分布;親和力聚類
DOI DOI: 10.11907/rjdk.162466
中圖分類號: TP301
文獻標識碼: A 文章編號 文章編號: 16727800(2017)002000704
0 引言
隨著移動設備的高速發(fā)展和廣泛使用,用戶的地理位置信息通過手機GPS設備很容易被獲取。地理位置作為用戶生活軌跡的具體表現(xiàn),相似的用戶通常會頻繁出現(xiàn)在相同的地理位置,因此深入挖掘用戶地理位置數(shù)據(jù),實現(xiàn)基于地理位置的人群分類具有重要意義。但由于地理位置數(shù)據(jù)具有高維稀疏的特點,如何提前確定最有價值的分類特征個數(shù)是進行人群分類的主要任務。
傳統(tǒng)的特征選擇方法,如非負矩陣分解(Nonnegative Matrix Factorization,NMF)、主成分分析法(Principal Component Analysis,PCA)、奇異值分解(Singular Value Decomposition,SVD)都需要深入挖掘數(shù)據(jù)集的結(jié)構(gòu)和特征,提前確定特征數(shù)量。但在實際應用中,不同的用戶位置數(shù)據(jù)集有不同的最佳特征個數(shù),人為確定特征個數(shù)耗時耗力,且不能保證該數(shù)據(jù)集的最佳特征個數(shù)。
針對上述問題,本文提出一種基于地理位置人群分類的非參數(shù)聚類方法。首先利用分層狄利克雷過程(Hierarchical Dirichlet Process,HDP)訓練出最佳的地理位置特征選取數(shù)目,其次利用潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)得到特征概率矩陣;最后,將用戶的特征概率向量作為聚類權(quán)向量,利用親和力聚類(Affinity Propagation,AP)進行人群分類。
本文提出一種基于分層狄利克雷過程的地理位置特征提取方法,自動獲取特征選取數(shù)目,有效彌補傳統(tǒng)方法需要預先確定特征個數(shù)的不足;同時,計算用戶在各地理位置特征上的出現(xiàn)概率,以此作為用戶相似性計算標準,可提高人群分類的準確率。
1 相關(guān)工作
隨著移動設備的普及,用戶位置數(shù)據(jù)更易獲取?;诘乩砦恢玫娜巳悍诸惖暮诵乃枷胧牵簩⒂脩舫霈F(xiàn)的地理位置坐標作為用戶特征,計算用戶間的相似性。但由于位置數(shù)據(jù)集的高維稀疏性,將所有地理位置坐標作為用戶特征進行人群分類是不明智的。因此,需針對不同的數(shù)據(jù)集確定特征數(shù),在此基礎上選擇聚類特征,實現(xiàn)人群分類。
部分學者認為同類人群應擁有一組相同的地理位置坐標,且這組地理位置坐標會頻繁出現(xiàn),因此可采用頻繁模式[14]挖掘用戶間相同的地理位置坐標,以此作為用戶特征計算用戶相似度。宋衡等[5]針對3個年級的學生在學習、生活中產(chǎn)生的位置數(shù)據(jù),采用PCA進行特征選擇,進而進行年級分類。張成[6]提出了基于PCA的單變量貢獻度方法,利用最大似然估計方法進行人群分類。此外,常見的特征選擇方法還有奇異值分解SVD,它常用于圖片壓縮[7]和人臉識別[8]。張慈祥等[8]為有效降低特征向量的維數(shù),提高人臉識別率,提出了一種基于稀疏表示和奇異值分解的人臉識別算法。但SVD較少使用于空間信息降維。同時SVD得到的降維矩陣中包含負值,數(shù)據(jù)可解釋性較差。
綜上所述,現(xiàn)有的特征選擇方法,不能針對不同的位置數(shù)據(jù)得到最佳的特征個數(shù);而在進行基于地理位置的人群分類時,由于地理位置數(shù)據(jù)的高維稀疏性,人為確定最佳特征個數(shù)在實際應用中較困難。因此,本文提出了一種基于地理位置人群分類的非參數(shù)聚類方法,解決特征選擇中特征數(shù)目須提前確定的問題。同時,由LDA的方法特性,得到的特征可視為該地理位置坐標隱含的功能特征,具有很好的數(shù)據(jù)可解釋性。
2 人群分類方法
本文提出的人群分類方法主要分為3個步驟:①利用分層狄利克雷過程HDP學習位置數(shù)據(jù)集中需提取的特征個數(shù)K;②利用潛在狄利克雷分布LDA得到K維特征概率矩陣;③將其作為用戶相似性度量標準,使用親和力聚類算法,得到人群分類結(jié)果。
2.1 學習特征個數(shù)
LDA和其它特征選擇方法一樣,都需要人為確定特征的選取數(shù)目K,參數(shù)K的設置決定特征概率矩陣的維數(shù),與人群分類結(jié)果息息相關(guān)。因此,本文利用分層狄利克雷過程HDP的非參數(shù)聚類特性,自適應不同的位置數(shù)據(jù)集,無監(jiān)督學習最佳特征數(shù)目。本文用戶m的位置數(shù)據(jù)文檔表示為um(m=1,2,…,M),其中包含若干地理位置pmn(n=1,2,…,Nm),位置數(shù)據(jù)集中第m篇位置文檔的特征服從θm~Dir(aτ),而每一篇位置文檔的先驗τ~GEM(α)可以通過排序指示因子zmn=k獲得,其中,k∈(1,…,K)。最后,地理位置可聚類成K組特征。采用文獻[9]提出的直接后驗采樣方法,如式(1)所示:
2.2 特征提取及特征概率計算
通過分層狄利克雷過程HDP獲取特征個數(shù)后,利用狄利克雷分布LDA對位置數(shù)據(jù)集進行降維,并利用Gibbs采樣[1011]計算出用戶在選定特征上的概率矩陣。如果概率越大,則說明用戶出現(xiàn)在該類特征的地理位置坐標點越頻繁,從而實現(xiàn)將高維地理位置數(shù)據(jù)矩陣降維為K維的特征概率矩陣。
在LDA中引入坐標點間的真實地理距離引導特征概率矩陣計算。遍歷每個用戶文檔m,并設置第一個地理位置為目標坐標。若當前地理坐標p與目標坐標的真實地理距離超過距離閾值,則將p分配給一個新特征,并設置p為目標坐標;反之,則為p分配與目標坐標一樣的特征。按照經(jīng)驗值,將距離閾值取值為50。最后,利用Gibbs采樣求得特征概率矩陣,如式(2)所示:
2.3 特征概率向量聚類
由于LDA提取的特征可視為地理位置隱含的地區(qū)功能特征,同理,特征概率矩陣則表示用戶在功能特征空間下的出現(xiàn)概率,如果概率越大,則說明用戶出現(xiàn)在該類功能特征的地理位置坐標點越多,訪問越頻繁。因此,將特征概率向量作為用戶相似性計算標準,在降低計算復雜度的基礎上,能最大程度保留數(shù)據(jù)的可解釋性。因此,將用戶的特征概率向量作為用戶位置數(shù)據(jù)的低維表示,定義為δ={P(k1),P(k2),…,P(kK)}。其中,P(ki)表示用戶在特征ki所屬地理位置上出現(xiàn)的概率,且P(k1)+P(k2)+…+P(kK)=1。對其使用親和力聚類算法,即可得到人群分類結(jié)果。
3 實驗
3.1 實驗數(shù)據(jù)及數(shù)據(jù)預處理
本文收集了某地域移動用戶在20150813至20151010時間段內(nèi),使用位置服務App所產(chǎn)生的位置數(shù)據(jù),數(shù)據(jù)中包含經(jīng)度、緯度、App名稱等信息。
在進行具體實驗前,首先對位置數(shù)據(jù)進行噪音去除,只包含經(jīng)度約為105~106,緯度約為30~31的數(shù)據(jù)。并從數(shù)據(jù)集中隨機選取1 000個用戶的地理位置集進行后期實驗。
3.2 評價指標
大多數(shù)特征選擇方法優(yōu)劣評判取決于分類結(jié)果的準確率,而多數(shù)分類方法的準確率依賴于人工標注。而本文從特征選擇方法的性能和分類準確率兩方面進行人群分類結(jié)果評測。
(1) 特征選擇方法的性能。從計算時間復雜度和內(nèi)存消耗兩方面進行評測,對于某位置數(shù)據(jù)集,優(yōu)秀的特征選擇方法應該花費較少的內(nèi)存、較短時間得到相同維度的分類特征。
(2) 分類準確率:App名稱。通過對數(shù)據(jù)集進行深入分析,采用LDA方法降維后得到的特征與產(chǎn)生該地理位置的App存在聯(lián)系[12]。因此,本文將App名稱作為用戶類型判定的基礎,用于評測人群分類的準確率和召回率,F(xiàn)measure指標計算公式如下。
其中,P表示準確率,R表示召回率。 通過深入分析,發(fā)現(xiàn)在數(shù)據(jù)集中共包含5種類型的App名稱,如表1所示。
3.4 實驗結(jié)果分析
選取兩種特征選擇方法與本文的LDA進行對比實驗,包括主成分分析PCA、奇異值分解SVD,并將AP[14]作為特征概率矩陣聚類算法。
如前文所述,采用特征選擇方法的性能和分類結(jié)果的Fmeasure作為評測標準。首先將特征選擇方法運行時間和內(nèi)存消耗作為性能評價指標,實驗結(jié)果如表2所示。
本文首先采用分層狄利克雷HDP自適應特征數(shù)目,其次采用狄利克雷分布計算特征概率矩陣,在時間消耗和內(nèi)存消耗上均遠遠小于PCA和SVD。然后,從人群分類的準確率出發(fā),驗證將特征概率作為用戶相似性計算標準是否能有效提高分類準確率。實驗結(jié)果如圖3所示。
圖3 3種算法的Fmeasure
如圖3所示,將LDA得到的特征概率向量作為特征進行人群分類,其人群分類結(jié)果的Fmeasure高于其它兩種特征選擇方法。同時,PCA和SVD需要提前確認特征選擇的數(shù)目,且特征個數(shù)的取值與分類結(jié)果相關(guān)。而本文提出的人群分類方法不需要提前確定功能特征數(shù)目,能根據(jù)不同的位置數(shù)據(jù)集得到不同的、最佳的特征個數(shù);其次,將特征概率作為用戶相似性度量標準,考慮了用戶在不同類型特征下的不確定性。綜上所述,本文提出的人群分類方法表現(xiàn)更優(yōu)。
4 結(jié)語
由于地理位置數(shù)據(jù)集具備高維稀疏性,直接基于地理位置數(shù)據(jù)矩陣進行人群分類計算復雜,內(nèi)存消耗大。而傳統(tǒng)的特征選擇方法需根據(jù)數(shù)據(jù)的結(jié)構(gòu)和特性,人為確定特征數(shù)目,難以確定最佳特征數(shù)目。本文提出一種自適應不同位置數(shù)據(jù)集、無監(jiān)督學習最佳特征數(shù)的人群分類方法。相較于傳統(tǒng)的特征選擇算法,本文方法不需要人為確定特征數(shù)量,可根據(jù)不同的位置數(shù)據(jù)集無監(jiān)督學習出適合的特征數(shù)量,無需深入分析數(shù)據(jù)結(jié)構(gòu)特性。同時,根據(jù)潛在狄利克雷分布LDA的特性,所得到的特征可視為地理位置的功能特征,以用戶訪問功能特征的概率作為用戶相似性判斷標準,發(fā)現(xiàn)的同類用戶相似性更加明顯,且計算時間和內(nèi)存消耗度都遠優(yōu)于傳統(tǒng)特征選擇方法。
后續(xù)研究中,將考慮加入時間屬性,研究用戶在時間維度上的特征變化軌跡,進一步挖掘用戶行為模式及用戶特征變化軌跡的相似性。
參考文獻 參考文獻:
[1] XUE AY,ZHANG RUI,ZHENG YU,et al.Destination prediction subtrajectory synthesis and privacy protection against such prediction [C].Proceedings of the 29th International Conference.Brisbane,ICDE,2013:254265.
[2] ZHENG KAI,ZHENG YU,YUAN NJ.Discovery of gathering patterns from trajectories [C].Proceedings of the 29th International Conference.Brisbane:IEEE,2013:242253.
[3] TANG LUAN,ZHENG YU,YUAN JING,et al.On discovery of traveling companions from streaming trajectories[C].Proceedings of the 2012 IEEE 28th International Conference on Data Engineering.Washington:IEEE,2012:186197.
[4] SHENG CHANG,ZHENG YU,HSU WYNNE,et al.Answering topk similar region queries[C].//Proceedings of the 15th International Conference.Japan:DASFAA,2010:186201.
[5] 宋衡.基于位置數(shù)據(jù)的人類行為識別和相似性研究[D].上海:上海交通大學,2014.
[6] 張成,劉亞東,謝彥紅.基于PCA與MLE方法的人群分類新方法研究[J].沈陽:沈陽化工大學學報:自然科學版,2015,29(2):168171.
[7] AWWAL MOHAMMED RURAI,GHOLAMREZA ANBARJAFARI,HASAN DEMIREL.Lossy image compression using singular value decomposition and wavelet difference reduction[J].Digital Signal Processing,2014(24):117123.
[8] 張慈祥,劉輝,強振平.基于稀疏表示和奇異值分解的人臉識別[J].計算機應用,2013(1):233235.
[9] HEINRICH G.Infinite LDA implementing the HDP with minimum code complexity[EB/OL].http://arbylon.net/publications/ilda.pdf.
[10] LI CHENGTA,ZHANG JIANWEN,SUN JIANTA,et al.Sentiment topic model with decomposed prior [C].Proceedings of the 2013 SIAM International Conference on Data Mining.Austin,USA:SIAM,2013:767–776.
[11] LIN CHENGHUA,HE YULAN,RICHARD EVERSON,et al.Weakly supervised joint sentimenttopic detection from text [J].IEEE Transactions on Knowledge and Data Engineering,2012,24(6):11341145.
[12] TOOLE JL,ULM M,GONZALEZ MC,et al.Inferring land from mobile phone activity [C].Proceedings of the ACM SIGKDD International Workshop on Urban Computing.New York:ACM,2012:18.
[13] YANG GUANGBING,WEN DUNWEI,KINSHUK,et al.A novel contextual topic model for multidocument summarization[J].Expert Systems with Applications,2015,42(3):13401352.
[14] BRENDAN J.FREY,DELLBERT DUERK.Clustering by passing messages between data points[J].Science,2007,315(5814):972976.
(責任編輯:陳福時)