邱運芬 張暉 李波,2 楊春明 趙旭劍
(1.西南科技大學計算機科學與技術學院,綿陽, 621010;2.中國科學技術大學計算機科學與技術學院,合肥, 230027)
現(xiàn)代城市由各種各樣的功能區(qū)域組成,人們每天在這些功能區(qū)域中進行不同的社會活動,如購物、上下班、生活和旅游等。同時,隨著定位服務的興起,基于位置服務的應用軟件迅猛發(fā)展,可以通過位置服務APP獲取民眾在這些功能區(qū)域中活動產(chǎn)生的GPS坐標,如社交軟件微信、導航軟件高德地圖等。深入挖掘移動用戶GPS坐標的功能特征,計算其在該功能特征區(qū)域出現(xiàn)的概率大小,可以研究移動用戶的興趣愛好,為判斷用戶類型奠定堅實的基礎。例如,若用戶A經(jīng)常出現(xiàn)的GPS坐標的功能特征為餐廳,可猜測A用戶對于飲食文化有一定程度的研究,對于研究用戶的興趣愛好具有重大意義。目前,基于GPS坐標的人群分類研究大部分基于出現(xiàn)在相同或地理位置相近的用戶通常為同類用戶的假設。這種方法具有一定局限性,得到的同類用戶基本上都在相同或相近的區(qū)域內(nèi)活動。若用戶B經(jīng)常出入地方的GPS坐標與用戶A經(jīng)常出入的GPS坐標距離相差較大,該方法會認為A與B不是同類用戶。但考慮現(xiàn)實情況, 若A與B產(chǎn)生的GPS坐標具有相同的功能特征(如餐廳),他們即為同類用戶。故部分學者提出了基于功能特征的人群分類方法,但這部分研究僅局限于探究用戶是否擁有相同的功能特征,卻忽略了用戶訪問不同功能特征的不確定性。針對以上問題,本文從功能特征和訪問功能特征的不確定性兩個方面考慮,從具象GPS坐標引申出抽象位置語義的概念,以更高維度解析用戶訪問GPS坐標的目的性與意義,并計算用戶訪問不同位置語義的概率大小,將用戶對不同位置語義的訪問傾向作為特征進行人群分類,最終得到人群分類結(jié)果。
隨著定位技術的高速發(fā)展,基于位置服務的應用軟件越來越多,更容易獲取用戶位置數(shù)據(jù),因此越來越多的學者投身到基于位置數(shù)據(jù)的人群分類研究中。到目前為止,按照人群分類特征選取的不同,可分為兩大類:基于GPS坐標和基于功能特征。前者認為GPS坐標作為移動用戶最重要的特征,是輔助人群分類的重要屬性,頻繁出現(xiàn)在相同或相近地理位置的用戶可視為同類人群,因此部分學者采用頻繁模式[1-4]挖掘用戶頻繁出現(xiàn)的位置坐標法,將其作為用戶分類特征。宋衡等[5]采用主成分分析法(Principal component analysis,PCA)提取不同用戶經(jīng)常出現(xiàn)的位置坐標,將其作為分類特征,首先收集3個年級在校學生的位置數(shù)據(jù)集,利用PCA抽取用戶特征,從而對學生進行年級分類。在此基礎上,張成等[6]提出了一種基于PCA的單變量貢獻度方法,其核心思想為利用最大似然估計算法提取用戶分類特征,從而對人群進行分類管理。但是如前文所述,基于GPS坐標的人群分類算法局限于具象的GPS坐標的地域相近性,忽略了用戶訪問該地理位置的潛在意義。
近年來,很多研究者致力于研究用戶訪問地理位置的潛在意義,即地理位置隱含功能特征的提取,如發(fā)現(xiàn)地區(qū)功能特征(Discovering regions of different functions,DRoF)的框架,用于提取地理位置隱含的功能特征[7]。輸入移動用戶產(chǎn)生的位置數(shù)據(jù)和先驗興趣點,框架由此計算出移動用戶地理位置的功能特征,但該方法的缺陷是需要提前收集用戶興趣點的先驗知識,會耗費一定的人力物力。Yuan等[8]先按城市主干道(如高速公路)對地理位置進行區(qū)域劃分,然后按照時間順序連接GPS坐標點為用戶移動軌跡,在此基礎上挖掘功能特征。該方法區(qū)域劃分粒度不好掌握,如按照高速公路劃分區(qū)域,會導致功能區(qū)域的范圍較大。文獻 [9]從用戶的行為出發(fā),認為用戶行為與功能特征密切相關,利用移動用戶在該區(qū)域內(nèi)的手機行為(電話、 各類APP使用情況等)推斷功能特征。
隨著功能特征提取方法的逐漸完善,基于功能特征的各類研究也逐漸成為熱門,其中基于功能特征的人群分類也得到部分學者的青睞。Lee等[10]提出了多項傳播率(Multiple propagation rate,MPR)算法,該方法抽取用戶頻繁出現(xiàn)的K個地理位置,并利用用戶手機APP的使用情況構建地理位置分類層次圖,從中獲取K個地理位置代表的功能特征,將這兩者作為用戶特征進行用戶相似性計算。該方法只選取用戶的K個頻繁點,忽略了總體功能特征訪問次數(shù)大的地理位置,會造成一定的誤差,其次手動構建地理位置分類層次圖工作量較大。Xiao[11,12]考慮用戶在功能特征間移動的先后順序,抽取用戶移動軌跡,采用最大序列算法計算移動用戶移動軌跡的相似度,但在構建用戶移動軌跡時并沒有考慮用戶在不同功能特征地區(qū)的出現(xiàn)概率,因此構建的移動軌跡含有不能體現(xiàn)用戶生活習慣的點。
針對人群分類的現(xiàn)有問題,本文提出了一種基于位置語義和概率的人群分類方法:首先利用貝葉斯思想,位置語義的分布滿足多項分布,迭代求出位置詞匯下隱藏的位置語義分布;然后在得到位置語義分配的情況下,選出權重最高的前20個位置詞匯,借助百度地圖查看位置語義指代的具體含義,如生活區(qū)等;最后將用戶在位置語義空間下的訪問概率向量作為聚類特征向量,找到同類用戶,并根據(jù)位置語義指代的具體含義確定人群類型。
定義1位置詞匯( Location word, LW),用戶的GPS坐標,由經(jīng)緯度唯一標示,具有唯一性,表示為p={pL,pR}(pL表示經(jīng)度,pR表示緯度)。
定義2位置語義(Location semantic, LS), 位置詞匯指代的功能特征,表示為z,z∈{z1,z2,…,zT}。其中,zi表示具體的位置語義,T為位置語義總數(shù)。
基于以上兩個定義,本文提出的人群分類方法主要分為兩部分:位置語義發(fā)現(xiàn)和訪問概率向量聚類,圖1給出了其流程圖。如圖1(a)所示,輸入4個用戶的位置數(shù)據(jù)集,輸出位置詞匯指代的位置語義。User 1和User 2雖然分別出現(xiàn)在不同的地理位置(茗緣茶樓和尚雅咖啡),但卻同時擁有為餐飲區(qū)的位置語義;同理,User 3和User 4同時擁有為住宅區(qū)的位置語義。經(jīng)過第1步后,計算用戶在位置語義空間的訪問概率向量(見圖(b))。從圖1可知,User 1和User 2對住宅區(qū)和教學區(qū)這兩種位置語義的訪問概率偏大,而User 3和User 4對餐飲區(qū)這一位置語義的訪問概率偏大。最后將訪問概率向量作為聚類特征計算用戶相似度,得到同類用戶。
圖1 算法流程圖Fig.1 Algorithm flowchart
位置語義發(fā)現(xiàn)主要分為3步:
(1)位置語義抽取滿足多項分布,由λ的概率密度可知用戶在位置語義空間出現(xiàn)的概率θm滿足
(1)
式中:Γ(x)為gamma函數(shù)。
(2)設定變量ε,基于ε和θm的取值,提取每個位置詞匯的位置語義。ε的取值滿足
(2)
式中:ptarg表示目標位置詞匯,p表示當前位置詞匯,dis(p,ptarg)表示p與ptarg的物理距離,distance表示距離閾值。依次遍歷每個用戶文檔,ε初始值為1。當ptarg與p的物理距離大于distance時,設置ε=1,同時利用θm為p重新分配一個位置語義,并設置ptarg=p;反之,則設置ε=0,同時認為ptarg與p具有相同的位置語義。這樣操作的意義是,既能保證相近的位置詞匯必定屬于同一位置語義,又能讓距離較遠的位置詞匯有機率獲得相同的位置語義,符合現(xiàn)實情境。按照經(jīng)驗,用戶在某個位置語義內(nèi)的活動范圍一般較集中,同時為避免距離閾值設值太大造成誤差過大,本實驗中的distance取值為50。
(3)
(3)由式(3)為位置詞匯執(zhí)行分配操作,統(tǒng)計位置詞匯在位置語義下的出現(xiàn)次數(shù),使用狄利克雷期望公式[16]更新θm,并重復此步驟,以達到用戶訪問概率向量收斂,即
(4)
以此得到每個位置詞匯的位置語義和每個用戶在位置語義空間下的訪問概率向量。
由定義2可知,位置語義暗示著用戶出現(xiàn)在該區(qū)域的目的性,表示位置詞匯隱含的功能特征,同時,訪問概率向量表示移動用戶在位置語義空間的出現(xiàn)概率,暗含用戶在該區(qū)域出現(xiàn)的不確定性。因此,將位置語義和訪問概率向量共同作為用戶相似性計算標準,既考慮了用戶出現(xiàn)在地理位置的深層含義,不再局限于坐標位置的地理限制,也考慮了用戶訪問不同位置語義的不確定性。如某用戶包含一系列位置語義z={z1,z2,z3,z4},分別代表教學區(qū)、住宅區(qū)、餐飲區(qū)和娛樂區(qū),與該位置語義空間對應的訪問概率向量為θ={0.4,0.5,0.05,0.05}。綜合兩者來看,該用戶在日常生活中,有訪問過4種類型的位置語義,但在教學區(qū)和住宅區(qū)出現(xiàn)的概率最大,在餐飲區(qū)和娛樂區(qū)訪問概率較小,從而可作出較為合理的推測:該用戶可能為學生或教職員工。因此,若要尋找該用戶的同類用戶,也應包含相同的位置語義,且具有相似的訪問概率向量。因此,將用戶m在特定位置語義空間的訪問概率向量作為人群聚類的特征向量,即有
θm={Pr(z1),Pr(z2),…,Pr(zT)}
(5)
式中:Pr(zi)表示用戶在位置語義zi出現(xiàn)的概率,且Pr(z1)+Pr(z2)+…+Pr(zT)=1。使用通用聚類算法對訪問概率向量聚類得到的結(jié)果即為人群分類結(jié)果。
本文歷時兩個月(2015-08-13至2015-10-10),收集了某地區(qū)的移動用戶通過使用位置服務類App所產(chǎn)生的位置數(shù)據(jù)。收集的數(shù)據(jù)屬性包括經(jīng)度、緯度和 App名稱等信息,其中經(jīng)度和緯度共同組成位置詞匯,APP用于后期用戶類型標識,具體說明如表1所示。
表1 數(shù)據(jù)格式說明
在進行實驗之前,需要先對數(shù)據(jù)進行預處理,避免誤差數(shù)據(jù)影響實驗結(jié)果。數(shù)據(jù)篩選包括兩類:(1)異常點去除:只保留某地區(qū)范圍內(nèi)的位置詞匯,過濾掉其他范圍的位置詞匯,以免造成數(shù)據(jù)混淆和增大位置語義標識的難度;(2)數(shù)據(jù)選?。弘S機抽取1 000個用戶,以保證數(shù)據(jù)選取的隨機性。約33萬條位置記錄進行后期實驗,保證數(shù)據(jù)量充足和實驗結(jié)果的準確性。
現(xiàn)有的人群分類方法,用戶類型的判斷大多采用人工標注,在準備實驗數(shù)據(jù)時需耗費大量精力,且受人為因素影響較大。因此,本文從兩個方面對實驗結(jié)果進行評價:內(nèi)部評價和外部評價。內(nèi)部評價用于評估訪問概率向量在各類聚類方法中的聚合度[17],外部評價則用于評估人群分類結(jié)果的正確性,兩個評價方式的計算公式分別如式(6,7)所示。
(1) 內(nèi)部評價指標:Dunn index
(6)
式中:分母表示取分類k中任意兩個移動用戶的相似度d′(k)的最大值;分子表示取類別i和j的相似度d(i,j)的最小值。D值越高,意味著同簇內(nèi)用戶相似度越高,簇間用戶相似度越低,即達到最佳聚合結(jié)果,因此D值越高表示聚合度越高。但D值的大小并不能判定人群分類結(jié)果的正確性,因此,本文引入了外部評價指標用于評價人群分類正確性。
(2) 外部評價指標:APP類標簽。通過對位置數(shù)據(jù)集和相關研究的深入分析,可知位置語義與產(chǎn)生位置詞匯的APP之間存在著一定的關聯(lián)關系[9]。用戶處在不同的位置語義下,會有不同的手機行為,比如,如果用戶處于餐飲區(qū),用戶則可能使用美團APP,便于搜索附近美食或參與團購。基于此認識,將采集到的位置數(shù)據(jù)中的APP名稱屬性作為標注用戶類型的依據(jù)。采用F-measure指標評價人群分類結(jié)果的優(yōu)劣,其計算公式為
(7)
式中P和R分別表示準確率和召回率。
位置數(shù)據(jù)集中共包含21種常用APP名稱,將其分成5大類,具體如表2所示。由于APP名稱出現(xiàn)的次數(shù)可近似表示用戶訪問位置語義的概率大小,因此可根據(jù)每個用戶位置文檔中每種類型APP名稱出現(xiàn)的次數(shù)來決定用戶所屬類型,其計算公式為
C=max{Nt,Nf,Ne,Nj,Nc} (8)
式中:Nt,Nf,Nj,Ne和Nc分別表示表2中5種類型APP名稱出現(xiàn)的次數(shù),取其最大值作為用戶類型標簽。
在位置語義的提取過程中,語義數(shù)T的選擇對實驗結(jié)果及性能影響甚大,因此需要通過實驗預先確定其大小。采用困惑度[18]來確定T值,其計算公式為
(9)
圖2 位置語義發(fā)現(xiàn)方法的困惑度Fig.2 Perplexity of location semantics discovery method
式中:W表示測試集文檔數(shù)目,Nw表示測試位置文檔w的位置詞匯總數(shù);分母表示W(wǎng)個文檔的位置詞匯總數(shù);Pr(Pω)表示pw的產(chǎn)生概率。實驗中,先驗分布λ=50/T為初始值,并且將語義數(shù)T分別設置每次新增5,采用Gibbs采樣[19],分8次實驗分別計算困惑度,取其合適的語義數(shù)作為后續(xù)實驗前提,實驗結(jié)果如圖2所示。
從圖2可以看出,困惑度隨著語義數(shù)T的增大而逐漸降低,最后在[25,40]區(qū)間趨于穩(wěn)定。當困惑度越低時,表示模型的泛化能力越強,但同時位置語義數(shù)目作為訪問概率向量的維數(shù),不宜取值過大,維數(shù)過大會影響計算效率。綜上兩點,位置語義數(shù)目取值為30較為合適。
3.4.1 位置語義實驗結(jié)果
從每個位置語義下選擇20個權重最大的位置詞匯,借助百度地圖,查看每個位置詞匯的具體位置語義,得到位置語義的具體含義。表3展示了其中6個位置語義和其權重排名前5的位置詞匯。當位置詞匯在百度地圖中展示為住宅區(qū)時,位置語義可解釋為住宅區(qū);當位置詞匯在百度地圖中展示為娛樂休閑場時,位置語義可解釋為娛樂區(qū),其他類型位置語義以此類推。從實驗結(jié)果看出,不同的位置詞匯可能擁有相同的位置語義,且本文提出的位置語義發(fā)現(xiàn)方法得到的實驗結(jié)果能準確表達位置詞匯所具有的功能特征。
3.4.2 人群分類結(jié)果
選擇基于位置詞匯的人群分類算法PCA[5],基于功能特征的人群分類算法MPR[10]與本文提出的方法進行對比實驗。在MPR算法中,參考原文,取頻繁出現(xiàn)的50個位置詞匯及其位置語義作為分類特征。
為了更全面地比較3種特征選取方法的優(yōu)劣,選取4種普遍的聚類算法,包括劃分聚類K均值(K-means)、密度聚類(Density-based spatial clustering of applications with noise,DBSCAN)、層次聚類(Hierarchical clustering,HC)和吸引力傳播聚類(Affinity propagation,AP)[20],盡可能忽略因聚類算法造成的誤差,對比3種方法得到的人群分類結(jié)果。如3.2節(jié)所述,分別采用Dunn index和F-measure作為內(nèi)部和外部評價指標,4種聚類方法得到的Dunn index值和F-measure值分別如圖3和圖4所示。
表3 位置語義下的位置詞匯
圖3 4種算法的Dunn index對比 圖4 4種算法的F-measure
由圖3可看出,本文提出用于人群分類的特征聚類后得到的聚合度最高,說明本文提出的訪問概率向量更利于分類特征的聚合。但如上所述,Dunn index值只能說明本文提出的分類特征更利于聚合,卻不能對人群分類結(jié)果進行評判。因此,需要用F-measure從另一個方面來評價人群分類結(jié)果的優(yōu)劣。由圖4可看出,本文方法得到的F-measure高于另外兩種方法。
PCA方法僅能得到訪問區(qū)域相近的同類人群,對擁有相同位置語義和不同位置詞匯的用戶不能判斷為同類人群,因此分類效果不盡如人意。而MPR算法只抽取用戶頻繁出現(xiàn)的前50個位置詞匯,得到其位置語義,綜合考慮位置詞匯和位置語義,將其作為用戶特征計算相似性,但在本文中位置詞匯是GPS坐標,粒度很小,且并沒有作精度處理,因此用戶頻繁訪問的GPS坐標完全相同的可能性很低。因此用戶頻繁出現(xiàn)的前50個位置詞匯出現(xiàn)的次數(shù)都偏低,并不能完全體現(xiàn)出用戶對該位置詞匯的頻繁訪問。而本文的人群分類方法同時考慮位置語義和訪問概率兩方面,將具象的位置詞匯抽象成更高維度的位置語義,挖掘位置詞匯更深層的含義,加入用戶訪問位置詞匯的意圖,不再依賴于判斷細粒度GPS坐標的相似性,提高了人群分類結(jié)果的召回率;同時將用戶對位置語義空間的訪問概率向量作為聚類特征,不再僅依賴于判斷用戶是否訪問過相同的位置語義,并引入用戶對位置語義訪問概率的不確定性,從而提高了人群分類的準確率。
3.4.3 人群分類結(jié)果解釋
圖5和圖6采用更直觀的方式展示了基于位置語義與位置詞匯進行人群分類的明顯區(qū)別。由內(nèi)部評價Dunn index可看出,DBSCAN的聚合度最高,所以選取LS-DBSCAN和PCA-DBSCAN作為對比。圖5為采用LS-DBSCAN得到的同類用戶,圖6為采用PCA-DBSCAN得到的同類用戶。從圖中可看出,User 2和User 3屬于物理意義上的相似用戶,訪問的位置詞匯大多距離相近或相同;而User 1和User 2屬于位置語義和訪問概率相近的同類用戶,更符合現(xiàn)實意義。由此可知,本文的人群分類方法具有更高的召回率和準確率。
圖5 LS-商業(yè)型用戶 圖6 PCA-商業(yè)型用戶
人們在各個功能區(qū)域中活動產(chǎn)生的GPS坐標是用戶類型判斷的重要依據(jù),且用戶在不同功能區(qū)域,會有不同的手機操作行為。深入挖掘移動用戶GPS坐標的位置語義,研究用戶訪問不同位置語義的概率傾向,對于研究群體用戶的興趣愛好和用戶類型具有重要意義。基于GPS坐標的人群分類方法按用戶活動區(qū)域進行人群劃分,得到的同類用戶都出入在相同或相近的位置區(qū)域,為物理意義上的相似用戶;而現(xiàn)有基于功能特征的人群分類局限于判斷用戶是否擁有相同的位置語義,忽略了用戶對位置語義訪問的不確定性,沒有全面考慮用戶在位置語義空間的出現(xiàn)概率。針對上述問題,本文提出了一種基于位置語義和概率的人群分類方法。該方法首先通過位置語義發(fā)現(xiàn)方法挖掘位置語義,實驗結(jié)果表明,該方法得到的位置語義能較準確地說明位置詞匯的功能特征;然后結(jié)合位置詞匯的位置語義分配情況,計算用戶在位置語義空間上的訪問概率向量,考慮用戶在不同位置語義上的訪問傾向;其次將用戶的訪問概率向量作為聚類矩陣,采用聚類方法計算用戶間相似度得到同類用戶;最后根據(jù)位置語義的具體含義,標識用戶類型。將位置語義與訪問概率向量結(jié)合作為人群分類的特征與現(xiàn)有的方法相比具有更高的F-measure值。今后的研究工作將把時間屬性加入到位置語義中,抽取位置語義隨時間的變化軌跡,進一步挖掘用戶在時間維度上的行為模式,并比較用戶行為模式間的相似性。
參考文獻:
[1] Xue Andyyuan, Zhang Rui, Zheng Yu, et al. Destination prediction sub-trajectory synthesis and privacy protection against such prediction [C] //Proceedings of the 29th IEEE International Conference on Data Engineering. Brisbane: IEEE, 2013:254-265.
[2] Zheng Kai, Zheng Yu, Yuan N J. Discovery of gathering patterns from trajectories [C] //Proceedings of the 29th International Conference on Data Engineering. Brisbane: IEEE, 2013:242-253.
[3] Tang Lu-an, Zheng Yu, Yuan Jing, et al. On discovery of traveling companions from streaming trajectories [C] //Proceedings of the 2012 IEEE 28th International Conference on Data Engineering. Washington: IEEE, 2012:186-197.
[4] Sheng Chang, Zheng Yu, Hsu Wynne, et al. Answering top-k similar region queries [C] //Proceedings of the 15th International Conference on Database Systems for Advanced Applications. Japan: Springer, 2010:186-201.
[5] 宋衡. 基于位置數(shù)據(jù)的人類行為識別和相似性研究[D]. 上海: 上海交通大學, 2014.
Song Heng. Human behavior recognition and similarity analysis based on location data[D].Shanghai: Shanghai Jiaotong University,2014.
[6] 張成, 劉亞東, 謝彥紅,等. 基于PCA與MLE方法的人群分類新方法研究[J].沈陽化工大學學報(自然科學版), 2015, 29(2):168-171.
Zhang Cheng,Liu Yadong,Xie Yanhong,et al. A new method of population classification based on PCA and MLE[J].Journal of Shengyang University of Chemical Technology(Natural Science Edition), 2015, 29(2):168-171.
[7] Yuan Jing, Zheng Yu, Xie Xing. Discovering regions of different functions in a city using human mobility and POIs [C] // Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012:186-194.
[8] Yuan Nicholas Jing, Zheng Yu, Xie Xing, et al. Discovering urban functional zones using latent activity trajectories [J].IEEE Transactions on Knowledge and Data Engineering,2015,27(3):712-725.
[9] Toole J L, Ulm M, Gonzalez M C, et al. Inferring land use from mobile phone activity [C] //Proceedings of the ACM SIGKDD International Workshop on Urban Computing. New York: ACM, 2012:1-8.
[10] Lee M J, Chung C W. A user similarity calculation based on the location for social network services [C] //Proceeding of the 16th International Conference on Database Systems Advanced Applications. Hong Kong: Springer, 2011, 4(1):38-52.
[11] Xiao Xiang Ye, Zheng Yu, Luo Qiong, et al. Finding similar users using category-based location history [C] //Proceedings of the 18th SIGSPATIAL International Symposium on Advances in Geographic Information Systems. New York: ACM, 2010:442-445.
[12] Xiao Xiangye, Zheng Yu, Luo Qiong, et al. Inferring social ties between users with human location history [J]. Journal of Ambient Intelligence and Humanized Computing,2012, 5(1):3-19.
[13] 蔣銘初,潘志松,尤俊.基于PLSA主題模型的多標記文本分類 [J].數(shù)據(jù)采集與處理,2016,31(3):541-547.
Jiang Mingchu, Pan Zhisong,You Jun. Multi-label text categorization algorithm based on topic model PLSA[J]. Journal of Data Acquisition and Processing,2016,31(3):541-547.
[14] Li Chengtao, Zhang Jianwen, Sun Jiantao, et al. Sentiment topic model with decomposed prior [C] // Proceedings of the 2013 SIAM International Conference on Data Mining. Austin: SIAM, 2013: 767-776.
[15] Lin Chenghua, He Yulan, Richard Everson, et al. Weakly supervised joint sentiment-topic detection from text [J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(6):1134-1145.
[16] Chen Zhiyuan, Liu Bing. Mining topics in documents: Standing on the shoulders of big data [C] //Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2014: 1116-1125.
[17] Xu Dongkuan, Tian Yingjie. A comprehensive survey of clustering algorithms [J].Annals of Data Science,2015, 2(2):165-193.
[18] Yang Guangbing, Wen Dunwei, Kinshuk, et al. A novel contextual topic model for multi-document summarization[J]. Expert Systems with Applications, 2015,42(3):1340-1352.
[19] 張俊鵬,賀建峰.基于LDA主題模型的功能性miRNA-mRNA調(diào)控模塊識別[J].數(shù)據(jù)采集與處理,2015,30(1):155-163.
Zhang Junpeng,He Jianfeng. Identifying of funtional minRNA-mRNA regulator modules based on LDA topic model[J]. Journal of Data Acquisition and Processing, 2015,30(1):155-163.
[20] Brendan J F, Delbert D. Clustering by passing messages between data points[J]. Science, 2007,315(5814):972-976.