黃賀賀,曾園園,張 毅,奈 何
(武漢大學(xué) 電子信息學(xué)院,武漢 430072)
近年來,隨著社會經(jīng)濟的發(fā)展,城市的人口密度急速增大,給城市建設(shè)和管理的各個方面帶來巨大挑戰(zhàn)。在公共安全方面,由于人群異常聚集而導(dǎo)致的各類安全問題時有發(fā)生,因此對人群異常聚集現(xiàn)象進行預(yù)測具有重要的現(xiàn)實意義。
目前,國內(nèi)外學(xué)者對人群異常聚集的預(yù)測方法進行了深入的研究,大多數(shù)基于圖像處理的監(jiān)控系統(tǒng)已投入運行并已取得了一定的效果[1-2]。然而,基于圖像處理的方法具有局限性,例如,攝像機無法捕捉視野外的元素且易被其他障礙遮擋,難以融合來自多個攝像機的信息以獲得全局態(tài)勢感知。另外,基于圖像處理的方法需要良好的照明條件,因此,對于發(fā)生在夜間的事件而言,該方法難以發(fā)揮作用。
許多研究者根據(jù)各區(qū)域的人群密度歷史數(shù)據(jù)和用戶的歷史移動軌跡數(shù)據(jù),利用時間序列分析方法或概率模型預(yù)測未來的人群密度分布。文獻[3]提出一種利用長短時記憶網(wǎng)絡(luò)預(yù)測行人軌跡,從而估計各區(qū)域人群密度的方法。文獻[4]根據(jù)用戶的歷史移動軌跡數(shù)據(jù)構(gòu)建基于馬爾科夫模型的路徑預(yù)測系統(tǒng),用于預(yù)測每個用戶的未來位置和停留時間。上述方法對于日常的人群密度預(yù)測問題較為有效,然而人群異常聚集事件具有突發(fā)性,此類方法可能無法取得很好的效果。
針對人群異常聚集現(xiàn)象,許多學(xué)者嘗試從分析人群的移動行為模式出發(fā),預(yù)測各區(qū)域的人群密度分布情況,從而提早發(fā)現(xiàn)人群異常聚集現(xiàn)象。文獻[5]指出,一起人群聚集導(dǎo)致的踩踏事件的形成過程可以分為4個階段,即自由移動-停留-擁堵-踩踏。文獻[6]建立了一個社會力模型來分析人群移動機制,綜合考慮了行人意圖、期望速度和個體之間的相互作用。文獻[7]提出一種密度泛函理論,綜合考慮環(huán)境因素和行人在不同環(huán)境下的移動行為,用以預(yù)測人群密度的分布情況。上述方法均基于人群的移動行為特征進行分析,然而對于人群異常聚集事件而言,群體情緒、公共輿論等因素對于群體行為也有重要的影響[8-9]。因此,對于人群異常聚集現(xiàn)象的預(yù)測問題,需要從多個維度全面具體地分析和描述群體行為,以提高預(yù)測性能。
本文提出一種基于用戶群體行為分析的人群異常聚集預(yù)測方法。通過對比分析異常聚集場景和正常場景下用戶群體的上網(wǎng)行為和空間移動行為,發(fā)現(xiàn)不同場景下用戶行為的差異性。根據(jù)群體上網(wǎng)行為和移動行為對未來時刻是否會發(fā)生異常聚集事件進行預(yù)測,得到最終的預(yù)測結(jié)果。
隨著智能移動終端的普及和移動互聯(lián)網(wǎng)的發(fā)展,通信基站會記錄大量用戶產(chǎn)生的會話數(shù)據(jù),這些數(shù)據(jù)準(zhǔn)確詳細(xì)地記錄了用戶的移動行為和上網(wǎng)訪問內(nèi)容,為群體行為的分析研究提供了數(shù)據(jù)支撐[10-11]。
大量的研究證明,人類行為在宏觀上服從一定的模式[12-13],各個基站覆蓋范圍內(nèi)的人群密度分布具有一定的穩(wěn)定性[14-15],因此,可以通過設(shè)定閾值的方式來判定當(dāng)前區(qū)域是否發(fā)生了人群異常聚集事件。
由于特定區(qū)域上的人群密度分布在一天內(nèi)會隨著時間變化,且同一區(qū)域上的人群密度在工作日和節(jié)假日時也會有所不同,因此對于某特定基站所在的區(qū)域,定義其人群密度期望值如下:
(1)
在此基礎(chǔ)上,定義人群聚集的異常判定閾值如下:
(2)
將用戶群體訪問過的內(nèi)容按照業(yè)務(wù)類型分為19類,如表1所示。
表1 用戶訪問內(nèi)容分類Table 1 Classification of content accessed by users
對正常場景和異常聚集場景下的用戶群體訪問內(nèi)容分布進行統(tǒng)計,結(jié)果如圖1所示。可以看出,兩類場景下的用戶上網(wǎng)流量分布具有一定的相似性,都主要集中在社交、購物、音樂、視頻、新聞等類型上,說明用戶群體的內(nèi)容偏好在不同場景下具有一定的穩(wěn)定性。
圖1 不同場景下的用戶訪問流量分布
需要注意的是,在異常場景下,社交類應(yīng)用的流量占比有明顯提升,說明異常聚集場景下的用戶群體更多地訪問社交網(wǎng)站,更頻繁地在社交網(wǎng)絡(luò)上分享內(nèi)容或獲取內(nèi)容。此外,正常場景下的出行類內(nèi)容(主要包括打車出行類和地圖類內(nèi)容)的占比明顯高于異常場景下,說明在異常場景下的人群移動行為具有明確的目的地,并且移動范圍較為有限。
通過以上對比分析,可以將一起人群異常聚集事件的發(fā)生過程分為3個階段。首先,在某區(qū)域上發(fā)生一起突發(fā)性事件,然后,此事件引起區(qū)域附近人群的關(guān)注并移動至該區(qū)域,最后,該區(qū)域的聚集人數(shù)遠超正常值,如圖2所示。其中,在第2個階段,當(dāng)前區(qū)域內(nèi)群體對于突發(fā)事件的反應(yīng)是在社交網(wǎng)絡(luò)上分享信息,即訪問的內(nèi)容集中在少數(shù)熱點內(nèi)容上,從而可以推斷異常聚集用戶群體的訪問內(nèi)容分布會表現(xiàn)出較高的相似性。
圖2 異常聚集事件發(fā)生過程
對于異常聚集事件的預(yù)測問題,除了傳統(tǒng)方法使用到的人群密度的時間序列信息之外,群體的上網(wǎng)行為信息以及相鄰區(qū)域上的群體行為信息均可提高預(yù)測的準(zhǔn)確性。
根據(jù)以上分析,異常聚集的用戶在上網(wǎng)內(nèi)容上可能會表現(xiàn)出較高的相似性,使用Jaccrd相似系數(shù)衡量用戶間的相似度,定義如下:
(3)
其中,N(u)表示用戶u的訪問內(nèi)容集合。然而在實際場景中,網(wǎng)絡(luò)中會存在一些流行內(nèi)容被大部分用戶都訪問過,顯然這類內(nèi)容用于衡量相似度會導(dǎo)致偏差,因此需要降低這些流行內(nèi)容的權(quán)重,將式(3)的分子修改為如下形式:
(4)
其中,i為被用戶u和用戶v共同訪問的內(nèi)容,C(i)為內(nèi)容i在同時段被所有用戶訪問的次數(shù)。
在得到用戶之間的訪問內(nèi)容相似度后,對觀測區(qū)域在指定時段內(nèi)的用戶群體構(gòu)建有權(quán)相似網(wǎng)絡(luò)G=。其中,U為用戶集合,每個用戶對應(yīng)相似網(wǎng)絡(luò)中的一個節(jié)點,E為連邊集合,每條邊的權(quán)重為對應(yīng)的一對用戶之間的Jaccrd相似系數(shù)。在此基礎(chǔ)上,定義群體行為平均相似度為相似網(wǎng)絡(luò)中所有連邊的平均權(quán)重,具體如下:
(5)
其中,∑E表示所有連邊權(quán)重的加和,nnum(E)表示網(wǎng)絡(luò)中連邊的條數(shù)。
對2種場景(正?,F(xiàn)象和異常聚集現(xiàn)象)下的用戶群體行為進行比較分析。統(tǒng)計2種場景下的用戶間的Jaccrd相似系數(shù),大致分布如圖3所示??梢钥闯?人群異常聚集場景下的用戶相似度大多在0.7以上,顯著高于正常場景下的0.3,即異常聚集場景下的大部分用戶上網(wǎng)行為的相似度較高,說明用戶群體的異常聚集現(xiàn)象是由現(xiàn)實中的特定事件引起的,用戶對此類事件的反應(yīng)為社交網(wǎng)絡(luò)中的使用流量增加,用戶間的上網(wǎng)訪問內(nèi)容分布非常相似。
圖3 不同場景下的用戶行為相似度分布
Fig.3Distribution of user behavior similarity indifferent scenarios
下面驗證用戶群體行為特征信息對于人群異常聚集現(xiàn)象的預(yù)測是否有用。由于人群異常聚集現(xiàn)象的直接特征為人群密度,因此需要計算所有基站上的人群密度分布的香農(nóng)熵和已知群體行為特征信息條件下的條件熵。香農(nóng)熵和條件熵的定義分別如式(6)和式(7)所示:
(6)
(7)
分別對正常和異常聚集場景下的人群密度的香農(nóng)熵和條件熵進行統(tǒng)計計算,繪制累積分布函數(shù)圖(Cumulative Distribution Function,CDF),如圖4所示。可以看出,在兩種場景下,人群密度分布的條件熵均低于香農(nóng)熵,說明群體行為平均相似度信息能夠有效降低人數(shù)的不確定性。
圖4 不同場景下人群密度分布的香農(nóng)熵和條件熵
Fig.4 Shannon entropy and conditional entropy of crowd density distribution in different scenarios
值得注意的是,異常場景下人群密度分布的條件熵顯著低于香農(nóng)熵,即群體行為特征消除人群密度分布的不確定性的作用更為明顯,因此,群體行為相似度是預(yù)測異常聚集的一個有效特征。
在圖2中,引起用戶關(guān)注到聚集大量用戶的過程中,由于人的移動行為具有時空連續(xù)性,即區(qū)域最終聚集的人群是從相鄰區(qū)域移動而來的,因此一起異常聚集事件的影響范圍不局限于該特定區(qū)域,其相鄰區(qū)域也會受到一定的影響,需要考慮相鄰區(qū)域上的群體行為特征對于人群異常聚集現(xiàn)象是否會產(chǎn)生影響。
基站的空間網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如圖5所示)可以根據(jù)基站的經(jīng)緯度信息,選取距離最近的幾個基站作為該基站的鄰接基站。然而在實際場景中,由于建筑布局、道路設(shè)施等因素的影響,空間上直接相鄰的基站之間可能無法進行用戶交互,因此根據(jù)用戶的移動軌跡,采用兩基站間的交互用戶數(shù)量作為連接權(quán)重,取權(quán)重排名前6的基站作為該基站的相鄰基站。
圖5 基站空間拓?fù)浣Y(jié)構(gòu)
莫蘭指數(shù)是一種用于衡量空間特征相關(guān)性的指標(biāo),被廣泛應(yīng)用于各領(lǐng)域的空間結(jié)構(gòu)問題分析中[16-17]。本文采用局部莫蘭指數(shù)量化分析當(dāng)前區(qū)域的聚集屬性,定義如下:
(8)
其中,n為空間網(wǎng)絡(luò)中的節(jié)點數(shù)量,本文中特指基站數(shù)量,x為待觀測的指標(biāo),本文中特指群體行為平均相似度,ωij為節(jié)點連邊權(quán)重,本文中特指兩個基站間的用戶交互數(shù)量。
對于人群異常聚集場景,局部莫蘭指數(shù)為正值表示當(dāng)前區(qū)域與相鄰區(qū)域具有相近的特征表現(xiàn),說明當(dāng)前區(qū)域具有聚集的潛在可能,為負(fù)值則說明當(dāng)前區(qū)域暫無聚集的可能。
計算數(shù)據(jù)集中發(fā)生異常聚集現(xiàn)象的基站人數(shù)分布的信息熵,以及已知局部莫蘭指數(shù)信息后人數(shù)分布的條件熵,繪制累積分布函數(shù)圖,如圖6所示。可以看出,局部莫蘭指數(shù)能夠降低人數(shù)分布的不確定性,即空間網(wǎng)絡(luò)中的信息有助于提高基站人數(shù)分布的可預(yù)測性。
圖6 局部莫蘭指數(shù)條件熵的累積分布函數(shù)
Fig.6 Cumulative distribution function of conditional entropy of local Moran’s I
異常聚集場景具有以下典型特征:
1)突發(fā)性:事件的發(fā)生在較短時間內(nèi)吸引了大量用戶聚集。
2)持續(xù)時間短:事件的發(fā)生過程持續(xù)時間通常不超過2 h,即人群聚集一段時間后又迅速疏散。
3)非周期性:當(dāng)前區(qū)域的歷史數(shù)據(jù)中可能從未發(fā)生過類似事件。
4)影響范圍廣:事件的空間影響范圍不局限于指定觀測區(qū)域,鄰近區(qū)域也會受到影響。
由于人群異常聚集現(xiàn)象的突發(fā)性和非周期性,常用的時間序列分析方法(LSTM、ARIMA等)不適用于此問題。此外,已知空間網(wǎng)絡(luò)中鄰近區(qū)域的特征信息有助于提高目標(biāo)區(qū)域人數(shù)的可預(yù)測性,因此,最終的問題模型應(yīng)當(dāng)是多元輸入的非線性模型。
基于以上分析,模型選擇需要考慮時間序列的因果性以及多維特征的信息融合問題。CNN網(wǎng)絡(luò)模型的卷積層-池化層結(jié)構(gòu)能夠滿足多維特征信息融合的基本要求。在此基礎(chǔ)上,本文采用擴張因果卷積[18]模型(Dilated Convolutional Neural Network,D-CNN)作為整體模型的基礎(chǔ)部分,其基本結(jié)構(gòu)如圖7所示。在隱層間的信息傳輸過程中,當(dāng)前網(wǎng)絡(luò)節(jié)點的輸出只能與之前時刻的輸入有關(guān),以保證信息傳輸過程中的因果性。
圖7 擴張因果卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在單個樣本中,對于待預(yù)測的區(qū)域,需要考慮人群密度、群體行為相似度和局部莫蘭指數(shù)3個特征,對于6個相鄰基站,需要考慮人群密度和群體行為相似度2個特征,因此,模型輸入包含15個時間序列信息。對于每個特征,從待預(yù)測的時刻回溯4 h,每15 min進行切片,構(gòu)造長度為16的時間序列。將所有特征拼接成一個二維矩陣,因此,單個樣本的大小為15×16的二維矩陣。樣本標(biāo)簽為下一時刻是否會發(fā)生異常聚集現(xiàn)象,1表示會發(fā)生,0表示不會發(fā)生。
本文模型結(jié)構(gòu)如圖8所示,單個樣本中的每一個時間序列對應(yīng)一個D-CNN層,共15層。將每一個卷積層的輸出拼接成一維向量,通過邏輯回歸模型(Logistics Regression,LR)[19]得到最終的輸出。
圖8 預(yù)測模型整體結(jié)構(gòu)
本文預(yù)測方法的核心思想為考慮異常聚集發(fā)生時用戶的上網(wǎng)行為變化以及用戶行為特征的空間自相關(guān)性,利用擴張因果卷積神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型的組合模型進行預(yù)測,預(yù)測方法流程如圖9所示。
圖9 本文方法預(yù)測流程
本文實驗采用廣東省江門市的中國聯(lián)通記錄的用戶上網(wǎng)詳單數(shù)據(jù),包括2018年4月和5月的完整數(shù)據(jù),數(shù)據(jù)集的關(guān)鍵字段和示例如表2所示。用戶ID為脫敏處理后的用戶手機號碼,時間為該條上網(wǎng)記錄的產(chǎn)生時間,基站標(biāo)識為用戶連接的基站的唯一標(biāo)識,URL為用戶訪問的網(wǎng)址信息。本文所有數(shù)據(jù)處理及算法設(shè)計均在Spark大數(shù)據(jù)平臺環(huán)境下運行。
表2 數(shù)據(jù)基本字段與示例數(shù)據(jù)Table 2 Basic data fields and sample data
本文選取時間序列分析方法LSTM和ARIMA作為對比算法。首先使用模型預(yù)測人群密度,然后通過一個線性判別器來判斷未來是否會發(fā)生異常聚集現(xiàn)象。同時,為了驗證擴張因果卷積神經(jīng)網(wǎng)絡(luò)的有效性,選用機器學(xué)習(xí)中被廣泛使用的XGBoost模型[20]作為對比模型。
分類問題的模型評價指標(biāo)通常選用精確率(Precision)、召回率(Recall)和F1值(F1-Measure)。對于面向公共安全的人群異常聚集預(yù)測問題而言,通常認(rèn)為召回率(查全率)是更為重要的評價指標(biāo),即可以接受一定的誤報率,但要盡可能地檢測出所有異常聚集現(xiàn)象。具體的實驗結(jié)果和模型訓(xùn)練過程如表3、圖10和圖11所示。
表3 4種模型的實驗結(jié)果對比
Table 3 Comparison of experimental results of the four models
模型精確率召回率F1值A(chǔ)RIMA0.840.830.83LSTM0.810.840.82XGBoost0.910.910.91D-CNN0.930.970.95
圖10 D-CNN模型訓(xùn)練過程
圖11 4種模型的預(yù)測結(jié)果對比
從實驗結(jié)果可以看出,本文預(yù)測方法在3項評價指標(biāo)上均取得了最好的效果,驗證了群體行為特征信息和空間相關(guān)性信息對于人群異常聚集現(xiàn)象預(yù)測的有效性。需要注意的是,在相同的特征信息上,D-CNN模型的表現(xiàn)優(yōu)于XGBoost模型,說明D-CNN模型對于多維時間序列分析問題的有效性。
此外,基于時間序列分析的模型ARIMA和LSTM在各項評價指標(biāo)上的表現(xiàn)并不理想,其可能的原因是時間序列分析模型會累積預(yù)測誤差,預(yù)測結(jié)果與真實序列的差異呈現(xiàn)出一定的滯后性,如圖12所示。時間序列分析模型在人數(shù)快速增加時會產(chǎn)生較大的誤差,因此,人群異常聚集事件的突發(fā)性會使得該類模型的誤差較大,導(dǎo)致異?,F(xiàn)象的誤判和漏判,從而影響預(yù)測性能。
圖12 LSTM模型誤差
針對現(xiàn)實生活中時常發(fā)生的人群異常聚集現(xiàn)象,本文提出一種考慮用戶群體上網(wǎng)行為特征和空間自相關(guān)性的預(yù)測方法。通過引入用戶群體行為特征和群體特征的空間自相關(guān)性,全面地描述和分析異常聚集現(xiàn)象下的群體活動特征,從而提升預(yù)測性能。真實的中國聯(lián)通數(shù)據(jù)集上的實驗結(jié)果表明,與ARIMA、LSTM和XGBoost模型相比,該方法對于人群異常聚集預(yù)測的準(zhǔn)確性更高。下一步將引入社交網(wǎng)絡(luò)中的內(nèi)容信息,更加全面細(xì)致地刻畫群體行為,以進一步改善預(yù)測性能。