国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

位置數(shù)據稀疏約束下的疑犯時空位置預測

2018-09-13 09:02黨蘭學朱欣焰
鄭州大學學報(工學版) 2018年5期
關鍵詞:疑犯張量時空

段 煉, 黨蘭學, 李 銘, 高 超, 朱欣焰

(1.廣西師范學院 地理科學與規(guī)劃學院,廣西 南寧 530001; 2.廣西師范學院 北部灣環(huán)境演變與資源利用教育部重點實驗室,廣西 南寧 530001; 3.河南大學 計算機與信息工程學院,河南 開封 475001; 4.南昌大學 空間科學與技術研究院,江西 南昌 330031; 5.警用地理信息技術公安部重點實驗室,江蘇 常州 213000; 6.武漢大學 測繪遙感信息工程國家重點實驗室,湖北 武漢 430079)

0 引言

疑犯位置預測對探明疑犯作案時空規(guī)律、評估案發(fā)位置與疑犯關聯(lián)性等警務需求有重要的應用價值[1].但由于位置探測源(如旅店登記系統(tǒng)、進出港登記系統(tǒng)、ATM機等)數(shù)量和類型有限,警方僅能獲取到他們稀疏的位置數(shù)據[2],嚴重影響了疑犯位置預測的準確性.在犯罪地理學中,已有研究基于犯罪個體的系列犯罪位置序列,基于平均作案距離[3]、路網結構[4],利用距離衰減函數(shù)[4]、貝葉斯公式[5]和動力學模型[6]等,估算錨點(住址或未來犯罪地點等)[7]在空間上的出現(xiàn)概率.然而,這些研究既沒有考慮數(shù)據稀疏性的影響[8],也極少考慮時間因素.近年來,基于車輛定位數(shù)據[9]、Wi-Fi信號[10]、公共交通數(shù)據[11]、人員軌跡數(shù)據[12]和地理社交網絡check-in數(shù)據[13]等的位置預測成為研究熱點.然而,疑犯位置數(shù)據較這些數(shù)據更加稀疏,也不存在好友關系等數(shù)據以提高預測精度.為應對以上挑戰(zhàn),筆者融合疑犯群體的統(tǒng)計先驗知識和社會環(huán)境信息,基于張量聯(lián)合分解方法來估算疑犯在所有時空節(jié)點上的駐留概率.

1 問題描述

疑犯位置數(shù)據集包括了W市2012年1月至2012年6月間241名疑犯的18 754個軌跡點.將研究區(qū)域網格化,獲得g×g格網,G={p1,p2,…,pi,…,pg×g}.本文中g=100,每個網格覆蓋的范圍約為256 m×224 m[9].如圖1所示.

利用各時段(筆者將一天劃分為12個時段,每個時段為2小時)不同疑犯在各網格上的駐留次數(shù),構建三維張量Q∈U×G×T,表達“疑犯-位置-時段”的相互關系,如圖2所示.其中,U為疑犯數(shù)量;G為網格數(shù)量;T為時段數(shù)量.由于疑犯位置數(shù)據的稀疏性,Q中僅有1%的項才具有數(shù)值.因此,需解決的問題是:估算Q內所有缺失項.

圖1 網格化后的疑犯空間分布強度Fig.1 Spatial distribution of suspects visiting density

圖2 “疑犯-位置-時段”張量Fig.2 “Suspect-location-time” tensor

2 系統(tǒng)流程

本方法具體流程如圖 3所示.首先,構建“疑犯-位置-時間”張量Q.其次,抽取所有疑犯在不同時空節(jié)點駐留的統(tǒng)計信息,構建“疑犯-位置”矩陣與“位置-時間”矩陣,表達疑犯對各時空節(jié)點的訪問模式.再將人口、路網和POI等信息按照網格尺度匯集,形成“位置-特征”矩陣,并利用出租車軌跡數(shù)據構建“位置-位置”矩陣,通過這兩個矩陣描述位置間的關聯(lián)性.最終,對以上張量和矩陣進行協(xié)同分解,計算出“張量Q中的缺失值”,實現(xiàn)疑犯個體的時空預測.

圖3 系統(tǒng)架構圖Fig.3 System architecture

2.1 疑犯群體的位移特征抽取

基于疑犯位置數(shù)據,構建“疑犯-位置”矩陣E∈U×G,其中,U為疑犯總數(shù);G為網格總數(shù).該矩陣刻畫各疑犯的全局空間分布模式.

為獲得所有疑犯的全局時空分布模式,構建“位置-時間”矩陣D∈G×T,其中,G表示位置數(shù)量;T表示一天內的所有時段數(shù)量.D中第i行和第j列的項D(i,j)表示所有疑犯在j時段訪問i位置的次數(shù).

2.2 位置特征抽取

2.2.1 位置-特征矩陣

具有類似社會經濟環(huán)境的區(qū)域往往對疑犯具有類似的吸引力.筆者涉及的社會經濟環(huán)境信息包括4個部分:POI特征集Fp、路網特征集Fr、房屋特征集Fb和人口統(tǒng)計特征集Fc.據此,構建“位置-特征”矩陣C∈G×(p+r+b+c),其中,G表示位置總數(shù);p、r、b和c分別表示Fp、Fr、Fb和Fc集的特征個數(shù).特別的,對于category 類型的屬性,將其轉變?yōu)?和0表示的one-hot向量結構.

①POI特征.POI特征Fp包括:該位置內POI的空間密度以及12個類型的POI數(shù)量共13個特征.為體現(xiàn)區(qū)域獨有的社會經濟環(huán)境特性.借鑒TF-IDF方法,將位置i中類型為j的POI數(shù)量qij轉換為POI類型重要度Yij,

(1)

其中,o為POI類型數(shù)量;|G|表示位置總數(shù);|{qi:qij> 0}|表示具有POI類型j的位置個數(shù).

②路網特征.路網特征Fr包括:該位置內的路口數(shù)量和5個等級(高速公路、一級公路、二級公路、三級公路及四級公路)的道路長度,共6個指標.

③建筑物特征.筆者抽取的房屋特征Fb包括:樓房密度、5類房屋(住宅型、商業(yè)性、行政型、工業(yè)型、其他)的數(shù)量分布、3類高度(低層、多層、高層)房屋的數(shù)量分布,共9個指標.

④人口統(tǒng)計特征.人口統(tǒng)計特征Fc涉及10個指標,分別是人口密度、4個年齡段(18歲以下、18~40歲、40~60歲、60歲以上)的人口數(shù)量分布、5類教育程度(文盲、初中、高中、大學、研究生)的人口分布.

2.2.2 位置可達性張量

位置間的空間鄰近性和通勤強度體現(xiàn)了位置之間的疑犯轉移傾向或流動的便捷程度.下面利用出租車數(shù)據表達位置間的時態(tài)通勤強度,再結合空間鄰近性,計算位置間的時空可達度.

(2)

基于上式,構建張量P∈T×G×G,將ptij作為P中的項,得以刻畫位置和位置之間的空間可達度.

3 多源數(shù)據融合下的張量分解

結合矩陣因子分解和張量因子分解方法計算出Q中的所有缺失項,以獲取疑犯個體在任意時空節(jié)點的駐留概率.張量Q可因此分解為:

Q≈S×U×J×T.

(3)

其中,核張量(core tensor)S∈du×dg×dt,疑犯低階潛在因子矩陣(low rank latent factors matrix)U∈U×du、位置低階潛在因子矩陣J∈G×dl和時間低階潛在因子矩陣T∈T×dt,du≤u,dl≤g,dt≤t(本文du=dl=dt).

“疑犯-位置”矩陣E可因此分解為U和JT的乘積,即:

E≈U×JT.

(4)

同理,“位置-時間”矩陣D≈J×TT, “位置-特征”矩陣C≈I×P(P∈dl×(p+r+c));位置可達性張量P≈W×J×JT, 其中W∈dl×dl×dt,dl≤G,dt≤T(本文中dl=dt).

可見,Q與E、D、C及P共享了潛在因子矩陣U、J和T;P也與E、D以及C共享了潛在因子矩陣J和T.依據這些信息交互關系,得到融合疑犯位移、社會經濟環(huán)境和位置可達性數(shù)據的張量因子分解目標函數(shù):

L(Q,S,W,U,J,T,P)=

(5)

4 試驗與分析

試驗硬件配置為 Intel (R) Core (TM) i777003.6 GHz (4 核),16 GB內存的計算機,操作系統(tǒng)為Windows 7,軟件采用MATLAB2 016 a和TensorToolbox包[17].采用均方根誤差和top-k最近距離作為模型性能的評價指標,其中:均方根誤差(RMSE)為預測值與真實值之間的誤差累加均方根,

(6)

Top-k最近距離(SED@k):目標位置與前top-k個預測結果的最小距離.

(7)

該指標越小越好,本文中k=10.兩網格間的距離為它們的中心間距.

4.1 比較方法

筆者所提方法稱為TCDLP.Baseline方法.

①時態(tài)約束下的Kriging克呂格插值法(TK):基于每個時間槽內空間鄰近位置的訪問次數(shù)作為目標位置的訪問次數(shù).

②層次Pitman-Yorprocess語言統(tǒng)計模型(HPHD):描述用戶在各位置上的語義時間訪問強度.該方法無法對未知位置建模.

③HOSVD[15]:僅對“疑犯-位置-時間”張量進行因子分解來獲取其缺失值.

試驗采用交叉驗證,隨機從疑犯位置數(shù)據集抽取70%為訓練數(shù)據,20%位驗證數(shù)據,10%作為測試數(shù)據.

4.2 模型性能比較

TCDLP的參數(shù)λ1=λ2=λ3=λ4=λ5=0.05,各潛在因子數(shù)量k=10.表1為各模型在RMSE和SED@10上的性能.筆者提出的模型在這3個指標上都優(yōu)于其他3種方法,說明融合多源城市社會經濟環(huán)境數(shù)據對疑犯時空節(jié)點估算是有效的.TK的各項指標性能值均為最差,說明在數(shù)據稀疏情況下,空間鄰近性還無法充分刻畫疑犯位置分布的時空模式.基于矩陣/張量分解的方法(如TCDM和HOSVD)的各項性能指標均超過了TK,這表明,位置間的環(huán)境相似性能為疑犯時空分布模式的挖掘提供有效信息.由于HPHD給出的結果為概率形式,因此無法對其進行RMSE指標測試.

表 1 各模型的預測性能

4.3 TCDLP參數(shù)影響分析

讓λ1~λ5在0~10變化,觀察TCDLP方法在RMSE和SED@10兩個指標的變化,如圖4所示.驗證各外部環(huán)境信息E、D、C和P對疑犯位置預測性能的影響.由圖4可知,集成了外部環(huán)境信息后,模型預測性能有了較大提升,RMSE和SED@10的變化較大;但隨著各參數(shù)的增加,相對于RMSE、SED@10的變化幅度不大,這再次驗證了疑犯的社會活動趨向于集聚性.隨著λ3的增加, 模型的RMSE和SED@10都有明顯提升,說明位置間的社會環(huán)境相似性對疑犯社會移動具有顯著的影響.然而,一旦λ4和λ5增加到一定數(shù)值,模型的RMSE急速下降,SED@10也有一定的上升,這可能是疑犯位置關聯(lián)性數(shù)據中存在噪聲,λ4和λ5的增加放大了這樣的噪聲,造成模型性能降低.

圖4 λ1~λ5對RMSE和SED@10的影響Fig.4 Impact of λ1~λ5 on RMSE and SED@10

5 結論

提出基于張量協(xié)同分解模型估算疑犯的潛在時空分布概率算法.該算法引入社會環(huán)境信息,通過張量和矩陣的聯(lián)合分解估算疑犯位置時空分布,緩解了疑犯位置數(shù)據的稀疏性.基于真實疑犯位置跟蹤數(shù)據的實驗結果表明,筆者所提算法在RMSE和SED@10兩個指標上分別平均高于其他baseline方法50%和18%.今后的工作將對疑犯進行分類,如盜竊類、搶劫類等,針對不同犯罪類型特點設計算法,進一步提高算法的精度.

猜你喜歡
疑犯張量時空
疑犯追蹤
跨越時空的相遇
一類張量方程的可解性及其最佳逼近問題 ①
嚴格對角占優(yōu)張量的子直和
追蹤盜獵者
鏡中的時空穿梭
四元數(shù)張量方程A*NX=B 的通解
一類結構張量方程解集的非空緊性
疑犯的自衛(wèi)
玩一次時空大“穿越”