馬強(qiáng) 付艷茹
摘 要: 基于手機(jī)LBS定位方法對(duì)以犯罪嫌疑人為對(duì)象的社交網(wǎng)絡(luò)進(jìn)行挖掘,通過提取手機(jī)數(shù)據(jù)和基站數(shù)據(jù)建立數(shù)據(jù)字典,提出了一個(gè)LBS位置服務(wù)數(shù)據(jù)挖掘算法,關(guān)聯(lián)分析了社交行為、社交網(wǎng)絡(luò)和犯罪線索的潛在關(guān)系,并以實(shí)例形式給出了基于Python機(jī)器學(xué)習(xí)功能的實(shí)現(xiàn)過程。
關(guān)鍵詞: 手機(jī); 定位; Python; 社交網(wǎng)絡(luò); 位置服務(wù); 關(guān)聯(lián)
中圖分類號(hào): TP 393.08 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1671-2153(2016)04-0092-05
0 引 言
隨著LBS(location based service)手機(jī)定位方法增值的位置服務(wù),手機(jī)已不再局限于雙方通訊的功能,而是由手機(jī)社交網(wǎng)絡(luò)集合了多方的社交行為(如指示服務(wù)場(chǎng)所、訪問網(wǎng)絡(luò)、商務(wù)活動(dòng)、電子支付等)。手機(jī)實(shí)名制及手機(jī)LBS定位功能有助于在社交網(wǎng)絡(luò)中分析一般用戶的社交行為和發(fā)現(xiàn)特定人為犯罪嫌疑人的線索,而不局限于以往單純的用戶一方手機(jī)話單數(shù)據(jù)的分析。如果基于LBS的位置服務(wù)對(duì)手機(jī)數(shù)據(jù)和基站數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,則可能從犯罪嫌疑人的社交行為中挖掘出社交網(wǎng)絡(luò),并可利用Python的機(jī)器學(xué)習(xí)功能進(jìn)行演繹,形成多角度獲取線索和證據(jù)的解決方案。
1 手機(jī)話單數(shù)據(jù)分析的不足
傳統(tǒng)上獲取犯罪嫌疑人犯罪線索的手段多從分析手機(jī)話單數(shù)據(jù)入手[1]-[3]。但手機(jī)話單數(shù)據(jù)分析存在一定不足:一是為得到更多的線索,往往需要由通話軌跡來分析犯罪嫌疑人的社交網(wǎng)絡(luò),試圖通過關(guān)聯(lián)的人脈關(guān)系發(fā)現(xiàn)新線索,但由合法手機(jī)用戶轉(zhuǎn)變?yōu)榉缸锵右扇耸窍鄬?duì)漸進(jìn)的過程,其中手機(jī)用戶會(huì)基于不同的目的產(chǎn)生雙方通訊,通話持續(xù)的時(shí)間也可能不盡相同,一般手機(jī)用戶個(gè)體之間的通話持續(xù)時(shí)間少于1 min的占61%,通話持續(xù)時(shí)間超過15 min的占11%,平均的通話持續(xù)時(shí)間在1 min51s[4]。考查數(shù)據(jù)的關(guān)聯(lián)性,這種通話時(shí)長(zhǎng)只是以權(quán)重的方式反映通訊的頻度而已,而在暴露社交網(wǎng)絡(luò)方面則是不充分的。二是手機(jī)話單數(shù)據(jù)分析的前提是獲取的手機(jī)號(hào)碼與身份識(shí)別相一致,而現(xiàn)實(shí)之中因遺失、改號(hào)、盜用、借用等原因手機(jī)使用者身份喪失排他性。三是手機(jī)話單數(shù)據(jù)無關(guān)乎內(nèi)容,線索跟蹤只限于手機(jī)通話或短信行為的有無,而實(shí)際更多的是通信背后以手機(jī)上網(wǎng)數(shù)據(jù)相關(guān)聯(lián)的碎片化社交信息。四是通話記錄和短信記錄可能被手機(jī)用戶直接刪除,甚至手機(jī)數(shù)據(jù)被全部清除,導(dǎo)致通話軌跡陡變而失去數(shù)據(jù)關(guān)聯(lián)分析的意義。
2 改進(jìn)手機(jī)數(shù)據(jù)分析的基本設(shè)想
改進(jìn)前述不足的方法之一是將手機(jī)數(shù)據(jù)分析的范圍從話單延展到手機(jī)社交網(wǎng)絡(luò),即從該網(wǎng)絡(luò)節(jié)點(diǎn)及邊的關(guān)系入手,分析移動(dòng)狀態(tài)下犯罪嫌疑人由手機(jī)完成的社交行為。雖然受手機(jī)數(shù)據(jù)涉及個(gè)人隱私的法律限制,還不能類似固定網(wǎng)絡(luò)以IP地址確定使用者位置的普遍方法來定位任意用戶和獲取手機(jī)數(shù)據(jù),但在偵辦手機(jī)用戶涉嫌犯罪的特定條件下,獲取手機(jī)數(shù)據(jù)以及分析相應(yīng)的社交行為具有強(qiáng)制性。分析的方法既可基于時(shí)間也可基于內(nèi)容,前者可通過判斷社交網(wǎng)絡(luò)每個(gè)時(shí)間片是否存在變化點(diǎn)來確定社交行為的發(fā)生[5],而后者可通過手機(jī)定位中位置服務(wù)內(nèi)容是否存在變化來確定社交行為的發(fā)生。本文即基于LBS定位的位置服務(wù)將手機(jī)數(shù)據(jù)延展到基站數(shù)據(jù),即將手機(jī)話單數(shù)據(jù)和手機(jī)社交網(wǎng)絡(luò)數(shù)據(jù)綜合進(jìn)行分析。
LBS定位用戶手機(jī)的最大優(yōu)勢(shì)是在定位不受天氣和位置影響的前提下而實(shí)現(xiàn)了基站與用戶之間的數(shù)據(jù)交換,其增值的位置服務(wù)僅僅借助了至少3個(gè)移動(dòng)通信基站的信號(hào)差異?;臼且环N移動(dòng)通信無線電臺(tái)形式,其功能是在以無線電覆蓋一定區(qū)域范圍內(nèi),通過移動(dòng)通信交換中心,與用戶移動(dòng)電話終端之間進(jìn)行雙向收與發(fā)的無線信息傳遞。當(dāng)基站數(shù)量充足的時(shí)候,LBS定位精度50 m以內(nèi)的概率可達(dá)到67%,定位精度150 m以內(nèi)的概率可達(dá)到95%,響應(yīng)速度可達(dá)到小于3 s,雖然這和至少需要4顆衛(wèi)星提供經(jīng)度和緯度坐標(biāo)信號(hào)定位手機(jī)的GPS(global positioning system)技術(shù)指標(biāo)不相上下,但在形成手機(jī)社交網(wǎng)絡(luò)的位置服務(wù)方面更具應(yīng)用優(yōu)勢(shì)。
一般嫌疑人在案前與案后的具體時(shí)間和空間位置上,通過手機(jī)完成的社交行為都必然會(huì)表現(xiàn)為不同的注意力投放,包括瀏覽于閱讀、搜索、購物、交友、游戲、音樂、論壇、軟件等網(wǎng)絡(luò)欄目?jī)?nèi)容,當(dāng)基站地理位置和瀏覽的網(wǎng)絡(luò)內(nèi)容具有一定的關(guān)聯(lián)模式時(shí),就可借助基站與手機(jī)之間的數(shù)據(jù)交換,由犯罪嫌疑人的社交網(wǎng)絡(luò)分析其社交行為,再關(guān)聯(lián)于潛在的犯罪線索。
3 系統(tǒng)設(shè)計(jì)方案
為了建立前述關(guān)聯(lián)模式,設(shè)定手機(jī)社交網(wǎng)絡(luò)是由有限的集合或集合中的元素及其相互關(guān)系組成,一般可用有向圖G=(V, E)相應(yīng)表示,其中V為節(jié)點(diǎn)集,E為邊集,網(wǎng)絡(luò)節(jié)點(diǎn)vi∈V表示某個(gè)人,邊ej∈E表示不同網(wǎng)絡(luò)節(jié)點(diǎn)間的相互關(guān)系。
考慮到在LBS位置服務(wù)中關(guān)注的是手機(jī)用戶使用網(wǎng)絡(luò)資源服務(wù)的內(nèi)容,它需要在社交網(wǎng)絡(luò)中由邊集E來區(qū)分節(jié)點(diǎn)集V中節(jié)點(diǎn)間關(guān)系類型,以及需要表達(dá)兩個(gè)相鄰節(jié)點(diǎn)vi和vj之間的關(guān)系,故可相應(yīng)提取手機(jī)數(shù)據(jù)和基站數(shù)據(jù),將其寫成對(duì)應(yīng)的數(shù)據(jù)字典。
3.1 基站數(shù)據(jù)提取
以LBS位置服務(wù)來定位手機(jī)需要獲取基站的服務(wù)小區(qū)和鄰近服務(wù)小區(qū)的相關(guān)信息?;緮?shù)據(jù)主要包括了國家、運(yùn)營商、位置區(qū)LAC、服務(wù)小區(qū)CELL、緯度、經(jīng)度、糾偏緯度、糾偏經(jīng)度、覆蓋范圍、URL訪問地址等10類字段。它同移動(dòng)電話終端的手機(jī)用戶數(shù)據(jù)有所不同,后者包含了用戶編碼、網(wǎng)絡(luò)制式、位置區(qū)、基站經(jīng)度、基站緯度、業(yè)務(wù)名稱、業(yè)務(wù)入口名稱、開始時(shí)間、上行包數(shù)、下行包數(shù)、上行流量、下行流量、網(wǎng)站名稱、網(wǎng)站頻道、應(yīng)用體系標(biāo)識(shí)、分類體系標(biāo)識(shí)、內(nèi)容分類標(biāo)識(shí)、URL訪問地址等8類共計(jì)幾十個(gè)字段,且以CSV格式存儲(chǔ)。
手機(jī)平臺(tái)的不同,調(diào)用手機(jī)協(xié)議棧函數(shù)也不同。以Android平臺(tái)為例,位置服務(wù)信息應(yīng)包含下列數(shù)據(jù):標(biāo)識(shí)基站服務(wù)小區(qū)的ID 號(hào)CELLID、識(shí)別手機(jī)客戶所屬移動(dòng)網(wǎng)絡(luò)的代碼MNC、標(biāo)識(shí)移動(dòng)網(wǎng)絡(luò)所屬國家的代碼MCC、標(biāo)識(shí)不同位置區(qū)的代碼LAC、接收手機(jī)信號(hào)強(qiáng)度的指示值RSSI。
3.2 建立數(shù)據(jù)字典
3.2.1 手機(jī)數(shù)據(jù)
對(duì)手機(jī)部分的數(shù)據(jù)建立以CSV格式存儲(chǔ)的文本文件類型的數(shù)據(jù)字典。在不同的手機(jī)平臺(tái)下,一個(gè)完整的CSV數(shù)據(jù)字典可以包含用戶編碼、網(wǎng)絡(luò)制式、位置區(qū)、基站經(jīng)度、基站緯度、業(yè)務(wù)名稱、業(yè)務(wù)入口名稱、開始時(shí)間、上行包數(shù)、下行包數(shù)、上行流量、下行流量、網(wǎng)站名稱、網(wǎng)站頻道、應(yīng)用體系標(biāo)識(shí)、分類體系標(biāo)識(shí)、內(nèi)容分類標(biāo)識(shí)、URL訪問地址等8類幾十個(gè)字段,但考慮到由社交網(wǎng)絡(luò)判定用戶行為的實(shí)際應(yīng)用,僅選取手機(jī)用戶編碼ID為Key項(xiàng),對(duì)應(yīng)的Values為時(shí)間、地理位置、業(yè)務(wù)類型等3個(gè)關(guān)鍵字段,即可經(jīng)Python編程計(jì)算出節(jié)點(diǎn)的中心度,并生成標(biāo)定數(shù)據(jù)流動(dòng)的社交網(wǎng)絡(luò)布局圖。例如,假設(shè)ID為'49515218'的手機(jī)用戶在一段時(shí)間內(nèi)采用手機(jī)移動(dòng)方式2次連接互聯(lián)網(wǎng)和訪問社交網(wǎng)站若干欄目,則保存在數(shù)據(jù)字典中的手機(jī)數(shù)據(jù)記錄一部分的格式為
20151208114236,39.756781_116.626031,“社交”
20151208114253,39.756781_116.626031,“社交”
3.2.2 基站數(shù)據(jù)
對(duì)基站部分的數(shù)據(jù)可采集為基站服務(wù)小區(qū)ID 號(hào)CELLID、移動(dòng)網(wǎng)絡(luò)代碼MNC、國家代碼MCC、位置區(qū)代碼LAC、信號(hào)強(qiáng)度指示值RSSI、服務(wù)分類標(biāo)識(shí)、Sink端和Source端的流量標(biāo)識(shí)等字段??紤]到由社交網(wǎng)絡(luò)判定用戶行為的實(shí)際應(yīng)用,只需要手機(jī)用戶編碼ID對(duì)應(yīng)的服務(wù)標(biāo)識(shí)和相應(yīng)的流量即可滿足社交網(wǎng)絡(luò)的定位要求。例如,對(duì)于ID為'49545217'的手機(jī)用戶,可依LBS定位需要至少三個(gè)基站服務(wù)小區(qū)的信息,其基站服務(wù)小區(qū)的記錄格式可依次表示為
5023,TD-SCDMA,15302,120.7364,28.8539,
10104,0
5716,TD-SCDMA,15671,120.7231,28.8514,
10088,0
49961,TD-SCDMA,19196,121.4153,28.62478,
10104,0
接下來再考慮位置服務(wù)的內(nèi)容。假設(shè)ID為'49545217'的手機(jī)用戶于同一地點(diǎn)2次連接互聯(lián)網(wǎng),而且訪問了社交網(wǎng)站的瀏覽、視頻2個(gè)欄目,使用了1次百度搜索,使用的流量分別是22481、25446、26276個(gè)kB,則當(dāng)不考慮標(biāo)識(shí)符時(shí),基站數(shù)據(jù)記錄格式可表示為
20151208114236,39.756781_116.626031,
22481,“瀏覽”
20151208114253,39.756781_116.626031,
25446,“視頻”
20151208114253,39.756781_116.626031,
26276,“搜索”
3.3 LBS位置服務(wù)挖掘算法
在完成數(shù)據(jù)字典的基礎(chǔ)上,建立如下LBS位置服務(wù)挖掘算法:
步驟1:編程調(diào)用手機(jī)協(xié)議棧函數(shù),以網(wǎng)絡(luò)節(jié)點(diǎn)vi∈V為信標(biāo)節(jié)點(diǎn),獲取3組至6組所處基站的服務(wù)小區(qū)和鄰近服務(wù)小區(qū)的CELLID,MNC,MCC,LAC,RSSI值;
步驟2:通過手機(jī)的 HTTP協(xié)議,將步驟1的vi∈V位置服務(wù)小區(qū)信息傳輸?shù)紾oogle Gelocation Server中,以獲取vi相對(duì)應(yīng)的服務(wù)小區(qū)經(jīng)度與緯度;
步驟3:對(duì)于基站由信標(biāo)節(jié)點(diǎn)vi測(cè)定出的手機(jī)接收信號(hào)強(qiáng)度RSSI值,計(jì)算vi對(duì)應(yīng)的自由空間損耗LBF的數(shù)值。對(duì)于所有vi∈V測(cè)定的發(fā)射功率PT,接收天線增益GR,發(fā)射天線增益GT,電纜與電纜線頭之間的衰耗LC,則由公式RSSI=PT+GR+GT-LC-LBF按信號(hào)強(qiáng)度計(jì)算自由空間的損耗LBF;
步驟4:采用LBF=32.5+20lgF+20lgD的無線電傳播路徑損耗公式,按一定的頻率F,對(duì)所有vi∈V,將自由空間損耗LBF轉(zhuǎn)化為計(jì)算相對(duì)應(yīng)的距離D;
步驟5:在前述3~6組的基站服務(wù)小區(qū)和鄰近服務(wù)小區(qū)的坐標(biāo)信息和距離中,以至少選取的3個(gè)信標(biāo)節(jié)點(diǎn)vi為圓心,信標(biāo)節(jié)點(diǎn)vi到未知節(jié)點(diǎn)vj為半徑作3個(gè)圓,經(jīng)雙精度轉(zhuǎn)換處理后,再由聯(lián)立方程求出內(nèi)側(cè)3個(gè)交點(diǎn)x,y,z及三角形質(zhì)心Ox,y,z,以此定位手機(jī)的當(dāng)前位置。
步驟6:由手機(jī)移動(dòng)用戶所處基站地理位置信息和服務(wù)的流入量生成該手機(jī)用戶的CSV詞典,由Python的Networkx軟件包創(chuàng)建手機(jī)在不同時(shí)間和空間位置上的數(shù)據(jù)流動(dòng)網(wǎng)絡(luò);
步驟7:由數(shù)據(jù)流動(dòng)網(wǎng)絡(luò)生成轉(zhuǎn)移矩陣M,對(duì)手機(jī)用戶在不同時(shí)間和空間位置的注意力投放介入人工解釋,得到社交網(wǎng)絡(luò)的數(shù)據(jù)展示。
4 結(jié)果與分析
為驗(yàn)證位置服務(wù)挖掘算法的有效性,在手機(jī)社交網(wǎng)絡(luò)G=(V,E)中,任意選取一個(gè)基站標(biāo)定ID為'49515218'的手機(jī)用戶,再在基站和手機(jī)兩端建立數(shù)據(jù)字典my.txt,然后從基站數(shù)據(jù)的Source端和Sink端提取手機(jī)社交網(wǎng)絡(luò)中指定的手機(jī)號(hào)碼的位置服務(wù)數(shù)據(jù)流入量(如表1所示),繼而由Python語言編程生成網(wǎng)絡(luò)相關(guān)度和轉(zhuǎn)移矩陣數(shù)據(jù)圖,再分析手機(jī)社交網(wǎng)絡(luò)特性。
為了編程預(yù)處理數(shù)據(jù)字典和數(shù)據(jù)流入量,先在Python語言中選取加載Networkx軟件包[6]。由于Networkx軟件包內(nèi)置了數(shù)據(jù)圖與復(fù)雜網(wǎng)絡(luò)分析算法,便于仿真建模分析手機(jī)社交網(wǎng)絡(luò)中的復(fù)雜網(wǎng)絡(luò),故可基于NetworkX軟件包進(jìn)行編程將手機(jī)社交的有向網(wǎng)絡(luò)G=(V,E)轉(zhuǎn)化為無向網(wǎng)絡(luò),將網(wǎng)絡(luò)節(jié)點(diǎn)視為信標(biāo)節(jié)點(diǎn)。計(jì)算信標(biāo)節(jié)點(diǎn)測(cè)度與生成測(cè)度分布序列,包括一個(gè)信標(biāo)節(jié)點(diǎn)vi到網(wǎng)絡(luò)中所有的其他信標(biāo)節(jié)點(diǎn)vj(i≠j)之間的距離、節(jié)點(diǎn)離心度、中心度以及手機(jī)社交網(wǎng)絡(luò)G=(V,E)的密度分布,即社交網(wǎng)絡(luò)G中實(shí)際存在的信標(biāo)節(jié)點(diǎn)鏈接數(shù)量■ei和給定節(jié)點(diǎn)數(shù)量■vi與鏈接數(shù)量■ei之間比值,并由Python編程生成手機(jī)位置服務(wù)的可視化數(shù)據(jù)統(tǒng)計(jì)圖。
下列是采用Python代碼按上述LBS位置服務(wù)算法實(shí)現(xiàn)的部分可視化數(shù)據(jù)統(tǒng)計(jì)圖,包括社交網(wǎng)絡(luò)相關(guān)度生成圖(圖1)及轉(zhuǎn)移矩陣M數(shù)據(jù)圖(圖2):
import networkx as nx
import matplotlib.pyplot as plt
G=nx.DiGraph()
with open('e://my.txt', 'r') as h:
for i in h:
x,y,w = i.strip().split(',')
G.add_edge(x.decode('utf-8'),y.decode('utf-8'),weight=int(w))
alpha = G.nodes()
alpha[0] = 'other'
A = nx.to_numpy_matrix(G)
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(A, interpolation='none')
ax.set_xticks(range(22))
ax.set_yticks(range(22))
ax.set_xticklabels(alpha,rotation=90, fontsize=8,verticalalignment='bottom')
ax.set_yticklabels(alpha,rotation=0, fontsize=8,verticalalignment='bottom')
fig.colorbar(cax)
plt.savefig('e://matrix.bmp', dpi =600)
plt.show()
在手機(jī)社交網(wǎng)絡(luò)相關(guān)度生成的數(shù)據(jù)圖(圖1)中,橫軸表示的是信標(biāo)鏈接節(jié)點(diǎn)的測(cè)度(即服務(wù)流入量數(shù)據(jù)的距離);縱軸表示的是信標(biāo)節(jié)點(diǎn)的中心度(即服務(wù)流入量數(shù)據(jù)的重要性)??梢园l(fā)現(xiàn),除去Source端和Sink端外,ID為'49515218'的手機(jī)用戶在手機(jī)位置服務(wù)中表現(xiàn)的信標(biāo)節(jié)點(diǎn)鏈接數(shù)量集中在測(cè)度為29.0到30.0之間的序列區(qū)間內(nèi),中心度主要相應(yīng)集中在0~5000的范圍內(nèi),除去3個(gè)較高中心度且分布稀疏的網(wǎng)絡(luò)節(jié)點(diǎn)vi、vj、vk以外,其他相應(yīng)的信標(biāo)節(jié)點(diǎn)數(shù)量達(dá)到了17個(gè),即vs(s=1,…,17且s≠i,j,k),只有很少的通話行為和上網(wǎng)行為分布在28.0~28.5的測(cè)度區(qū)間內(nèi)。雖然這3個(gè)信標(biāo)節(jié)點(diǎn)vi、vj、vk的中心度達(dá)到了55 000~155 000的較高值,但其網(wǎng)絡(luò)密度分布不均衡,其信標(biāo)節(jié)點(diǎn)在位置網(wǎng)絡(luò)中的離心度較高,而信標(biāo)節(jié)點(diǎn)的數(shù)量則偏少。
為進(jìn)一步區(qū)分手機(jī)社交行為有位置服務(wù)網(wǎng)絡(luò)中的流動(dòng)情況,將上述二個(gè)數(shù)據(jù)圖與數(shù)據(jù)字典my.txt和源自基站數(shù)據(jù)的Source端和Sink端及位置服務(wù)的數(shù)據(jù)流入量相結(jié)合,由生成的網(wǎng)絡(luò)轉(zhuǎn)移矩陣對(duì)手機(jī)用戶的網(wǎng)絡(luò)行為及潛在的社交網(wǎng)絡(luò)進(jìn)行解釋。由圖2可知,轉(zhuǎn)移矩陣數(shù)據(jù)圖基本上是對(duì)稱的,元素的稀疏或密集代表了使用不同服務(wù)之間的注意力流動(dòng),以及不同社交行為的聚集。即相對(duì)偏少的3個(gè)信標(biāo)節(jié)點(diǎn)vi、vj、vk說明ID為'49515218'的手機(jī)用戶相應(yīng)的通話聯(lián)系或上網(wǎng)行為可能是偶發(fā)的,而在另外的17個(gè)信標(biāo)節(jié)點(diǎn)vs(s=1,…,17且s≠i,j,k)中,手機(jī)位置服務(wù)中的產(chǎn)生“搜索”和“網(wǎng)上購物”二類數(shù)據(jù)流量的節(jié)點(diǎn)距離很近,“瀏覽”、“閱讀”、“資訊”三類數(shù)據(jù)流量的需求比例較相近,“音樂”、“視頻”二類數(shù)據(jù)流量的節(jié)點(diǎn)距離近,產(chǎn)生“游戲”、“旅游”、“房產(chǎn)”、“郵箱”、“支付”五類數(shù)據(jù)流量的需求比例較小,但信標(biāo)節(jié)點(diǎn)間的位置距離較遠(yuǎn)。
依據(jù)數(shù)據(jù)分析結(jié)果,如果是對(duì)特定的犯罪嫌疑人,則可獲得在使用手機(jī)LBS位置服務(wù)建立的手機(jī)社交網(wǎng)絡(luò)G中,其社交行為的注意力流動(dòng)傾向依次排序?yàn)椋涸L問社交網(wǎng)站、網(wǎng)上購物、查閱社會(huì)資訊、網(wǎng)上娛樂等,由此可判定個(gè)人的日常喜好、社交行為方式、性格傾向等。為縮小目標(biāo)范圍,可在前述數(shù)據(jù)分析基礎(chǔ)上,對(duì)手機(jī)社交網(wǎng)絡(luò)G縱深挖掘,即對(duì)任意一條邊ei∈E附加時(shí)間權(quán)重或語境內(nèi)容權(quán)重的選項(xiàng),再次進(jìn)行深度數(shù)據(jù)分析。在此基礎(chǔ)上,對(duì)以上手機(jī)社交行介入人工解釋,依照手機(jī)社交網(wǎng)絡(luò)G=(V,E)展現(xiàn)的符合閾值要求的網(wǎng)絡(luò)關(guān)聯(lián)度,將不同ID的手機(jī)用戶按照LBS位置服務(wù)內(nèi)容挖掘算法類似處理的結(jié)果進(jìn)行串并,并結(jié)合上網(wǎng)行為與手機(jī)話單進(jìn)行分析,再將手機(jī)社交行為與可疑號(hào)碼的通話時(shí)間、通話次數(shù)、通話圈、通話頻率等通話軌跡數(shù)據(jù)進(jìn)行匹配,以獲取與之關(guān)聯(lián)的人脈關(guān)系,并發(fā)現(xiàn)可疑線索和關(guān)聯(lián)證據(jù)。
5 結(jié)束語
LBS定位手機(jī)一個(gè)最大的低成本優(yōu)勢(shì)是在顯示服務(wù)場(chǎng)所方面只與數(shù)據(jù)點(diǎn)的采集與更新有關(guān),不涉及地圖數(shù)據(jù)的采集與更新,這在包月流量計(jì)價(jià)漸入常態(tài)的今天,會(huì)驅(qū)動(dòng)用戶不自主地選擇LBS定位方式。而“服務(wù)場(chǎng)所”恰恰是挖掘犯罪嫌疑人社交網(wǎng)絡(luò)的核心與焦點(diǎn),這將在執(zhí)法領(lǐng)域有更為普遍的應(yīng)用。
參考文獻(xiàn):
[1] 馬李芬. 電話信息在案件偵查中的運(yùn)用[J]. 社科縱橫,2010,25(12):71-74.
[2] 斯進(jìn). 手機(jī)話單分析信息碰撞技戰(zhàn)法的應(yīng)用研究[J]. 信息網(wǎng)絡(luò)安全,2011(7):63-68.
[3] 王彥學(xué). 基于人、機(jī)到案層面的手機(jī)數(shù)據(jù)收集與研判[J]. 警察技術(shù),2015(2):38-41.
[4] Lugano G. Mobile Social Networking in Theory and Practice[J]. First Monday,2008,13(11):15-20.
[5] 施偉,劉慧君,傅鶴崗,等. 基于手機(jī)數(shù)據(jù)的社交網(wǎng)絡(luò)構(gòu)建[J]. 計(jì)算機(jī)工程,2013,39(5):101-105.
[6] Aric A. Hagberg,Daniel A. Schult and Pieter J. Swart.Exploring network structure,dynamics,and function using NetworkX[C]//Proceedings of the 7th Python in Science Conference(SciPy2008),Pasadena,CA USA,2008:11-15.
Abstract: The approach concerns mainly a series of works: the analysis of data mining for the social networks to criminal suspects based on LBS, the establishing data dictionary by extracting phone data and base station data, the proposing of a data mining algorithm on LBS, the analysis of the prospective relationship between social behavior, social networks and crime clue. Finally, an example was given about implementation process of machine learning based on Python.
Keywords: phones; positioning; python; social networks; LBS; association
(責(zé)任編輯:徐興華)
寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào)2016年4期