陳芳琳 鐘 婷
(廣東警官學(xué)院,廣東 廣州 510232)
通訊消息包含嫌疑人本身高消息頻次的親屬聯(lián)絡(luò)等社交聯(lián)絡(luò)“障眼”,如何在大量信息中高效撥開“障眼”找尋涉嫌犯罪的關(guān)聯(lián),增加衡量維度深入挖掘數(shù)據(jù)潛力并推廣至偵查基層?另一層面,以往的數(shù)據(jù)挖掘多為復(fù)雜數(shù)學(xué)模型,算法研究等理論框架[1]未能與實(shí)際基層提取到的電子數(shù)據(jù)進(jìn)行實(shí)戰(zhàn)演練。本文從一線立案偵查獲取到的涉疫走私嫌疑人手機(jī)電話通訊及微信通訊記錄入手,除考慮消息頻次外,構(gòu)造基于通信頻次與再次聯(lián)絡(luò)間隔時長的三維矩陣親密度算法,為基層偵查提供可行分析路徑。
涉嫌涉疫走私類型犯罪人員大多在“老鄉(xiāng)”等人介紹下短期涉險,團(tuán)伙作案概率較高。本文研究對象是涉疫走私的嫌疑人手機(jī)信息,旨在利用提取到的通訊記錄來構(gòu)造基于親密度理論的通訊畫像,為偵查提供幫助?;鶎硬块T通過設(shè)備提取到數(shù)據(jù)一般為json 格式(見圖1),包含昵稱、雙方發(fā)送消息數(shù)及存儲路徑。
圖1 嫌疑人通訊記錄(json 格式)
本文使用json 格式提取關(guān)鍵信息技術(shù)[2],將通訊對象以及對應(yīng)的消息頻次(包含恢復(fù)數(shù)據(jù))提取出來解析為html 格式(見圖2),每條聊天記錄的關(guān)鍵信息主要有時間戳、發(fā)送者昵稱、本人昵稱、聊天內(nèi)容。
圖2 嫌疑人通訊記錄(html 格式)
如圖1 中“(1021)”所示,嫌疑人(嫌疑人在手機(jī)取證過程中顯示為Administrator,以下簡稱A)與各聯(lián)絡(luò)人都有往來的消息數(shù),偵查人員一般根據(jù)該數(shù)字作為判斷是否為團(tuán)伙,并展開研究甚至追蹤該人員,但消息頻數(shù)的統(tǒng)計不足以衡量雙方的關(guān)系深淺,需要更多維度作為變量進(jìn)行數(shù)據(jù)挖掘。因此以涉疫走私嫌疑人手機(jī)通訊信息為例,本文主要利用時間戳展開研究。
社交媒體中來往回復(fù)速度一定程度上反映了雙方的親密程度。互動次數(shù)調(diào)查對回復(fù)消息的時間快慢程度進(jìn)行親密度考量[3],發(fā)現(xiàn)5min內(nèi)回復(fù)關(guān)系為非常親密,5~10min為親密,1h 內(nèi)為普通朋友,1h 以上可能是垃圾信息或者廣告訂閱等,親密度較低。本研究利用這種親密指數(shù)參考進(jìn)行親密度層級劃分。
筆者利用提取到的時間戳信息統(tǒng)計雙方有效回復(fù)的時間間隔,則暗含兩個維度是否有往來對話(跳過單方面發(fā)送消息),以及對話間隔時間;而親密度的另一個統(tǒng)計維度為時間序列,本文研究中用天數(shù)來劃分。在數(shù)據(jù)量巨大且衡量指標(biāo)較多(本情況為三維變量),框架算法研究者[4]提出需要用矩陣來挖掘關(guān)聯(lián)關(guān)系,因此本文在理論模型上使用矩陣來記錄親密度Relationship Closeness(以下簡稱RC),矩陣算法公式如下:
該公式涉及的字母基本定義及備注如下:
(1)RC(A, ui)表示嫌疑人與聊天對象ui之間的親密度,則每位對象u 共M 次聊天記錄;以嫌疑人的最多通訊頻次來設(shè)定M(次),若不滿M(次),則在矩陣中設(shè)定為0。
(2)N 值(高頻通訊人數(shù)),為進(jìn)一步縮小算法運(yùn)算時間,本文N 為取值為15 人。偵查部門還可根據(jù)實(shí)際情況設(shè)定消息數(shù)的閾值,如超過500 條信息的人數(shù),從而確定出N 值。
(3)n 值:n=1 為回復(fù)時間間隔小于5min;n=2 為5 ~10min; n=3 為10 ~60min;n=4 為60min 以上。
根據(jù)上述四個層級劃分親密度,如果以A為中心,共M 次聊天記錄,對其前N 位聊天對象的回復(fù)時間間隔進(jìn)行四個層級頻次統(tǒng)計,例如兩次交流時間的間隔小于5min,則在第一個層級上的頻數(shù)累加;若時間間隔在5~10min內(nèi),則在該段時間間隔頻數(shù)累加,以此類推,如下矩陣所示:
利用上述矩陣模型,代入基層部門提取到的案件手機(jī)信息進(jìn)行可視化應(yīng)用,畫出嫌疑人通訊畫像。首先,通過提取json 記錄的通訊消息數(shù)共36280 條通訊記錄。再根據(jù)其消息數(shù)由高到低排序出15 人作為進(jìn)一步研究對象(以下通訊對象皆為化名)。如圖3 所示,中間是嫌疑人,連線中的數(shù)字是雙方的消息頻次。其中,消息數(shù)最高的聯(lián)絡(luò)人為“寂寞不哭”,達(dá)1021條消息。通訊畫像從這位開始,再根據(jù)理論畫出其通訊畫像。
圖3 嫌疑人A 與前15 位聯(lián)絡(luò)人畫像
令RC(A,ui)中的ui = 寂寞不哭,矩陣映射至如表1 所示:
表1 嫌疑人A 的與寂寞不哭通訊頻次統(tǒng)計矩陣
圖4是雙方通訊親密度隨時間變化的情況。利用折線圖中的橫軸為通訊頻次,以天數(shù)為劃分;縱軸為每天聯(lián)系的總次數(shù)。不同的顏色代表對應(yīng)親密度層級;藍(lán)色占比越多,回復(fù)間隔時間越短,親密度關(guān)系越高。嫌疑人A 與化名為“寂寞不哭”的通訊從2021 年7 月8 日到次年3 月5 日,雖偶有聯(lián)絡(luò)頻次降低的情況,但總體看聯(lián)絡(luò)較為頻繁,該類聯(lián)絡(luò)人極可能屬于親屬或長期業(yè)務(wù)來往關(guān)系。對于此類通訊對象,若業(yè)務(wù)上無涉及涉嫌犯罪行為暫可排除其嫌疑,提高偵查效率。
圖4 RC(A,“寂寞不哭”)可視化畫像
作為對照,令ui= YS*,雙方消息頻數(shù)達(dá)986 條,親密度矩陣映射如表2 所示,將得到的數(shù)據(jù)進(jìn)行可視化操作畫出通訊畫像,如圖5所示。
表2 嫌疑人A 的與YS*通訊頻次統(tǒng)計矩陣
圖5 RC(A,“YS*”)可視化畫像
雖然以“YS*”為代表的此類對象與以“寂寞不哭”為代表高消息頻數(shù)聯(lián)絡(luò)人在消息數(shù)上相差無幾,但經(jīng)過RC 矩陣后數(shù)據(jù)呈現(xiàn)出明顯不同。前者(如圖5 最高往來頻次達(dá)95 次)相較于低頻的長期聯(lián)系的后者(如圖4 最高往來次數(shù)為35)在特定時間段來往極為頻繁,在偵查階段屬于重點(diǎn)對象。
根據(jù)圖4、圖 5 的畫像可看出,掌握特定涉嫌犯罪的事件時間后,YS*的研究意義要甚于消息頻次更多的“寂寞不哭”,前者在親密度高頻聯(lián)系(即回復(fù)時間小于5min)的占比83.8%不僅略高于后者的83.1%,且在2022 年1 月20 日達(dá)到聯(lián)系高峰,消息多且聯(lián)系極度頻繁。經(jīng)與實(shí)戰(zhàn)偵查部門查證,該時間段與涉嫌走私犯罪行為實(shí)施時間重合關(guān)聯(lián),可為涉嫌犯罪動機(jī)的時間提供輔證。畫像的目的在于將高往來人群(消息頻次較高)加以區(qū)分,排查出真正與涉嫌犯罪有關(guān)的人員,同時提供涉嫌犯罪行為的時間、人員認(rèn)定等側(cè)面印證。
本文利用親密度理論搭建通訊矩陣算法模型,為僅停留在“消息頻數(shù)”的研究上新增了3 維度的評價變量,分別為雙方是否互動、互動消息間隔以及聯(lián)絡(luò)時間序列上的變化。隨后的可視化畫像能夠作為判斷該人物與嫌疑人之間通訊親密度關(guān)系的重要參考。該方法不需要額外購買用戶畫像等相關(guān)軟件即可分析提取到j(luò)son 或html 數(shù)據(jù)格式,為基層單位因預(yù)算問題,或因數(shù)據(jù)量巨大導(dǎo)致程序耗時過長等提供切實(shí)可行的通訊畫像功能。
針對本文研究的矩陣式算法模型仍有發(fā)展的空間,例如微信通訊以及電話通訊親密度RC的時間粒度應(yīng)該再細(xì)化,使用電話聯(lián)絡(luò),相隔60min 以上較為常見,微信聯(lián)絡(luò)時間跨度較長但回復(fù)間隔時間極短,有時候甚至1min 可以有8 ~12 個來回對話;其次,M 的計數(shù)方式還待完善,以天數(shù)劃分會忽視午夜回復(fù)的聊天間隔時間。雖然在本次研究中跨午夜的情況不多,但仍可作為一個研究方向。