楊 雪 李國(guó)軍 徐 博
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,Web應(yīng)用隨之普及,電子商務(wù)、電子政務(wù)等相關(guān)網(wǎng)站給人們的生活帶來(lái)極大的便利。然而,Web技術(shù)也為社會(huì)帶來(lái)一些負(fù)面影響,不法分子常利用網(wǎng)站開(kāi)展色情傳播、賭博或電信詐騙等違法犯罪活動(dòng)。從網(wǎng)絡(luò)流量中自動(dòng)關(guān)聯(lián)相應(yīng)的Web應(yīng)用已成為網(wǎng)絡(luò)管理員必備的一項(xiàng)技能。SSL/TLS等端到端加密協(xié)議能夠保護(hù)通信的具體內(nèi)容但并未隱藏網(wǎng)絡(luò)流量中報(bào)文的長(zhǎng)度、方向、時(shí)序等邊信息,因此仍會(huì)遭受利用。目前,網(wǎng)站指紋識(shí)別領(lǐng)域的研究人員通常利用機(jī)器學(xué)習(xí)算法分析加密網(wǎng)絡(luò)流量,識(shí)別用戶訪問(wèn)的網(wǎng)頁(yè)/網(wǎng)站,(1)See FAIK A &JASLEEN K. Can Android Applications be Identified Using Only TCP/IP Headers of Their Launch Time Traffic. The 9th ACM Conference on Security and Privacy in Wireless and Mobile Networks, Darmstadt,2016:61-66. See Wang T, Cai X &Nithyanand R. Effective Attacks and Provable Defenses for Website Fingerprinting. The 23rd USENIX Security Symposium, California,2014:143-157.然而這些研究方法大都關(guān)注單個(gè)網(wǎng)頁(yè)(如網(wǎng)站主頁(yè))的指紋識(shí)別,忽略頁(yè)面間的跳轉(zhuǎn)。而在現(xiàn)實(shí)場(chǎng)景中,用戶大都通過(guò)點(diǎn)擊超鏈接訪問(wèn)Web應(yīng)用各模塊,且觸發(fā)的網(wǎng)絡(luò)報(bào)文序列較長(zhǎng)。本文利用網(wǎng)頁(yè)間跳轉(zhuǎn)信息構(gòu)建“用戶—Web應(yīng)用交互模式”,在未知網(wǎng)絡(luò)流量中識(shí)別用戶的行為,并應(yīng)用于一種基于用戶角色和行為模式的Web應(yīng)用程序識(shí)別框架。
國(guó)際權(quán)威調(diào)研機(jī)構(gòu)Gartner的調(diào)查顯示,互聯(lián)網(wǎng)信息安全攻擊有75%發(fā)生在應(yīng)用層而非網(wǎng)絡(luò)層上,即Web應(yīng)用是黑客攻擊的主要目標(biāo)。(2)See Gartner. Predicts 2022: Cyber-Physical Systems Security Critical Infrastructure in Focus.2022-01-26.https://www.gartner.com/en/doc/757423-predictive-analytics-cyber-security.2022-02-23.因此,從掌握網(wǎng)絡(luò)安全態(tài)勢(shì)的角度出發(fā),網(wǎng)絡(luò)管理員或網(wǎng)絡(luò)審查機(jī)構(gòu)也需具備從網(wǎng)絡(luò)流量自動(dòng)關(guān)聯(lián)出用戶訪問(wèn)的Web服務(wù)的能力。近年來(lái),部分學(xué)者在這一研究領(lǐng)域提出解決方案。Ionescu和Keirstead提出一個(gè)識(shí)別框架,通過(guò)掃描用戶、Web應(yīng)用之間的交互行為以及用戶訪問(wèn)的網(wǎng)絡(luò)資源識(shí)別關(guān)聯(lián)的應(yīng)用程序。(3)See Ionescu P, Keirstead J &Onut I. Automatic Traffic Classification of Web Applications and Services based on Dynamic Analysis. United States Patent,2019.與這些針對(duì)用戶是否訪問(wèn)某一具體網(wǎng)頁(yè)或網(wǎng)站的方法相比,公安機(jī)關(guān)更需要一種能夠識(shí)別邏輯相似的Web應(yīng)用的方法。
從頁(yè)面跳轉(zhuǎn)觸發(fā)的網(wǎng)絡(luò)流量中構(gòu)建交互模式在Web應(yīng)用識(shí)別領(lǐng)域具有現(xiàn)實(shí)意義。近年來(lái),服務(wù)商提供的模板使網(wǎng)站的創(chuàng)建變得越來(lái)越簡(jiǎn)單。(4)參見(jiàn)柏志安、廖健、曾劍平:《基于DOM樹(shù)與模板的自適應(yīng)網(wǎng)絡(luò)信息抽取方法》,《計(jì)算機(jī)應(yīng)用與軟件》2022年第8期。模板化建站加大了執(zhí)法機(jī)關(guān)對(duì)不法網(wǎng)站的打擊難度,犯罪分子在網(wǎng)站被取締后仍可將其“改頭換面”(修改域名、標(biāo)題、網(wǎng)頁(yè)圖片等),保留原來(lái)的業(yè)務(wù)繼續(xù)運(yùn)營(yíng)。例如,有新聞報(bào)道網(wǎng)警程某利用工作之便,在打擊賭博網(wǎng)站后將查獲的源代碼交給他人重新開(kāi)設(shè)賭場(chǎng)獲利。因此,本文認(rèn)為由同一模板派生出的Web應(yīng)用即使具有不同的標(biāo)題或圖片等外觀元素,但它們?nèi)跃哂邢嗨频牡讓庸δ苓壿?這些相對(duì)固定的功能邏輯可被視為該類Web應(yīng)用的“基因”。
Web應(yīng)用的功能邏輯通常以用戶和應(yīng)用間的交互模式呈現(xiàn),各類型的用戶具有不同的權(quán)限,可執(zhí)行不同類型的操作。用戶在Web應(yīng)用上執(zhí)行的各類操作可用有向連接圖U=(V,E)表示。其中,頂點(diǎn)集合V表示用戶可執(zhí)行的一系列動(dòng)作,邊集合E則代表各動(dòng)作間的跳轉(zhuǎn)。如圖1所示,一個(gè)Web應(yīng)用可描述為不同用戶類型及其可執(zhí)行的操作,圖中頂點(diǎn)vi代表用戶的某種行為,Pij則表示用戶行為由vi轉(zhuǎn)變?yōu)関j的概率。例如:某社交論壇包括注冊(cè)用戶和訪客兩種角色的用戶,同一角色的用戶往往呈現(xiàn)一定的行為模式(如注冊(cè)用戶通常會(huì)執(zhí)行登錄、瀏覽、發(fā)帖等操作)。因此,從網(wǎng)絡(luò)流量中挖掘用戶與Web應(yīng)用的交互模式,并在未知流量中識(shí)別用戶行為在Web應(yīng)用識(shí)別領(lǐng)域具有應(yīng)用價(jià)值。
圖1 Web應(yīng)用模型
針對(duì)目前通過(guò)識(shí)別用戶訪問(wèn)某個(gè)Web頁(yè)面(通常為網(wǎng)站主頁(yè))判斷其是否訪問(wèn)某Web應(yīng)用,而實(shí)際的用戶行為往往涉及多個(gè)頁(yè)面間跳轉(zhuǎn)的問(wèn)題,論文提出一種利用網(wǎng)絡(luò)流量報(bào)文分布信息的自適應(yīng)用戶行為識(shí)別方法,借助生物信息學(xué)中廣泛使用的Profile Hidden Markov Model(5)See Eddy S R. Profile Hidden Markov Models. Bioinformatics,1998,14(9):755-763.模型從網(wǎng)頁(yè)跳轉(zhuǎn)觸發(fā)的網(wǎng)絡(luò)流量中挖掘用戶與Web應(yīng)用間的交互模式,從未知網(wǎng)絡(luò)流量中識(shí)別用戶行為,并應(yīng)用于一種基于用戶角色和行為模式的Web應(yīng)用程序識(shí)別框架。
功能各異的Web應(yīng)用使得越來(lái)越多的用戶通過(guò)網(wǎng)絡(luò)使用金融、在線游戲和網(wǎng)絡(luò)購(gòu)物等高級(jí)場(chǎng)景。網(wǎng)絡(luò)流量是用戶與Web應(yīng)用間交互的重要載體,用戶執(zhí)行的各類操作會(huì)觸發(fā)相應(yīng)的網(wǎng)絡(luò)流量,同時(shí)可能泄露一些隱私數(shù)據(jù)(如聯(lián)系人、照片、位置等)。近年來(lái),網(wǎng)絡(luò)流量分析技術(shù)越來(lái)越受到研究人員的關(guān)注。一方面,網(wǎng)絡(luò)管理人員可以通過(guò)網(wǎng)絡(luò)流量分析重構(gòu)用戶的行為序列(6)See Xie G, Liofotou M &Karagiiannis T. ReSurf: Reconstructing Web-surfing Activity from Network Traffic. IFIP Networking Conference, New York,2013:1-9. See Neasbitt C, Perdisci R &Li K. ClickMiner: Towards Forensic Reconstruction of User-Behavior Interactions from Network Traces. The 2014 ACM SIGSAC Conference on Computer and Communications Security, Arizona,2014:1244-1255.、識(shí)別惡意軟件(7)參見(jiàn)高峰、鮑旭丹、劉敬:《WEID:一種基于信息量差加權(quán)集成的Android惡意軟件檢測(cè)方法》,《計(jì)算機(jī)應(yīng)用與軟件》2022年第9期。See Wang W, Sun C S &Ye J N. A Method for TLS Malicious Traffic Identification based on Machine Learning. Advances in Science and Technology,2021,105:291-301.、提升網(wǎng)絡(luò)服務(wù)質(zhì)量等(8)參見(jiàn)孫明瑋、司維超、董琪:《基于多維度數(shù)據(jù)的網(wǎng)絡(luò)服務(wù)質(zhì)量的綜合評(píng)估研究》,《計(jì)算機(jī)科學(xué)》2021年第6A期。。另一方面,攻擊者通過(guò)網(wǎng)絡(luò)流量分析能夠獲取目標(biāo)網(wǎng)絡(luò)中用戶訪問(wèn)的Web應(yīng)用(9)See Wang Y B, Xu H T &Guo Z H. snWF: Website Fingerprinting Attack by Ensembling the Snapshot of Deep Learning. IEEE Transactions on Information Forensics and Security,2022,17:1214-1226.、挖掘用戶網(wǎng)絡(luò)行為習(xí)慣(10)See Dai S, Tongaonkar A &Wang X. NetworkProfiler: Towards Automatic Fingerprinting of Android Apps. IEEE INFOCOM, Turin,2013:809-817.等隱私信息。國(guó)內(nèi)外與本文相關(guān)的研究主要集中在網(wǎng)站指紋攻擊、網(wǎng)絡(luò)行為分析等領(lǐng)域。
網(wǎng)站指紋攻擊(Website Fingerprinting Attack)能夠判斷用戶訪問(wèn)了哪些網(wǎng)站或網(wǎng)頁(yè),通過(guò)分析探知用戶隱私(如:興趣愛(ài)好、政治傾向等)。1998年,Cheng和Avnur(11)See Cheng H &Avnur R. Traffic Analysis of SSL Encrypted Web Browsing.1998-01-01.http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.3.1201. 2021-11-05.證實(shí)SSL無(wú)法抵御網(wǎng)絡(luò)流量分析,第一次提出網(wǎng)站指紋攻擊的概念。近年來(lái),網(wǎng)站指紋攻擊得到研究者的廣泛關(guān)注,各種機(jī)器學(xué)習(xí)算法被應(yīng)用到這一領(lǐng)域且取得了不錯(cuò)的成果。
Cai等人(12)See Cai X, Zhang X &Joshi B. Touching from a Distance: Website Fingerprinting Attacks and Defenses. The 2012 ACM SIGSAC Conference on Computer and Communications Security, Raleigh,2012:605-616.使用隱馬爾可夫模型(Hidden Markov Model,HMM)對(duì)網(wǎng)站建模,HMM的各狀態(tài)對(duì)應(yīng)網(wǎng)站的頁(yè)面或頁(yè)面類目。Hayes和Danezis(13)See Hayes J &Danezis G. K-fingerprinting: a Robust Scalable Website Fingerprinting Technique. The 25th USENIX Security Symposium, Austin,2016:1187-1203.提出從加密或匿名網(wǎng)絡(luò)流量中識(shí)別用戶訪問(wèn)網(wǎng)頁(yè)的K-fingerprinting方法。Sirinam等人(14)See Sirinam P, Mathews N &Rahman M. Triplet Fingerprinting: More Practical and Portable Website Fingerprinting with N-Shot Learning. The 2019 ACM SIGSAC Conference on Computer and Communications Security, Colorado,2019:1131-1148.提出Triplet Fingerprinting方法,采用N-shot算法在減少收集、訓(xùn)練網(wǎng)站指紋訓(xùn)練集工作量的同時(shí),降低不同網(wǎng)絡(luò)環(huán)境對(duì)攻擊效果的影響。FineWP(15)See Shen M, Liu Y &Zhu L. Fine-Grained Webpage Fingerprinting Using Only Packet Length Information of Encrypted Traffic. IEEE Transactions on Information Forensics and Security,2021,16:2046-2059.是一種細(xì)粒度網(wǎng)頁(yè)指紋提取工具,通過(guò)提取客戶與服務(wù)器交互時(shí)雙向網(wǎng)絡(luò)流量中報(bào)文長(zhǎng)度作為特征向量訓(xùn)練隨機(jī)森林、決策樹(shù)和KNN等機(jī)器學(xué)習(xí)分類器,在控制訓(xùn)練開(kāi)銷(xiāo)的同時(shí)獲得高識(shí)別率。以上研究大多考慮單一網(wǎng)頁(yè),忽略用戶行為觸發(fā)的網(wǎng)頁(yè)間跳轉(zhuǎn)。Zhuo等人(16)See Zhuo Z, Zhang Y &Zhang Z. Website Fingerprinting Attack on Anonymity Networks Based on Profile Hidden Markov Model. IEEE Transactions on Information Forensics and Security,2018,13(5):1081-1095.驗(yàn)證了PHMM能夠有效利用Web頁(yè)面間的跳轉(zhuǎn)信息提高網(wǎng)站識(shí)別的準(zhǔn)確率。本文同樣借助PHMM能夠有效使用頁(yè)面跳轉(zhuǎn)信息這一特點(diǎn)構(gòu)建“用戶—Web應(yīng)用交互模式”,并提出一種利用網(wǎng)絡(luò)流量統(tǒng)計(jì)特征的自適應(yīng)符號(hào)化算法。
用戶訪問(wèn)Web應(yīng)用時(shí)觸發(fā)的網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)不同模式,這使得在網(wǎng)絡(luò)流量中識(shí)別用戶行為成為可能。網(wǎng)絡(luò)行為分析可用于提升網(wǎng)絡(luò)服務(wù)質(zhì)量或挖掘用戶隱私。
Conti等人(17)See Conti M, Mancini L &Spolaor R. Analyzing Android Encrypted Network Traffic to Identify User Actions. IEEE Transactions on Information Forensics and Security,2016,11(1):114-125.提出一個(gè)移動(dòng)APP內(nèi)的行為檢測(cè)框架,利用IP地址、TCP報(bào)文頭部等信息識(shí)別用戶在應(yīng)用內(nèi)的操作。他們使用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)和隨機(jī)森林算法挖掘行為模式。然而,動(dòng)態(tài)時(shí)間規(guī)整算法在序列長(zhǎng)度較長(zhǎng)、兩段時(shí)間序列長(zhǎng)度相當(dāng)時(shí)計(jì)算效率低。Fu等(18)See Fu Y J, Xiong H &Lu X J. Service Usage Classification with Encrypted Internet Traffic in Mobile Messaging Apps. IEEE Transactions on Mobile Computing,2016,15(11):2851-2864.研究如何利用加密網(wǎng)絡(luò)流量對(duì)移動(dòng)APP內(nèi)的用戶行為進(jìn)行分類。他們使用報(bào)文長(zhǎng)度、時(shí)延以及時(shí)序依賴性等特征,將收集到的流量劃分為Session和Dialog兩個(gè)層次,再以Dialog為基本單位選擇報(bào)文長(zhǎng)度序列和時(shí)間間隔序列開(kāi)展用戶行為分類。
目前,網(wǎng)絡(luò)行為分析技術(shù)已從傳統(tǒng)網(wǎng)絡(luò)應(yīng)用場(chǎng)景擴(kuò)展到移動(dòng)智能家居設(shè)備研究領(lǐng)域。PINGPONG(19)See Trimananda R, Varmaken J &Markopoulou A. Packet-Level Signatures for Smart Home Devices. The Network and Distributed System Security Symposium, California,2020:1-18.能夠自動(dòng)從網(wǎng)絡(luò)流量中提取智能家居設(shè)備的指紋,識(shí)別各類動(dòng)作(如開(kāi)燈或關(guān)燈)。HoMonit(20)See Zhang W, Meng Y &Liu Y. HoMonit: Monitoring Smart Home Apps from Encrypted Traffic. The 2018 ACM SIGSAC Conference on Computer and Communications, Toronto,2018:1074-1088.通過(guò)分析智能家居設(shè)備產(chǎn)生的網(wǎng)絡(luò)流量判斷用戶在設(shè)備上的操作。Li和Feng等(21)See Li Q, Feng X &Wang R. Towards Fine-Grained Fingerprinting of Firmware in Online Embedded Devices. IEEE Conferences on Computer Communications, Hawaii,2018:2537-2545.采用自然語(yǔ)言處理技術(shù)和文檔對(duì)象模型分析固件鏡像文件系統(tǒng)的細(xì)微差別,進(jìn)而提取指紋識(shí)別互聯(lián)網(wǎng)上的固件。他們的方法必須主動(dòng)與固件交互,因而容易被感知。本文采用被動(dòng)監(jiān)聽(tīng)的方法在網(wǎng)絡(luò)流量中識(shí)別用戶訪問(wèn)Web應(yīng)用的行為。
定義1 用戶行為(UserAction)用戶為實(shí)現(xiàn)某一目的與Web應(yīng)用間的某次交互活動(dòng)。例如:用戶點(diǎn)擊某社交網(wǎng)站的登錄框,輸入賬號(hào)和密碼,點(diǎn)擊“登錄”按鈕登入該網(wǎng)站。
定義3 流量序列(TrafficSequence)用戶執(zhí)行某一行為觸發(fā)的報(bào)文序列,流量序列TS是網(wǎng)絡(luò)流量F的子集,即:TS?F。
本文擬解決的問(wèn)題:給定捕獲到的流量序列TS,判斷觸發(fā)該流量序列的用戶行為,即識(shí)別目標(biāo)網(wǎng)絡(luò)內(nèi)的用戶訪問(wèn)某Web應(yīng)用時(shí)執(zhí)行的操作。
例如,某社交論壇允許用戶執(zhí)行若干操作(注冊(cè)用戶通常會(huì)執(zhí)行登錄、瀏覽、發(fā)布新帖、發(fā)表評(píng)論等操作),由于不同的用戶行為觸發(fā)的網(wǎng)絡(luò)流量具有不同的特點(diǎn),可收集用戶與該論壇交互時(shí)產(chǎn)生的網(wǎng)絡(luò)流量,針對(duì)不同用戶操作分別訓(xùn)練行為模型,并利用這些模型從未知網(wǎng)絡(luò)流量中識(shí)別用戶行為,進(jìn)而判斷該未知網(wǎng)絡(luò)流量是否由用戶與某個(gè)特定Web應(yīng)用之間的交互產(chǎn)生,即判斷目標(biāo)網(wǎng)絡(luò)內(nèi)的用戶是否訪問(wèn)了某Web應(yīng)用。
本節(jié)介紹從網(wǎng)絡(luò)流量中構(gòu)建用戶行為模型的方法。首先收集用戶與目標(biāo)Web應(yīng)用交互時(shí)產(chǎn)生的網(wǎng)絡(luò)流量,按一定規(guī)則過(guò)濾冗余信息。然后,提取報(bào)文長(zhǎng)度、方向、時(shí)間戳等邊信息構(gòu)造流量序列特征向量,挖掘用戶與Web應(yīng)用的交互行為模型。本文提出的用戶行為建模及識(shí)別框架如圖2所示。
圖2 用戶行為建模及識(shí)別框架
在可控小規(guī)模網(wǎng)絡(luò)中利用計(jì)算機(jī)作為AP記錄用戶訪問(wèn)Web應(yīng)用觸發(fā)的網(wǎng)絡(luò)流量,圖3展示了網(wǎng)絡(luò)流量收集方式。在流量收集的過(guò)程中,除了屏蔽用戶訪問(wèn)目標(biāo)Web應(yīng)用以外的其他上網(wǎng)行為產(chǎn)生的流量,還記錄了用戶與Web應(yīng)用交互時(shí)每種行為的開(kāi)始時(shí)間與結(jié)束時(shí)間,以便盡可能過(guò)濾掉異常流量。
圖3 網(wǎng)絡(luò)流量收集
網(wǎng)絡(luò)流量預(yù)處理階段包括三個(gè)步驟:流量過(guò)濾、流量序列化以及流量切分。首先要過(guò)濾非必需的網(wǎng)絡(luò)流量,其次是將流量數(shù)據(jù)轉(zhuǎn)為序列化的特征數(shù)據(jù)以便后續(xù)處理,最后將流量切分以區(qū)分不同行為對(duì)應(yīng)的不同網(wǎng)絡(luò)流量。
1.流量過(guò)濾。捕獲到的網(wǎng)絡(luò)流量中不可避免存在不相關(guān)流量,例如,數(shù)據(jù)傳輸過(guò)程中丟失、損壞的重傳數(shù)據(jù)包;不攜帶負(fù)載僅在數(shù)據(jù)傳輸過(guò)程中起到確認(rèn)作用的ACK數(shù)據(jù)報(bào)文、用于TCP握手過(guò)程中建立連接和斷開(kāi)連接的數(shù)據(jù)報(bào)文等。在收集網(wǎng)絡(luò)流量時(shí),還不可避免地會(huì)存在操作系統(tǒng)產(chǎn)生的背景流量、網(wǎng)絡(luò)通訊過(guò)程中所需要的網(wǎng)絡(luò)流量以及一些非關(guān)鍵性網(wǎng)絡(luò)流量,如ARP、DHCP等報(bào)文。此外,為防止其他用戶連接至相同Wi-Fi訪問(wèn)點(diǎn),利用IP地址過(guò)濾非目標(biāo)用戶產(chǎn)生的流量。
2.流量序列化。流量序列化指將收集到的網(wǎng)絡(luò)流量轉(zhuǎn)化為便于計(jì)算機(jī)處理的數(shù)字序列。本文提取網(wǎng)絡(luò)流量中各報(bào)文的長(zhǎng)度、方向、時(shí)間戳等邊信息將流量數(shù)據(jù)轉(zhuǎn)化為數(shù)字序列。時(shí)間戳是切分網(wǎng)絡(luò)流量的依據(jù),可用來(lái)計(jì)算流量中報(bào)文間的時(shí)間間隔,從網(wǎng)絡(luò)流量中切分出不同的網(wǎng)絡(luò)行為子序列。
3.流量切分。利用IP地址、cookies等信息區(qū)分不同用戶的網(wǎng)絡(luò)流量,對(duì)于部署了網(wǎng)絡(luò)地址轉(zhuǎn)換(Network Address Translation,NAT)的網(wǎng)絡(luò),可使用文獻(xiàn)(23)See Verde N, Ateniese G &Gabrielli E. No NAT’d User Left Behind: Fingerprinting Users Behind NAT from NetFlow Records Alone. The 34th IEEE International Conference on Distributed Computing Systems, Madrid,2014:218-227.提出的方法從流量中區(qū)分不同的用戶。為方便描述用戶操作觸發(fā)的網(wǎng)絡(luò)報(bào)文序列,給出“會(huì)話”和“交互流量”的定義。
網(wǎng)絡(luò)流量是用戶與Web應(yīng)用交互時(shí)產(chǎn)生的,收集到的網(wǎng)絡(luò)流量中混合了用戶的多種行為,流量切分的目的就是要從中切分出用戶行為子序列。通常的做法是先去除一整段網(wǎng)絡(luò)流量中的背景流量,然后按固定時(shí)間間隔閾值將流量切分成多個(gè)會(huì)話,再將每個(gè)會(huì)話切分成若干段子序列,每段子序列代表用戶的一種行為。
首先將序列化后的報(bào)文序列以固定時(shí)間間隔切分為多個(gè)會(huì)話,每個(gè)會(huì)話記為Session。然后將每個(gè)Session切分為固定時(shí)長(zhǎng)的片段,即為Burst。由于每個(gè)Session可能包含若干連續(xù)的Burst,而每個(gè)用戶動(dòng)作產(chǎn)生的網(wǎng)絡(luò)報(bào)文量及持續(xù)時(shí)間不同,時(shí)間閾值的選取非常重要。本文在后續(xù)的實(shí)驗(yàn)中將固定時(shí)長(zhǎng)閾值設(shè)置為4.5秒,以期獲得最佳分類效果。
經(jīng)過(guò)流量預(yù)處理操作后,能夠得到不同用戶行為觸發(fā)的報(bào)文序列,可建立模型從中識(shí)別這些報(bào)文序列對(duì)應(yīng)的“用戶—Web應(yīng)用”交互類型。
1.PHMM模型。PHMM模型在計(jì)算生物學(xué)領(lǐng)域被廣泛應(yīng)用于識(shí)別基因序列的家族關(guān)系。研究者發(fā)現(xiàn),同一家族的基因序列間雖然存在一些差異,但序列中某些位置的基因表達(dá)與其他位置相比更加固定。與基因序列類似,同一用戶動(dòng)作(如多次登錄同一Web應(yīng)用)觸發(fā)的網(wǎng)絡(luò)流量雖然會(huì)隨著網(wǎng)絡(luò)環(huán)境變化而發(fā)生波動(dòng),但其攜帶的關(guān)鍵信息不會(huì)改變。例如,Web應(yīng)用的頁(yè)面往往包含CSS文件、圖片等元素,點(diǎn)擊頁(yè)面觸發(fā)的網(wǎng)絡(luò)流量中包含唯一標(biāo)識(shí)這些元素的信息。圖4展示PHMM模型,插入(Ii)和刪除(Di)狀態(tài)使模型對(duì)序列的波動(dòng)不敏感且能有效利用序列的位置信息。本文采用PHMM模型訓(xùn)練用戶與Web應(yīng)用間的交互模式。
圖4 PHMM模型示例
2.序列符號(hào)化。由于各類用戶行為通常涉及頁(yè)面間的跳轉(zhuǎn),生成的報(bào)文序列較長(zhǎng)。為盡可能在保留原始流量信息的條件下降低模型的復(fù)雜度,需要在構(gòu)建用戶行為模型之前對(duì)流量序列執(zhí)行符號(hào)化操作。符號(hào)化的目標(biāo)是用有限的符號(hào)集盡可能多保留原序列的有效信息。符號(hào)化操作將流量序列由數(shù)字序列轉(zhuǎn)換為符號(hào)序列,如“QRJPQNNNCBBBB…”。流量序列轉(zhuǎn)換為符號(hào)序列的算法實(shí)現(xiàn)過(guò)程如下:
輸入:流量序列s
輸出:符號(hào)序列seq
1.l←0,sign←0,seq←null;
2.fors中單個(gè)報(bào)文pdo
3.l←報(bào)文p的長(zhǎng)度len(p);
4.ifp是出站報(bào)文then
5.sign←-1;
6.else
7.sign←1;
8.endif
9.l←l×sign;
10.seq←seq+l對(duì)應(yīng)的符號(hào)
11.endfor
12.returnseq
符號(hào)化是重要的時(shí)間序列分析方法,如何選擇合適的符號(hào)化策略一直以來(lái)都是一個(gè)難題。符號(hào)化指把實(shí)數(shù)序列轉(zhuǎn)換成符號(hào)序列,依據(jù)序列的數(shù)值特征對(duì)該序列做粗糙化處理,再將獲得的符號(hào)序列做各種推理計(jì)算,理解系統(tǒng)特征,因此符號(hào)化強(qiáng)調(diào)“先劃分、后理解”(25)參見(jiàn)向馗、蔣靜坪:《時(shí)間序列的符號(hào)化方法研究》,《模式識(shí)別與人工智能》2007年第2期。。符號(hào)化方法大致可分為直接法和小波空間法兩種。直接法包括對(duì)數(shù)值序列不進(jìn)行預(yù)處理、直接根據(jù)序列數(shù)值特征進(jìn)行符號(hào)劃分的靜態(tài)法、動(dòng)態(tài)法及綜合法等。小波空間法則先對(duì)序列做適當(dāng)變換,然后再進(jìn)行劃分。
在網(wǎng)絡(luò)流量分析領(lǐng)域,為實(shí)現(xiàn)流量序列符號(hào)化,有研究(26)See Zhuo Z, Zhang Y &Zhang Z. Website Fingerprinting Attack on Anonymity Networks Based on Profile Hidden Markov Model. IEEE Transactions on Information Forensics and Security,2018,13(5):1081-1095.采用等間距符號(hào)化算法將報(bào)文長(zhǎng)度序列劃分為若干等長(zhǎng)的區(qū)間,為每個(gè)區(qū)間分配不同的符號(hào)。等間距符號(hào)化算法屬于直接法的一種,該算法簡(jiǎn)單、易于實(shí)現(xiàn),時(shí)間復(fù)雜度為O(N),其中N為待處理的網(wǎng)絡(luò)流量數(shù)據(jù)集中的報(bào)文數(shù)量。等間距符號(hào)化算法不考慮報(bào)文分布,為報(bào)文聚集和稀疏的區(qū)間分配同樣多的符號(hào)。例如,圖5展示了用戶瀏覽某社交論壇時(shí)觸發(fā)的網(wǎng)絡(luò)流量報(bào)文長(zhǎng)度分布情況,其中的數(shù)值符號(hào)表示報(bào)文方向(出站/入站)。由圖可見(jiàn),[0,600]和[900,1500]區(qū)間內(nèi)報(bào)文數(shù)量與其他區(qū)間相比明顯較少。等間距算法在分配符號(hào)時(shí)忽略各區(qū)間內(nèi)報(bào)文的數(shù)量,因此無(wú)法更細(xì)致地表示報(bào)文密集的區(qū)間。
圖5 等間距符號(hào)化算法忽略網(wǎng)絡(luò)報(bào)文長(zhǎng)度分布信息
除等間距符號(hào)化算法外,有研究(27)See He G, Yang M &Luo J. A Novel Application Classification Attack Against Tor. Concurrency and Computation: Practice and Experience,2015,27(18):5640-5661.采用K-means聚類算法實(shí)現(xiàn)流量序列符號(hào)化,該算法的時(shí)間復(fù)雜度為O(NKt),其中N代表待處理的網(wǎng)絡(luò)流量數(shù)據(jù)集中的報(bào)文數(shù)量,K為聚類個(gè)數(shù),t是聚類的迭代次數(shù)。K-means算法能夠利用報(bào)文序列的分布信息,但在處理大量數(shù)據(jù)時(shí)耗費(fèi)時(shí)間較長(zhǎng)。
由此可見(jiàn),無(wú)論是等間距符號(hào)化算法還是K-means聚類方法都存在明顯的缺陷。在前一種方法中,區(qū)間長(zhǎng)度的劃分由用戶隨機(jī)指定,極端情況下長(zhǎng)度落在某些區(qū)間內(nèi)的報(bào)文數(shù)量可能會(huì)很少甚至沒(méi)有,但算法仍需為這些“稀疏”區(qū)間分配符號(hào)。而對(duì)于那些報(bào)文比較密集的區(qū)間,算法也無(wú)法為它們分配更多的符號(hào)以體現(xiàn)序列的統(tǒng)計(jì)分布特征。同樣,K-means算法雖然是對(duì)報(bào)文長(zhǎng)度序列進(jìn)行聚類,但用戶無(wú)法控制聚類過(guò)程,也無(wú)法確定該算法將原序列劃分K個(gè)類別后生成的符號(hào)序列是否能最大限度地描述原始序列。
因此,針對(duì)現(xiàn)有符號(hào)化算法存在的問(wèn)題,本文提出一種在限定符號(hào)集大小的前提下考慮網(wǎng)絡(luò)流量報(bào)文分布的自適應(yīng)符號(hào)化方法。
(1)自適應(yīng)符號(hào)化算法。本節(jié)提出一種自適應(yīng)符號(hào)化算法,在符號(hào)集大小固定的情況下,尋找原始流量序列符號(hào)化后精度損失最少的區(qū)間劃分方法。由于流量序列中各元素的取值范圍是[-1500,1500],待解決的問(wèn)題可轉(zhuǎn)換為在符號(hào)集合大小為K的條件下,即將流量序列劃分為K個(gè)區(qū)間時(shí),確定合適的區(qū)間長(zhǎng)度τ1,τ2,…,τK。
由于原序列中任意一個(gè)元素值xi都有對(duì)應(yīng)的出現(xiàn)概率pi,符號(hào)化前后序列間的距離D可由公式(1)表示。
(1)
其中E(X)是原流量序列的期望值,E(Iτi)是流量序列在第i個(gè)區(qū)間上的期望值,與區(qū)間長(zhǎng)度τi有關(guān)。假設(shè)共有Nτi個(gè)報(bào)文落在該區(qū)間,則可用公式(2)計(jì)算E(Iτi)。
(2)
(3)
(4)
(5)
對(duì)該條件極值函數(shù)求偏導(dǎo),得式(6)。
(6)
解該聯(lián)立方程可得式(7)。
(7)
輸入:流量序列集合S
符號(hào)集大小K
輸出:區(qū)間集合Ψ={τ1,τ2,…,τK}
1.S’ ←S中的數(shù)據(jù)從小到大排序;
2.N←sizeof(S’)
3.i ← 1, j ← 1, prev ← 0, sum ← 0, p ← 1/N,Ψ← null;
4.forxiinS’do
5.prev←sum;
6.sum←sum+p;
7.ifprev<= 1/Kandsum>1/Kthen//劃分K個(gè)區(qū)間
8.if|prev-1/K| <|sum-1/K|then
9.xτj=xi-1
10.i←i-1;
11.else
12.xτj=xi
13.endif
14.sum← 0,prev← 0;
15.τj←Range(xτj-1,xτj); //區(qū)間包含相鄰間隔點(diǎn)間所有元素
16.j←j+ 1;
17.endif
18.endfor
19.Ψ←Ψ+τj
20.returnΨ
(2)多序列對(duì)齊。受網(wǎng)絡(luò)環(huán)境的影響,同一用戶行為觸發(fā)的網(wǎng)絡(luò)流量存在波動(dòng),因此符號(hào)化后的序列長(zhǎng)度也并不完全一致。Baum-Welch算法(28)See Rabiner L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE,1989,77(2):257-286.可以從長(zhǎng)度不一的多條序列中構(gòu)建PHMM模式,但非常耗時(shí)且容易陷入局部最優(yōu)。(29)See Bhargava A &Kondrak G. Multiple Word Alignment with Profile Hidden Markov Model. The NAACL HLT Student Research Workshop and Doctoral Consortium, Colorado,2009:43-48.因此,本節(jié)先利用多序列對(duì)齊算法(Multiple Sequence Alignment,MSA)將每類用戶行為對(duì)應(yīng)的符號(hào)序列對(duì)齊。
使用Clustal Omega工具(30)See Clustal Omega. 2016-07-01. http://www.clustal.org/omega/.2021-12-01.對(duì)符號(hào)化后的字符序列執(zhí)行對(duì)齊操作。圖6展示了一個(gè)符號(hào)序列對(duì)齊的樣例。經(jīng)對(duì)齊操作后,每條序列包含115個(gè)字符,各序列缺失的位置用短橫線“-”填充。對(duì)齊后的符號(hào)序列可用來(lái)訓(xùn)練不同用戶行為的模型。
圖6 多序列對(duì)齊結(jié)果示例
如前所述,開(kāi)展用戶行為識(shí)別時(shí),首先從待測(cè)網(wǎng)絡(luò)流量中切分出單次交互觸發(fā)的流量,提取報(bào)文長(zhǎng)度、方向等特征,生成待檢測(cè)的數(shù)字序列。接著,使用與訓(xùn)練階段相同的符號(hào)化方式將待測(cè)交互流量中的報(bào)文特征序列映射為符號(hào)序列。依次計(jì)算該符號(hào)序列在此前構(gòu)建的N個(gè)模型{M1,M2,…,MN}下的觀測(cè)概率Pr(i)。若Max(Pr(i))>μ,則判定待測(cè)序列由模型Mj關(guān)聯(lián)的用戶行為觸發(fā),j由公式(8)確定。
j=argmax(Pr(j))
(8)
若Max(Pr(i))<μ,則將該待測(cè)序列判定為未知類型的流量。其中,閾值μ是經(jīng)驗(yàn)值參數(shù),可從訓(xùn)練數(shù)據(jù)中習(xí)得。
用戶行為識(shí)別是Web應(yīng)用識(shí)別的基礎(chǔ),在完成同一用戶觸發(fā)的網(wǎng)絡(luò)流量中的多個(gè)動(dòng)作識(shí)別后,可構(gòu)造該用戶的網(wǎng)絡(luò)行為序列,進(jìn)而識(shí)別用戶是否訪問(wèn)了目標(biāo)Web應(yīng)用。圖7展示了本文采用的Web應(yīng)用識(shí)別框架。
圖7 Web應(yīng)用識(shí)別框架
利用PHPWind Version 8.7在阿里云服務(wù)器上搭建論壇,邀請(qǐng)志愿者訪問(wèn)并使用Wireshark軟件記錄觸發(fā)的網(wǎng)絡(luò)流量。表1展示志愿者們?cè)谠撋缃徽搲蠄?zhí)行的操作。執(zhí)行以下行為各50次,收集觸發(fā)的網(wǎng)絡(luò)流量。流量收集完畢后進(jìn)行過(guò)濾、切分、提取特征值和符號(hào)化等處理。將收集到網(wǎng)絡(luò)流量轉(zhuǎn)化為多條代表用戶行為的符號(hào)序列,構(gòu)建用戶行為模型。接著,重復(fù)執(zhí)行表1中的動(dòng)作各100次生成測(cè)試數(shù)據(jù)集。
表1 用戶操作
采用機(jī)器學(xué)習(xí)常用的準(zhǔn)確率(Precision)、召回率(Recall)、F1值(F1-Score)以及混淆矩陣評(píng)估用戶行為分類結(jié)果。
F1值(F1-Score)是準(zhǔn)確率和召回率的調(diào)和平均值,計(jì)算方式如公式(9)所示。
(9)
TP、FP、TN和FN在本實(shí)驗(yàn)的定義如下。TP:PHMM模型將用戶各類訪問(wèn)論壇的行為觸發(fā)的網(wǎng)絡(luò)流量正確分類到對(duì)應(yīng)行為的數(shù)量。FP:PHMM模型將用戶各類訪問(wèn)論壇的行為觸發(fā)的網(wǎng)絡(luò)流量錯(cuò)誤地分類到其他訪問(wèn)行為的數(shù)量。TN:PHMM模型將用戶訪問(wèn)其他應(yīng)用觸發(fā)的網(wǎng)絡(luò)流量正確分類為無(wú)關(guān)行為的數(shù)量。FN:PHMM模型將用戶訪問(wèn)論壇的行為觸發(fā)的網(wǎng)絡(luò)流量錯(cuò)誤分類為無(wú)關(guān)行為的數(shù)量。
混淆矩陣,又名誤差矩陣、錯(cuò)誤矩陣,是表示精度評(píng)價(jià)的一種標(biāo)準(zhǔn)格式。矩陣中的行表示樣本的實(shí)際類別,列則表示樣本的預(yù)測(cè)類別。混淆矩陣中的點(diǎn)顏色越深表示被正確分類的樣本占比越大。
Wireshark收集到的網(wǎng)絡(luò)流量經(jīng)流量過(guò)濾、切分、特征提取轉(zhuǎn)化為報(bào)文長(zhǎng)度序列,再進(jìn)行符號(hào)化和多序列對(duì)齊處理。將符號(hào)化序列劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于構(gòu)建用戶行為模型,測(cè)試集用于評(píng)估各行為模型判斷流量對(duì)應(yīng)的用戶行為的有效性。
在經(jīng)過(guò)與訓(xùn)練階段相同的符號(hào)化處理之后,本文使用HMMER工具提供的hmmsearch指令尋找與測(cè)試流量序列匹配的PHMM模型(31)See Eddy S &The HMMER Development Team. HMMER User’s Guide: Biological Sequence Analysis Using Profile Hidden Markov Models. 2020-11-01. http://eddylab.org/software/hmmer/Userguide.pdf.2022-02-05.。由于執(zhí)行hmmsearch指令后輸出的bitscore數(shù)值僅體現(xiàn)某一PHMM模型和目標(biāo)序列間的關(guān)系(bitscore值越大說(shuō)明待測(cè)序列與該P(yáng)HMM模型的匹配度越高),與序列數(shù)據(jù)庫(kù)的規(guī)模無(wú)關(guān)。因此,本文依據(jù)bitscore值對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類,依次將待測(cè)序列與多個(gè)PHMM用戶行為模型相匹配,并將其判定為匹配度最高的PHMM模型所表示的用戶行為。
1.與其他符號(hào)化算法對(duì)比實(shí)驗(yàn)。為評(píng)估本文提出的符號(hào)化算法的有效性,在Ede等人的公開(kāi)數(shù)據(jù)集上(32)參見(jiàn)Alexa Top 1000網(wǎng)站流量數(shù)據(jù)集,2020年5月21日,https://github.com/Thijsvanede/FlowPrint/tree/master/datasets,2022年3月20日訪問(wèn)。比較自適應(yīng)符號(hào)化算法和等間距算法、K-means聚類算法。圖8分別展示了三種符號(hào)化算法在符號(hào)化序列與原序列間距以及運(yùn)行時(shí)長(zhǎng)兩方面的對(duì)比結(jié)果。自適應(yīng)符號(hào)化算法在降低符號(hào)化序列與原序列間距方面的表現(xiàn)顯著優(yōu)于等間距和K-means聚類算法,因此能夠最大限度保留流量序列原始信息。在運(yùn)行效率方面自適應(yīng)算法優(yōu)于K-means,與等間距符號(hào)化算法用時(shí)相近。
圖8 等間距、K-means、自適應(yīng)符號(hào)化算法的對(duì)比
由圖8(a)可知,隨著區(qū)間數(shù)K的增大,符號(hào)化序列與原序列間的距離逐漸收斂。為確定K的最優(yōu)值,采用啟發(fā)式方法根據(jù)公式(10)和(11)分別計(jì)算符號(hào)化序列各區(qū)間內(nèi)部距離intraK和外部距離interK。
(10)
interK=min|centeri-centerj|i,j∈{1,2,…,K}
(11)
(12)
由于自適應(yīng)符號(hào)化算法在保留流量序列原始信息方面具有顯著優(yōu)越性,本文采用自適應(yīng)符號(hào)化算法預(yù)處理網(wǎng)絡(luò)流量,并根據(jù)公式(12)的計(jì)算結(jié)果取K值為23。
2.基于PHMM的用戶行為識(shí)別實(shí)驗(yàn)。表2描述基于PHMM的用戶行為識(shí)別方法的準(zhǔn)確率、召回率和F1值。從結(jié)果可以看出,絕大部分的用戶行為識(shí)別準(zhǔn)確率都在95%以上,但“回帖”動(dòng)作的準(zhǔn)確率為58%,且“發(fā)帖”這一動(dòng)作的召回率僅為27%。通過(guò)人工分析發(fā)現(xiàn)大量的發(fā)帖行為被誤判為回帖行為,影響了這兩類用戶行為的識(shí)別率。圖9展示用戶行為識(shí)別混淆矩陣,可見(jiàn)有70%的“發(fā)帖”行為被誤判為“回帖”。
圖9 用戶行為識(shí)別混淆矩陣
事實(shí)上,無(wú)論“發(fā)帖”或“回帖”,其實(shí)質(zhì)都是向Web應(yīng)用遞交數(shù)據(jù)。通過(guò)觀察發(fā)現(xiàn),用戶執(zhí)行發(fā)帖和回帖操作訪問(wèn)的URL路徑一致,參數(shù)部分略有不同。例如:某用戶發(fā)布新帖時(shí)訪問(wèn)的URL是post.php?fid=2,而其他用戶回復(fù)該帖時(shí)訪問(wèn)的URL是post.php?action=reply&fid=2。此外,用戶發(fā)帖和回帖的行為都會(huì)引起網(wǎng)頁(yè)刷新,而這些網(wǎng)頁(yè)具有同樣的文檔結(jié)構(gòu)?;谝陨嫌^察,本文認(rèn)為“發(fā)帖”與“回帖”差異性較小,從而在后續(xù)實(shí)驗(yàn)中合并這兩類行為。重新使用此前收集到的發(fā)帖和回帖行為觸發(fā)的網(wǎng)絡(luò)流量共同訓(xùn)練出新的“發(fā)帖”行為模型,在測(cè)試數(shù)據(jù)集中識(shí)別用戶的發(fā)帖或回帖動(dòng)作。圖10展示調(diào)整后的用戶行為識(shí)別混淆矩陣。
圖10 調(diào)整后的混淆矩陣
由圖可見(jiàn),實(shí)驗(yàn)中每類用戶行為的識(shí)別率都在95%以上,僅有部分流量被錯(cuò)誤分類至其他類型。其中,“登錄”和“登出”兩類行為的識(shí)別率達(dá)到100%。此外,用戶訪其他Web應(yīng)用觸發(fā)的流量會(huì)被識(shí)別為“其他”行為類別,不存在誤判的情況。用戶行為識(shí)別實(shí)驗(yàn)的平均召回率、準(zhǔn)確率和F1值分別為97.3%,97.6%和97.4%。
3.與其他方法對(duì)比實(shí)驗(yàn)。由于用戶行為識(shí)別使用的網(wǎng)絡(luò)流量樣本集多由研究者各自收集整理,因此通過(guò)復(fù)現(xiàn)文獻(xiàn)的方法進(jìn)行對(duì)比分析,以進(jìn)一步評(píng)估本文提出方法的有效性。有研究(33)參見(jiàn)燕飛鵬:《基于網(wǎng)絡(luò)流量的微信用戶行為識(shí)別技術(shù)》,碩士學(xué)位論文,杭州電子科技大學(xué),2019年。采用在大多數(shù)分類場(chǎng)景下表現(xiàn)優(yōu)秀的隨機(jī)森林算法(Random Forest,RF)識(shí)別用戶行為。提取流量序列中報(bào)文的最大值、最小值、均值、絕對(duì)中位差、標(biāo)準(zhǔn)差、方差、偏度和峰度等統(tǒng)計(jì)特征構(gòu)建特征向量。此外,為反映報(bào)文長(zhǎng)度分布信息,將長(zhǎng)度落在[0-300][301-600][601-900][901-1200]和[1201-1500]等5個(gè)區(qū)間的報(bào)文數(shù)量選作特征值。圖11展示本文(PHMM)與文獻(xiàn)(RF)提出的用戶行為識(shí)別方法的準(zhǔn)確率對(duì)比,證實(shí)了本文方法的有效性。
圖11 PHMM與隨機(jī)森林分類方法對(duì)比實(shí)驗(yàn)結(jié)果
隨著互聯(lián)網(wǎng)經(jīng)濟(jì)和電信產(chǎn)業(yè)的迅猛發(fā)展,涉信息網(wǎng)絡(luò)犯罪的案件逐年上升。以電信網(wǎng)絡(luò)詐騙為代表的新型犯罪持續(xù)高發(fā),已成為上升最快、群眾反映最為強(qiáng)烈的一類案件。據(jù)最高人民法院《涉信息網(wǎng)絡(luò)犯罪特點(diǎn)和趨勢(shì)司法大數(shù)據(jù)專題報(bào)告》披露,過(guò)去五年涉信息網(wǎng)絡(luò)犯罪案件呈逐年上升趨勢(shì),其中近四成涉信息網(wǎng)絡(luò)犯罪案件涉及詐騙罪。(34)參見(jiàn)《涉信息網(wǎng)絡(luò)犯罪特點(diǎn)和趨勢(shì)(2017.1—2021.12)司法大數(shù)據(jù)專題報(bào)告》,2022年8月1日,載中國(guó)司法大數(shù)據(jù)研究院網(wǎng),https://file.chinacourt.org/f.php?id=c9b92b185f359c81&class=enclosure,2023年6月8日訪問(wèn)。2021年4月,習(xí)近平總書(shū)記對(duì)打擊治理電信網(wǎng)絡(luò)詐騙犯罪工作作出重要指示,要求“堅(jiān)持以人民為中心全面落實(shí)打防管控措施,堅(jiān)決遏制電信網(wǎng)絡(luò)詐騙犯罪多發(fā)高發(fā)態(tài)勢(shì)”。2022年9月2日通過(guò)的《中華人民共和國(guó)反電信網(wǎng)絡(luò)詐騙法》體現(xiàn)了國(guó)家對(duì)于網(wǎng)絡(luò)空間安全的重視及打擊電信網(wǎng)絡(luò)詐騙犯罪的決心,同時(shí)為公安機(jī)關(guān)牽頭負(fù)責(zé)反電信網(wǎng)絡(luò)詐騙工作提供有力的法律支持。在上述背景下,本文以用戶訪問(wèn)詐騙類網(wǎng)站觸發(fā)的網(wǎng)絡(luò)流量為研究對(duì)象,從網(wǎng)絡(luò)流量中構(gòu)建詐騙類網(wǎng)站的特征模型,進(jìn)而開(kāi)展涉詐類網(wǎng)站的識(shí)別,對(duì)公安機(jī)關(guān)打擊涉信息網(wǎng)絡(luò)犯罪具有積極作用。
為驗(yàn)證本文所提出算法的可遷移性,將其應(yīng)用于詐騙類網(wǎng)站識(shí)別。詐騙類網(wǎng)站是犯罪分子實(shí)施網(wǎng)絡(luò)詐騙的重要平臺(tái),這些網(wǎng)站通過(guò)發(fā)布虛假信息和非法交易等手段誘導(dǎo)用戶提供個(gè)人財(cái)務(wù)或其他敏感信息,導(dǎo)致用戶財(cái)產(chǎn)損失或隱私泄露。公安機(jī)關(guān)檢測(cè)并打擊此類網(wǎng)站有助于保護(hù)公民財(cái)產(chǎn)安全及個(gè)人隱私,削弱犯罪網(wǎng)絡(luò)組織的運(yùn)作能力,對(duì)減少涉信息網(wǎng)絡(luò)犯罪的發(fā)生具有重要意義。
本實(shí)驗(yàn)采用從公安部門(mén)獲取的詐騙網(wǎng)站地址與非詐騙網(wǎng)站地址,(35)參見(jiàn)周勝利、徐嘯煬:《基于網(wǎng)絡(luò)流量的用戶網(wǎng)絡(luò)行為被害性分析模型》,《電信科學(xué)》2021年第2期。手動(dòng)模擬用戶對(duì)這些網(wǎng)站的訪問(wèn),并利用Wireshark捕獲訪問(wèn)過(guò)程中產(chǎn)生的網(wǎng)絡(luò)流量。實(shí)驗(yàn)數(shù)據(jù)集中共包含詐騙網(wǎng)站訪問(wèn)流量2051條,非詐騙網(wǎng)站訪問(wèn)流量1143條。表3列出數(shù)據(jù)集中詐騙網(wǎng)站的類型和數(shù)量。
表3 實(shí)驗(yàn)數(shù)據(jù)集中詐騙類網(wǎng)站的類型及數(shù)量
將本文提出的基于PHMM的用戶行為識(shí)別算法與經(jīng)典的隨機(jī)森林算法分別應(yīng)用于該數(shù)據(jù)集,對(duì)比兩種算法在詐騙網(wǎng)站識(shí)別方面的有效性。表4展示了兩種算法識(shí)別結(jié)果的混淆矩陣,矩陣中的行表示樣本的實(shí)際類別,列則表示樣本的預(yù)測(cè)類別。由混淆矩陣可得,基于PHMM的模型在詐騙網(wǎng)站識(shí)別方面的精確率為0.974,召回率為0.978;隨機(jī)森林模型的精確率分別為0.902和0.911?;赑HMM模型的算法優(yōu)于經(jīng)典的隨機(jī)森林算法,實(shí)驗(yàn)證實(shí)本文提出的方法具備良好的遷移性。
表4 混淆矩陣對(duì)比結(jié)果
針對(duì)用戶與Web應(yīng)用交互時(shí)往往涉及頁(yè)面跳轉(zhuǎn)且網(wǎng)絡(luò)流量序列較長(zhǎng)的問(wèn)題,提出一種自適應(yīng)的符號(hào)化算法,并利用計(jì)算生物學(xué)中廣泛應(yīng)用的PHMM模型挖掘用戶和Web應(yīng)用間的交互模式,從網(wǎng)絡(luò)流量中識(shí)別用戶行為。與前人工作相比,本文提出的自適應(yīng)符號(hào)化算法能在最大限度保留原序列信息的同時(shí)降低PHMM模型的復(fù)雜度,且耗時(shí)較少。與經(jīng)典的隨機(jī)森林分類算法的對(duì)比實(shí)驗(yàn)表明,基于PHMM的用戶行為識(shí)別方法具有良好的準(zhǔn)確率。詐騙類網(wǎng)站識(shí)別驗(yàn)證了本文提出的算法具備可遷移性,能夠?yàn)楣矙C(jī)關(guān)打擊涉信息網(wǎng)絡(luò)犯罪提供一定的技術(shù)支持。下一步研究將考慮在用戶行為模式挖掘的基礎(chǔ)上開(kāi)展行為預(yù)測(cè),實(shí)現(xiàn)對(duì)用戶異常網(wǎng)絡(luò)行為的實(shí)時(shí)監(jiān)控,并應(yīng)用于涉信息網(wǎng)絡(luò)犯罪的預(yù)測(cè)及防治。
浙江警察學(xué)院學(xué)報(bào)2023年6期