李嘉彬,施勇,薛質(zhì)
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海200240)
基于大數(shù)據(jù)平臺(tái)的用戶行為分析研究
李嘉彬,施勇,薛質(zhì)
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海200240)
近年來,大數(shù)據(jù)分析已經(jīng)成為了越來越多企業(yè)、政府和各類組織所鐘愛的重要技術(shù),通過對(duì)體量巨大的網(wǎng)絡(luò)數(shù)據(jù)信息進(jìn)行分析可以直觀、有效地描繪出互聯(lián)網(wǎng)個(gè)體的上網(wǎng)行為軌跡。本文介紹了一種基于對(duì)網(wǎng)絡(luò)數(shù)據(jù)報(bào)文進(jìn)行分析的大數(shù)據(jù)分析方法,進(jìn)一步得到網(wǎng)絡(luò)用戶群體的行為方式以及行為趨勢(shì)預(yù)測(cè),從而為改善政府民生治理、企業(yè)商業(yè)運(yùn)營以及網(wǎng)絡(luò)安全管理等領(lǐng)域提供有價(jià)值的信息參考。
大數(shù)據(jù);用戶行為分析;網(wǎng)絡(luò)數(shù)據(jù)報(bào)文;行為趨勢(shì)預(yù)測(cè);網(wǎng)絡(luò)安全管理
近年來,大數(shù)據(jù)分析已經(jīng)成為了越來越多企業(yè)、政府和各類組織所鐘愛的重要技術(shù),通過對(duì)龐大的數(shù)據(jù)流量進(jìn)行分析能夠有效地描繪出用戶的習(xí)慣、愛好、消費(fèi)水平、上網(wǎng)的活躍時(shí)間等等信息,進(jìn)一步構(gòu)建出用戶的行為模型,以更好地對(duì)消費(fèi)者或用戶行為進(jìn)行預(yù)測(cè)、設(shè)計(jì)出更加優(yōu)化、便利的系統(tǒng)。
大數(shù)據(jù)分析不僅在民生信息統(tǒng)計(jì)[1]、消費(fèi)者行為預(yù)測(cè)等領(lǐng)域十分活躍,也是互聯(lián)網(wǎng)安全領(lǐng)域的一大利器。安全部門可以通過對(duì)網(wǎng)絡(luò)用戶的日常上網(wǎng)行為進(jìn)行分析,對(duì)異常流量進(jìn)行實(shí)時(shí)辨別與監(jiān)測(cè)、企業(yè)也可以通過分析用戶對(duì)服務(wù)器的海量訪問數(shù)據(jù)來歸納正常用戶模型,進(jìn)而對(duì)經(jīng)常出現(xiàn)的惡意訪問行為進(jìn)行過濾或攔截;或?qū)€(gè)人用戶進(jìn)行長時(shí)間的跟蹤統(tǒng)計(jì),進(jìn)而研究出完整的單一用戶行為模型,并對(duì)多個(gè)用戶的模型進(jìn)行比對(duì),歸納出更為豐富的行為分析結(jié)果……因此,如何設(shè)計(jì)一套行之有效的基于大數(shù)據(jù)平臺(tái)的用戶行為分析方法與系統(tǒng)成為重中之重。
隨著互聯(lián)網(wǎng)應(yīng)用的迅猛發(fā)展,網(wǎng)絡(luò)、數(shù)據(jù)等概念已經(jīng)十分緊密地耦合于人們的生活、學(xué)習(xí)和工作中。一個(gè)大學(xué)生使用移動(dòng)設(shè)備一天產(chǎn)生的數(shù)據(jù)流量可能高達(dá)數(shù)百兆、一家中小型公司一天產(chǎn)生的網(wǎng)絡(luò)日志動(dòng)輒幾十G、而似社交網(wǎng)站Facebook這類社交網(wǎng)站的用戶每天發(fā)出的日志以及分享的資料更是不計(jì)其數(shù),數(shù)據(jù)量已經(jīng)達(dá)到PB級(jí)別……在這種超大體量的數(shù)據(jù)海洋面前,傳統(tǒng)關(guān)系型數(shù)據(jù)庫已經(jīng)難以做到流暢地讀寫與存儲(chǔ)數(shù)據(jù)、傳統(tǒng)的單機(jī)數(shù)據(jù)分析系統(tǒng)也無法高效地完成數(shù)據(jù)分析工作。針對(duì)上述超大體量的數(shù)據(jù),業(yè)界以4V特性——海量性(Volume)、多樣性(Variety)、實(shí)時(shí)性(Velocity)和低密度性(Value)——對(duì)大數(shù)據(jù)進(jìn)行了定義。
數(shù)據(jù)挖掘技術(shù)可用于對(duì)大量數(shù)據(jù)進(jìn)行分析處理,并且已經(jīng)發(fā)展了很長時(shí)間,但是并不能用于解決4V問題,主要原因在于海量數(shù)據(jù)的存儲(chǔ)以及大規(guī)模的運(yùn)算所需要的成本過于高昂。
在以前,解決一些跨學(xué)科的、極富挑戰(zhàn)性的、人類急待解決的科研課題是非常困難的。其中較為著名的有:
1.解決較為復(fù)雜的數(shù)學(xué)問題,例如:GIMPS(尋找最大的梅森素?cái)?shù))。
2.研究尋找最為安全的密碼系統(tǒng),例如:RC-72(密碼破解)。
3.生物病理研究,例如:Folding@home(研究蛋白質(zhì)折疊,誤解,聚合及由此引起的相關(guān)疾病)。
4.各種各樣疾病的藥物研究,例如:United Devices(尋找對(duì)抗癌癥的有效的藥物)。
5.信號(hào)處理,例如:SETI@Home(在家尋找地外文明)。
這些項(xiàng)目都很龐大,需要驚人的計(jì)算量,僅僅由單個(gè)的電腦或是個(gè)人在一個(gè)能讓人接受的時(shí)間內(nèi)計(jì)算完成是決不可能的,需要解決這些問題應(yīng)該且只能由超級(jí)計(jì)算機(jī)來解決。但是超級(jí)計(jì)算機(jī)的造價(jià)和維護(hù)非常昂貴,這不是一個(gè)普通的科研組織或者商業(yè)公司所能承受的。
為應(yīng)對(duì)這類需求,分布式的思想應(yīng)運(yùn)而生,成為了一套行之有效的大數(shù)據(jù)解決方案。分布式思想主要包括分布式數(shù)據(jù)庫以及分布式算法兩個(gè)方面:
分布式數(shù)據(jù)庫是指利用高速計(jì)算機(jī)網(wǎng)絡(luò)將物理上分散的多個(gè)數(shù)據(jù)存儲(chǔ)單元連接起來組成一個(gè)邏輯上統(tǒng)一的數(shù)據(jù)庫。分布式數(shù)據(jù)庫的基本思想是將原來集中式數(shù)據(jù)庫中的數(shù)據(jù)分散存儲(chǔ)到多個(gè)通過網(wǎng)絡(luò)連接的數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上,以獲取更大的存儲(chǔ)容量和更高的并發(fā)訪問量。
分布式算法是局部算法的集合。在解決一個(gè)需要非常巨大的計(jì)算能力才能解決的問題時(shí),首先將價(jià)格低廉的服務(wù)器(甚至是個(gè)人主機(jī)、筆記本電腦)的計(jì)算能力動(dòng)態(tài)地聚合起來建立成一個(gè)龐大的計(jì)算集群,再通過分布式算法將問題劃分成許多小的部分,然后把這些部分分配給集群中的各節(jié)點(diǎn)進(jìn)行單獨(dú)處理,最后把這些計(jì)算結(jié)果綜合起來得到最終的結(jié)果。這套方法不僅在成本上比以往組建超級(jí)計(jì)算機(jī)或超級(jí)計(jì)算陣列等方式廉價(jià)許多,在時(shí)間開銷上也由于超高的并發(fā)性得到了長足的優(yōu)化。
現(xiàn)在,在大量成熟的第三方開源工具(如ElasticSearch、MongoDB、Hadoop等)的支持下,通過部署計(jì)算機(jī)集群、安裝大數(shù)據(jù)分析工具并針對(duì)自身需求進(jìn)行配置后,就可以得到一套基礎(chǔ)的大數(shù)據(jù)分析平臺(tái)。分布式的存儲(chǔ)和計(jì)算可以確保數(shù)據(jù)的海量性與實(shí)時(shí)性得到完美解決,而非結(jié)構(gòu)化的數(shù)據(jù)庫存儲(chǔ)則在提供可擴(kuò)展性的同時(shí)也解決了數(shù)據(jù)多樣性的問題。最后的低密度性,則需要通過人工地進(jìn)行數(shù)據(jù)建模與定義以及制定數(shù)據(jù)查詢策略來解決。
對(duì)于平臺(tái)中用戶的行為主要可以通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)包的數(shù)據(jù)字段進(jìn)行分析、拆解與重組來刻畫[2]。有用的常見字段如表1給出。
可以根據(jù)表1提供的信息,簡單地描述一個(gè)數(shù)據(jù)包于何時(shí)從何處發(fā)往何處、請(qǐng)求或響應(yīng)了什么樣的數(shù)據(jù),根據(jù)實(shí)際的需求,還可以對(duì)http包的正文內(nèi)容進(jìn)行進(jìn)一步的采集和分析(如通過標(biāo)簽提取出訪問頁面的標(biāo)題),從而使對(duì)用戶的行為分析更加精細(xì)化[3]
表1 網(wǎng)絡(luò)數(shù)據(jù)包中的常見字段與含義
根據(jù)上述數(shù)據(jù)定義,可以總結(jié)出歸納出如圖1所示的關(guān)系模型:
圖1 用戶(群)行為分析關(guān)系模型
對(duì)于用戶的分析總體分為兩類,一類是用戶屬性描述,該類分析描述了用戶的一些具體屬性,如:消費(fèi)水平、最關(guān)注內(nèi)容等;另一類是用戶行為描述,該類分析描述了用戶的某類趨勢(shì)或習(xí)慣,如:數(shù)據(jù)包的時(shí)間與空間分布、訪問對(duì)象的群體分布等[4]。
第一類描述可以幫助分析師刻畫用戶(個(gè)體或群體)的形象,進(jìn)而為用戶(群)進(jìn)行分類或歸納;第二類描述則動(dòng)態(tài)地展示了用戶(群)的階段性特點(diǎn),可以幫助分析師了解用戶的行為模式。在具體的行為分析中,需要將兩類描述相互結(jié)合,才能得到完整的用戶行為刻畫結(jié)果。以下給出基于表1定義的字段的行為分析方法。
面向全平臺(tái)的分析,可以刻畫出一個(gè)或多個(gè)用戶群體的行為軌跡,或通過歸納眾數(shù)群體的數(shù)據(jù)特征得出用戶群體的行為模式。
分析目的:通過對(duì)平臺(tái)內(nèi)用戶訪問的目標(biāo)站點(diǎn)進(jìn)行排序,得出最受用戶歡迎的站點(diǎn)列表。
分析策略:通過對(duì)Host字段進(jìn)行聚合,按照聚合結(jié)果降序排列,得到所有被訪問的域名列表??梢酝ㄟ^該結(jié)果得到平臺(tái)內(nèi)全體用戶最熱門的訪問站點(diǎn)。
分析目的:通過對(duì)平臺(tái)內(nèi)用戶使用的移動(dòng)終端設(shè)備進(jìn)行分析,得出當(dāng)前用戶普遍使用的設(shè)備品牌或類型。
分析策略:通過對(duì)User-Agent字段進(jìn)行過濾,按照結(jié)果降序排列,得到結(jié)果。
分析目的:通過對(duì)平臺(tái)內(nèi)用戶總體訪問的網(wǎng)頁內(nèi)容進(jìn)行統(tǒng)計(jì),得出當(dāng)前用戶群體最關(guān)注的熱點(diǎn)內(nèi)容。
分析策略:通過對(duì)Title字段聚合,結(jié)果按降序排列得到所有被訪問頁面的標(biāo)題,并通過正則表達(dá)式過濾去除了結(jié)果中諸如“404 Not Found”、“302 Found”等于分析無意義的結(jié)果。
除了面向整個(gè)平臺(tái)進(jìn)行群體性用戶行為描述,還可以通過指定源、目的IP地址、源、目的MAC地址等方式將研究對(duì)象轉(zhuǎn)為面向單一對(duì)象進(jìn)行行為刻畫。通過這種方式,可以精確、有效地描繪出具體的某個(gè)用戶的完整行為模式,從而實(shí)現(xiàn)更加具有針對(duì)性、準(zhǔn)確性的用戶行為分析。
可以根據(jù)已有的攻擊模型對(duì)用戶行為進(jìn)行進(jìn)一步的比對(duì):如在時(shí)間上周期性地對(duì)某對(duì)象進(jìn)行訪問、或持續(xù)性地對(duì)某對(duì)象進(jìn)行訪問、或大量的對(duì)某對(duì)象發(fā)出特定的(尤其是非標(biāo)準(zhǔn)的)網(wǎng)絡(luò)數(shù)據(jù)請(qǐng)求等,則可將該源IP列為重點(diǎn)觀測(cè)對(duì)象,查看是否確實(shí)存在網(wǎng)絡(luò)攻擊行為。
分析目的:通過對(duì)某源IP地址發(fā)出的請(qǐng)求報(bào)文進(jìn)行分析,檢查數(shù)據(jù)流在時(shí)間分布上是否存在異常數(shù)據(jù)流,進(jìn)而對(duì)可能存在的異常網(wǎng)絡(luò)行為進(jìn)行監(jiān)測(cè)。比如,抓取用戶在每周一的網(wǎng)絡(luò)流量分布,如果某個(gè)周一的某時(shí)段網(wǎng)絡(luò)流量遠(yuǎn)高于其他周一該時(shí)段的流量,則認(rèn)為在這一天該用戶的網(wǎng)絡(luò)訪問出現(xiàn)異常情況,可將該源IP列為觀測(cè)對(duì)象,查看是否確實(shí)存在網(wǎng)絡(luò)攻擊行為。
分析策略:首先對(duì)時(shí)間戳字段timestamp按照Date Histogram方法進(jìn)行聚合,將分組級(jí)別設(shè)置為周級(jí)(weekly),并設(shè)置觀察的起訖時(shí)間區(qū)間(可選)。之后迭代一層聚合,繼續(xù)對(duì)timestamp字段按照Date Histogram方式進(jìn)行聚合,此時(shí)分組級(jí)別設(shè)置為小時(shí)(hourly),最后迭代一層過濾器,指定需要觀察的用戶。如,以src_ip字段作為過濾標(biāo)志,最終得到從某源目的IP發(fā)出的所有網(wǎng)絡(luò)數(shù)據(jù)請(qǐng)求按時(shí)間的分布結(jié)果。
分析目的:通過對(duì)某IP地址的訪問趨勢(shì)進(jìn)行對(duì)比,通過發(fā)現(xiàn)數(shù)據(jù)流在空間分布上是否存在異常數(shù)據(jù)流,進(jìn)而對(duì)可能存在的異常網(wǎng)絡(luò)行為進(jìn)行監(jiān)測(cè)。如,某IP的常規(guī)訪問群體分布在某些IP地址組成的集合內(nèi),當(dāng)某一次分析時(shí)突然出現(xiàn)了大量該集合之外的新IP地址或IP地址群,則可認(rèn)為可能出現(xiàn)了由這些新IP地址(群)發(fā)起的對(duì)該IP地址的網(wǎng)絡(luò)攻擊。
分析策略:首先對(duì)時(shí)間戳字段timestamp按照Date Histogram方法進(jìn)行聚合,將分組級(jí)別設(shè)置為周級(jí)(weekly),并設(shè)置觀察的起訖時(shí)間區(qū)間(可選)。之后迭代一層聚合,繼續(xù)對(duì)Host字段按照Terms方式進(jìn)行聚合,篩選出統(tǒng)計(jì)結(jié)果前十的訪問域名,最后迭代一層過濾器,指定需要觀察的用戶,本例以src_MAC字段作為過濾標(biāo)志,最終得到了通過某源MAC地址發(fā)出的所有網(wǎng)絡(luò)數(shù)據(jù)請(qǐng)求按空間的分布結(jié)果。
分析目的:通過對(duì)用戶的搜索引擎使用情況進(jìn)行分析,了解用戶的搜索引擎使用習(xí)慣與偏好。
分析策略:通過對(duì)常用搜索引擎的URL進(jìn)行匯總,并在查詢語句中利用Filter方法對(duì)Host字段進(jìn)行過濾,并迭代篩選出指定用戶的數(shù)據(jù),得到結(jié)果。
分析目的:通過對(duì)某源IP地址對(duì)視頻網(wǎng)站的訪問進(jìn)行統(tǒng)計(jì),獲得其最常瀏覽的視頻網(wǎng)站或視頻進(jìn)行聚合,從而分析出其瀏覽習(xí)慣。
分析策略:首先對(duì)Title字段進(jìn)行聚合,得到站點(diǎn)標(biāo)題組成的結(jié)果集,在此基礎(chǔ)上對(duì)Host字段迭代過濾器,篩選出來自視頻網(wǎng)站的數(shù)據(jù)包,最后再次迭代過濾器篩選出制定用戶的數(shù)據(jù),得到結(jié)果。
基于大數(shù)據(jù)平臺(tái)的用戶行為分析[5],指的是基于大數(shù)據(jù)平臺(tái)的分布式存儲(chǔ)與分析技術(shù)支持,通過對(duì)平臺(tái)覆蓋范圍內(nèi)的所有用戶產(chǎn)生的海量網(wǎng)絡(luò)數(shù)據(jù)報(bào)文或服務(wù)器產(chǎn)生的日志文件進(jìn)行高效快速地采集、過濾、篩選和分析,并從分析結(jié)果中得到用戶數(shù)據(jù)與用戶行為之間的關(guān)系,從而總結(jié)出分析師所需要得到的行為模型或行為趨勢(shì)。
圖2 大數(shù)據(jù)分析步驟與大數(shù)據(jù)分析系統(tǒng)
行為模型可以包括用戶的上網(wǎng)習(xí)慣、偏好、消費(fèi)模式、作息規(guī)律等結(jié)果;行為趨勢(shì)可以包括區(qū)域(平臺(tái))內(nèi)數(shù)據(jù)流量走向趨勢(shì)、某(或某些)網(wǎng)站(或應(yīng)用)的使用率走勢(shì)、異常行為發(fā)生總量變化趨勢(shì)等。
本文設(shè)計(jì)的基于大數(shù)據(jù)平臺(tái)的用戶分析系統(tǒng)通過對(duì)大數(shù)據(jù)平臺(tái)提供的海量數(shù)據(jù)進(jìn)行大規(guī)模數(shù)據(jù)處理,根據(jù)實(shí)際需求以及具體應(yīng)用環(huán)境設(shè)計(jì)過濾條件與分析策略,最終實(shí)現(xiàn)對(duì)平臺(tái)內(nèi)所有用戶發(fā)生的網(wǎng)絡(luò)數(shù)據(jù)報(bào)文進(jìn)行分析,提供有效、實(shí)用的可視化數(shù)據(jù)報(bào)表[6]。
系統(tǒng)通過抓包工具在各個(gè)節(jié)點(diǎn)處捕獲數(shù)據(jù)流,并通過Hadoop平臺(tái)進(jìn)行分布式處理,將數(shù)據(jù)存入HBase數(shù)據(jù)庫中。每一次在分析師指定的時(shí)間間隔后,分析系統(tǒng)開始運(yùn)行,將HBase數(shù)據(jù)庫中的數(shù)據(jù)利用轉(zhuǎn)儲(chǔ)工具進(jìn)行格式轉(zhuǎn)換為JSON格式文件。
將JSON文件批量導(dǎo)入開源的大數(shù)據(jù)處理工具并通過Web頁面在前端進(jìn)行可視化的結(jié)果展示。
圖3 數(shù)據(jù)可視化呈現(xiàn)框架效果展示
圖4 主要被訪問域名群體分布分析結(jié)果
由上圖可以看出,平臺(tái)內(nèi)用戶訪問最多的站點(diǎn)是“搜狐”,占比約40%。
圖5 移動(dòng)終端設(shè)備使用情況分析結(jié)果
由上圖可以看出,平臺(tái)內(nèi)用戶使用最多的移動(dòng)設(shè)備是iPhone,占比約46.45%,其次是小米,約占24.33%。
圖6 頁面訪問內(nèi)容的分析結(jié)果
由上圖可以看出,平臺(tái)內(nèi)整體流量中占比最高的頁面內(nèi)容是某購物網(wǎng)站的“客戶訂單產(chǎn)品”頁面,其次是“訂單出庫”頁面。
圖7 網(wǎng)絡(luò)流量在時(shí)間上的分布情況分析結(jié)果
由上圖可以看出,IP地址為“10.161.35.249”的用戶在2016年1月17日(周日)至2016年1月24日(周日)的時(shí)間段內(nèi),工作日期間,上網(wǎng)最頻繁的時(shí)間段是23時(shí)至次日6時(shí)左右,而在9~17時(shí)期間幾乎沒有網(wǎng)絡(luò)數(shù)據(jù)流量產(chǎn)生。雙休日時(shí),在22時(shí)以前,網(wǎng)絡(luò)數(shù)據(jù)流量都非常多,由此可見該用戶應(yīng)該運(yùn)行著一些持續(xù)后臺(tái)聯(lián)網(wǎng)的程序或應(yīng)用,并且用戶的上網(wǎng)活躍期在午后。
圖8 網(wǎng)絡(luò)流量在空間上的分布情況分析結(jié)果
由上圖可以看出,MAC地址為XXXX的用戶最常訪問的站點(diǎn)是int.ott.greatv.cn、www.baidu.com、192.168.50.134等三個(gè)站點(diǎn)。1月18日出現(xiàn)了相對(duì)大量的對(duì)101.226.141.199的訪問,可以對(duì)上述對(duì)象進(jìn)行進(jìn)一步分析,驗(yàn)證是否有針對(duì)10.226.141.199的網(wǎng)絡(luò)安全事件發(fā)生。
圖9 搜索引擎使用情況分析結(jié)果
由上圖可以看出,IP地址為10.226.141.199的用戶最常使用的搜索引擎是百度搜索引擎,占比高達(dá)99.76%,其次是搜狗搜索引擎,占比0.15%。
圖10 視頻瀏覽情況分析結(jié)果
由上圖可以看出,IP地址為“10.161.35.249”的用戶最常觀看的視頻為“中經(jīng)在線”。
大數(shù)據(jù)的分析本質(zhì)上可以劃分為兩種類型,一是對(duì)現(xiàn)在已發(fā)生的數(shù)據(jù)進(jìn)行總結(jié),發(fā)現(xiàn)規(guī)律;二是對(duì)過往的數(shù)據(jù)進(jìn)行歸納,預(yù)測(cè)未來的發(fā)展趨勢(shì)。大數(shù)據(jù)分析以其體量大、數(shù)據(jù)全、分析快等特性,已經(jīng)成為行業(yè)共識(shí),是未來發(fā)展的必然趨勢(shì)[7]。
本文介紹了一種基于對(duì)網(wǎng)絡(luò)數(shù)據(jù)報(bào)文進(jìn)行分析的大數(shù)據(jù)分析方法,通過直觀的圖表展示方式進(jìn)一步得到網(wǎng)絡(luò)用戶群體的行為方式以及行為趨勢(shì)預(yù)測(cè),從而為改善政府民生治理、企業(yè)商業(yè)運(yùn)營以及網(wǎng)絡(luò)安全管理等領(lǐng)域提供有價(jià)值的信息參考。
本文得到的結(jié)果可以廣泛的運(yùn)用于各類實(shí)際應(yīng)用的場景中,并可以通過對(duì)數(shù)據(jù)報(bào)頭以及非加密的數(shù)據(jù)報(bào)文進(jìn)行較為準(zhǔn)確的用戶行為分析和統(tǒng)計(jì)結(jié)果,然而對(duì)加密傳輸?shù)膱?bào)文或者通過隱蔽信道進(jìn)行傳輸?shù)男畔⑦€缺乏合適的分析手段,這將是下一階段嘗試攻克的課題。
[1]張璐,李曉勇,馬威等.政府大數(shù)據(jù)安全保護(hù)模型研究[J].信息網(wǎng)絡(luò)安全,2014(5):63-67.
[2]姜開達(dá),李霄,孫強(qiáng).基于網(wǎng)絡(luò)流量元數(shù)據(jù)的安全大數(shù)據(jù)分析[J].信息網(wǎng)絡(luò)安全,2014(5):37-40.
[3]陳臣.基于大數(shù)據(jù)的圖書館個(gè)性化服務(wù)用戶行為分析研究[J].圖書館工作與研究,2015(2):43-45.
[4]胡宇辰,郭宇.基于沙漏模型的移動(dòng)互聯(lián)網(wǎng)用戶行為分析[J].管理世界,2013(7):184-185.
[5]任思穎,基于大數(shù)據(jù)的網(wǎng)絡(luò)用戶行為分析[D].北京郵電大學(xué),2014.
[6]陶彩霞,謝曉軍,陳康等,基于云計(jì)算的移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計(jì)[J].電信科學(xué),2013(3):32-35。
[7]陳建昌.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)安全分析[J].新聚焦,2013(17):13-16.
User Behavior Analysisbased on Big Data Platform
LI Jia-bin,SHI Yong,XUE Zhi
(School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)
Big data analysis becomes an important technology for more and more enterprises,governments and various associations.By analyzing the huge quantity of network data,the users’ internet behavior could be vividly and effectively traced out.A method of big data analysis method based on processing the network datagram is proposed,and the behavior of network users could be further acquired and the behavior trend also forecasted,thus providing valuable references for better governance of people’s livelihood,enterprise operating and security management.
big data; user behavior analysis; network datagram; behaviortrend forecast;network security management
TP309 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]1009-8054(2016)04-0087-05
2016-01-28
信息網(wǎng)絡(luò)安全公安部重點(diǎn)實(shí)驗(yàn)室基金(No.C14612)
李嘉彬(1992—),男,碩士,主要研究方向?yàn)榇髷?shù)據(jù)分析、網(wǎng)絡(luò)攻防;
施勇(1979—),男,博士,講師,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、網(wǎng)絡(luò)攻防;
薛質(zhì)(1971—),男,博士,教授,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、網(wǎng)絡(luò)攻防。