肖明坤,王吉順(江蘇省郵電規(guī)劃設(shè)計(jì)院有限責(zé)任公司,南京 210006)
?
基于電信運(yùn)營商固網(wǎng)DPI系統(tǒng)的大數(shù)據(jù)清洗方案
肖明坤,王吉順
(江蘇省郵電規(guī)劃設(shè)計(jì)院有限責(zé)任公司,南京 210006)
摘 要本文提出了一種針對電信運(yùn)營商固網(wǎng)http信息的清洗方案,經(jīng)過現(xiàn)網(wǎng)試點(diǎn)部署驗(yàn)證可到80%以上的清洗率,大大節(jié)省了存儲(chǔ)空間和網(wǎng)絡(luò)傳輸帶寬,對運(yùn)營商開展固網(wǎng)大數(shù)據(jù)業(yè)務(wù)具有重要的借鑒意義。
關(guān)鍵詞大數(shù)據(jù);數(shù)據(jù)清洗;DPI系統(tǒng)
大數(shù)據(jù)熱浪的推進(jìn),為手握大把數(shù)據(jù)資源的電信運(yùn)營商帶來了機(jī)遇。大數(shù)據(jù)可以讓運(yùn)營商能夠全面洞察客戶行為,精確化地識別客戶,精準(zhǔn)地制訂策略,支持經(jīng)營決策,增強(qiáng)電信核心競爭力;也可以利用大數(shù)據(jù)資產(chǎn)優(yōu)勢發(fā)展大數(shù)據(jù)對外業(yè)務(wù),為合作伙伴提供數(shù)據(jù)分析開放能力,提升對大數(shù)據(jù)產(chǎn)業(yè)鏈的服務(wù)能力。
DPI(深度數(shù)據(jù)分組檢測技術(shù))是一種基于應(yīng)用層的流量檢測和控制技術(shù),針對數(shù)據(jù)分組的不同層信息(如IP地址、應(yīng)用層端口、應(yīng)用層協(xié)議等)進(jìn)行深度檢測和分析,從而得到整個(gè)數(shù)據(jù)流或數(shù)據(jù)分組的應(yīng)用層信息,然后按照系統(tǒng)定義的策略對流量進(jìn)行統(tǒng)計(jì)分析和控制。電信運(yùn)營商大都在固網(wǎng)和移動(dòng)網(wǎng)側(cè)建設(shè)了基于DPI技術(shù)的分析系統(tǒng),用于監(jiān)控網(wǎng)絡(luò)的流量流向、分析用戶使用行為,為網(wǎng)絡(luò)提供建設(shè)依據(jù)、為對內(nèi)對外增值業(yè)務(wù)提供數(shù)據(jù)基礎(chǔ)。
運(yùn)營商使用固網(wǎng)DPI的采集信息可以開展RTB、精準(zhǔn)廣告等大數(shù)據(jù)業(yè)務(wù),但DPI的采集信息中含有海量的用戶非主動(dòng)行為訪問數(shù)據(jù),這部分?jǐn)?shù)據(jù)的上報(bào)傳輸過程會(huì)占用大量的網(wǎng)絡(luò)帶寬資源和存儲(chǔ)空間,并且對后續(xù)RTB、精準(zhǔn)廣告等大數(shù)據(jù)業(yè)務(wù)的產(chǎn)品開發(fā)、運(yùn)營、銷售、服務(wù)和經(jīng)營支撐工作均無實(shí)際指導(dǎo)意義。因此,如何對海量垃圾數(shù)據(jù)進(jìn)行清洗是運(yùn)營商開展大數(shù)據(jù)業(yè)務(wù)面臨的第一個(gè)巨大挑戰(zhàn)。
互聯(lián)網(wǎng)上的各種應(yīng)用協(xié)議具有不同的數(shù)據(jù)價(jià)值,理想狀態(tài)是DPI系統(tǒng)對全網(wǎng)全協(xié)議全流量進(jìn)行全覆蓋分析,可以得出最全面的分析效果,但是這樣的分析范圍會(huì)使得DPI系統(tǒng)的建設(shè)規(guī)模和資金花費(fèi)巨大。通過對互聯(lián)網(wǎng)上的流量構(gòu)成進(jìn)行分析,如表1所示,發(fā)現(xiàn)對電信運(yùn)營商內(nèi)外業(yè)務(wù)開展(尤其是大數(shù)據(jù)業(yè)務(wù))最有價(jià)值的是http流量,而這部分流量占總流量的比例僅為10%,所以在現(xiàn)網(wǎng)部署中建議對最有價(jià)值的http流量進(jìn)行全覆蓋監(jiān)控,對其它價(jià)值較低的流量做局部或抽樣分析,提高投資的性價(jià)比。
對于http流量的抽取可以由DPI系統(tǒng)本身完成,也可以在清洗系統(tǒng)中進(jìn)行。由于目前絕大部分DPI廠商均已支持http流量抽取,且執(zhí)行效率要高于清洗系統(tǒng),所以文章后續(xù)對清洗系統(tǒng)的分析以DPI廠商直接輸出http GET流量為前提。
表1 http流量功能分析
數(shù)據(jù)清洗的目的主要是檢測和發(fā)現(xiàn)數(shù)據(jù)中存在的錯(cuò)誤和不一致,剔除或者改正它們,有效提高數(shù)據(jù)質(zhì)量;剔除非用戶主動(dòng)訪問行為記錄等無效垃圾數(shù)據(jù),減少網(wǎng)絡(luò)傳輸帶寬和存儲(chǔ)資源;構(gòu)建高質(zhì)量數(shù)據(jù)資產(chǎn)信息庫,保證數(shù)據(jù)的準(zhǔn)確性、一致性、完整性和有效性,為大數(shù)據(jù)應(yīng)用產(chǎn)品提供有效數(shù)據(jù)支撐。
數(shù)據(jù)清洗的原理是利用統(tǒng)計(jì)、數(shù)據(jù)挖掘、模式規(guī)則等方法將臟數(shù)據(jù)轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。通過編制專用腳本結(jié)合人工檢查,實(shí)現(xiàn)諸如文件命名規(guī)則、字段個(gè)數(shù)等基礎(chǔ)規(guī)則數(shù)據(jù)清洗;根據(jù)概率統(tǒng)計(jì)學(xué)原理查找數(shù)值異常的記錄(如姓名、身份證號)等進(jìn)行清洗;根據(jù)訪問行為軌跡算法對DPI數(shù)據(jù)中的用戶非主動(dòng)訪問行為記錄等進(jìn)行清洗。
文章中的方案主要對DPI系統(tǒng)采集到的http GET記錄進(jìn)行如下3方面的清洗:將符合白名單特征的記錄保留、將符合黑名單特征的記錄剔除、將保留的記錄中不符合質(zhì)量規(guī)則的剔除,其余的記錄進(jìn)行封裝上傳供大數(shù)據(jù)業(yè)務(wù)開展使用。
電信運(yùn)營商的DPI系統(tǒng)通常以省為單位進(jìn)行建設(shè),采集到的數(shù)據(jù)一方面支撐省內(nèi)的網(wǎng)絡(luò)建設(shè)和業(yè)務(wù)運(yùn)營,另一方面向集團(tuán)上報(bào),由集團(tuán)統(tǒng)一收集各省信息進(jìn)行集中的大數(shù)據(jù)業(yè)務(wù)運(yùn)營及全網(wǎng)監(jiān)測和建設(shè)管控。文章的大數(shù)據(jù)清洗系統(tǒng)正是基于運(yùn)營商這種“集團(tuán)-省”二級架構(gòu)的模式來部署,系統(tǒng)部署架構(gòu)如圖1所示。
省級大數(shù)據(jù)清洗系統(tǒng)接收省DPI分析平臺送來的http GET流量,根據(jù)黑白名單對數(shù)據(jù)進(jìn)行清洗后同時(shí)傳送給集團(tuán)和省內(nèi)的大數(shù)據(jù)業(yè)務(wù)平臺。集團(tuán)大數(shù)據(jù)清洗系統(tǒng)負(fù)責(zé)收集各省大數(shù)據(jù)清洗系統(tǒng)上傳的清洗后數(shù)據(jù),統(tǒng)一發(fā)送給集團(tuán)的大數(shù)據(jù)業(yè)務(wù)平臺用于集團(tuán)統(tǒng)一開展大數(shù)據(jù)業(yè)務(wù),同時(shí)負(fù)責(zé)黑名單知識的維護(hù)/學(xué)習(xí)、黑白名單規(guī)則的下發(fā)以及數(shù)據(jù)清洗質(zhì)量的驗(yàn)證。
4.1 省級大數(shù)據(jù)清洗系統(tǒng)
圖1 大數(shù)據(jù)清洗系統(tǒng)部署架構(gòu)
省級大數(shù)據(jù)清洗系統(tǒng)功能架構(gòu)如圖2所示,主要分為數(shù)據(jù)接入層、數(shù)據(jù)清洗層和數(shù)據(jù)管理層。其中數(shù)據(jù)接入層實(shí)現(xiàn)對DPI系統(tǒng)抽取的http GET數(shù)據(jù)進(jìn)行接入和調(diào)度以及黑白名單的同步;數(shù)據(jù)清洗層實(shí)現(xiàn)數(shù)據(jù)清洗及數(shù)據(jù)封裝上報(bào)功能;數(shù)據(jù)管理層負(fù)責(zé)清洗質(zhì)量驗(yàn)證所需數(shù)據(jù)的抽取、清洗分析監(jiān)測。
圖2 省級大數(shù)據(jù)清洗系統(tǒng)功能模塊
4.1.1 數(shù)據(jù)接入層
通過與DPI系統(tǒng)間的接口將http GET流量實(shí)時(shí)傳送到清洗系統(tǒng),清洗系統(tǒng)通過負(fù)載均衡方式將數(shù)據(jù)分發(fā)到數(shù)據(jù)清洗層,同時(shí)與集團(tuán)清洗系統(tǒng)間同步黑白名單。
4.1.2 數(shù)據(jù)清洗層
清洗層讀取DPI系統(tǒng)上報(bào)的數(shù)據(jù),并加載到清洗主機(jī)內(nèi)存中,將符合白名單要求的數(shù)據(jù)封裝后旁路上傳給集團(tuán)大數(shù)據(jù)清洗系統(tǒng),對剩余的數(shù)據(jù)根據(jù)黑名單進(jìn)行清洗,符合黑名單特征的記錄直接剔除,將其余數(shù)據(jù)封裝并上報(bào)。在黑白名單過濾的同時(shí)對數(shù)據(jù)進(jìn)行質(zhì)量規(guī)則檢驗(yàn),對不符合質(zhì)量規(guī)則(如缺少關(guān)鍵字段、數(shù)值異常等)的數(shù)據(jù)進(jìn)行剔除。
白名單是根據(jù)業(yè)務(wù)需求提出的一組URL集合,主要由業(yè)務(wù)名稱、URL特征等要素構(gòu)成,通常由業(yè)務(wù)使用部門直接提出。黑名單是一組URL或關(guān)鍵字集合,此類知識可以明確標(biāo)識是非用戶主動(dòng)行為產(chǎn)生的請求URL,符合黑名單特征的記錄直接過濾。過濾類型包括圖片鏈接、應(yīng)用接口、各類插件、廣告推送、統(tǒng)計(jì)監(jiān)控、格式文件、腳本文件、錯(cuò)誤頁面等,關(guān)鍵字特征包括*.mp4、*.m4a、*.jpg等,URL特征包括*qlogo. cn/*、tianqi.2345.com/plugin/widget/index.htm、#/*等。
4.1.3 數(shù)據(jù)管理層
實(shí)現(xiàn)集團(tuán)清洗驗(yàn)證模塊清洗質(zhì)量驗(yàn)證模塊所需的原始數(shù)據(jù)抽取、留存,驗(yàn)證數(shù)據(jù)抽取留存規(guī)則可通過配置進(jìn)行修改;對上報(bào)數(shù)據(jù)中關(guān)鍵指標(biāo)進(jìn)行統(tǒng)計(jì)分析以及對清洗過程中的指標(biāo)進(jìn)行分析監(jiān)測,并將每天分析結(jié)果上報(bào)。分析監(jiān)測的內(nèi)容包括數(shù)據(jù)規(guī)模,如文件數(shù)、文件大小、記錄數(shù)等;黑名單清洗規(guī)模,如各類知識被清洗掉多少(PV值)、占總記錄的百分比等。
4.2 集團(tuán)大數(shù)據(jù)清洗系統(tǒng)
集團(tuán)大數(shù)據(jù)清洗系統(tǒng)功能主要包括清洗質(zhì)量驗(yàn)證、黑名單知識維護(hù)學(xué)習(xí)、黑白名單知識下發(fā)等功能。
4.2.1 清洗質(zhì)量驗(yàn)證
數(shù)據(jù)清洗質(zhì)量驗(yàn)證主要是指定期對黑名單過濾記錄進(jìn)行抽樣檢測,使用爬蟲工具執(zhí)行URL爬取,根據(jù)爬取到的ContentType/title等內(nèi)容人工確認(rèn)是否有用戶有效訪問記錄被清洗掉,以檢驗(yàn)黑名單過濾特征是否準(zhǔn)確。
4.2.2 黑名單知識維護(hù)學(xué)習(xí)
黑名單知識庫是數(shù)據(jù)清洗的基礎(chǔ),知識庫的質(zhì)量直接決定數(shù)據(jù)清洗質(zhì)量。知識學(xué)習(xí)維護(hù)是一個(gè)動(dòng)態(tài)的過程,每天需要對新增的互聯(lián)網(wǎng)訪問記錄進(jìn)行跟蹤分析,同時(shí)需要定期清除掉已經(jīng)失效的知識。
黑名單知識維護(hù)學(xué)習(xí)流程:每日抽取高峰時(shí)段未匹配黑名單的URL,對這些URL進(jìn)行PV排序,使用爬蟲工具爬取URL排名前Top n的ContentType/title,對這些進(jìn)行域名、目錄聚合形成新的URL特征,對新特征人工審核,審核通過后加入黑名單知識庫。
4.2.3 黑白名單下發(fā)
黑白名單規(guī)則在由集團(tuán)大數(shù)據(jù)清洗系統(tǒng)生成和維護(hù)。在管理員審核通過后,向省級大數(shù)據(jù)清洗系統(tǒng)下發(fā),供數(shù)據(jù)清洗使用。在現(xiàn)網(wǎng)部署時(shí)可根據(jù)各省實(shí)際網(wǎng)絡(luò)和業(yè)務(wù)開展情況制定不同的黑名單規(guī)則。
省級大數(shù)據(jù)清洗系統(tǒng)對省DPI系統(tǒng)上報(bào)的httpGET數(shù)據(jù)按照黑白名單規(guī)則進(jìn)行清洗,具體流程如圖3所示。除了上傳給集團(tuán)大數(shù)據(jù)清洗系統(tǒng)外,同時(shí)還需上傳一份黑白名單清洗后的數(shù)據(jù)給省里的大數(shù)據(jù)業(yè)務(wù)平臺。
圖3 省級大數(shù)據(jù)清洗系統(tǒng)數(shù)據(jù)處理流程
本文對基于電信運(yùn)營商DPI系統(tǒng)的大數(shù)據(jù)清洗方案進(jìn)行了探討,從系統(tǒng)部署架構(gòu)、系統(tǒng)功能、數(shù)據(jù)處理流程等方面進(jìn)行了研究。選擇某省份電信運(yùn)營商對清洗方案進(jìn)行現(xiàn)網(wǎng)試點(diǎn)部署,可在不影響業(yè)務(wù)的前提下達(dá)到80%以上的清洗率。清洗前該省份產(chǎn)生的http GET記錄條數(shù)約為120億條每天,記錄文件壓縮后的存儲(chǔ)空間約為3.2 T每天,從省內(nèi)上傳到集團(tuán)的峰值流量約為745Mbit/s;清洗后上傳給集團(tuán)的記錄條數(shù)約為20億條每天,上傳文件大小約為630 GB,峰值上傳流量約為160 Mbit/s。部署清洗系統(tǒng)節(jié)省了大量的數(shù)據(jù)存儲(chǔ)空間和網(wǎng)絡(luò)上傳帶寬,并大大提升了大數(shù)據(jù)業(yè)務(wù)平臺的處理效率,對于計(jì)劃使用固網(wǎng)DPI采集信息開展大數(shù)據(jù)業(yè)務(wù)的運(yùn)營商具有重要的借鑒意義。
Study of big data cleaning solution based on DPI system of operators
XIAO Ming-kun, WANG Ji-shun
(Jiangsu Posts & Telecommunications Planning and Designing Institute Co., Ltd., Nanjing 210006, China)
AbstractThis paper provides a data clean solution based on DPI raw data provided by operators. The solution is verifi ed that rate of data cleaning can be up to 80% while big data business is not impacted by deploying on real network. The solution is valuable when operators deploy big data business since much bandwith and storage can be saved.
Keywordsbig data; data cleaning; deep packet inspection system
收稿日期:2015-09-13
中圖分類號TN915
文獻(xiàn)標(biāo)識碼A
文章編號1008-5599(2016)02-0040-04