張琦+張洪玲+張文華+朱旭梅
摘要: 隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)平臺已經(jīng)廣泛應(yīng)用到各行各業(yè),網(wǎng)站不僅成為向公眾發(fā)布信息的媒體載體,也成為公眾了解各行業(yè)的窗口。但是,網(wǎng)站正面臨著一個非常嚴重的問題:黑客攻擊篡改。網(wǎng)頁惡意篡改會造成公眾得到虛假的信息,從而造成很嚴重的后果。網(wǎng)頁惡意篡改檢測利用爬蟲獲取網(wǎng)頁代碼,利用正則表達式對文本進行分類,并且利用中文分詞,漢明距離,感知哈希算法等先進的檢測技術(shù),對網(wǎng)頁的內(nèi)容進行篡改檢測,以便管理員及時發(fā)現(xiàn)問題,確保網(wǎng)站的安全性。
關(guān)鍵詞:惡意篡改;正則表達式;中文分詞;漢明距離;感知哈希算法
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)30-0039-02
Research and Design of Malicious Tamper Detection
ZHANG Qi1,ZHANG Hong-ling2,ZHANG Wen-hua1,ZHU Xu-mei1
(1.Shandong Xiehe University,Jinan 250107,China;2.Qingdao Qiushi College,Qingdao 266108,China)
Abstract: With the popularity of the Internet, the network platform has been widely applied to all walks of life, not only be released to the public media of information carrier, has become the window of the public understanding of various industries. But, the website is facing a very serious problem: the hacker attacks tampered with. Web malicious tampering will cause the public to get false information, resulting in serious consequences. Malicious tampering detection using web crawler access web page code, using regular expressions to text classification, and the use of Chinese word segmentation, the hamming distance, advanced testing technology such as perception of hash algorithm, tamper detection of web content, so that the administrator found the problem in time, ensure the security of the site.
Key words : malicious tampering; regular expression; Chinese words segmentation; hamming distance ; perception of hash algorithm
1 概述
中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布《第35次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[1],報告中顯示,截止2014年12月,我國網(wǎng)民規(guī)模達6.49億,2014年共計新增網(wǎng)民3117萬人?;ヂ?lián)網(wǎng)的普及率為47.9%,較2013年底提升了2.1個百分點。
隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)平臺已應(yīng)用到各行各業(yè)。但是,隨之出現(xiàn)的問題就是網(wǎng)站惡意篡改。360公司云事業(yè)部副總經(jīng)理胡振勇在2015中國互聯(lián)網(wǎng)產(chǎn)業(yè)峰會表示:2014年全年,360網(wǎng)站安全檢測平臺共掃描各類網(wǎng)站164.2萬個,其中被篡改的網(wǎng)站13.7萬個,約占掃描網(wǎng)站總數(shù)的10.8%。
針對網(wǎng)站的現(xiàn)狀,本文提出網(wǎng)頁惡意篡改檢測的一種方法。針對政府教育類等網(wǎng)站發(fā)布惡意信息、傳播病毒等問題進行檢測,以免發(fā)現(xiàn)不及時對公眾造成危害。
2 核心技術(shù)
2.1 正則表達式
正則表達式[2]是一種對字符串進行操作的邏輯公式。把不規(guī)則的字符串,按照一定的過濾邏輯進行過濾后變?yōu)橐?guī)則字符串。正則表達式都能提取出任何一個字符串的特定的部分。不僅對字符串過濾,并且對文本也可以進行操作,比如智能方式替換文本,還可以重新設(shè)置文本的格式,正則表達式所提供的方法是簡單而有效的。由于正則表達式可以在很多工具中使用,所以很多編輯器都可以使用它來處理文本內(nèi)容。
2.2 漢明距離
漢明距離[3-5]表示兩個(相同長度)字對應(yīng)位不同的數(shù)量,我們以d(x,y)表示兩個字x,y之間的漢明距離。對兩個字符串進行異或運算,并統(tǒng)計結(jié)果為1的個數(shù),那么這個數(shù)就是漢明距離。
比較兩個比特串有多少個位不一樣,簡潔的操作時就是兩個比特串進行異或之后包含1的個數(shù)。漢明距在圖像處理領(lǐng)域也有這廣泛的應(yīng)用,是比較二進制圖像非常有效的手段。
3 系統(tǒng)架構(gòu)圖
互聯(lián)網(wǎng)用戶和黑客可同時通過網(wǎng)絡(luò)訪問網(wǎng)站,如果網(wǎng)站服務(wù)器遭到攻擊,則網(wǎng)頁被篡改,網(wǎng)頁篡改檢測系統(tǒng)會根據(jù)網(wǎng)站服務(wù)器中的網(wǎng)頁內(nèi)容和數(shù)據(jù)庫中的內(nèi)容比對判斷是否被更改。系統(tǒng)架構(gòu)如圖1所示。
圖1 系統(tǒng)結(jié)構(gòu)圖
4 檢測流程圖
惡意篡改檢測流程如圖2所示,首先通過網(wǎng)絡(luò)爬蟲程序?qū)W(wǎng)站源碼進行提取,然后將獲取的網(wǎng)頁源代碼通過正則表達式分類,針對網(wǎng)頁中的文本通過分詞,hash,加權(quán),合并,降維,將文本都轉(zhuǎn)換為simhash 代碼,再通過漢明距離計算文本的相似程度,來判斷網(wǎng)頁中的文本是否被篡改。如果網(wǎng)頁中存在圖片,通過感知哈希算法,把每張圖片生成一個“指紋”字符串,然后比較不同圖片的指紋,如果越接近,圖片越相似。
圖2 檢測流程圖
4.1中文分詞
中文分詞[6](Chinese Word Segmentation) 指的是將一個漢字序列按照一定的規(guī)則重新組合成一個一個的單獨的詞序列的過程。在本文選用SharpICTCLAS, ICTCLAS是有中科院計算機研究所研制的,當前世界上最好的漢語詞法分析器,SharpICTCLAS是對ICTCLAS進行了調(diào)整和提升。
4.2漢明距離的文本相似度計算
通過第二步分詞[7-8],運用hash算法把每個詞變成hash值,然后按照單詞的權(quán)重形成加權(quán)數(shù)字串,把上面各個單詞算出來的序列值累加,變成只有一個序列串,把序列串變成0 1串,形成simhash簽名,然后通過漢明距離計算機是否相似。
漢明距離的文本相似度計算,和向量空間模型的計算相比,避開了在歐氏空間中求相似度的大量乘法運算,并且沒有采用傳統(tǒng)的借用空間的理念,用碼字的方法來表征文本信息的特征,提高了計算機速度,有一定的優(yōu)越性。
4.3感知哈希算法
針對圖片是否相同,利用感知哈希算法[9-11]的實現(xiàn)步驟:第一步,縮小圖片尺寸;第二步,簡化色彩;第三步,計算機平均值;第四步,比較像素的灰度;第五步,計算機哈希值,得到指紋以后,就可以對比不同的圖片,看看64位中有多少位是不一樣的。如果不相同的數(shù)據(jù)位不超過5,就說明兩張圖片很相似;如果大于10,就說明這是兩張不同的圖片。
5 總結(jié)與展望
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)安全問題愈加凸顯,網(wǎng)頁遭受異常攻擊并篡改,已經(jīng)嚴重影響到網(wǎng)絡(luò)的健康發(fā)展,中國互聯(lián)網(wǎng)安全的治理和規(guī)范是一個急需解決的問題,網(wǎng)頁惡意篡改檢測的研究是一個不斷更新、不斷完善的課題,雖然可以對網(wǎng)頁中文本、鏈接以及圖片進行篡改檢測,但是在檢測方法上有待進一步改進和擴展。
參考文獻:
[1] CNNIC, 第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R].中國互聯(lián)網(wǎng)信息中心, 2014.
[2] Friedl J E F,余晟.精通正則表達式[M]. 北京:電子工業(yè)出版社,2007:1-20.
[3] 張啟宇,朱玲,孫愛娥.文本相似度的計算[J]. 電腦知識與技術(shù),2008(34).
[4] 金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J]. 大連理工大學(xué)學(xué)報,2005(2).
[5] 張煥炯,王國勝,鐘義信.基于漢明距離的文本相似度計算[J].計算機工程與應(yīng)用, 2001(19).
[6] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報, 2007, 21(3): 8-19.
[7] 朱小娟,陳特放. 詞頻統(tǒng)計中文分詞技術(shù)的研究[J]. 儀器儀表用戶,2007(3).
[8] 張旭.一個基于詞典與統(tǒng)計的中文分詞算法[D]. 成都:電子科技大學(xué), 2007.
[9] 牛夏牧,焦玉華.感知哈希綜述[J]. 電子學(xué)報,2008(7).
[10] 張慧. 圖像感知哈希測評基準及算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2009.
[11] 李志敏.哈希函數(shù)設(shè)計與分析[D]. 北京:北京郵電大學(xué) 2009.