吳文君
引言:互聯網的發(fā)展,為人們的生活帶來了更多的便利和樂趣,但計算機病毒的存在卻給許多用戶的生活造成了困擾。為設計出有效的病毒防御機制,了解病毒的傳播機制舉足輕重。本文基于有向網絡針對最廣為傳播的Email病毒建立了傳播模型,并對其進行了數理分析。首先闡述了研究課題的背景意義、國內外目前研究的傳播模型及其優(yōu)缺點。然后,分析了Email病毒的傳播機制,建立了一個有向的Email網絡,在引入感染率函數后分兩個階段建立了Email病毒的傳播模型。最后,本文分別從理論與實驗這兩個方面分析了病毒傳播的巔峰時刻及病毒清除的條件,得到了一致、合理的結果,為病毒抵御策略的制定提供了科學有力的指導。
一、研究背景與意義
計算機病毒是編制者在計算機程序中插入的破壞計算機功能或者影響計算機使用,且能自我復制的一組指令或程序代碼。它具有非授權的可執(zhí)行性、隱蔽性、破壞性、傳染性及可觸發(fā)性。 隨著互聯網的高速發(fā)展,現有的計算機病毒絕大多數是基于網絡進行傳播的病毒,而將病毒代碼附屬在Email中進行傳播則是網絡病毒傳播的一個主要途徑。
隨著越來越多的網站賬戶乃至安全賬號選擇與Email賬戶進行綁定與認證,用戶通過網絡群收發(fā)郵件、賀卡,開啟訂閱后定期接收推送內容的習慣,Email成為當今世界上傳播計算機病毒最主要的媒介。因此,分析Email病毒的傳播特性,進而提出相應的防御策略已成為網絡信息安全領域一個首要而緊迫的任務。
二、 國內外研究現狀
當前關于Email病毒傳播模型的研究主要是在生物學病毒傳播模型的啟發(fā)下建立起來的。Kephart和White于20世紀末提出了首個計算機病毒傳播模型——SIS模型。此后,一些學者在此基礎上將影響病毒傳播的外界因素、反病毒措施等對病毒傳播的影響考慮進來,力求建立更能準確描述病毒的傳播特征。他們研究內容主要包括分析病毒如何在不同的網絡環(huán)境中傳播、傳播的時間臨界值是什么、免疫措施的影響等。其中,Bimal Kumar Mishra,Dinesh Saini依據信息的網絡延遲性提出了SEIRS模型。Jose R.C.Piqueira,Adolfo A.de Vasconcelos,Vanessa O.Araujo等人在對SIR、AIR、SAI模型進行分析的基礎上提出了動態(tài)SAIC模型。Hua Yuan,Guoqing Chen等人考慮了點到組的傳播,建立了一個擴展的SEIR模型——e-SEIR。Cliff C.Zou,Don Towsley,Weibo Gong等人分析過網絡拓撲結構、初始感染節(jié)點度的大小、檢查電子郵件的時間間隔等因素對Email病毒傳播的影響。T.Komninos,P.Spirakis,Y.C.Stamatiou,G.Vavitsas等人嘗試在無標度的網絡環(huán)境下,建立關于電子郵件和即時消息的蠕蟲傳播模型。
國內關于計算機病毒的研究也在不斷深入。韓蘭勝、洪帆等人建立了群組內Email病毒的迭代傳播模型,包含了節(jié)點的連接率,并利用矩陣的譜半徑分析了病毒消亡的條件。韓宗芬、陶智飛等人利用復雜網絡的冪律分布,通過分析節(jié)點的度對病毒傳播的影響,給出了特定節(jié)點感染病毒的概率函數。
在復雜的互聯網系統(tǒng)中,網絡節(jié)點的連接也是動態(tài)變化的。與此同時,Email病毒的傳播還受到人為因素等綜合因素的影響,這提高了人們對病毒傳播模型開展研究的難度?,F有傳播模型的主要缺陷包括:
1.沒有較好地刻畫人為因素的影響。人為作用對Email病毒的傳播有很大的影響,例如用戶使用計算機的日常習慣、中毒后用戶警惕性的提高、采取的反病毒措施等等。用戶警惕性越高,感染病毒的概率越小,采取反病毒抵御措施還能制止病毒的進一步傳播。
2.未考慮網絡環(huán)境變化的影響。在現實網絡中,病毒傳播會受到連通性和帶寬等的影響。此外,時間也是個不可忽視的因素。在復雜網絡中,病毒的感染率在任何一個時刻都發(fā)生著變化,它應當被視為一個關于時間的函數。
3.未充分結合實際考慮病毒的免疫情況。目前的研究大多從傳播初期便開始考慮病毒的免疫情況,但其實病毒的免疫是有滯后性的,而且免疫的措施來自網絡管理員和用戶兩方面。用戶下載安裝反病毒程序的頻率會隨著這類程序的增多而提升。因此,免疫率與時間有關也值得納入模型的考慮。
針對以上不足并結合已有的研究成果,本文基于有向網絡拓撲結構,設定了動態(tài)傳播函數,建立了一個新的Email病毒傳播模型。
三、 基于有向網絡的Email病毒傳播模型
1、Email病毒傳播過程綜述
電子郵件病毒是一種利用電子郵件地址進行傳播的惡意代碼,制造者可能將病毒代碼附在電子郵件的主體中作為鏈接,也能以附件為載體。一開始只有少數的用戶被感染,有的病毒會對破壞被感染的主機,有的還會自動掃描其文件和有關聯系人,通過自我復制并將病毒郵件發(fā)送到掃描到的地址,從而使病毒大規(guī)模擴散。如果用戶直接將收到的陌生郵件刪除,則不會感染上病毒。由此可見,用戶打開含病毒的郵件是Email病毒傳播的直接原因,用戶的防備心越弱,病毒傳播越快,其影響也越大。
不難看出,Email病毒的傳播需要用戶參與其中,它的傳播不僅受到網絡拓撲結構和節(jié)點度的影響,還與用戶使用電子郵件的習慣有關。如:用戶打開感染郵件的概率、用戶檢查郵件的時間間隔等。因此,本文將Email病毒的感染率定義為一個關于節(jié)點的度、打開感染郵件的概率和檢查郵件的時間間隔等變量的函數,引入動態(tài)的感染率函數將使建立的模型更符合病毒的實際傳播情況。
病毒免疫總是滯后于新病毒的出現。在傳播初期,由于用戶缺乏對新病毒的防備性,反病毒措施的缺失使病毒自由地傳播蔓延。然而,隨著病毒的不斷傳播,用戶將提高警惕,采取措施。因此,在病毒傳播的高峰期的關鍵點及時提高用戶防備性,使其采取防疫措施可以有效地控制病毒傳播,所以本文將以高峰期為臨界值,從兩個階段分析病毒的傳播。
2、Email網絡拓撲結構描述
由于Email病毒主要根據感染用戶的Email地址簿將病毒傳播開來,它的傳播過程具有明顯的方向性??紤]到Email網絡的連通性,定義Email網絡為一有向圖 ,其中 為Email網絡的節(jié)點集,代表網絡中電子郵件用戶的集合, 為Email網絡中的邊集,若節(jié)點A的Email地址簿中含有節(jié)點B的Email地址,則存在一條從A指向B的有向邊,反之同理。若A、B節(jié)點相互擁有對方的Email地址,則A、B之間存在一條雙向邊。
Email網絡中節(jié)點的入度是指某節(jié)點的地址出現在網絡中其他節(jié)點的Email地址簿中的數目,節(jié)點的出度是指該節(jié)點的Email地址簿中含有的Email地址數。電子郵件病毒的傳播在很大程度上取決于感染節(jié)點的度,因為節(jié)點的度反映的是該節(jié)點與網絡中其他節(jié)點的連接強度。節(jié)點的入度越大,被感染的概率就越高;節(jié)點的出度越大,感染其他節(jié)點的概率就越大。
Email有向網絡同其他復雜網絡一樣,具有局部集聚性,且其節(jié)點服從冪律分布。節(jié)點的度越大,越能促進病毒的傳播。而在實際的Email網絡中,度很大的節(jié)點一般較少,大多數節(jié)點的度均較小,而度很大的節(jié)點被感染則會招致病毒的快速擴散。
3、Email病毒傳播模型建立
1)初始階段的傳播模型
假設時間是離散,令 ,用 表示郵件網絡拓撲結構中的用戶總數。 表示 時刻網絡中被感染的用戶數,則 時刻未感染(健康)的用戶的數目為 。設某個健康用戶被感染的概率為 ,則單位時間內新增的被感染用戶有 。因此, 時刻網絡中已感染病毒的用戶由兩部分構成: 時刻已感染上病毒且到 時刻還未被清除的用戶數目以及 時刻新增被感染用戶的數目。令 為反病毒程序開始出現的時刻,則未出現殺毒程序前,即 時,病毒的傳播滿足迭代關系: ,其中 為病毒感染率函數。
由于Email病毒的傳播是從已感染節(jié)點的相鄰節(jié)點傳播的,也就是說, 時刻被感染節(jié)點是與 時刻的感染節(jié)點直接相連的,故感染率函數 與節(jié)點的平均節(jié)點度 有關且 越大越有利病毒的傳播。同時,感染率函數 還應與感染用戶數目占總數 的比例有關,因為顯然已感染的用戶數占比越大,病毒傳播得越快,節(jié)點感染的概率也越大。此外,病毒進入某用戶的郵箱后并不會自行運行,而是潛伏其中直到用戶查看郵箱并打開該郵件乃至點擊其中的鏈接或下載附件時才會被激活。由此可見,若用戶查看郵件的時間間隔越大,則病毒的潛伏期越長,傳播得也就越慢。用戶從郵件服務器上下載郵件后是否會感染上病毒則取決于用戶是否打開該郵件。若用戶打開該郵件,則可能感染病毒并傳給其他用戶;若用戶或其主機中的殺毒軟件檢測到郵件的異常,在未打開的時就將其刪除,則用戶一定不會感染上病毒,且有效地抑制了病毒進一步傳播。因此, 還與用戶查看郵件的時間間隔和用戶打開郵件的概率有關。令 為用戶打開帶毒郵件的概率, 為用戶檢查郵件的時間間隔,則單位時間內用戶打開帶毒郵件的概率為 ,從而有 ,代入迭代函數,有:
2)采取免疫措施后的傳播模型
在建立采取免疫措施后的病毒傳播模型的過程中,應當考慮其的延遲效應,重新分析當病毒爆發(fā)規(guī)模達到一定程度,采取免疫措施后,單位時間內新增感染的用戶數應當從上述的用戶數中減去清除了病毒的用戶數。事實上,感染用戶在殺毒后將變回為易感(健康)用戶,因此在病毒傳播并被清除的過程中,主機其實在易染狀態(tài)和感染狀態(tài)之間不斷切換。設用戶查殺病毒的概率為 ,則殺毒后即 時,
4、傳播模型的理論分析
1) 傳播過程的巔峰時刻
為了更加準確地分析病毒的傳播特征,以便在合適的時刻采取免疫措施,需要分析病毒在自由傳播時的巔峰時刻。
易得微分方程: ,當 時,有 ,我們將在單位時間內新增感染的用戶數目最多的時刻定義為病毒傳播的巔峰時刻。由表達式知,用戶越有可能打開郵件,Email病毒傳播過程中感染的用戶越多;用戶隔得越久查看郵件,越能阻礙病毒傳播。
設初始時刻被感染的節(jié)點數為 ,代入上述微分方程,有:
令 ,則 ,計算可得:
在傳播巔峰到來前采取免疫措施將較易控制病毒,若在傳播巔峰到來后再采取措施,則病毒很可能已經大規(guī)模爆發(fā),此時補救會更為困難。為了更好地控制病毒的傳播勢態(tài),應當盡可能延遲傳播的巔峰時刻,因為這樣能為反病毒專家爭取更多的時間去研發(fā)殺毒程序。因此, 的值越大越好??梢钥闯?,用戶打開郵件的概率及平均節(jié)點度與傳播巔峰時刻的函數成反比,與用戶查看郵件的時間間隔成正比,這說明如果用戶盡可能少地打開帶毒郵件、不那么頻繁地查收郵件并且不要在Email聯系人中保存太多Email地址對推遲病毒傳播的時刻有益,能有效地阻礙病毒的傳播。
2)病毒清除的臨界條件
用戶通過下載運行相應的殺毒程序查殺病毒、刪除感染文件后能夠有效控制病毒的傳播,在一定條件下甚至能徹底清除病毒。
由上述分析,有:
變形可得伯努利方程:
計算得到方程的解為:
其中 表示單位時間內感染用戶數的增長率。當 時,感染用戶數不再增加,這意味著病毒的傳播得到了控制。令 ,則可得到:
由此可得:
由于當 時 ,則當 時,
這說明在病毒的傳播過程中,當殺毒率 、用戶在單位時間內打開感染郵件的概率 以及初始時刻已感病毒的用戶數目 滿足 時,病毒傳播能夠得到控制。
若用戶在單位時間內很可能打開帶毒郵件,則需要較大的病毒清除率 才能阻止病毒的傳播;若打開的可能性較小,則較小的 也可以控制病毒傳播。 與 呈反比關系,這是因為 越小,病毒傳播的空間就越大,因此需要較大的查殺率才能阻止病毒的大規(guī)模傳播。反之,若 很大說明用戶相鄰的可感染的用戶數目較少,這時病毒的傳播速度趨于平緩,因此無需很大的殺毒率就能阻止其傳播。由此可見,病毒傳播的各影響因素之間存在著相互制約的關系而不是彼此獨立的,分析得到的上述病毒的清除條件有利于指導控制病毒傳播的抵制策略。
5、傳播模型的仿真實驗
在Matlab7.0的環(huán)境下用Simulink工具箱進行仿真實驗,對模型進行進一步的驗證與分析。假設在Email有向網絡中,用戶總數N=10000,用戶地址簿中的平均聯系人數 為10。人。
圖1 打開郵件的概率的影響 圖2查收郵件時間間隔的影響
從圖1可知,病毒的傳播分為三個階段。一開始,病毒傳播的十分緩慢,到中期時,病毒的傳播速度快速提升,當感染的用戶數達到用戶總數的一半左右時,病毒傳播迎來巔峰時刻(如虛線所示)。最后,當感染用戶數占比接近100%時,傳播增速減緩并趨于穩(wěn)定。從圖2可以看出,用戶查收郵件時間間隔與之相似,時間越長,病毒傳播得越慢,且在占比達到約一半的時候達到傳播的巔峰時刻。這與3.4.1節(jié)的理論分析結果是一致且相吻合的。
圖3 采取免疫措施后病毒清除率的影響 圖4 免疫后查收郵件時間間隔的影響
由圖3知,采取免疫措施后,病毒的傳播可能持續(xù)上升也可能逐漸下降。圖中虛線部分為開始出現反病毒程序的時刻。當 時,感染用戶的數目不斷增加當 時,感染用戶的數目數逐漸減少,病毒傳播呈下降趨勢最終趨于零。由仿真結果可知, 越大 越小,感染的用戶數目減少得越快。
在 和 保持不變的情況下,查收郵件的時間間隔對感染用戶數的影響如圖4所示。其影響效應與未采取免疫措施時類似,時間間隔越大越能有效抑制病毒傳播。采取免疫措施后,感染用戶數呈下降趨勢,病毒傳播得到了有效的控制。這與理論分析的結果也是一致的,說明該模型建立得合理、科學。
四、總結
本文通過分析郵件病毒的傳播環(huán)境及傳播特性,定義了一個有向的Email網絡拓撲模型,并引入了一個動態(tài)感染率函數,進而建立了一個病毒傳播的數學模型,有效地刻畫了郵件病毒傳播的復雜性和交互性。此外,分析得出了該模型得出病毒傳播過程存在一個關鍵時刻。在該時刻,病毒傳播速度達到最大值,傳播的巔峰時刻到來;在此時刻之前及時清除病毒或延遲該時刻的到來將有利于控制病毒的傳播。
本文還通過分析得到了病毒傳播得到有效控制及清除的條件。分析結果表明,若用戶地址薄中的Email地址越多,打開帶毒郵件的可能性越大,查收郵件的時間間隔越短,則需要更大的病毒清除率;在相反的情況下,較小的殺毒率也能較好地抑制病毒的傳播。仿真實驗也證明了理論分析的合理性。本文開展的研究與分析為病毒傳播防治策略的提出提供了科學有效的理論指導。
參考文獻
[1]Bimal Kumar Mishra, Dinesh Saini. Mathematical models on computer viruses. Applied Mathematics and Computation,2007,1 87(2):929-936.
[2]Jose R.C.Piqueira,Adolfo A.dc Vasconcelos,Carlos E.C.J.Gabriel,Vanessa O.Araujo. Dynamic models for computer viruses.Computers&Security,2008,27(7-8):355-359.
[3]Hua Yuan,Guoqing Chert.Network virtlS—epidemic model with the point-to—group
information propagation.Applied Mathematics and Computation,2008,206(1):357-367.
[4]Cliff C.Zou,Don Towsley,Weibo Gong.Email virus propagation modeling and Analysis.Technical Report:TR-CSE一03-04,University of Massachusetts,Amherst,
2004,157-170.
[5]T.Komainos,P.Spiralds,Y.C.Stamatiou,G.Vavitsas.A Worm Propagation Model based on Scale Free Network Structures and PeopleS Email Acquaintance Profiles.International Journal of Computer Science and Network Security,2007,7(2):308-315.
[6]鄧清華. 計算機病毒傳播模型及防御策略研究[D]. 華中師范大學碩士學位論文, 2009.
[7]韓蘭勝,洪帆,韓淑霞.郵件病毒傳播的迭代模型.計算機工程,2007,33(6):1—2,5.
[8]韓宗芬,陶智飛.網絡病毒傳播模型及兩階段動態(tài)免疫策略.華中科技大學碩
士學位論文,2006.
(作者單位:中南財經政法大學 統(tǒng)計與數學學院)