彭軾,郭昊,王濤
(全球能源互聯(lián)網(wǎng)研究院,北京102209)
軟件漏洞是軟件缺陷的一種,其定義眾說紛紜。Schultz[1]定義軟件漏洞為“一種缺陷,使得入侵者可以繞過安全機制”,Pfleeger[2]將漏洞定義為“安全系統(tǒng)中可被用來引起損失或危害的弱點”,Shin Y[3]認為“軟件漏洞是軟件規(guī)格、開發(fā)或配置中缺陷的一個實例,它的運行違反潛在或外在的安全策略”。軟件缺陷是影響軟件安全性的一個重要因素,軟件安全性是軟件可信性的一個重要屬性,國家標準GB/T 11457中對軟件安全性的定義為:通過對軟件系統(tǒng)進行防護,阻止針對軟件產(chǎn)品的惡意攻擊,使軟件系統(tǒng)免于受到惡意的或無意但有害的破壞。
軟件漏洞對軟件系統(tǒng)有著巨大的危害,例如,2011年12月,中國最大的開發(fā)者技術社區(qū)——中國軟件開發(fā)者聯(lián)盟(CSDN)的系統(tǒng)遭到黑客攻擊,多達600萬用戶的登錄名、口令、郵箱等敏感個人信息泄露。因此,包括政府、軟件供應商、軟件使用者以及軟件評估機構等相關組織采取建立漏洞庫、跟蹤漏洞信息等方法,以求降低漏洞的危害。但是,這些都是事后措施,人們嘗試使用多種數(shù)學模型來預測漏洞,比較有代表性的有熱動力模型[4]、對數(shù)泊松模型[5]、二次模型[6]和指數(shù)模型[7]等,這些模型以時間為重要參數(shù),試圖預測軟件漏洞的數(shù)量等屬性,效果各有千秋。
隨著軟件理論領域的發(fā)展,人們提出了軟件可信性這個概念,軟件可信性有許多定義[8-12],它們的共同點在于軟件可信性是一個復合的概念,包含了軟件幾個方面的屬性,而這些屬性之間如何統(tǒng)一起來反映軟件可信性是一個大問題[13]。以漏洞和故障為例,漏洞有以上提到的幾個屬性,而故障的屬性和漏洞不是一一對應的,因此二者不能直接合并。此外,軟件可信性包含強可靠性和強安全性[12],它們的度量量綱也不一樣,需要一個統(tǒng)一的度量量綱。
現(xiàn)有實際漏洞庫給出的最基本的數(shù)據(jù)都是發(fā)現(xiàn)漏洞的個數(shù)、類型和嚴重程度等數(shù)據(jù)。在使用這些數(shù)據(jù)度量軟件的安全性時,遇到了兩個問題。
第一個問題是現(xiàn)有的漏洞分類方法難以準確描述漏洞對安全性的影響程度。例如,兩個網(wǎng)上銀行軟件可能各有一個漏洞,使得用戶的權限泄露,但是其中一個網(wǎng)上銀行軟件不會造成賬戶被黑客操作,只是泄露信息,用戶必須重置賬戶信息,銀行在此過程中只要支付一定的辦公開支即可;而另一個軟件系統(tǒng)則造成賬戶中的錢被取走或消費,銀行可能需要賠付客戶損失。這兩個漏洞即使被認定為屬于不同的種類,但是對嚴重程度的反映并不直觀,而且在有些分類方法中,由于都屬于權限的泄露,這兩個漏洞可能被分為同一級。
第二個問題是為了度量不同軟件的可信屬性,有必要統(tǒng)一度量的量綱,而現(xiàn)有的漏洞分類方法,要么做不到這一點,要么勉強可以做到,但沒有充分地反映軟件的可信屬性。為了使漏洞的度量能直觀、有效地反映軟件的可信屬性,有必要重新選擇度量的量綱。
那么,有沒有一個影響因子,既能比較客觀地反映出用戶對軟件系統(tǒng)安全性的信任,又能作為一個統(tǒng)一的量綱來度量軟件安全性乃至可信性呢?漏洞所造成的經(jīng)濟損失量符合這個要求。首先,用損失量來描述問題的嚴重程度,有一目了然的優(yōu)點。其次,損失量(即錢數(shù))本身就是一個量化的值,而且是統(tǒng)一的。例如,兩個不同的漏洞各造成了10 000美元的損失,盡管這兩個漏洞可能有很大區(qū)別,但是10 000美元和10 000美元總是相等的。第三,使用損失量度量軟件安全性乃至可信性可以讓用戶拋開細節(jié),直接面對他們關心的方面,從而將軟件可信問題的主觀因素統(tǒng)一在度量中。
在已知的范圍內(nèi),學術界和產(chǎn)業(yè)界還沒有研究過使用損失量度量安全性。因此,為了使用損失量作為度量和預測漏洞發(fā)現(xiàn)的量綱,有必要審視一下?lián)p失出現(xiàn)的規(guī)律,以便選擇合理的模型。
首先考察漏洞的出現(xiàn)趨勢。通常來講,一個軟件系統(tǒng)發(fā)布并投入使用后,漏洞從零開始增長,由于具體情況不同,可能在不同時期有不同的增長速度;隨著已發(fā)現(xiàn)漏洞被修補,新漏洞的發(fā)現(xiàn)速度最終會下降;由于漏洞本質(zhì)上是軟件開發(fā)部署過程中系統(tǒng)內(nèi)部固有的缺陷,所以其數(shù)量是有限的,不會無限增長,但也很可能不會全部被發(fā)現(xiàn),而且軟件最終會因為更新而下降,所以在一個時間點以后,漏洞數(shù)趨近于一個固定值。大概的趨勢如圖1所示。
圖1 漏洞數(shù)量隨時間的變化趨勢
漏洞的發(fā)現(xiàn)是一個離散的過程,而損失是一個連續(xù)的量。損失是由漏洞造成的,但事實上不能得到很精確的記錄,而且也不要求預測模型有很精確的結果,只要精確到某個數(shù)量級就可以了。所以可以將損失量離散化,比如以1萬元或10萬元為單位。雖然損失隨著離散的漏洞而出現(xiàn),但是當考慮損失總量的時候,通過離散化方法,也可以得到類似于圖1的趨勢,如圖2所示。
圖2 漏洞造成的損失量隨時間的變化趨勢
因此,損失量也可以使用那些用于預測軟件缺陷的模型來進行預測。由于這些模型中很多是基于概率的模型,所以還要確定漏洞的發(fā)現(xiàn)是不是概率問題。
很顯然,從不同的角度出發(fā),漏洞的發(fā)現(xiàn)規(guī)律也不同。由于需要建立的是通用的預測模型,而不是專用的模型,必須選擇一個有通用性的,在軟件漏洞生命周期內(nèi)人們所扮演的所有角色中,三方軟件質(zhì)量評測機構最符合要求。首先,第三方軟件質(zhì)量評測機構通常建立并維護漏洞的數(shù)據(jù)庫,因此,不缺乏模型需要的基礎漏洞數(shù)據(jù)。其次,第三方軟件質(zhì)量評測機構不參與軟件的開發(fā),也不會把自己的工作量作為唯一參數(shù),因為他們明白有許多人同樣在挖掘漏洞。第三,盡管第三方軟件質(zhì)量評測機構收集的信息不能精確到函數(shù)數(shù)量或者工作時間這樣的精度,也會有一些時延,但是漏洞預測本身也不可能做到非常精確,一定范圍內(nèi)的誤差是不可避免的,所以盡管原始數(shù)據(jù)越翔實越好,但是如果實在難以獲得,也沒有必要強求。
從第三方軟件質(zhì)量評測機構的角度來看,漏洞的出現(xiàn)有著隨機性,而且可以用一個數(shù)字來表示這種隨機性的大小,因此漏洞的出現(xiàn)可以看作概率問題。
國內(nèi)外學者提出了許多模型,比較有代表性的有熱動力(AT)模型、對數(shù)泊松模型、二次模型、指數(shù)模型、邏輯模型、線性模型、多周期模型等。在這些模型中,MUSA[14,15]等人提出的模型考慮了累計的故障數(shù)、故障出現(xiàn)率的衰減等因素,因此有十分重要的參考意義。本文將從損失和時間的聯(lián)系出發(fā),推導出預測模型,并根據(jù)實際問題進行改進。
設{M(τ),τ≥0}為一個計數(shù)過程,表示到時間τ為止由漏洞造成的累計損失量。顯然:
用m(τ)表示到時間τ為止由漏洞造成的累計損失量的期望,為τ的有界不遞減函數(shù),m(τ)=E[M(τ)]滿足以下關系:
其中,α是最終軟件中所有漏洞造成損失量的和的期望。
假設在時間(τ,τ+Δτ)內(nèi)漏洞造成損失的期望正比于所有未發(fā)現(xiàn)漏洞造成損失的和的期望,則:
其中,β是常數(shù),且當Δτ→0時,o(Δτ)/Δτ→0。
在式(3)中令Δτ→0,則:
解此微分方程,可得:
m(τ)即M(τ)的均值函數(shù),其密度函數(shù)為:
{M(τ),τ≥0}是均值函數(shù)為m(τ)、密度函數(shù)為λ(τ)的泊松過程,y是自然數(shù),并且滿足:
為了區(qū)別于傳統(tǒng)的安全度,定義基于損失量的安全度為強安全度,其具體定義為在上一個損失時間一定的條件下,下一段時間內(nèi)不發(fā)生漏洞引起的損失的條件概率。
Ti′(i=1,2,…)表示第i-1個損失mi-1到第i個損失mi的時間間隔的隨機變量,Ti(i=1,2,…)表示到第i個損失mi的時間的隨機變量,則:
其中,T0=0。
給定時間序列τ1,τ2,…,τn,則T1,T2,…,Tn的聯(lián)合密度函數(shù)為:
對數(shù)似然函數(shù)為:
分別對α、β求導,并對導數(shù)賦0,建立方程組:
由此用數(shù)值方法可求解,解出α、β。
從中國國家信息安全漏洞庫中選取了Windows XP操作系統(tǒng),Adobe Flash Player和Mozilla Firefox從發(fā)布起,累計200個漏洞的數(shù)據(jù)。這些漏洞按嚴重程度被分為4類,其中等級4最危險。假定嚴重等級越高損失越大,一個等級對應一個損失量級,在本文的例子中規(guī)定嚴重程度為1的漏洞造成1萬元損失,嚴重程度為2的漏洞造成2萬元損失,以此類推。將漏洞按發(fā)現(xiàn)日期排列,計算出發(fā)現(xiàn)日期距軟件發(fā)布日期相差的天數(shù)。同時,假設一天只發(fā)現(xiàn)一次損失,因此將同一天內(nèi)的損失量合并取平均值。
使用前50個數(shù)據(jù)來估算剩下的數(shù)據(jù)并與實際數(shù)據(jù)比較,誤差在±0.5之間的結果記為預測成功,計算結果見表1(α=257.0,β=0.003 6,準確率約為20%)、表2(α=288.0,β=0.002 1,準確率約為35%)、表3(α=211.0,β=0.006 1,準確率約為30%)。
表1 Windows XP預測結果
表2 Flash Player預測結果
表3 Firefox預測結果
從以上分析可以看到,預測結果并不理想,下面將對預測結果進行分析,改進預測模型,以得到更好的效果。
設τi為發(fā)生第i次損失的時間,τi′為此次損失與上一次 損 失 之 間 的 時 間 間 隔,即τi′=τi-τi-1,則 在 時 間(τi-1,τi]中產(chǎn)生損失與τi′相關,ω為相關系數(shù)。
設t=f(τ)=τ+ωτ′,為了表示方便,沒有給t、τ和τ′加下標,在實際數(shù)據(jù)中它們是一一對應的。
為了保證損失量不變,設隨機過程N(t),規(guī)定:N(t)=N[f(τ)]=M(τ),Pr{N(t)=m}=Pr{M(τ)=m}。
設N(t)的均值函數(shù)為μt(t),密度函數(shù)為λt(t),則:
這相當于從 坐標系{τ,μ(τ)}轉換 到坐標系{t,μt(t)},由于t是τ變換后的結果,而μt(t)=μ(t),那么拉長后的損失量曲線應該比原曲線更平緩,如圖3所示。
圖3 坐標系的變換
可以得出:
損失密度函數(shù)為:
同理,可以得到似然函數(shù):
分別對α、β、ω求導,并對導數(shù)賦0建立方程組:
用數(shù)值方法可求解出α、β、ω。
使用與上文相同的數(shù)據(jù)和判斷預測是否成功的標準,運用提出的改進模型,計算結果見表4(α=190,β=0.003 4,ω=76.677 8,準確率約為50%)、表5(α=181,β=0.003 1,ω=49.950 1,準確率約為62%)、表6(α=155,β=0.003 8,ω=51.475 6,準確率約為50%)。
以上判斷準確率的標準是可以變動的,實際應用中未必選擇±0.5作為標準。由于本文把損失分為4個等級,嚴格來講即使是猜測,也有25%的準確率,所以本文提出的基本模型依然比猜測可靠。
表4 Windows XP改進模型預測結果
表5 Flash Player改進模型預測結果
表6 Firefox改進模型預測結果
從另一方面來講,本文提出的改進模型把時間進行一個變換,即拉長時間的目的是為了使預測結果更接近真實數(shù)據(jù),這包含兩個方面的意義:第一,預測損失量的趨勢應該與實際數(shù)據(jù)相同;第二,預測損失量的曲線應該與實際數(shù)據(jù)吻合得比較好。那么,就畫出兩個模型的結果和實際數(shù)據(jù)的曲線,如圖4所示。
圖4 原始模型和改進模型曲線比較
可見,預測曲線的趨勢與實際是一致的,3組數(shù)據(jù)中,改進模型的曲線明顯比原始模型的曲線更貼近實際曲線,這也和表格中的數(shù)據(jù)吻合。通過拉長時間軸,得到了更好的預測結果。
[1]SCHULTZ J E,BROWN D S,LONGSTAFF T A.Responding to computer security incidents[EB/OL].(1990-07-23)[2015-09-20].ftp://ftp.cert.dfn.de/pub/docs/csir/ihg.ps.gz.
[2]PFLEEGER C P.Security in computing[M].Upper Saddle River:Prentice-Hall,1997:46-48.
[3]SHIN Y,WILLIAMS L.Is complexity really the enemy of software security[C]//The 4th ACM Workshop on Quality of Protection,October 27-31,Alexandria,VA,USA.New York:ACM Press,2008:47-50.
[4]ANDERSON R.Security in open VeTSUS closed systems-the dance of boltzmann,coase and moore[C]//The Conference on Open Source Software Economics,Jul 9,2002,London,UK.Cambridge:MIT Press,2002:1-15.
[5]MUSA J D,IANNINO A,OKUMOTO K.Software reliability engineering[M].New York:McGraw-Hill,1999:193-223.
[6]MUSA J D,OKUMOTO K.A logarithmic Poisson execution time model for software reliability measurement[C]//The 7th Int’l Conference on Software Engineering.Orlando:IEEE Press,1984:230-238.
[7]RESCORLA E.Is fining security holes a good idea[J].IEEE Security&Privacy,2005,3(1):14-19.
[8]BECKER S,HASSELBRING W,PAUL A,et al.Trustworthy software systems:a discussion of basic concept and terminology[J].ACM Sigsoft Software Engineering Notes,2006,31(6):1-18.
[9]楊光宇,曾東方,羅平.考慮短板效應的一種度量模型及其在軟件可信性中的應用[J].計算機應用研究,2012(1):165-167.YANG G Y,ZENG D F,LUO P.Metric model considering effect of short board and its application in software trustworthiness[J].Application Research of Computers,2012(1):165-167.
[10]王懷民,劉旭東,郎波,等.軟件可信分級規(guī)范v2.0[R/OL].[2009-05-30].http://www.doc88.com/p-3008711993507.html.WANG H M,LIU X D,LANG B,et al.Software trustworthiness classification specification v2.0[R/OL].[2009-05-30].http://www.doc88.com/p-3008711993507.html.
[11]王懷民,唐揚斌,尹剛,等.互聯(lián)網(wǎng)軟件的可信機理[J].中國科學E輯,2006,36(10):1156-1169.WANG H M,TANG Y B,YIN G,et al.The trusted mechanism of Internet software[J].Science in China(E),2006,36(10):1156-1169.
[12]LIU Y Z,ZHANG L,LUO P,et al.Research of trustworthy software system in the network[C]//The 5th International Symposium on Parallel Architectures,Algorithms and Programming,Dec 17-20,2012,Taipei,China.New Jersey:IEEE Press,2012:287-294.
[13]VOAS J.Why is it so hard to predict software system trustworthiness from software component trustworthiness[C]//The 20th IEEE Symposium on Reliable Distributed Systems,October 28-31,2001,New Orleans,Louisiana,USA.New Jersey:IEEE Press,2001:179.
[14]MUSA J D.A theory of software reliability and its application[J].IEEE Transactions on Software Engineering,Los Alamitos,1975,1(3):312-372.
[15]MUSA J D,OKUMOTO K.A logarithmic Possion excution time model for software reliability measurement[C]//The 7th International Conference on Software Engineering.[S.l.]:Whippany Bell Laboratories,1984:230-238.