李紅輝,趙 森,管軍霖,江周嫻
(1. 北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院 高速鐵路網(wǎng)絡(luò)管理教育部工程研究中心,北京 100044;2. 桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,桂林 541004)
列車在運(yùn)營(yíng)過程中高度依賴軟件的可靠性,如果軟件癱瘓甚至出現(xiàn)一個(gè)小故障,造成的后果可能都是災(zāi)難性的[1]。目前,我國(guó)列車主要采用按運(yùn)行里程計(jì)劃維護(hù)的策略,運(yùn)營(yíng)和維護(hù)費(fèi)用較高[2],對(duì)于突發(fā)性或緊急事件的響應(yīng)效果也比較差,嚴(yán)重時(shí)會(huì)造成重大經(jīng)濟(jì)損失和人員傷亡。
軟件可靠性增長(zhǎng)模型(SRGM,Software Reliability Growth Model)用于軟件可靠性的評(píng)估和預(yù)測(cè)[3]。利用SRGM 對(duì)鐵路軟件進(jìn)行可靠性預(yù)測(cè),能提前預(yù)知故障的發(fā)生時(shí)間,不但能有效幫助鐵路企業(yè)控制成本,還能更好地保證行車安全。目前,公開發(fā)表的SRGM 有100 多種,它們的基本假設(shè)條件不同、考慮的因素不同,適用性也不同,因此,用它們估測(cè)同一款軟件,所得結(jié)果可能差異較大。選擇或設(shè)計(jì)合適的評(píng)估模型、有效進(jìn)行鐵路軟件可靠性評(píng)估是目前亟需研究的問題。
邢穎[4]等人討論了鐵路軟件可靠性測(cè)試關(guān)鍵技術(shù)及軟件可靠性模型,但未針對(duì)鐵路軟件失效數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。潘浪濤[5]建立了一個(gè)鐵路自動(dòng)售票系統(tǒng)的可靠性分析模型,總結(jié)了系統(tǒng)可靠性與系統(tǒng)模塊失效概率之間的關(guān)系,但是,對(duì)模型的普適性未進(jìn)行說明。廖亮[6]等人基于非齊次泊松過程(NHPP)對(duì)處于開發(fā)后期階段的鐵路信號(hào)計(jì)算機(jī)聯(lián)鎖軟件進(jìn)行可靠性評(píng)估,但未用NHPP 模型與其它SRGM 作對(duì)比。
本文選取G-O 模型、Delayed S-shaped 模型、Ohba-Chou 模型及P-N-Z 模型[7]4 個(gè)較經(jīng)典的SRGM,分析它們的特點(diǎn)及適用場(chǎng)景,提出一種可靠性模型參數(shù)計(jì)算的優(yōu)化算法,在此研究基礎(chǔ)上開發(fā)了一款軟件可靠性增長(zhǎng)模型分析工具(SRGM Tool)。以鐵路聯(lián)鎖軟件為例,研究軟件可靠性增長(zhǎng)模型應(yīng)用方法,確定了適合被測(cè)軟件的可靠性增長(zhǎng)模型,驗(yàn)證了方法的有效性。
SRGM 是在軟件失效數(shù)據(jù)集的基礎(chǔ)上,采用統(tǒng)計(jì)學(xué)方法,用數(shù)學(xué)方程式來表達(dá)軟件錯(cuò)誤數(shù)量與不同因素(時(shí)間、測(cè)試工作量、不完美排錯(cuò)及錯(cuò)誤檢測(cè)率等)之間的關(guān)系。一般而言,隨著軟件中錯(cuò)誤的排除,軟件中累計(jì)錯(cuò)誤數(shù)量增長(zhǎng)速度變慢,即軟件的可靠性逐漸增強(qiáng)。SRGM 是對(duì)軟件可靠性增長(zhǎng)趨勢(shì)進(jìn)行建模,該趨勢(shì)可用隨機(jī)變量分布描述,建模過程中提出基本假設(shè),同時(shí),引入與該趨勢(shì)相關(guān)的參數(shù)。
設(shè)m(t)表示t時(shí)刻累計(jì)錯(cuò)誤數(shù)量的函數(shù),a(t)為軟件總錯(cuò)誤量,b(t)為錯(cuò)誤檢測(cè)率,t> 0。
文中,假設(shè)所研究的模型均符合以下條件條件:累計(jì)檢測(cè)到的錯(cuò)誤數(shù)量變化率(dm(t)/dt)與當(dāng)前錯(cuò)誤檢測(cè)率(b(t))條件下剩余的錯(cuò)誤數(shù)量(a(t)-m(t))成正比,可用式(1)表示:
針對(duì)SRGM,假設(shè)發(fā)現(xiàn)錯(cuò)誤,在排除錯(cuò)誤時(shí),如果錯(cuò)誤可以完全被改正,且不會(huì)引入新的錯(cuò)誤,稱為完美排錯(cuò);如果在排除一個(gè)錯(cuò)誤時(shí)引起其它錯(cuò)誤,則稱為不完美排錯(cuò)。
1.2.1 G-O 模型
G-O 模型的假設(shè)條件較理想化,在數(shù)學(xué)表達(dá)上較簡(jiǎn)單,假設(shè)總錯(cuò)誤數(shù)量與錯(cuò)誤檢測(cè)率恒定,即:
屬于完美排錯(cuò)型。
1.2.2 Dealyed S-shaped 模型
該模型考慮了延遲效應(yīng),開始時(shí)增長(zhǎng)比較慢,然后增長(zhǎng)迅速,直至到達(dá)峰值,所以其可靠性增長(zhǎng)曲線是一個(gè)呈S 型的曲線。假設(shè)總錯(cuò)誤數(shù)量恒定,但錯(cuò)誤檢測(cè)率考慮延遲效應(yīng),函數(shù)表達(dá)為:
同樣屬于完美排錯(cuò)類型。
1.2.3 Ohba-Chou 模型
該模型在G-O 模型的基礎(chǔ)上改進(jìn),考慮排除錯(cuò)誤時(shí)有可能引入新的錯(cuò)誤,假設(shè)在排除錯(cuò)誤時(shí)引入新錯(cuò)誤的概率與t時(shí)刻檢測(cè)到的錯(cuò)誤數(shù)量成正比,比例系數(shù)為r,且r< 1,則a(t)、b(t) 可表示為:
1.2.4 P-N-Z 模型
考慮測(cè)試人員學(xué)習(xí)能力對(duì)失效過程的影響。a(t)增加,意味著錯(cuò)誤總數(shù)增加,排除錯(cuò)誤過程不完善;錯(cuò)誤包括已檢測(cè)和排除的錯(cuò)誤,以及在排除錯(cuò)誤過程中引入的錯(cuò)誤。b(t) 增長(zhǎng),意味著錯(cuò)誤檢測(cè)率增大,測(cè)試人員學(xué)習(xí)能力提升。設(shè)α為引入錯(cuò)誤率參數(shù),β為拐點(diǎn)因子,a(t)、b(t)可分別表示為:
4 種模型的對(duì)比分析見表1,從表中可以看出4種模型的差異,主要體現(xiàn)在a(t)和b(t)的不同,使得各模型的適用場(chǎng)景也不同。
本文采用擬合與預(yù)測(cè)效果相結(jié)合的方法衡量4個(gè)模型的優(yōu)劣。
表1 4 種模型的對(duì)比
擬合效果即擬合數(shù)據(jù)與真實(shí)數(shù)據(jù)的吻合程度,本文選取均方誤差(MSE)和擬合優(yōu)度(R-Square)兩個(gè)指標(biāo)進(jìn)行評(píng)價(jià)。
2.1.1 MSE
MSE 可以反映模型擬合出的數(shù)據(jù)與真實(shí)數(shù)據(jù)的差距,計(jì)算公式為:
式中,EMSE為均方誤差值,yi為真實(shí)失效數(shù)據(jù),m(ti) 為擬合數(shù)據(jù)。EMSE值越小,說明擬合數(shù)據(jù)與真實(shí)數(shù)據(jù)差距越小,擬合效果越好。
2.1.2 R-Square
與MSE 相似,同樣可以用于評(píng)估模型的擬合效果,計(jì)算公式為:
式中,ER?Square為擬合優(yōu)度值,m(ti) 為ti時(shí)刻累計(jì)錯(cuò)誤數(shù)量的擬合值,yi為ti時(shí)刻累計(jì)錯(cuò)誤數(shù)量的真實(shí)值。
R-Square 的值越接近1,說明擬合數(shù)據(jù)與真實(shí)數(shù)據(jù)越接近,擬合效果越好。
相對(duì)誤差(RE)[8]根據(jù)記錄到的失效數(shù)據(jù)預(yù)測(cè)未來失效發(fā)生的趨勢(shì),從而評(píng)價(jià)模型的預(yù)測(cè)效果,可通過計(jì)算數(shù)據(jù)集中所有記錄的RE 值來表達(dá),計(jì)算公式為:
式中,ERE為相對(duì)誤差值,根據(jù)此值繪制模型的RE 曲線,RE 值越小,說明該模型的預(yù)測(cè)結(jié)果具有更小的誤差,預(yù)測(cè)性能更好。
軟件失效數(shù)據(jù)集包含記錄時(shí)間、累計(jì)錯(cuò)誤數(shù)量等,可借助可視化方法對(duì)其可靠性增長(zhǎng)趨勢(shì)進(jìn)行初步分析。常用的趨勢(shì)分析方法包括圖形法、拉普拉斯法、曲線圖技術(shù)、數(shù)據(jù)建模技術(shù)等,不同失效數(shù)據(jù)分析技術(shù)具有各自的使用場(chǎng)合和優(yōu)勢(shì)。本文采用圖形法和拉普拉斯法分析軟件失效數(shù)據(jù)集的可靠性增長(zhǎng)趨勢(shì),用可視化方法更方便地觀測(cè)軟件失效數(shù)據(jù)集的發(fā)展趨勢(shì),以便選擇合適的可靠性模型。
圖形法比較直觀,主要對(duì)軟件運(yùn)行時(shí)間、累計(jì)失效數(shù)等各種變量之間關(guān)系進(jìn)行分析。
橫軸表示時(shí)間ti;
縱軸表示累計(jì)錯(cuò)誤數(shù)量m(ti),即ti時(shí)累計(jì)故障數(shù)量。
用描點(diǎn)法繪制折線圖,若折線圖呈現(xiàn)凸出狀態(tài),可 以認(rèn)為可靠性在增長(zhǎng),否則認(rèn)為可靠性在下降。
拉普拉斯法[9]是把軟件失效數(shù)據(jù)集采集數(shù)據(jù)的時(shí)間劃分成n個(gè)等長(zhǎng)的單位時(shí)間,在第i個(gè)單位時(shí)間中記錄到的錯(cuò)誤數(shù)為n(i),拉普拉斯法表達(dá)式為:
式中,u(k) 為第k個(gè)記錄的拉普拉斯因子,k=1, 2, ···,n,以時(shí)間順序觀察拉普拉斯因子值,若拉普拉斯因子值減小,說明失效強(qiáng)度降低,則軟件可靠性逐漸增強(qiáng)。
結(jié)合圖形法和拉普拉斯法兩種方法,可以得到軟件失效數(shù)據(jù)集的可靠性增長(zhǎng)趨勢(shì)。
計(jì)算SRGM 中的參數(shù)(即a、b、r、α、β),需要在軟件失效數(shù)據(jù)集的數(shù)據(jù)上進(jìn)行參數(shù)計(jì)算,將得到的參數(shù)值代入模型,計(jì)算出擬合數(shù)據(jù),與軟件失效數(shù)據(jù)集進(jìn)行擬合。
本文參數(shù)計(jì)算采用極大似然估計(jì)法,將軟件失效數(shù)據(jù)集代入模型,給出參數(shù)值的初始化值和范圍,通過設(shè)定的步長(zhǎng)逐個(gè)枚舉參數(shù)值,求MSE 值,輸出得到最優(yōu)MSE 值時(shí)的參數(shù)值。為減少計(jì)算時(shí)間,在實(shí)驗(yàn)過程中將范圍和步長(zhǎng)設(shè)置大一些,以快速獲知參數(shù)的最優(yōu)值所在的范圍,然后逐步縮小范圍和步長(zhǎng),計(jì)算出精確的參數(shù)值。
在實(shí)驗(yàn)過程中發(fā)現(xiàn),用軟件失效數(shù)據(jù)集全部數(shù)據(jù)得到的模型參數(shù),生成的擬合數(shù)據(jù)與真實(shí)值的誤差較大。在幾個(gè)軟件失效數(shù)據(jù)集中進(jìn)行大量實(shí)驗(yàn),使用數(shù)據(jù)集的前一部分?jǐn)?shù)據(jù)進(jìn)行參數(shù)計(jì)算,后一部分?jǐn)?shù)據(jù)用于驗(yàn)證,結(jié)果表明,使用部分?jǐn)?shù)據(jù)進(jìn)行參數(shù)計(jì)算和MSE 值計(jì)算,所得的MSE 值優(yōu)于使用全部數(shù)據(jù)進(jìn)行相關(guān)計(jì)算得到的MSE 值。因此,改進(jìn)了參數(shù)計(jì)算算法,使用前i(n/2
圖1 參數(shù)計(jì)算的優(yōu)化算法流程
在上述理論研究和優(yōu)化算法的基礎(chǔ)上,基于Java 語(yǔ)言,設(shè)計(jì)并開發(fā)了一款SRGM Tool,該工具可在個(gè)人計(jì)算機(jī)Web 端使用:導(dǎo)入軟件失效數(shù)據(jù)集,計(jì)算得到模型參數(shù),進(jìn)行可靠性分析,輔助完成可靠性模型的選擇。
SRGM Tool 的功能模塊包括:軟件失效數(shù)據(jù)集導(dǎo)入,可靠性趨勢(shì)分析,可靠性擬合和預(yù)測(cè),不同模型的效果對(duì)比,如圖2 所示。
圖2 SRGM Tool 功能模塊示意
(1)軟件失效數(shù)據(jù)集導(dǎo)入模塊:選擇一個(gè)數(shù)據(jù)集導(dǎo)入SRGM Tool 中,為趨勢(shì)分析和模型的擬合做準(zhǔn)備。
(2)趨勢(shì)分析模塊:分析失效數(shù)據(jù)集趨勢(shì),利用圖形法和拉普拉斯法對(duì)可靠性增長(zhǎng)趨勢(shì)進(jìn)行刻畫,得到所選數(shù)據(jù)集的可靠性增長(zhǎng)趨勢(shì)。
(3)模型擬合模塊:在所選軟件失效數(shù)據(jù)集的基礎(chǔ)上,根據(jù)模型的均值函數(shù)和參數(shù)值,計(jì)算得出擬合值,將它們與軟件失效數(shù)據(jù)集的數(shù)據(jù)進(jìn)行擬合,在同一坐標(biāo)系中展示結(jié)果,并計(jì)算相應(yīng)的評(píng)價(jià)指標(biāo)值(MSE 值、R-Square 值、RE 值)。
(4)模型效果對(duì)比模塊:支持同數(shù)據(jù)集不同模型的對(duì)比、同模型不同數(shù)據(jù)集的對(duì)比。其中,同數(shù)據(jù)集不同模型的對(duì)比,在同個(gè)數(shù)據(jù)集上進(jìn)行擬合,繪制所有模型的曲線;同模型不同數(shù)據(jù)集的對(duì)比,在3 個(gè)數(shù)據(jù)集上進(jìn)行擬合,展示3 個(gè)擬合圖形。
為了對(duì)鐵路軟件進(jìn)行準(zhǔn)確估計(jì),需要真實(shí)的鐵路軟件失效數(shù)據(jù)集,保證數(shù)據(jù)的真實(shí)性、準(zhǔn)確性及完整性。本文在進(jìn)行模型對(duì)比實(shí)驗(yàn)驗(yàn)證時(shí)選取了鐵路計(jì)算機(jī)聯(lián)鎖軟件的失效數(shù)據(jù)集,該數(shù)據(jù)集以《計(jì)算機(jī)聯(lián)鎖技術(shù)條件》為標(biāo)準(zhǔn)判斷軟件是否出錯(cuò),軟件運(yùn)行半年,共采集了17 組失效數(shù)據(jù),每組數(shù)據(jù)記 錄了測(cè)試的時(shí)間和累計(jì)錯(cuò)誤數(shù)量。
在SRGM Tool 上,以鐵路計(jì)算機(jī)聯(lián)鎖軟件的失效數(shù)據(jù)集為例開展實(shí)驗(yàn)。
(1)導(dǎo)入軟件失效數(shù)據(jù)集,進(jìn)行可靠性趨勢(shì)分析,將計(jì)算得到的結(jié)果繪制成圖形。
(2)計(jì)算模型參數(shù),得到參數(shù)后,利用可視化方法展示各模型與鐵路軟件失效數(shù)據(jù)集的擬合效果,同 時(shí),計(jì)算、展示可靠性評(píng)估的指標(biāo)值。
5.3.1 軟件可靠性增長(zhǎng)趨勢(shì)分析
運(yùn)用圖形法得到的結(jié)果如圖3 所示,運(yùn)用拉普拉斯法得到的結(jié)果如圖4 所示,兩種方法所展現(xiàn)的效果基本一致,曲線斜率總體上隨時(shí)間變化逐漸減小。拉普拉斯法中,總體上數(shù)值在減小。第9~第78 天期間出現(xiàn)了波動(dòng),局部可靠性下降,但該軟件失效數(shù)據(jù)集總體上呈可靠性增長(zhǎng)趨勢(shì)。
圖3 軟件可靠性增長(zhǎng)趨勢(shì)結(jié)果(圖形法)
對(duì)于鐵路軟件失效數(shù)據(jù)集進(jìn)行初步的可靠性增長(zhǎng)趨勢(shì)分析后,可根據(jù)該數(shù)據(jù)集的趨勢(shì)特點(diǎn)選擇合適 的模型進(jìn)行驗(yàn)證,本文利用4 個(gè)模型進(jìn)行對(duì)比驗(yàn)證。
5.3.2 模型擬合對(duì)比
利用改進(jìn)的參數(shù)計(jì)算方法,多次試驗(yàn)發(fā)現(xiàn),運(yùn)用前14 組數(shù)據(jù)計(jì)算參數(shù),得到的MSE 值最小,即擬合效果最好,因此,選擇前14 組數(shù)據(jù)得到的參數(shù)組合作為最終采用的參數(shù)數(shù)值,以達(dá)到更好的擬合效果,同時(shí),選擇第15~第17 組數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。
圖4 軟件可靠性增長(zhǎng)趨勢(shì)結(jié)果(拉普拉斯法)
將鐵路聯(lián)鎖軟件失效數(shù)據(jù)集運(yùn)用于G-O 模型、Delayed S-shaped 模型、Ohba-Chou 模型及P-N-Z 模型上,進(jìn)行擬合測(cè)試,計(jì)算各模型引入?yún)?shù)的數(shù)值,繪制相應(yīng)的擬合曲線,4 種模型的擬合結(jié)果在同一圖形中進(jìn)行對(duì)比,如圖5 所示,圖6 為相對(duì)誤差曲線,表2 列出各模型的擬合效果評(píng)價(jià)指標(biāo)值。
圖5 擬合結(jié)果圖形對(duì)比
圖6 各模型相對(duì)誤差曲線
結(jié)合實(shí)驗(yàn)結(jié)果,可以得到以下結(jié)論:
(1)圖5 中,第1~第14 組數(shù)據(jù)作為擬合數(shù)據(jù),第15~第17 組數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。從圖中可以看出,擬合數(shù)據(jù)中,P-N-Z 模型與數(shù)據(jù)集數(shù)據(jù)的擬合優(yōu)度最好;而驗(yàn)證數(shù)據(jù)中,G-O 模型的擬合效果則更好一些,但是總體上P-N-Z 模型的效果最優(yōu)。從圖6 的相對(duì)誤差曲線也可以得到同樣的結(jié)論;
(2)從圖5 中可以明顯地發(fā)現(xiàn),Delayed S -shaped 模型在初始時(shí)增長(zhǎng)緩慢,反映了模型的延遲效應(yīng),但是對(duì)于本文的鐵路軟件失效數(shù)據(jù)集,總體擬合效果較差,說明此數(shù)據(jù)集可能不存在排除錯(cuò)誤延遲問題;
(3)G-O 模型擬合和預(yù)測(cè)效果均為4 個(gè)模型中最差的,Ohba-Chou 模型在該數(shù)據(jù)集上擬合較好,從量化指標(biāo)來看差距較小,原因?yàn)镺hba-Chou 模型是在G-O 模型基礎(chǔ)上考慮新引入的錯(cuò)誤數(shù)與糾正的錯(cuò)誤數(shù)成正比,比較理想化,所以O(shè)hba-Chou 模型較G-O 模型有改進(jìn),但是改進(jìn)不大;
(4)從表2 中可以看出,對(duì)于該聯(lián)鎖軟件的失效數(shù)據(jù)集來說,P-N-Z 模型的擬合優(yōu)度最好,若用于實(shí) 際生產(chǎn)中,該模型是最佳選擇。
本文對(duì)鐵路軟件可靠性模型應(yīng)用方法進(jìn)行了研究,利用4 種可靠性增長(zhǎng)模型,對(duì)鐵路軟件進(jìn)行可靠性增長(zhǎng)趨勢(shì)分析和可靠性評(píng)估預(yù)測(cè),提出了一種可靠性模型參數(shù)計(jì)算的優(yōu)化算法,并通過實(shí)例給出鐵路聯(lián)鎖軟件可靠性模型分析和預(yù)測(cè)的方法,可為鐵 路領(lǐng)域其它軟件的可靠性分析和預(yù)測(cè)提供參考。
每個(gè)可靠性模型都有其適用的失效數(shù)據(jù)集和場(chǎng)景,具體情況應(yīng)結(jié)合實(shí)際應(yīng)用進(jìn)行分析。對(duì)于本文實(shí)驗(yàn)中的鐵路聯(lián)鎖軟件失效數(shù)據(jù)集而言,P-N-Z 擬合效果最優(yōu)。
在鐵路領(lǐng)域其它軟件的實(shí)際使用中,可結(jié)合收集到的軟件失效數(shù)據(jù)集,與各個(gè)模型相結(jié)合,考察模型的擬合優(yōu)度和預(yù)測(cè)效果,結(jié)合MSE 和R-Square等指標(biāo),進(jìn)行綜合比較,最終選擇更適合其失效過程的模型,預(yù)測(cè)下次失效的時(shí)間或發(fā)生錯(cuò)誤的頻率,提前做好排除錯(cuò)誤計(jì)劃和相關(guān)措施,從而保障鐵路運(yùn)營(yíng)和維護(hù)安全,最大限度地減小因軟件失效帶來的經(jīng)濟(jì)損失。