劉登一,侯勝利
(1.空軍勤務(wù)學(xué)院 研究生大隊(duì),江蘇 徐州 221000; 2.空軍勤務(wù)學(xué)院 航材四站系,江蘇 徐州 221000)
備件是影響維修保障能力的關(guān)鍵因素,其籌、儲(chǔ)、供、管等方面決策的科學(xué)性與合理性,對(duì)于確保裝備正常運(yùn)轉(zhuǎn)具有重要的作用[1]?,F(xiàn)代化高科技的局部戰(zhàn)爭(zhēng)對(duì)飛機(jī)備件保障提出了更高的要求,如何在資源經(jīng)費(fèi)有限條件下提高飛機(jī)備件保障能力,成為了近些年來戰(zhàn)斗機(jī)保障的突出問題。
為了實(shí)現(xiàn)對(duì)飛機(jī)備件快速準(zhǔn)確的預(yù)測(cè),需要運(yùn)用降維思想對(duì)大量的備件消耗數(shù)據(jù)進(jìn)行分析轉(zhuǎn)換,在所有特征變量中提取最能反映需求的主要成分,實(shí)現(xiàn)對(duì)特征空間的壓縮,提高數(shù)據(jù)的運(yùn)算速度。關(guān)于飛機(jī)備件的預(yù)測(cè)問題,國(guó)內(nèi)外的諸多研究者進(jìn)行了深入的分析。常見預(yù)測(cè)模型有支持向量機(jī)模型、人工神經(jīng)網(wǎng)絡(luò)模型、灰色模型、時(shí)間序列預(yù)測(cè)模型等。例如,文獻(xiàn)[2]利用非參數(shù)回歸進(jìn)行航材消耗的預(yù)測(cè),對(duì)新機(jī)航材消備件消耗預(yù)測(cè)性較好,但由于數(shù)據(jù)較少、沒有綜合考慮多方因素,無法準(zhǔn)確把握飛機(jī)備件消耗的影響因素;文獻(xiàn)[3]利用GM(1,1)對(duì)新機(jī)備件進(jìn)行需求預(yù)測(cè),對(duì)于不確定性的新機(jī)備件消耗預(yù)測(cè)效果較好,但灰色模型沒有考慮消耗的隨機(jī)性問題,對(duì)中長(zhǎng)期的預(yù)測(cè)精度較差;文獻(xiàn)[4]利用人工神經(jīng)網(wǎng)絡(luò)對(duì)民航航材備件需求數(shù)據(jù)進(jìn)行預(yù)測(cè),模型預(yù)測(cè)結(jié)果誤差小、精度高,對(duì)非線性特點(diǎn)的航材需求具有較好的適應(yīng)性,但神經(jīng)網(wǎng)絡(luò)算法種類較多,且運(yùn)行速度隨著模型復(fù)雜度和數(shù)據(jù)量的增加而極具變慢,不易作為計(jì)算機(jī)算法在航材業(yè)務(wù)系統(tǒng)中嵌入應(yīng)用[5],且神經(jīng)網(wǎng)絡(luò)容易陷入局部最小值,從而使得訓(xùn)練沒完成就已經(jīng)結(jié)束[6]。與國(guó)內(nèi)備件預(yù)測(cè)方法不同,美軍利用美空軍提出的METRIC及其擴(kuò)展模型,對(duì)初始備件進(jìn)行預(yù)測(cè),并以需求數(shù)據(jù)庫(kù)為基礎(chǔ),利用加權(quán)滑動(dòng)平均法對(duì)正常供應(yīng)階段的備件需求進(jìn)行預(yù)測(cè)。盡管對(duì)GM(1,1)和神經(jīng)網(wǎng)絡(luò)等預(yù)測(cè)模型有了相當(dāng)?shù)难芯浚陲w機(jī)備件預(yù)測(cè)中也沒有推廣應(yīng)用,究其原因,這類模型計(jì)算體系復(fù)雜,只有對(duì)不同種類、不同壽命階段以及不同影響因素下的備件運(yùn)用恰當(dāng)?shù)膬?yōu)化算法對(duì)參數(shù)進(jìn)行優(yōu)化,才能取得較好的預(yù)測(cè)效果,而對(duì)于數(shù)量占比巨大且符合多重共線性需求規(guī)律的消耗品和部分價(jià)值較高且易磨損的可修復(fù)備件來說,這類模型的計(jì)算速度慢,因此在實(shí)際應(yīng)用中效果并不理想。
針對(duì)飛機(jī)備件需求影響因素較多、指標(biāo)體系復(fù)雜等特點(diǎn),本文提出了一種基于有偏估計(jì)的航材需求預(yù)測(cè)模型,綜合考慮了影響備件需求不同影響因素之間的關(guān)聯(lián)性,通過主成分分析(principal components analysis,PCA)對(duì)數(shù)據(jù)降維,利用嶺回歸[7]方法進(jìn)行預(yù)測(cè),有效提升了運(yùn)算速度,預(yù)測(cè)精度與其他模型相差很小,且模型簡(jiǎn)單且易于運(yùn)行,既符合飛機(jī)備件需求預(yù)測(cè)的精度要求,又提高了計(jì)算速度,為大數(shù)據(jù)下飛機(jī)備件需求的預(yù)測(cè)提供了一種簡(jiǎn)單可行的模型。
主成分分析(PCA)是一種非監(jiān)督學(xué)習(xí)的降維技巧,它能將大量的相關(guān)變量轉(zhuǎn)化成一組很少的不相關(guān)變量,這些無關(guān)變量稱為主成分[8],并利用投影矩陣將高維信息數(shù)據(jù)映射到低維空間,并期望在所投影維度上數(shù)據(jù)的方差最大,在信息量不丟失的前提下,對(duì)原始數(shù)據(jù)進(jìn)行降維,旨在使用較少的數(shù)據(jù)來反映原始數(shù)據(jù)的特性[9]。累計(jì)方差解釋比率反映了前k個(gè)主成分所代表的原始指標(biāo)信息的百分比,一般要求累計(jì)方差解釋比率不少于85%。在實(shí)際問題中,主成分的選取,需要綜合計(jì)算速度和預(yù)測(cè)準(zhǔn)確性來決定。
A.E.Hoerl在1962年首次提出嶺回歸方法,用以控制與最小二乘估計(jì)相關(guān)的方差膨脹性和產(chǎn)生的不穩(wěn)定性。A.E.Hoerl和R.W.Kennard[10]對(duì)嶺回歸給出了具體的分析與證明。嶺回歸與最小二乘法十分相似,但與最小二乘法相比,嶺回歸采用有偏估計(jì)進(jìn)行參數(shù)估計(jì),最大優(yōu)勢(shì)就在于它綜合權(quán)衡了誤差與方差[11],它放棄了最小二乘法的無偏性,以損失部分信息降低精度為代價(jià)獲得回歸系數(shù),因此,它是更符合實(shí)際、更可靠的回歸方法。
本文將用主成分分析法(PCA)來實(shí)現(xiàn)數(shù)據(jù)的降維,這里直接調(diào)用R語言中的prcomp()命令進(jìn)行主成分分析,主成分分析的算法以及具體實(shí)現(xiàn)見文獻(xiàn)[11]。有偏估計(jì)模型的實(shí)現(xiàn)主要分為兩步:一是通過PCA對(duì)變量進(jìn)行降維;二是利用嶺回歸方法對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)。
設(shè)有n個(gè)預(yù)測(cè)變量,x1,x2,x3,…,xn分別代表每個(gè)預(yù)測(cè)變量的n種特性,對(duì)有N個(gè)訓(xùn)練樣本的訓(xùn)練集來說,則可用N×n矩陣表示。由于預(yù)測(cè)變量之間的指標(biāo)體系和單位數(shù)量級(jí)不同,因此需對(duì)數(shù)據(jù)按式(1)進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)化矩陣Y,即:
(1)
(2)
式(2)中,rij為標(biāo)準(zhǔn)化矩陣Y中的yi和yj的相關(guān)系數(shù),且rij=rji。利用得到的rij生成相關(guān)系數(shù)矩陣RN×n,之后對(duì)特征方程|λI-R|=0求解,求出特征值λn,然后按大小順序進(jìn)行排序,即:
λ1≥λ2≥λ3…≥λn≥0
(3)
在主成分選取時(shí),應(yīng)首先考慮方差的解釋比率(PVE),一般情況下,取累計(jì)PVE達(dá)到85%~95%的主成分,其次應(yīng)綜合衡量計(jì)算速度和準(zhǔn)確性,選取主成分盡可能少,累計(jì)PVE多且精度相對(duì)高的主成分,主成分?jǐn)?shù)量的選取可參考本文最后的算例。
設(shè)x1,x2,x3,…,xn是標(biāo)準(zhǔn)化變量,標(biāo)準(zhǔn)化過程按式(4)處理。
(4)
與最小二乘法不同,嶺回歸估計(jì)為:
β(k)=(XTX+λI)-1XTY
(5)
式(5)中:XTX為x1,x2,x3,…,xn的相關(guān)系數(shù)矩陣;β為嶺回歸估計(jì);I為單位矩陣;λ(λ≥0)為嶺回歸參數(shù)。當(dāng)自變量之間存在復(fù)共線關(guān)系時(shí),|XTX|≈0,最小二乘估計(jì)求得的回歸系數(shù)會(huì)出現(xiàn)與實(shí)際情況很不符合的異常現(xiàn)象,而XTX+λI接近異常的程度會(huì)比XTX接近異常的程度小得多,即最小二乘在復(fù)共線狀態(tài)下的偏差部分雖然為零,但它的方差部分卻很大,最終致使它的均方誤差很大,而嶺回歸是犧牲無偏性,換取方差部分的大幅度減少,最終降低其均方誤差。
本文利用十折交叉檢驗(yàn)的方法對(duì)進(jìn)行篩選,最終得到使交叉檢驗(yàn)誤差最小的值。
首先對(duì)數(shù)據(jù)進(jìn)行適用性判別,并利用主成分分析法對(duì)含有多個(gè)影響備件需求的變量進(jìn)行篩選,得到對(duì)飛機(jī)備件需求量影響較大的幾個(gè)主成分,將計(jì)算后的因子作為嶺回歸模型的輸入變量,最終得到主成分分析優(yōu)化后的飛機(jī)備件需求預(yù)測(cè)模型。計(jì)算過程如下:
1) 根據(jù)影響飛機(jī)備件需求的不同因素,收集相關(guān)數(shù)據(jù),形成備件需求的原始數(shù)據(jù)集。
2) 對(duì)數(shù)據(jù)進(jìn)行適用性判別等預(yù)處理工作后進(jìn)行標(biāo)準(zhǔn)化處理,采用主成分分析法對(duì)數(shù)據(jù)進(jìn)行處理,并選擇合適的主成分。
3) 根據(jù)篩選出的主成分,選擇訓(xùn)練集和測(cè)試集。將訓(xùn)練集數(shù)據(jù)輸入嶺回歸模型進(jìn)行學(xué)習(xí)。
4) 采用十折交叉驗(yàn)證方法選擇合適的,代入嶺回歸模型進(jìn)行學(xué)習(xí)。采用選取最優(yōu)的嶺回歸模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),得到相應(yīng)的預(yù)測(cè)結(jié)果。
基于有偏估計(jì)模型的備件需求預(yù)測(cè)模型的計(jì)算流程如圖1所示。
通過對(duì)某場(chǎng)站備件保障情況進(jìn)行分析后得出,影響該型飛機(jī)備件需求的影響因素包括以下幾個(gè)方面。
1) 飛行訓(xùn)練任務(wù)。航材備件的消耗與飛行訓(xùn)練任務(wù)直接相關(guān),主要的影響因素有飛行時(shí)間、起落次數(shù)、飛行強(qiáng)度和飛行員技術(shù)等因素,一般來說,飛行時(shí)間越長(zhǎng),起落次數(shù)越多,飛行強(qiáng)度越大,備件消耗量越大,需求也就越大。
2) 飛機(jī)備件本身屬性。飛機(jī)備件的技術(shù)狀態(tài)、產(chǎn)品的質(zhì)量和生產(chǎn)的工藝等因素都會(huì)對(duì)備件的消耗產(chǎn)生影響,技術(shù)越成熟、器材質(zhì)量越好,故障率就會(huì)越小,備件的需求量也會(huì)減小。
3) 自然環(huán)境因素。自然環(huán)境對(duì)飛機(jī)備件的技術(shù)狀態(tài)產(chǎn)生較大的影響,其中溫濕度對(duì)備件的影響最顯著,按照保管要求,庫(kù)房?jī)?nèi)溫度應(yīng)維持在5~30 ℃,濕度應(yīng)維持在45%~60%,將溫濕度不在該范圍的視為異常溫濕度[12]。
圖1 計(jì)算流程框圖
算例選取發(fā)付量Y、飛行時(shí)間x1(小時(shí))、飛行起落x2(次數(shù))、操控人員熟練程度x3(百分比)、異常環(huán)境溫度x4(百分比)、異常環(huán)境濕度x5(百分比)、備件故障率x6(百分比)、維修人員技術(shù)水平x7(百分比)等7個(gè)飛機(jī)備件需求量影響因素進(jìn)行分析,在滿足多重共線性需求規(guī)律的一次性消耗備件和部分價(jià)值較高的可修復(fù)備件中隨機(jī)選取10組數(shù)據(jù),算例選取前6組數(shù)據(jù)為訓(xùn)練樣本、后4組數(shù)據(jù)為測(cè)試樣本。
利用最小二乘法和R語言對(duì)變量進(jìn)行線性判別分析得到表1,方差膨脹因子見表2,顯著性檢驗(yàn)結(jié)果如表3所示。
表1 線性判別分析Table 1 Linear discriminant analysis
表2 方差膨脹因子Table 2 Variance expansion factor
表3 顯著性檢驗(yàn)結(jié)果Table 3 Significance test
由表1和表3可知,Multiple R-squared =0.99和Adjusted R-squared=0.96數(shù)值較大,F(xiàn)=28.78通過了顯著性檢驗(yàn),總體來說擬合度較好,但在顯著性檢驗(yàn)時(shí)發(fā)現(xiàn),沒有變量通過檢驗(yàn)且顯著性較弱,說明變量不適合用于最小二乘法建模,因此檢查變量之間是否存在多重共線性問題。通過R語言car包中的vif函數(shù),利用方差膨脹因子(variance inflation factor,VIF)進(jìn)行判斷,一般認(rèn)為,vif>5,存在嚴(yán)重的多重共線性問題,由表2可知,變量的方差膨脹因子均大于5,說明變量之間存在多重共線性關(guān)系。
利用SPSS軟件對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析,結(jié)果如表4所示。
由表4相關(guān)系數(shù)矩陣可知,變量之間具有很強(qiáng)的相關(guān)性,結(jié)合方差膨脹因子表明,各項(xiàng)指標(biāo)之間具有較強(qiáng)的相關(guān)性和重疊性,變量之間存在多重共線性,因此適合采用主成分分析法。
將數(shù)據(jù)按式(1)標(biāo)準(zhǔn)化處理后得到標(biāo)準(zhǔn)化數(shù)據(jù),如表5所示。
利用R語言中的prcomp()函數(shù)作為主成分分析工具,將表5數(shù)據(jù)進(jìn)行主成分分析,得到各主成分方差解釋比例和載荷向量,如表6所示。累計(jì)方差解釋比率(proportion of variance explained,PVE)如圖2所示。
表4 相關(guān)系數(shù)矩陣元素Table 4 Correlation matrix
表5 標(biāo)準(zhǔn)化數(shù)據(jù)Table 5 Standardized data
表6 主成分載荷向量和方差解釋比率Table 6 Principal component load vector and proportion of variance explained
圖2 累計(jì)PVE折線
根據(jù)表6所得的主成分載荷向量,得到各主成分具體數(shù)據(jù),選取前6組的相關(guān)數(shù)據(jù)作為訓(xùn)練集,后4組的相關(guān)數(shù)據(jù)作為測(cè)試集,將訓(xùn)練集帶入嶺回歸模型進(jìn)行學(xué)習(xí),運(yùn)用R語言glmnet包中的cv.glmnet()函數(shù)進(jìn)行十折交叉檢驗(yàn),篩選出最佳值,最后將測(cè)試集數(shù)據(jù)帶入模型得到最終預(yù)測(cè)的結(jié)果。根據(jù)預(yù)測(cè)性能綜合選擇主成分個(gè)數(shù),主成分個(gè)數(shù)和預(yù)測(cè)結(jié)果之間的關(guān)系如表7所示。
由表6可知,當(dāng)主成分選取2個(gè)時(shí),累計(jì)PVE達(dá)到0.916 6,預(yù)測(cè)效果較好;當(dāng)主成分個(gè)數(shù)大于2時(shí),累計(jì)PVE雖然有所上升但并不明顯,且運(yùn)算步驟增加導(dǎo)致運(yùn)算時(shí)間增加,預(yù)測(cè)效果并不樂觀,因此綜合分析后,算例選擇2個(gè)主成分作為嶺回歸的輸入變量。
為了驗(yàn)證模型預(yù)測(cè)的可靠性和準(zhǔn)確性,采用支持向量回歸(support vector regression,SVR)[13]和RBF(radial basis function)核的支持向量機(jī)(support vector machine,SVM)[14]進(jìn)行預(yù)測(cè)實(shí)驗(yàn)對(duì)比。算例數(shù)據(jù)較少,γ和cost的值通過十折交叉檢驗(yàn)獲得。筆者借助R語言,利用R語言e1071包中的tune()函數(shù)獲得最佳的γ和cost的值,預(yù)測(cè)結(jié)果比較如表8所示。
表7 預(yù)測(cè)結(jié)果對(duì)比Table 7 Comparison of prediction results
表8 模型比較結(jié)果Table 8 Model comparison results
根據(jù)表8的預(yù)測(cè)結(jié)果可知,對(duì)于具有多重共線性關(guān)系的變量來說,RBF-SVM的預(yù)測(cè)效果并不理想;SVR預(yù)測(cè)效果與有偏估計(jì)模型相當(dāng),但gamma和cost的選擇需要對(duì)大量數(shù)據(jù)進(jìn)行交叉檢驗(yàn)或者利用相關(guān)優(yōu)化算法得到,增加了計(jì)算的復(fù)雜度且預(yù)測(cè)精度提高并不明顯;與其他模型相比,有偏估計(jì)模型的RMSE較小,擬合效果較好,計(jì)算簡(jiǎn)單便捷且預(yù)測(cè)精度較高,對(duì)于處理數(shù)據(jù)量很大的數(shù)據(jù)集具有明顯的優(yōu)勢(shì)。
對(duì)飛機(jī)備件需求進(jìn)行合理的預(yù)測(cè)是備件訂貨的重要一環(huán),根據(jù)不同因素綜合分析,備件的需求能夠使預(yù)測(cè)結(jié)果更加科學(xué)準(zhǔn)確,從而節(jié)省大量的人力物力,提高備件保障的軍事效益和經(jīng)濟(jì)效益。本文利用有偏估計(jì)的思想,首先利用主成分分析法對(duì)影響備件需求的多個(gè)因素進(jìn)行分析篩選,有效縮小了數(shù)據(jù)的規(guī)模,降低了數(shù)據(jù)采集的難度,然后利用嶺回歸模型進(jìn)行需求預(yù)測(cè),結(jié)果表明,有偏估計(jì)模型能夠很好地解決具有多重共線性關(guān)系影響因素的飛機(jī)備件需求預(yù)測(cè)問題,對(duì)處理數(shù)據(jù)量大的數(shù)據(jù)集具有計(jì)算簡(jiǎn)便、運(yùn)算速度快等優(yōu)勢(shì),為飛機(jī)備件的合理預(yù)測(cè)提供了一種快速有效的模型。