基于馬爾可夫決策過程的軌道不平順維修策略研究

2023-11-16 07:30何祥國張斌曾城林鄒海浪羅雁云

華東交通大學(xué)學(xué)報(bào) 2023年5期

關(guān)鍵詞：高速鐵路

何祥國張斌曾城林鄒海浪羅雁云

摘要：為有效判別軌道幾何狀態(tài)、適應(yīng)高速鐵路養(yǎng)護(hù)狀態(tài)修，開展軌道不平順維修策略優(yōu)化研究。選取馬爾可夫決策過程，設(shè)置軌道狀態(tài)等級(jí)、維修動(dòng)作空間和維修動(dòng)作成本等模型參數(shù)，利用價(jià)值迭代算法進(jìn)行求解，實(shí)現(xiàn)高速鐵路線路維修計(jì)劃的有效制定。以華東地區(qū)某有砟高速鐵路線路為例，結(jié)合典型劣化速度的軌道單元區(qū)段特征，分析馬爾可夫決策模型的維修決策優(yōu)化過程并驗(yàn)證效果，同時(shí)探究軌道單元區(qū)段在每個(gè)決策時(shí)刻的最優(yōu)維修決策，利用蒙特卡洛法模擬規(guī)劃周期內(nèi)的維修總成本并與實(shí)際維修成本進(jìn)行對(duì)比。結(jié)果表明：基于馬爾可夫決策過程的軌道不平順維修決策，能夠充分考慮軌道單元區(qū)段不平順劣化的異質(zhì)性，可以根據(jù)軌道單元區(qū)段的實(shí)際狀態(tài)和劣化規(guī)律科學(xué)安排維修活動(dòng)，提高維修作業(yè)的空間分辨率，規(guī)劃周期內(nèi)維修決策的優(yōu)化效果顯著，在保證線路高平順性的同時(shí)減少維修成本，對(duì)鐵路線路軌道養(yǎng)護(hù)維修具有指導(dǎo)作用。

關(guān)鍵詞：高速鐵路；軌道不平順；馬爾可夫決策過程；價(jià)值迭代算法；養(yǎng)護(hù)維修策略

中圖分類號(hào)：U213 文獻(xiàn)標(biāo)志碼：A

本文引用格式：何祥國，張斌，曾城林，等. 基于馬爾可夫決策過程的軌道不平順維修策略研究[J]. 華東交通大學(xué)學(xué)報(bào)，2023，40（5）：68-75.

Research on Maintenance Strategy of Track Irregularity Based

on Markov Decision Process

He Xiangguo1， Zhang Bin2， Zeng Chenglin2， Zou Hailang3， Luo Yanyun4

（1. Jiangxi Tongji Construction Project Management Co.， Ltd.， Nanchang 330025， China； 2. State Key Laboratory of Performance Monitoring and Protecting of Rail Transit Infrastructure， East China Jiaotong University， Nanchang 330013， China； 3. Nanchang High-speed Railway Infrastructure Section， China Railway Nanchang Bureau Group Co.， Ltd.， Nanchang 330100， China; 4. Institute of Railway and Urban Mass Transit， Tongji University， Shanghai 201804， China）

Abstract：In order to effectively judge the geometric state of track and adapt to the maintenance state of high-speed railway， the optimization of track irregularity maintenance strategy is studied. The Markov decision process is selected， the model parameters such as track state level， maintenance action space and maintenance action cost are set， and the value iteration algorithm is used to solve the problem， so as to realize the effective formulation of high-speed railway line maintenance plan. Taking a ballasted high-speed railway line in East China as an example， combined with the characteristics of the track unit at typical deterioration speed， the maintenance decision optimization process of the Markov decision model is analyzed and the effect is verified. At the same time， the optimal maintenance decision of the track unit section at each decision time is explored. Monte Carlo stochastic simulation is used to simulate the total maintenance cost in the planning cycle and compare it with the actual maintenance cost. The results show that the track irregularity maintenance decision based on Markov decision process can fully consider the heterogeneity of track unit section irregularity deterioration， scientifically arrange maintenance activities according to the actual state and deterioration law of track unit section， improve the spatial resolution of maintenance operation， and the optimization effect of maintenance decision in the planning cycle is remarkable， which reduces the maintenance cost while ensuring the high smoothness of the line， and has a guiding role in the maintenance and repair of railway track.

Key words： high-speed railway; track irregularity; Markov decision process; value iteration algorithm; maintenance strategy

Citation format：HE X G，ZHANG B，ZENG C L，et al. Research on maintenance strategy of track irregularity based on Markov decision process[J]. Journal of East China Jiaotong University，2023，40（5）：68-75.

我國高速鐵路現(xiàn)行的養(yǎng)護(hù)維修模式主要包括故障修和周期修，這兩種模式下的養(yǎng)護(hù)維修計(jì)劃通常線路的修理時(shí)間和修理方式較為固定[1-2]。維修決策主要依據(jù)軌道幾何不平順指標(biāo)進(jìn)行制定，當(dāng)軌道幾何不平順指標(biāo)值超過管理值時(shí)，將立即進(jìn)行不同等級(jí)的線路修理。然而，實(shí)際運(yùn)營中，線路狀況尤其是軌道單元的劣化速度存在差異，維修策略不適用引起的“過維修”和“欠維修”情況時(shí)常發(fā)生，導(dǎo)致有些線路狀況良好卻仍進(jìn)行維修、有些狀況異常反而未進(jìn)行維修。可見，維修決策的實(shí)施屬于被動(dòng)性管理，缺乏對(duì)軌道狀態(tài)的有效預(yù)判，造成延誤最佳的維修時(shí)機(jī)，增大了養(yǎng)護(hù)維修工作量與維修成本。

為提高維修質(zhì)量水平，實(shí)現(xiàn)由粗放管理向精準(zhǔn)施策轉(zhuǎn)變，國內(nèi)外學(xué)者從不同角度探討線路維修決策模型及相關(guān)理論，主要分為以下三類：一是以線路設(shè)備服役狀態(tài)為核心構(gòu)建維修決策模型，考慮不確定性條件下的軌道結(jié)構(gòu)實(shí)時(shí)服役狀態(tài)[3-8]；二是將維護(hù)成本費(fèi)用最低作為模型最優(yōu)化目標(biāo)，使用動(dòng)態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)等數(shù)學(xué)工具輔助制定線路維修策略[9-12]；三是綜合考慮多個(gè)優(yōu)化目標(biāo)的維修決策模型，以軌道幾何狀態(tài)、維修作業(yè)成本等多種集合為目標(biāo)函數(shù)建立維修決策模型[13-19]。

目前，上述研究中設(shè)定的維修作業(yè)區(qū)間長度通常較長，鮮有考慮不同空間位置軌道單元區(qū)段軌道幾何形位劣化的異質(zhì)性，未對(duì)劣化速度不同的軌道單元進(jìn)行區(qū)分，現(xiàn)場維修作業(yè)精準(zhǔn)度有限。

本文以有砟高速鐵路線路為例，將連續(xù)的軌道區(qū)段分割為維修決策單元，利用馬爾科夫決策過程建立研究模型，提出適合不同軌道單元區(qū)段的維修策略，實(shí)施精細(xì)化維修作業(yè)，使維修活動(dòng)更加經(jīng)濟(jì)合理，對(duì)實(shí)現(xiàn)維修策略科學(xué)化與可持續(xù)及其在鐵路線路養(yǎng)護(hù)維修中的應(yīng)用具有借鑒意義。

1 馬爾可夫決策過程模型

1.1 模型介紹

馬爾可夫決策過程是一種強(qiáng)化學(xué)習(xí)算法，由五元組（S，A，Pk，R，γ）構(gòu)成，其中，S稱為狀態(tài)空間即各種狀態(tài)的集合，A稱為動(dòng)作空間即各種可能執(zhí)行動(dòng)作的集合，R為在狀態(tài)轉(zhuǎn)移過程中得到的獎(jiǎng)勵(lì)，γ為折扣因子，S′為轉(zhuǎn)移后狀態(tài)空間。軌道單元區(qū)段k在某一狀態(tài)s下采用動(dòng)作a而轉(zhuǎn)移到狀態(tài)s′的概率為

馬爾科夫決策過程中的任意一個(gè)決策時(shí)刻，決策者（智能體）采用動(dòng)作空間中某一動(dòng)作，使決策過程以一定的概率由當(dāng)前狀態(tài)轉(zhuǎn)移到下一狀態(tài)，并在該過程中得到相應(yīng)的獎(jiǎng)勵(lì)，獎(jiǎng)勵(lì)起著指引智能體學(xué)習(xí)的作用。同時(shí)，目標(biāo)是找到一個(gè)最優(yōu)的策略函數(shù)，也即要找到一個(gè)最優(yōu)策略來最大化隨機(jī)過程中的累積獎(jiǎng)勵(lì)。馬爾可夫決策過程中智能體與環(huán)境之間的交互示意見圖1。

1.2 模型構(gòu)建

為充分考慮軌道單元區(qū)段劣化過程中的異質(zhì)性，以一段有砟高鐵線路為例，劃分150個(gè)200 m的軌道單元區(qū)段，并按照里程順序依次編號(hào)為1～150。構(gòu)建馬爾可夫決策過程模型，對(duì)其維修決策進(jìn)行優(yōu)化，模型參數(shù)設(shè)置方法如下。

1）軌道狀態(tài)等級(jí)劃分。將軌道質(zhì)量指數(shù)TQI作為軌道不平順狀態(tài)的評(píng)價(jià)指標(biāo)，并根據(jù)每個(gè)軌道單元區(qū)段的TQI值確定各軌道單元區(qū)段的不平順狀態(tài)等級(jí)，其中主要參考《高速鐵路有砟軌道線路維修規(guī)則（試行）》[20]中的T值評(píng)分法進(jìn)行劃分。T值評(píng)分法中的TQI扣分規(guī)則見表1，按照超過管理值10%和超過管理值20%將軌道不平順狀態(tài)劃分為5個(gè)等級(jí)，即狀態(tài)空間S={1，2，3，4，5}，具體狀態(tài)等級(jí)劃分見表2。

2）維修動(dòng)作空間。結(jié)合高速鐵路現(xiàn)場作業(yè)需求，將高速鐵路有砟軌道的軌道不平順修理活動(dòng)類型，確定為不做維修（a1=0）、經(jīng)常保養(yǎng)（a2=1）和線路大修（a3=2），即動(dòng)作空間表述為A={a1，a2，a3}。

3）維修動(dòng)作成本。當(dāng)軌道不平順狀態(tài)處于不同的狀態(tài)等級(jí)時(shí)，養(yǎng)護(hù)維修費(fèi)用與所執(zhí)行的維修工作量相匹配，為盡可能反應(yīng)真實(shí)情況，設(shè)置維修費(fèi)用構(gòu)成如下：

① 軌道檢測費(fèi)用ci，在任意決策時(shí)刻，對(duì)軌道進(jìn)行幾何形位狀態(tài)檢測所產(chǎn)生的費(fèi)用；

② 經(jīng)常保養(yǎng)費(fèi)用cmin，在軌道不平順狀態(tài)等級(jí)處于s時(shí)，周期時(shí)間內(nèi)對(duì)軌道進(jìn)行日常巡檢、清掃和保養(yǎng)，保持軌道健康狀態(tài)所產(chǎn)生的費(fèi)用；

③ 線路大修費(fèi)用cmaj，以解決鋼軌傷損疲勞、道床臟污和板結(jié)為重點(diǎn)，按周期有計(jì)劃地對(duì)設(shè)備進(jìn)行更新、改善和全面修理所產(chǎn)生的費(fèi)用；

④ 風(fēng)險(xiǎn)成本cr，采用維修動(dòng)作A后軌道所處的狀態(tài)，即維修后軌道不平順狀態(tài)等級(jí)高則風(fēng)險(xiǎn)成本大、等級(jí)低則風(fēng)險(xiǎn)成本低。

采用不同的維修動(dòng)作，對(duì)應(yīng)的軌道不平順改善程度不盡相同，且即使采用同一維修動(dòng)作，也存在一定概率導(dǎo)致軌道不平順狀態(tài)轉(zhuǎn)移到不同狀態(tài)等級(jí)。因此，對(duì)維修效果進(jìn)行量化表征，使用風(fēng)險(xiǎn)成本量化維修動(dòng)作的質(zhì)量水平。

根據(jù)現(xiàn)場調(diào)研情況，不同軌道不平順狀態(tài)等級(jí)時(shí)，軌道單元區(qū)段采取相應(yīng)維修動(dòng)作成本見表3。

綜上，軌道單元區(qū)段的軌道不平順狀態(tài)等級(jí)為S時(shí)，采取維修動(dòng)作A后，所產(chǎn)生的成本函數(shù)C（S，A）如式（2）所示

4）狀態(tài)轉(zhuǎn)移矩陣?？紤]到各個(gè)軌道單元區(qū)段劣化速度并不相同，且執(zhí)行不同維修動(dòng)作時(shí)對(duì)軌道幾何形位將產(chǎn)生不同影響，因此，需要單獨(dú)計(jì)算各個(gè)軌道單元區(qū)段在執(zhí)行不同維修操作情況下的狀態(tài)轉(zhuǎn)移矩陣。根據(jù)軌道檢測數(shù)據(jù)和維修操作記錄，狀態(tài)轉(zhuǎn)移矩陣計(jì)算如式（3）所示

式中：S為軌道不平順當(dāng)前狀態(tài)；S′為軌道不平順轉(zhuǎn)移后狀態(tài)；A為采取的維修動(dòng)作；N為處于S狀態(tài)的軌道單元數(shù)目；NSS′A為軌道單元區(qū)段在采取動(dòng)作A時(shí)從狀態(tài)S轉(zhuǎn)換到狀態(tài)S′的次數(shù)；NSjA為軌道單元區(qū)段在采取動(dòng)作A時(shí)從狀態(tài)S轉(zhuǎn)換到其他狀態(tài)的次數(shù)。

1.3 模型求解

利用馬爾可夫決策過程建立模型時(shí)，尤其是在狀態(tài)空間較小時(shí)，價(jià)值迭代算法可以快速收斂，因此，本文使用價(jià)值迭代算法對(duì)模型進(jìn)行求解。在價(jià)值迭代算法中，綜合成本的迭代方程采用貝爾曼方程進(jìn)行迭代，計(jì)算如式（4）所示

式中：Vπ（s）為軌道單元區(qū)段在狀態(tài)s時(shí)使用策略π所產(chǎn)生的價(jià)值；C（s，a）為軌道單元區(qū)段在狀態(tài)s時(shí)采用動(dòng)作A所產(chǎn)生的維修成本；γ為折扣系數(shù)；p（s′|s，a）為軌道單元區(qū)段狀態(tài)在采用動(dòng)作a后轉(zhuǎn)移到狀態(tài)s′的概率；Vπ（s′）為軌道單元區(qū)段在狀態(tài)s′時(shí)使用策略π所產(chǎn)生的價(jià)值。價(jià)值迭代算法過程見表4。

綜上，迭代算法思路歸納為：首先，初始化每個(gè)狀態(tài)下的狀態(tài)價(jià)值函數(shù)，令每個(gè)動(dòng)作價(jià)值函數(shù)的值為0；其次，采用貝爾曼方程進(jìn)行迭代計(jì)算狀態(tài)價(jià)值函數(shù)，并用貪婪策略對(duì)每次迭代的策略進(jìn)行改進(jìn)，一直迭代到此次的價(jià)值函數(shù)和下一次迭代的價(jià)值函數(shù)之差小于設(shè)定閾值時(shí)結(jié)束迭代，并輸出最優(yōu)策略。

2 算例分析

2.1 數(shù)據(jù)準(zhǔn)備

華東地區(qū)某高速鐵路有砟軌道線路設(shè)計(jì)時(shí)速250 km/h，測試車輛為高速綜合檢測列車，采樣間隔為0.25 m，軌道檢測頻率為每月一次。收集線路下行線方向2016年2月—2021年12月期間共計(jì)71次軌檢車動(dòng)態(tài)檢測數(shù)據(jù)和6年的年度修理計(jì)劃。

2.2 決策優(yōu)化過程分析

以2個(gè)典型劣化速度的軌道單元區(qū)段為例，52號(hào)和108號(hào)分別為劣化速率較慢和較快的軌道單元區(qū)段，說明價(jià)值迭代算法的迭代過程和決策優(yōu)化效果，具體求解方法和迭代過程分別見圖2和圖3。由于設(shè)置的動(dòng)作價(jià)值函數(shù)初始值為0，故52號(hào)和108號(hào)軌道單元區(qū)段在第1步迭代所得結(jié)果相同。

從圖2可以看出，智能體進(jìn)行迭代時(shí)，會(huì)根據(jù)每個(gè)狀態(tài)下的動(dòng)作價(jià)值函數(shù)最大值挑選出最優(yōu)動(dòng)作。在此規(guī)則下，智能體在第1步迭代后的選擇是無論軌道不平順處于何種狀態(tài)均不做維修。隨著迭代步數(shù)的增加，迭代到第4步時(shí)，通過與環(huán)境交互得到獎(jiǎng)勵(lì)函數(shù)的反饋，智能體更新最優(yōu)決策，在狀態(tài)1，2，3時(shí)執(zhí)行經(jīng)常保養(yǎng)操作（minor），在狀態(tài)4，5時(shí)執(zhí)行線路大修操作（major）。當(dāng)?shù)M(jìn)行到第13步時(shí)，智能體采取的最優(yōu)策略是在狀態(tài)1時(shí)不進(jìn)行任何操作，在狀態(tài)2時(shí)執(zhí)行經(jīng)常保養(yǎng)操作，在狀態(tài)3，4，5時(shí)執(zhí)行線路大修操作。模型的決策在第13步之后的迭代過程中一直沒有發(fā)生變化，說明模型已經(jīng)收斂，所得策略為此環(huán)境下的最優(yōu)策略。

換言之，第13步迭代產(chǎn)生的策略，即在狀態(tài)為1時(shí)，智能體判斷該區(qū)段的劣化速度較慢，且狀態(tài)升高的風(fēng)險(xiǎn)不大，為使維修成本最低，故選擇不進(jìn)行任何操作；在狀態(tài)為2時(shí)，智能體判斷維持軌道狀態(tài)現(xiàn)狀并防止不斷劣化至維修管理閾值，結(jié)合考慮維修成本，選擇執(zhí)行經(jīng)常保養(yǎng)操作；在狀態(tài)為3，4，5時(shí)，軌道單元區(qū)段TQI值已經(jīng)超過規(guī)范中規(guī)定的閾值，此時(shí)，智能體判斷軌道狀態(tài)較為危險(xiǎn)，以改善軌道不平順狀態(tài)為目標(biāo)，選擇執(zhí)行線路大修操作。

從圖3可以看出，在108號(hào)軌道單元區(qū)段迭代過程中，經(jīng)過13步迭代，模型達(dá)到收斂，最優(yōu)決策為：在狀態(tài)1，2時(shí)，智能體判斷該環(huán)境下軌道的劣化速度較快，有較大可能短時(shí)間內(nèi)完全劣化到狀態(tài)2，選擇執(zhí)行經(jīng)常保養(yǎng)操作；在狀態(tài)3，4，5時(shí)，智能體判斷軌道狀態(tài)較危險(xiǎn)，故均執(zhí)行線路大修操作。對(duì)比圖2可以看出，智能體對(duì)不同劣化速度的軌道單元區(qū)段所做出的決策是不相同的，隨著迭代次數(shù)的增加，智能體在與環(huán)境的交互中不斷得到反饋，最終做出的決策也變得越來越合理，最優(yōu)維修策略也比較符合工程實(shí)際需要。

2.3 規(guī)劃周期內(nèi)維修決策的優(yōu)化效果

為更好地觀察軌道單元區(qū)段維修策略在整個(gè)維修規(guī)劃周期中的影響，分析上述2個(gè)典型軌道單元區(qū)段在規(guī)劃周期內(nèi)的每個(gè)決策時(shí)刻采用的最優(yōu)維修動(dòng)作，并與實(shí)際決策進(jìn)行對(duì)比，結(jié)果見圖4。

可以看出，由于52號(hào)軌道單元區(qū)段的劣化速率較慢，軌道幾何狀態(tài)較好，相比于實(shí)際決策選擇大修時(shí)，在絕大部分情況下模型都選擇執(zhí)行經(jīng)常保養(yǎng)動(dòng)作；實(shí)際決策選擇經(jīng)常保養(yǎng)時(shí)，在少數(shù)決策時(shí)刻模型為使成本最優(yōu)而選擇不做維修。相比之下，108號(hào)軌道單元區(qū)段的劣化速率較快，在大多數(shù)時(shí)刻模型選擇經(jīng)常保養(yǎng)動(dòng)作，這與實(shí)際決策相同，但是，選擇執(zhí)行大修操作的決策時(shí)刻較實(shí)際決策少，因此，模型計(jì)算的維修決策較實(shí)際決策所產(chǎn)生的維修成本低。

2.4 決策時(shí)刻的最優(yōu)維修決策

本算例的軌道區(qū)段維修規(guī)劃周期為2年，根據(jù)調(diào)研，現(xiàn)場每個(gè)月利用軌檢車對(duì)下行線的軌道不平順狀態(tài)進(jìn)行檢測，因此，規(guī)劃周期內(nèi)共計(jì)24個(gè)決策時(shí)刻。利用價(jià)值迭代算法，對(duì)2020—2021年期間下行線的150個(gè)軌道單元區(qū)段維修決策進(jìn)行優(yōu)化，可以得到各個(gè)軌道單元區(qū)段在每個(gè)決策時(shí)刻的最優(yōu)維修決策?，F(xiàn)選取2020年2月作為起始決策時(shí)刻，該月的模型計(jì)算維修策略與實(shí)際維修策略對(duì)比見圖5。

從圖5可以看出，模型計(jì)算所得維修策略和實(shí)際使用策略的對(duì)比情況，實(shí)際維修策略一般是挑選軌道幾何形位狀態(tài)差的連續(xù)區(qū)段，這些區(qū)段中存在多處TQI值超出了管理閾值8，進(jìn)而采取大修操作，但是這些區(qū)段中也有一段（127～129號(hào)）其TQI值和軌道狀態(tài)等級(jí)并不高，也誤采取了大修的維修策略。同時(shí)，某些狀態(tài)良好、TQI值較低且劣化速度較慢的區(qū)段，也誤采取了經(jīng)常保養(yǎng)修理的策略，且這類區(qū)段數(shù)量不在少數(shù)。此外，在一些軌道幾何形位狀態(tài)不好的區(qū)段，如75號(hào)和76號(hào)軌道單元區(qū)段，并未采取大修，而是誤采取了經(jīng)常保養(yǎng)操作。

通過馬爾可夫決策過程模型計(jì)算出的軌道不平順維修決策，能夠根據(jù)不同軌道單元區(qū)段的劣化趨勢，科學(xué)安排修理活動(dòng)，各類維修數(shù)量對(duì)比見表5。軌道幾何形位狀態(tài)良好的軌道單元區(qū)段，可以少維修甚至不維修，并對(duì)需要進(jìn)行線路大修的軌道區(qū)段進(jìn)行了更加精細(xì)的劃分，這將減輕鐵路工務(wù)部門的養(yǎng)護(hù)維修工作量并減少維修成本。

2.5 與實(shí)際維修決策成本的對(duì)比分析

利用蒙特卡洛隨機(jī)模擬方法，將馬爾可夫決策過程模型通過計(jì)算得到在規(guī)劃周期內(nèi)的維修總成本，并將其與實(shí)際維修成本進(jìn)行對(duì)比。

軌道單元區(qū)段狀態(tài)轉(zhuǎn)移矩陣中的馬爾科夫鏈，服從概率分布，具有隨機(jī)性。即使確定了決策時(shí)刻的維修策略，模擬執(zhí)行相同的維修操作后，也可能導(dǎo)致軌道不平順狀態(tài)轉(zhuǎn)移到不同的等級(jí)。因此，一次計(jì)算所得的成本無法反映出計(jì)算所得策略的真實(shí)成本。這里，在確定維修策略后，進(jìn)行1 000次的蒙特卡洛模擬，計(jì)算其所需成本的期望值，模擬得到的周期總成本以及結(jié)果分析見圖6。

從圖6可以看出，模擬該軌道區(qū)段維修規(guī)劃周期的維修總成本最大值為198.26萬元，最小值為136.65萬元，平均值為167.41萬元。根據(jù)現(xiàn)場維修作業(yè)調(diào)研結(jié)果，該車間對(duì)本區(qū)段在2年時(shí)間內(nèi)的線路檢測、經(jīng)常保養(yǎng)及線路大修等維修總成本約186萬元。由此可見，本文模型制定的維修策略在保障線路高平順性的同時(shí)可以顯著降低維修成本。

3 結(jié)論

本文結(jié)合軌道不平順特征，提出一種基于馬爾可夫決策過程的軌道維修決策模型。通過設(shè)置軌道狀態(tài)等級(jí)、維修動(dòng)作空間和維修動(dòng)作成本等模型參數(shù)，利用價(jià)值迭代算法，從多個(gè)維度分析軌道單元區(qū)段在每個(gè)決策時(shí)刻的最優(yōu)維修決策。最后，利用蒙特卡洛法模擬規(guī)劃周期內(nèi)的維修總成本，并與實(shí)際維修成本進(jìn)行對(duì)比。

1）通過馬爾可夫決策過程模型優(yōu)化后的軌道不平順維修決策，可以充分考慮不同軌道單元區(qū)段不平順劣化的異質(zhì)性，提高維修的空間分辨率。

2）隨著迭代次數(shù)的增加，智能體通過與環(huán)境交互不斷得到獎(jiǎng)勵(lì)函數(shù)的反饋，最終做出的維修決策變得越來越合理，更加符合工程實(shí)際需要。

3）規(guī)劃周期內(nèi)維修決策的優(yōu)化效果顯著，依據(jù)軌道單元區(qū)段實(shí)際狀態(tài)和劣化規(guī)律科學(xué)安排維修活動(dòng)，在保證線路高平順性的同時(shí)降低了維修成本。

參考文獻(xiàn)：

[1] 徐偉昌. 大型養(yǎng)路機(jī)械搗固作業(yè)維修決策模型研究[J]. 鐵道科學(xué)與工程學(xué)報(bào)，2016，13（1）：152-157.

XU W C. Maintenance decision model based on large machinery tamping work[J]. Journal of Railway Science and?Engineering，2016，13（1）：152-157.

[2] 陳立. 制定狀態(tài)修基準(zhǔn)指標(biāo)指導(dǎo)大型養(yǎng)路機(jī)械搗固作業(yè)的探討[J]. 鐵道建筑，2015，2（2）：118-121.

CHEN L. Discussion on the formulation of state repair benchmark index to guide the tamping operation of large road maintenance machinery[J]. Railway Engineering，2015，2（2）：118-121.

[3] 李茂圣，王大彬. 一種智慧地鐵軌道狀態(tài)預(yù)測和維修決策優(yōu)化系統(tǒng)[J]. 計(jì)算機(jī)測量與控制，2023，31（2）：48-54.

LI M S，WANG D B. Intelligent subway track state prediction and maintenance decision-making optimization system[J]. Computer Measurement & Control，2023，31（2）：48-54.

[4] PAPAKONSTANTINOU K G，SHINOZUKA M. Planning structural inspection and maintenance policies via dynamic programming and Markov processes. Part II：POMDP implementation[J]. Reliability Engineering and System Safety，2014，130：202-213.

[5] 郭然. 鐵路線路養(yǎng)護(hù)維修計(jì)劃編制理論與方法[D]. 北京：北京交通大學(xué)，2015.

GUO R. Theory and method for railway track maintenance scheduling[D]. Beijing：Beijing Jiaotong University，2015.

[6] FAMUREWA S M，XIN T，RANTATALO M，et al. Optimization of maintenance track possession time：A tamping case study[J]. Proceedings of the Institution of Mechanical?Engineers，Part F：Journal of Rail and Rapid Transit，2015，229（1）：12-22.

[7] 楊雅琴，徐鵬，吳細(xì)水. 基于Fast-MCD的自適應(yīng)建模探索軌道不平順劣化[J]. 清華大學(xué)學(xué)報(bào)（自然科學(xué)版），2022，62（3）：516-522.

YANG Y Q，XU P，WU X S. Adaptive modeling method based on the Fast-MCD to analyze railway track irregularityDeterioration deterioration[J]. Journal of Tsinghua University（Science and Technology），2022，62（3）：516-522.

[8] 彭麗宇，張進(jìn)川，茍娟瓊，等. 基于BP神經(jīng)網(wǎng)絡(luò)的鐵路軌道幾何不平順預(yù)測方法[J]. 鐵道學(xué)報(bào)，2018，40（9）：154-158.

PENG Y L，ZHANG J C，GOU J Q，et al. Prediction method of railway track geometric irregularity based on BP neural network[J]. Journal of the China Railway Society，2018，40（9）：154-158.

[9] 徐菲，曲建軍. 基于檢測數(shù)據(jù)的高速鐵路軌面沉降不平順發(fā)展趨勢預(yù)測[J]. 中國鐵路，2017（10）：8-10.

XU F，QU J J. Prediction on development trend of settlement irregularity of high-speed rail surface based on test data[J]. China Railway，2017（10）：8-10.

[10] PENG F，OUYANG Y，SOMANI K. Optimal routing and scheduling of periodic inspections in large-scale railroad networks[J]. Journal of Rail Transport Planning & Management，2013，3（4）：163-171.

[11] 劉平. 基于遺傳算法的線路大型養(yǎng)路機(jī)械搗固作業(yè)單元區(qū)段選擇模型[J]. 鐵道建筑，2022，62（8）：72-76.

LIU P. Selection model of tamping operation unit section of large maintenance machinery based on genetic algorithm[J]. Railway Engineering，2022，62（8）：72-76.

[12] NEUHOLD J，VIDOVIC I，MARSCHNIG S. Preparing track geometry data for automated maintenance planning[J]. Journal of Transportation Engineering，Part A：Systems，2020，146（5）：04020032.

[13] SHARMA S，CUI Y，HE Q，et al. Data-driven optimization of railway maintenance for track geometry[J]. Transportation Research Part C：Emerging Technologies，2018，90：34-58.

[14] SANCHO L C B，BRAGA J A P，ANDRADE A R. Optimizing maintenance decision in rails：A Markov decision process approach[J]. Journal of Risk and Uncertainty in?Engineering Systems，Part A：Civil Engineering，2020，7（1）：1-19.

[15] BAI W F，WEI Y，CHANG Y Y，et al. Life cycle repair decision optimization model based on adaptive learning markov decision process of rail facility[J/OL]. Available at?SSRN： 1-36（2022-3-23）[2023-8-26]. http：//dx.doi.org/10.2139/ssrn.4137913.

[16] 許玉德，趙梓含，喬雨，等. 大機(jī)搗固養(yǎng)修作業(yè)計(jì)劃多目標(biāo)決策模型[J]. 華東交通大學(xué)學(xué)報(bào)，2019，36（3）：55-63.

XU Y D ，ZHAO Z H，QIAO Y，et al. Multi-objective decision model for tamping maintenance plan of ballast track[J]. Journal of East China Jiaotong University，2019，36（3）：55-63.

[17] 許玉德，吳琰超，魏子龍，等. 基于放大系數(shù)和權(quán)重組合的無砟軌道TQI計(jì)算[J]. 華東交通大學(xué)學(xué)報(bào)，2021，38（5）：101-109.

XU Y D，WU Y C，WEI Z L，et al. Calculating TQI of ballastless track based on amplification coefficient and weights[J]. Journal of East China Jiaotong University，2021，38（5）：101-109.

[18] 盧春房. 高速鐵路橋隧工程養(yǎng)修模式與關(guān)鍵技術(shù)[J]. 中國鐵路，2017（7）：1-8.

LU C F. Maintenance and repair mode and technologies for high speed railway bridges and tunnels[J]. China Railway，2017（7）：1-8.

[19] 常艷艷，劉仍奎，王福田，等. 蘭新線鐵路軌道幾何狀態(tài)劣化短期預(yù)測模型研究[J]. 鐵道學(xué)報(bào)，2020，42（11）：124-129.

CHANG Y Y，LIU R K，WANG F T，et al. Short-term prediction model for track geometry degradation on Lanzhou-Xinjiang railway[J]. Journal of the China Railway Society，2020，42（11）：124-129.

[20] 中國鐵道科學(xué)研究院. 高速鐵路有砟軌道線路維修規(guī)則[M]. 北京：中國鐵道出版社，2013.

CHINA ACADEMY OF RAILWAY SCIENCES. Maintenance rules for ballasted track of high-speed railway[M]. Beijing：China Railway Publishing House，2013.

第一作者：何祥國（1964—），男，高級(jí)工程師，研究方向?yàn)橥聊竟こ坦芾砑敖】当O(jiān)測。E-mail：hexiangguo123@sina.com。

通信作者：張斌（1985—），男，副教授，碩士生導(dǎo)師，研究方向?yàn)檐壍澜Y(jié)構(gòu)動(dòng)力學(xué)。E-mail：zhangbin010@126.com。

（責(zé)任編輯：李根）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于馬爾可夫決策過程的軌道不平順維修策略研究