李 忠,趙興強,趙 學
(中國鐵路濟南局集團有限公司電務部,濟南 250001)
CTCS-3級列控系統(tǒng)(簡稱C3)作為高速鐵路運行控制系統(tǒng),出于其安全運行的需求,對數(shù)據連接的可靠性要求很高。在導致數(shù)據連接異常斷開的各種因素中,數(shù)據鏈路層的幀校驗漏檢、錯檢等機制問題分析判斷頗有難度,其作為一大類問題越來越受到重視,針對C3列控系統(tǒng)數(shù)據鏈路層的幀校驗設計、設置、改進問題進行研究,對保障C3安全運行至關重要。
數(shù)據鏈路層是開放系統(tǒng)互聯(lián)(OSI)參考模型中的第二層,介乎于物理層和網絡層之間。數(shù)據鏈路層在物理層提供服務的基礎上向網絡層提供服務,其最基本的服務是將源自網絡層的數(shù)據可靠地傳輸?shù)较噜徆?jié)點的目標機網絡層。為達到目的,數(shù)據鏈路必須具備相應的功能:一是將數(shù)據組合成數(shù)據塊(數(shù)據塊被稱為幀frame);二是數(shù)據鏈路層完成對幀的傳送。
《CTCS-3級列控系統(tǒng)無線通信功能接口規(guī)范》(Q/CR 604-201)第4章對C3的無線通信參考模型做出定義,其中數(shù)據鏈路層居于第二層,參考規(guī)范為ISO 7776和ISO 3309。如圖1所示。
圖1 C3列控系統(tǒng)的無線通信參考模型Fig.1 Reference model of radio communication system for C3 train control system
數(shù)據鏈路層主要負責如何控制幀在物理信道上的傳輸,包括如何處理傳輸差錯,如何調節(jié)發(fā)送速率使其與接收方相匹配,以及在兩個網絡實體之間提供數(shù)據鏈路通路的建立、維持和釋放的管理。
在C3無線通信功能接口規(guī)范中對數(shù)據鏈路層的傳輸特性也進行了定義,主要包括:“根據OSI參考模型,數(shù)據的可靠傳輸由數(shù)據鏈路層提供”,“數(shù)據鏈路層對發(fā)生在物理層的數(shù)據傳輸錯誤進行糾錯檢錯”,“第2層協(xié)議應符合高級數(shù)據鏈路控制(HDLC)標準”,“HDLC基本規(guī)程應提供以下檢錯及恢復機制:確認丟失后的自動重傳、16 bit幀校驗序列”等。
明確數(shù)據鏈路層是C3數(shù)據通信中唯一提供可靠數(shù)據傳輸?shù)膶?,其檢錯機制為16 bit的幀校驗。
數(shù)據在傳輸過程中可能會因為外界的影響使數(shù)據產生差錯。使原來的0變?yōu)?,原來的1變?yōu)?,這叫作比特差錯。在一段時間內,傳輸錯誤的比特占傳輸比特總數(shù)的比率稱為誤碼率。因此開始采用各種檢驗差錯的措施,目前C3數(shù)據鏈路層就是采用的循環(huán)冗余檢驗(CRC)。CRC是一種數(shù)據傳輸檢錯方法,對數(shù)據進行余式計算,而幀校驗序列(FCS)是添加在數(shù)據后面的一個16 bit序列,接收設備也執(zhí)行類似的算法,以保證數(shù)據傳輸?shù)恼_性和完整性。
余式運算的16 bit余數(shù)共有216=65 536種可能,即兩個不同幀的余式相同概率為1/216=1/65 536,另一方面,一個錯誤幀能通過校驗的概率也為1/65 536。由此導致以下兩種可能的漏檢現(xiàn)象。一是幀錯誤未發(fā)生在FCS字段,但出現(xiàn)錯誤的幀內容其余式運算結果剛好等于正確的FCS;二是錯誤既發(fā)生在幀內容字段,也發(fā)生在FCS字段,但出錯后的幀內容余式運算結果剛好等于出錯后的FCS字段。
實際的漏檢率取決于幀長度和錯誤比特數(shù)量,在幀長度很長和錯誤比特較多時會貼近此值,一般會低于這個值。漏檢幀的特點是能夠通過檢驗算法,不會顯示為校驗錯誤。
與漏檢不同,錯檢的幀本身并不能通過校驗,會顯示為校驗錯誤,但是卻被接收方通過檢驗并進行處理,這是一種接收方的系統(tǒng)問題,并不是校驗的機制問題。
通信過程中的誤碼是導致幀出現(xiàn)錯誤的直接原因。一般來說,通信過程中的干擾和噪聲都可以導致誤碼發(fā)生,但在GSM-R承載的C3列控系統(tǒng)中,小區(qū)切換造成的誤碼概率遠高于干擾和噪聲,是產生錯幀的主要因素。
導致C3數(shù)據通信誤碼的主要因素是GSM-R小區(qū)切換。作為C3列控的無線通信承載網,GSM-R提供物理層、數(shù)據鏈路層、網絡層的服務,為保證無線覆蓋,鐵路沿線設置多個GSM-R基站,列車在運行過程中會不停的更換服務小區(qū),這就導致發(fā)生大量的GSM-R小區(qū)切換,切換過程中需要進行無線信道的更換。
在切換時復幀操作會在移動終端離開老信道前暫停,并在信道更換結束后恢復,這就是所謂的“硬切換”。復幀操作恢復后,終端會采用“偷幀”方式在業(yè)務信道(TCH)內傳輸控制消息,從而導致正常傳遞的碼流中出現(xiàn)解碼的錯誤。如果這時與C3數(shù)據鏈路層的幀發(fā)送時間出現(xiàn)重疊,就會產生錯幀。由于硬切換是GSM系統(tǒng)的特點,由此導致的誤碼及可能的C3數(shù)據鏈路層的錯幀無法避免。
需要指出的是,切換發(fā)生時間和幀發(fā)送時間無必然聯(lián)系,所造成的錯幀率無法直接計算,只能通過統(tǒng)計結果觀察。
由于GSM系統(tǒng)本身的硬切換特點,C3消息必然受切換過程中誤碼的影響。影響的概率主要取決于3個方面。一是切換發(fā)生的概率,其取決于列車的速度和GSM-R小區(qū)覆蓋范圍;二是消息的長短,更長的消息就需要更長的傳遞時間,受切換影響的概率就會增加;三是誤幀率,誤幀率也會影響消息傳遞的時延。
歐 洲 鐵 路 標 準《ERTMS/ETCS-Class 1 GSM-R Interfaces Class 1 Requirements》(SUBSET-093)中,對GSM-R切換影響到列控消息的概率進行分析和模型計算。假定列車速度360 km/h,小區(qū)覆蓋范圍2 km(每20 s發(fā)生一次切換);消息包大小為200 Byte,誤幀率(FER)=2.5×10-1~3×10-2,切換影響到的消息包概率從10%~1%之間,取5%的值,表示每20個消息會有一個被影響。
因此,列控系統(tǒng)采用GSM-R進行承載是在考慮錯幀率3%~25%,消息被影響的概率5%基礎上進行設計。
京滬高鐵濟南局段的實際統(tǒng)計數(shù)據:列車速度:350 km/h;小區(qū)覆蓋范圍:3 km;約每30 s發(fā)生一次切換;消息包大小:不定長,最長的未超過200 Byte。
對京滬高鐵濟南局段的誤幀率進行抽樣統(tǒng)計,F(xiàn)ER=0.08×10-2,如表1所示。
表1 京滬高鐵濟南局段錯幀率統(tǒng)計Tab.1 FER statistics in Jinan section of Beijing-Shanghai high-speed railway
實測結果證明,京滬高鐵濟南局段的錯幀率指標滿足最初的列控設計并優(yōu)于其范圍。
京滬高鐵濟南局段的幀漏檢統(tǒng)計:抽樣的每一列車的錯幀數(shù)在濟南局管段平均約為15個,京滬高鐵每天運行約200次列車,一天的錯幀數(shù)量為15×200=3 000個,以漏檢概率為1/65 536來計算,約22天即會發(fā)生一次CRC漏檢現(xiàn)象。自2020年至2021年6月,京滬高鐵濟南局段共記錄幀校驗導致的C3問題17件,低于以22天為基數(shù)計算出的約24件預期值,符合前述的概率分析。另外,京滬高鐵濟南局段共123個站,每車均需切換123次,但錯幀平均為15個,也符合前述切換并不必然帶來錯幀的分析。
數(shù)據鏈路層幀校驗的漏檢和錯檢,將會把錯誤數(shù)據進行正常處理,根據錯誤數(shù)據在幀中所處的位置,會導致數(shù)據鏈路層、傳輸層、安全層的各種異?,F(xiàn)象。
目前,C3列控應用模128的FRMR幀結構,如表2所示。
表2 數(shù)據鏈路層FRMR的格式定義Tab.2 Format of FRMR in Data Link Layer
其中字段的功能如下。
1)被拒絕幀的控制字段應是所接收的引起幀拒絕的幀控制字段。當被拒絕幀為無編號幀時,被拒絕幀的控制字段應位于比特1~8,而比特9~16置為“0”。
2)N(S)是報告拒絕狀態(tài)DCE或DTE的當前發(fā)送狀態(tài)變量值(比特18為低階比特)。
3)C/R置為“1”,表示被拒絕的幀是響應幀。C/R置為“0”,表示被拒絕的幀是命令幀。
4)N(R)是報告拒絕狀態(tài)DCE或DTE的當前接收狀態(tài)變量值(比特26為低階比特)。
5)W置“1”,表示所接收到的并在比特1~16內送回的控制字段沒有定義或不能實現(xiàn)。
6)X置“1”,表示所接收到的并在比特1~16內送回的控制字段被認為是無效。因為該幀包括不允許的信息字段,或該幀是具有不正確長度(包含長度32~39比特幀)的監(jiān)控幀。W比特與該比特一起置“1”。
7)Y置“1”,表示所接收到的信息字段超過報告拒絕狀態(tài)的DTE或DCE的最大設定容量。
8)Z置“1”,表示所接收到的并在比特1~16內送回的控制字段包括無效的N(R)。
9)17和37~40比特應置為“0”。
FRMR響應的信息字段中W、X、Y和Z比特都可置為“0”,用以指示上面未列出的一種或多種狀態(tài)所引起的幀拒絕。
因此,F(xiàn)RMR幀中會顯示被拒絕幀的控制字段,同時通過在標志位W、X、Y、Z處置1的方式,來表示發(fā)生幀拒絕的原因,其中幀校驗的漏檢一般會導致W=1、X=1的發(fā)生,幀校驗的錯檢一般會導致Y=1的發(fā)生,而Z=1一般與校驗無關。
1)W=1、X=1的FRMR消息
以某日京滬高鐵C3降級為例,在接口監(jiān)測系統(tǒng)基群速率接口(PRI)數(shù)據中發(fā)現(xiàn)無線閉塞中心(RBC)發(fā)送了FRMR消息,拒絕原因提示為W=1,X=1,即控制字段被認為無效,因為包括不允許的信息字段,如圖2所示。
圖2 PRI接口的FRMR(W=1、X=1)跟蹤記錄Fig.2 Record of FRMR(W=1, X=1)in PRI interface
PRI接口顯示被拒絕的數(shù)據鏈路層幀的控制位為01 f4,而01 f4這個消息在數(shù)據鏈路層中不存在。結合同車次的Abis接口數(shù)據分析,此時刻正處于小區(qū)切換過程中,判斷為小區(qū)切換后出現(xiàn)亂碼,導致錯誤的幀出現(xiàn)。而此幀又通過了校驗,RBC接收到后無法處理,是一種典型的幀校驗漏檢現(xiàn)象。
2)Y=1的FRMR消息
以某日京滬高鐵C3降級為例,在接口監(jiān)測系統(tǒng)PRI接口數(shù)據中發(fā)現(xiàn)RBC發(fā)送FRMR消息,拒絕原因提示為Y=1,即收到信息字段超過最大長度。PRI接口數(shù)據如圖3所示。
圖3 PRI接口的FRMR(Y=1)跟蹤記錄Fig.3 Record of FRMR(Y=1)in PRI interface
PRI接口顯示被拒絕的數(shù)據鏈路層幀的控制位為9E 4C,而9E 4C這個I幀的CRC校驗是錯誤的。按照規(guī)范應該拋棄,但接收方仍然分析處理這個幀,最終造成RBC發(fā)送FRMR,Y=1,導致列車降級。結合該車Abis接口數(shù)據發(fā)現(xiàn),故障為小區(qū)切換后出現(xiàn)亂碼,導致9E 4C的幀出現(xiàn)變化,校驗無法通過。但接收方卻錯誤的對其進行分析,是一種幀校驗錯檢現(xiàn)象。
3)傳輸層的ER消息
以某日濟青高鐵C3降級為例,在接口監(jiān)測系統(tǒng)PRI接口數(shù)據中發(fā)現(xiàn)車載通信單元(OBU)向RBC發(fā)送ER消息,錯誤原因值為3,代表傳輸層出現(xiàn)無效的參數(shù)值。PRI接口數(shù)據如圖4所示。
圖4 PRI接口跟蹤記錄Fig.4 Record of PRI interface
由于該車安裝車載空口監(jiān)測設備,將車載的空口數(shù)據、IGSM-R接口數(shù)據進行比對。Um接口數(shù)據如圖5所示,IGSM-R接口數(shù)據如圖6所示。
圖5 Um接口跟蹤記錄Fig.5 Record of Um interface
通過比對以上數(shù)據發(fā)現(xiàn):RBC 發(fā)送的S:119,R:34數(shù)據幀對比PRI接口數(shù)據幀長度及內容發(fā)生變化,數(shù)據幀在PRI接口數(shù)據長度為42,在IGSM-R接口數(shù)據長度為61,且發(fā)生變化的S:119,R:34數(shù)據幀在I接口校驗正確,此問題應該是幀校驗漏檢,長度、內容都不正確的幀剛好能通過校驗算法。最終導致ATP傳輸層接收到的數(shù)據異常,發(fā)送了傳輸層的ER拆鏈指令。
4)安全層的DI消息
以某日濟青高鐵C3降級為例,在接口監(jiān)測系統(tǒng)PRI接口數(shù)據中發(fā)現(xiàn)OBU向RBC發(fā)送DR/DI消息,鏈接釋放。鏈接釋放前OBU與RBC交互未見明顯異常。PRI接口數(shù)據如圖7所示。
圖7 PRI接口的DI跟蹤記錄Fig.7 Record of DI in PRI interface
通過接口數(shù)據分析發(fā)現(xiàn),RBC下發(fā)N(S)=105,N(R)=82的I幀,長度為40 Byte,該幀在PRI接口顯示校驗正確。在車載記錄中顯示收到一條N(S)=105,N(R)=82的I幀,長度為39 Byte且校驗正確,如圖8所示 。
圖8 PRI接口的I幀跟蹤記錄Fig.8 Record of I frame in PRI interface
通過比對接口數(shù)據,看出該幀從PRI接口傳到車載設備時,最后幾個字節(jié)從85 7D 5E 77變成85 7E 77,如圖9所示。結合Abis口數(shù)據發(fā)現(xiàn),此時正在進行小區(qū)切換,綜合判斷是一種典型的小區(qū)切換疊加幀校驗漏檢造成的現(xiàn)象。
圖9 IGSM-R接口的I幀跟蹤記錄Fig.9 Record of I frame in IGSM-R interface
綜上所述,導致C3數(shù)據鏈路層出現(xiàn)校驗問題的主要因素為GSM-R切換導致錯幀及幀校驗機制可能存在錯幀的漏檢,或接收方在面對錯幀的系統(tǒng)問題導致的錯檢。
此類問題的比例并不高,但作為引起C3超時/降級的因素卻不容忽視,作為一種具體問題的研討,考慮應用如下建議,來降低故障概率。
現(xiàn)有的高鐵GSM-R設計主要采用單網交織覆蓋方式,在單網交織覆蓋方式下,列車運行需切換至每一個小區(qū),在高速運行過程中連續(xù)切換間隔時間較短,切換與數(shù)據發(fā)送重疊時間較多。因此,可改為雙網交織覆蓋模式,如圖10所示。
圖10 GSM-R雙網交織覆蓋方式Fig.10 Double interleaved networks of GSM-R
優(yōu)點:由于單獨的奇數(shù)站覆蓋、偶數(shù)站覆蓋和全數(shù)站覆蓋均為聯(lián)調聯(lián)試驗收通過的測試項目,此方案具備可實施性,無需修改現(xiàn)有工程建設標準、驗收標準,僅通過無線設備參數(shù)控制即可完成。
在雙網交織覆蓋方式下,列車單向運行時采用奇數(shù)站切換,另一方向采用偶數(shù)站切換,可將切換數(shù)量降低近一半,有效降低切換過程對數(shù)據傳輸?shù)挠绊憽?/p>
缺點:單基站故障退服時,會導致此方向的后續(xù)列車控制中斷,需要進行重新連接。
將幀校驗序列FCS16修改為FCS32。
優(yōu)點:漏檢概率大幅降低為1/232,約43億分之一,基本不會發(fā)生漏檢現(xiàn)象??捎行Ы鉀Q幀校驗問題。
缺點:此方案的施工升級需要在車載設備和地面設備同時完成,工程實施難度極大。
研究車載數(shù)據發(fā)送邏輯或軟件機制,嘗試在MT單元進行小區(qū)切換期間停止發(fā)送應用層數(shù)據,切換完成后再繼續(xù)發(fā)送。
優(yōu)點:可有效降低高速鐵路頻繁小區(qū)切換產生的誤碼對數(shù)據幀影響,減少錯誤幀觸發(fā)的C3系統(tǒng)鏈接中斷。
缺點:此方案僅針對車載向地面發(fā)送的上行數(shù)據、下行數(shù)據受切換的影響無法解決,為有限的方案。