趙沖
(中國移動通信集團(tuán)河北有限公司邢臺分公司,邢臺 054000)
某移動TD-SCDMA網(wǎng)絡(luò)ATU測試FTP掉線問題分析
趙沖
(中國移動通信集團(tuán)河北有限公司邢臺分公司,邢臺 054000)
本文通過對一個ATU數(shù)據(jù)業(yè)務(wù)測試的異常事件的分析,介紹了網(wǎng)絡(luò)總體構(gòu)架和系統(tǒng)功能,給出了適合的分析方法及具體解決方案,對以后解決類似的問題起到了一定的幫助作用。
ATU;SGSN;PS域
2012年8月省公司例行ATU數(shù)據(jù)業(yè)務(wù)測試中,某地發(fā)現(xiàn)多次FTP掉線的異常事件,從軟件統(tǒng)計的掉線時間點來看,正常下載一段時間后無數(shù)傳導(dǎo)致3 min無速率,其中有35次完全在TD-SCDMA,3次在GSM。
下載無速率導(dǎo)致平臺統(tǒng)計為掉線,同時影響整體下載速率?,F(xiàn)場針對問題發(fā)生的無線環(huán)境以及涉及無線參數(shù)進(jìn)行驗證未能定位問題環(huán)節(jié),啟動全流程問題處理。
1.1 網(wǎng)絡(luò)組網(wǎng)情況分析
某地TD-SCDMA網(wǎng)絡(luò)PS域組網(wǎng)由現(xiàn)網(wǎng)Node B、RNC、CE、GGSN、華為交換機(jī)S9306、防火墻Eudemon1000E以及CMNET等設(shè)備組成。如圖1所示。網(wǎng)絡(luò)接口包括IUB、IU-PS、Gn、Gi、Ga、O&M、Gn+Gi、Gn+Ga、Gn+Gi+Ga。
成立聯(lián)合處理小組:成員為各網(wǎng)元負(fù)責(zé)人:地市公司網(wǎng)優(yōu)中心、省公司網(wǎng)優(yōu)中心/SGSN維護(hù)、華為公司研發(fā)二線支持、數(shù)通維護(hù),進(jìn)行問題逐段分析,查找不同點。復(fù)現(xiàn)信令跟蹤以及抓分組工作,定位問題發(fā)生環(huán)節(jié)。
PS數(shù)據(jù)業(yè)務(wù)屬于端到端的業(yè)務(wù),PS業(yè)務(wù)經(jīng)過的網(wǎng)元實體較多,組網(wǎng)結(jié)構(gòu)復(fù)雜。中間任一環(huán)節(jié)出現(xiàn)異?;蛘咴趥鬏斶^程中出現(xiàn)錯分組、丟分組等,均有可能導(dǎo)致數(shù)據(jù)的速率下降。
1.2.1 覆蓋分析
問題發(fā)生區(qū)域不固定,全網(wǎng)均存在鼎利ATU設(shè)備測試統(tǒng)計掉線。通過對掉線問題發(fā)生區(qū)域分析,覆蓋良好。
圖1 組網(wǎng)情況
典型問題中終端測試覆蓋良好,PCCPCH電平-65 dBm,H業(yè)務(wù)功率也正常,C/I良好。
同時進(jìn)行CQT測試問題同樣復(fù)現(xiàn),問題原因應(yīng)與無線環(huán)境無關(guān)。
1.2.2 終端分析
赫利森接著觀察了免疫細(xì)胞是如何通過導(dǎo)血管從顱骨移動到腦膜的,在小鼠體內(nèi)和體外都是如此。“在體內(nèi)觀察非常具有挑戰(zhàn)性,”她說,“血液從硬腦膜(腦膜的一層)外流向顱骨,而細(xì)胞則向相反的方向流動??梢钥吹郊?xì)胞在逆流而上爬行。”
發(fā)生問題終端:鼎利ATU測試終端、華星ATU測試終端。
測試正常終端:聯(lián)芯8142測試終端。
從終端表現(xiàn)分析,只要終端發(fā)起PDP去激活再激活后測試正常,因此聯(lián)芯8142測試結(jié)果正常(每次業(yè)務(wù)完成均進(jìn)行PDP去激活激活),商用終端未發(fā)現(xiàn)異常。
1.2.3 操作核查
近期調(diào)整參數(shù)不影響測試結(jié)果,使用鼎利ATU測試設(shè)備測試均存在掉線問題。
1.2.4 告警分析
無全網(wǎng)影響PS業(yè)務(wù)告警。
1.2.5 IU-PS接口分析
在RNC、SGSN以及GGSN進(jìn)行信令跟蹤并轉(zhuǎn)換用戶面報文分析,經(jīng)各環(huán)節(jié)聯(lián)合定位,發(fā)現(xiàn)出現(xiàn)問題點:GGSN、SGSN和RNC上抓到的數(shù)據(jù)報文分析,對于FTP服務(wù)器發(fā)送的某一個特定的報文GGSN上可以抓到(包括它的重傳報文),但SGSN和RNC上則看不到該報文(包括重傳報文),因此初步判斷丟分組是在GGSN以下特別是GGSN到SGSN的Gn接口。
在RNC側(cè)CE進(jìn)行抓分組工作和RNC-CDT跟蹤消息轉(zhuǎn)換報文,結(jié)果與SGSN側(cè)信令轉(zhuǎn)換報文結(jié)果基本一致。
問題發(fā)生環(huán)節(jié)應(yīng)在RNC以上。
1.2.6 Gn+Gi+Ga接口分析
通過跟蹤消息轉(zhuǎn)換報文、RNC側(cè)CE抓分組工作分析以及防火墻等分析,深入定位需要重點在Gn接口涉及數(shù)通設(shè)備抓分組。
S9306業(yè)務(wù)交換機(jī)分別到GGSN04和GGSN05的Gn接口各一個,共兩個端口;到SGSN10的Gn接口共3個端口。這兩組端口需要分別鏡像到兩個不同端口進(jìn)行抓分組??梢栽陂_始測試后通過用戶跟蹤確定GTP隧道兩端地址,再根據(jù)地址設(shè)置過濾條件減少抓到報文的數(shù)量便于分析。SGSN側(cè)CE路由器到SGSN11的Iu-u共3個端口鏡像到一個端口進(jìn)行抓分組。也可以在開始測試后通過用戶跟蹤確定GTP隧道兩端地址,再根據(jù)地址設(shè)置過濾條件減少抓到報文的數(shù)量便于分析。共需要2個抓分組點,如果所有主用端口在同一臺設(shè)備則只需要一個抓分組點。9306業(yè)務(wù)交換機(jī)為抓分組重點。
抓分組后分析結(jié)果如下:針對9月4日下午的一次問題重現(xiàn)時間段進(jìn)行分析,用戶信令跟蹤轉(zhuǎn)換成數(shù)據(jù)報文發(fā)現(xiàn),終端一直在發(fā)確認(rèn)消息,希望收到實際序號為04524973(相對序號為2549177)的報文,而SGSN的用戶跟蹤顯示一直沒有收到該序號的報文。
通過在分析S9306交換機(jī)Gn接口的抓分組發(fā)現(xiàn),該序號的報文是分片報文,但是首片和尾片都發(fā)給了SGSN,檢查SGSN的錯分組統(tǒng)計沒有異常,但是從日志看到了數(shù)據(jù)分組的重組超時信息,而現(xiàn)場FTP的測試數(shù)據(jù)分組由于超過S9306設(shè)置MTU1500的限制而產(chǎn)生了分片。通過分析用戶信令跟蹤發(fā)現(xiàn),該用戶在Gn接口的路徑是V0版本, 而GTPV0的數(shù)據(jù)分組是根據(jù)GTP頭的IMSI通過hash算法定位PDP上下文的,如果根據(jù)IMSI計算的hash沒有沖突,就不需要訪問hash沖突的鏈表,也即不會觸發(fā)問題;當(dāng)存在hash沖突時,就需要訪問hash沖突鏈表,目前的SPH322版本在定位hash沖突鏈表時存在代碼缺陷,會導(dǎo)致查找不到PDP上下文,查找不到PDP上下文,SGSN就會丟棄該數(shù)據(jù)分組。
關(guān)于SGSN和GGSN GTP路徑版本協(xié)商機(jī)制:在開機(jī)接入網(wǎng)絡(luò)或SGSN復(fù)位EPU進(jìn)程組等情況下,會首先協(xié)商V1版本路徑,當(dāng)由于網(wǎng)絡(luò)或其它原因?qū)е聟f(xié)商失敗時會降版本協(xié)商V0版本,此后只要協(xié)商出的GTP路徑存在激活的PDP該路徑就保持存在,而新PDP激活時會隨機(jī)選擇已存在的路徑承載?,F(xiàn)網(wǎng)做EPU進(jìn)程組雙復(fù)位等操作時,導(dǎo)致OSPF進(jìn)程中斷,由于OSPF進(jìn)程重啟后學(xué)習(xí)路由會消耗一段時間,根據(jù)上面的原理可能導(dǎo)致GTPV1路徑協(xié)商失敗,而協(xié)商出較多的V0的路徑。
由SGSN研發(fā)人員給出結(jié)論。
最終結(jié)論:SGSN重組分片報文失敗的原因如下:版本缺陷導(dǎo)致GTPV0數(shù)據(jù)分組根據(jù)IMSI生成的hash鍵值沖突;Gn接口協(xié)商的為GTP V0路徑。
解決措施:由于GTPU V0板的路徑無法直接刪除,建議設(shè)置BYTE 95號軟參為1(軟參開啟后只使用V1版本建立路徑,不再使用V0版本創(chuàng)建路徑);然后復(fù)位所有的GTP進(jìn)程,即可規(guī)避問題,命令如下:SET SOFTPARA: DT=BYTE, PARANUM=95,VALUE="1"; RST PROCESSGRP: RSTTYPE= PROCTYPE, PROCTYPE=GTP, RS=ALL;保定清苑局點雖然采用的二層組網(wǎng),但也協(xié)商了少部分GTPV0隧道,建議與其它局點一并實施。GTPV0的數(shù)據(jù)分組定位上下文錯誤的問題,將在V9R10C2SPH346版本中解決。(當(dāng)前版本:V900R010C02SPC300)
2012年9月11日使用相同鼎利測試設(shè)備在當(dāng)?shù)剡M(jìn)行復(fù)測驗證,結(jié)果如表1所示。完成參數(shù)調(diào)整后測試統(tǒng)計無掉線事件發(fā)生,DT測試速率正常。
表1 FTP統(tǒng)計結(jié)果
通過對某地TD-SCDMA網(wǎng)絡(luò)的ATU設(shè)備掉線問題的分析以及推動處理過程中對PS端到端問題分析處理進(jìn)行經(jīng)驗匯總。本次問題最大難點是中間涉及網(wǎng)元太多,造成分析處理難度大,無法做到向單網(wǎng)元問題處理時現(xiàn)場和二線即能完成分析處理,需要把多個網(wǎng)元的問題分析串聯(lián)到一起。
PS端到端問題分析處理流程:優(yōu)先成立問題處理小組,明確各網(wǎng)元問題分析責(zé)任人,對各自網(wǎng)元情況進(jìn)行分析,以及對整體流程中消息跟蹤/抓分組等關(guān)鍵動作進(jìn)行協(xié)同處理。問題處理小組主要分為無線(RNC/網(wǎng)優(yōu)/研發(fā)等)、 SGSN/GGSN、 數(shù)通、問題推動實施(維護(hù)項目經(jīng)理/地市接口/省公司網(wǎng)優(yōu)/SGSN等)。
熟悉PS組網(wǎng)以及各環(huán)節(jié)網(wǎng)元處理,PS業(yè)務(wù)為終端和應(yīng)用服務(wù)之間交互,業(yè)務(wù)流經(jīng)Node B/RNC/ SGSN/GGSN/防火墻/CMNET/外網(wǎng)等主要環(huán)節(jié)處理,任一節(jié)點出現(xiàn)問題均有可能對終端用戶造成影響。問題分析中可以按照業(yè)務(wù)流程進(jìn)行消息跟蹤和抓分組分析,進(jìn)行逐段排查。
聯(lián)合抓分組配合流程中最重要的環(huán)節(jié)為數(shù)通環(huán)節(jié),需要提前準(zhǔn)備高性能電腦(避免海量數(shù)據(jù)處理無法完整保存消息)和對應(yīng)的端口鏡像方案,需要數(shù)通工程師大力配合。
Analysis in the FTP offline problems in ATU tests of TD-SCDMA networks
ZHAO Chong
(China Mobile Group Hebei Co., Ltd. Xingtai Branch, Xingtai 054000, China)
This paper introduces the general structure and functional parts of the network by analysing an problem occured in a ATU test of data service, provides a proper analysing method and solution in detail, it can also be of reference for similar occasions.
ATU; SGSN; PS domain
TN929.5
A
1008-5599(2013)02-0058-03
2012-12-18