沈驁,王西點,徐晶,王磊
(中國移動通信集團設(shè)計院有限公司,北京 100080)
為了提高網(wǎng)絡資源利用率,需要對無線通信LTE小區(qū)進行場景劃分。根據(jù)目前場景劃分方法,小區(qū)場景一旦劃分確認后,同一個場景中小區(qū)的無線參數(shù),基本采用相同的配置方法,屬性值保持一致,不會再對同一個場景中小區(qū)參數(shù)做過多調(diào)整。
而現(xiàn)網(wǎng)中,由于各種原因,LTE小區(qū)場景會發(fā)生突變。某些小區(qū)話務密度可能突然發(fā)生較大變化,或者頻率資源突然變得緊張,各種突發(fā)原因?qū)е戮W(wǎng)絡質(zhì)量受到影響,小區(qū)不再適用某一場景的配置,這種情況就是場景突變。
由于場景突變,原有場景配置不再適合小區(qū)現(xiàn)狀,需要對小區(qū)場景進行調(diào)整。如果未及時對場景和小區(qū)相關(guān)屬性進行調(diào)整,網(wǎng)絡性能可能會受到嚴重影響,導致用戶感知度下降。
隨著LTE網(wǎng)絡建設(shè)的開展,急需一種好的方法,能夠及時發(fā)現(xiàn)小區(qū)場景的突變,通過調(diào)整小區(qū)場景,更好為LTE無線網(wǎng)絡優(yōu)化服務。
現(xiàn)有方法中,小區(qū)場景劃分一般在小區(qū)建設(shè)規(guī)劃初期和網(wǎng)絡優(yōu)化前期就已經(jīng)設(shè)定好,這種方法大多基于經(jīng)驗,故有一定的普遍性和適用價值,該方法在LTE建網(wǎng)初期可用于大部分小區(qū),節(jié)省了一定的人力物力成本。
但隨著網(wǎng)絡建設(shè)的日趨完善和復雜,需要在多網(wǎng)間進行網(wǎng)絡優(yōu)化,比如LTE與2G、3G網(wǎng)絡間互操作,CSFB等;同時,由于業(yè)務量,需求等的變化,小區(qū)所處的場景很有可能發(fā)生變化。如果不對其進行調(diào)整,將會嚴重影響網(wǎng)絡性能與質(zhì)量。
從現(xiàn)網(wǎng)來看,小區(qū)場景發(fā)生突變到最終出現(xiàn)嚴重網(wǎng)絡質(zhì)量問題是一個時間積累的過程,說明小區(qū)場景已經(jīng)突變了一段時間,卻沒有及時做出場景調(diào)整。
傳統(tǒng)發(fā)現(xiàn)小區(qū)場景突變的方法多依賴于專家的經(jīng)驗,難度較大。發(fā)現(xiàn)場景突變的技術(shù)和方法較少,一般是問題出現(xiàn)了一段時間,發(fā)生告警,嚴重網(wǎng)絡問題或收到投訴后,才會由優(yōu)化人員實施小區(qū)場景調(diào)整,重新劃分場景。這種方法不及時,問題上報說明網(wǎng)絡問題已經(jīng)比較嚴重了,用戶感知度已經(jīng)受到較大影響。同時,這種方法治標不治本,處理問題處于被動,不是主動發(fā)現(xiàn)并及時解決問題。
造成這種問題的主要原因有兩點。一是和場景突變相關(guān)的因素太多,包括各類指標,參數(shù)和相關(guān)屬性等。比如測量性能,保持性,接入性等指標;最大重發(fā)次數(shù),小區(qū)重選偏移等無線參數(shù)。單獨分析某些指標或者參數(shù),無法發(fā)現(xiàn)指標與參數(shù)間關(guān)聯(lián)關(guān)系,無法獲知小區(qū)場景突變的原因。即使發(fā)現(xiàn)了場景突變,也可能并不清楚是指標或者參數(shù)或者其他因素導致。二是數(shù)據(jù)的選擇大多局限于一天內(nèi)的某些特定指標或參數(shù),未進行多維度對比分析,無法準確發(fā)現(xiàn)小區(qū)場景變化的原因,沒有太多借鑒價值,不適合推廣。已提出的利用數(shù)據(jù)挖掘算法發(fā)現(xiàn)小區(qū)場景突變的技術(shù)存在類似不足,其缺點主要集中在以下3點:
(1) 問題發(fā)現(xiàn)和解決效果滯后,場景突變一段時間后,小區(qū)網(wǎng)絡質(zhì)量受到影響時才進行場景調(diào)整。
(2) 受到人為影響,依賴優(yōu)化人員的經(jīng)驗。如果優(yōu)化人員經(jīng)驗不足,可能無法及時發(fā)現(xiàn)小區(qū)突變;或者對問題原因不清楚。
(3) 數(shù)據(jù)分析相關(guān)屬性維度選取不充分,無法進行較精準的分析。進行數(shù)據(jù)挖掘分析時,一般針對當天數(shù)據(jù),未能從多維度進行分析比較。同時,選取的屬性單一,要么是指標,要么是參數(shù)。沒有綜合各類指標參數(shù)進行統(tǒng)一分析,屬性維度選取不足。
還沒有一種好的方法,能夠及時發(fā)現(xiàn)小區(qū)場景的突變。
本論文涉及的方法主要從數(shù)據(jù)挖掘角度來分析,通過獲取不同場景下,包含不同維度屬性的小區(qū)數(shù)據(jù),篩選過濾出場景突變的小區(qū)數(shù)據(jù)集。分析確認是否由于某些性能指標或者參數(shù)原因而導致的小區(qū)場景突變,最終挖掘得到發(fā)生場景突變的小區(qū)。
具體步驟為:
(1) 確定要分析的聚簇場景的目標屬性及與該屬性相關(guān)指標和參數(shù)。從相關(guān)平臺上獲取相關(guān)指標和參數(shù)的數(shù)據(jù),得到無冗余的數(shù)據(jù)集合。
(2) 對數(shù)據(jù)進行聚簇分類。利用步驟(1)中獲取的指標和參數(shù)數(shù)據(jù),采用聚簇分類算法,對數(shù)據(jù)進行聚簇分類,得到不同的聚簇場景。
(3) 針對每一個聚簇場景進行排序,篩選。過濾不合格小區(qū)或者未發(fā)生場景突變的小區(qū),得到可能發(fā)生場景突變的小區(qū)。
(4) 分析上一步驟中得到的小區(qū),區(qū)分是否由于某個性能指標或者參數(shù)原因?qū)е碌男^(qū)場景突變,刪除無法確認的情況。記錄由于某指標或參數(shù)原因?qū)е碌膱鼍巴蛔兦闆r,通知給相關(guān)人員調(diào)整小區(qū)場景配置。
首先確定要分析的聚簇場景的目標屬性及與該屬性相關(guān)指標和參數(shù)。從相關(guān)平臺上獲取相關(guān)指標和參數(shù)的數(shù)據(jù),得到無冗余的數(shù)據(jù)集合。
3.2.1 目標屬性確認
場景的劃分一般針對某些屬性,比如話務量,覆蓋性,接入性,保持性等。首先選定要分析的目標屬性,然后確定與該屬性相關(guān)的指標和參數(shù)。篩選出與該屬性關(guān)聯(lián)度較大,影響較大的指標和參數(shù)。屬性中還包括時間屬性。
3.2.2 關(guān)聯(lián)數(shù)據(jù)獲取
獲取與目標屬性相關(guān)指標和參數(shù)的數(shù)據(jù)。連續(xù)一段時間內(nèi),每天定時從數(shù)據(jù)平臺或OMC上,獲取與目標屬性相關(guān)的指標和參數(shù)的數(shù)據(jù)。提取無冗余的特征屬性數(shù)據(jù)集合。通過ENODEBID+CELLID/ENODEBID+CELLID關(guān)聯(lián)指標和參數(shù)。
假設(shè)要分析某個小區(qū)目標屬性,通過步驟(1)中獲取到的相關(guān)指標和參數(shù)等屬性的數(shù)據(jù)。屬性記為a,共獲取y類屬性,記為{a1, a2,…ay}。
假設(shè)選擇X個小區(qū)進行分析,每個小區(qū)包含y類屬性。數(shù)據(jù)選取樣本天數(shù)為T天的小區(qū)相關(guān)數(shù)據(jù),比如每天的數(shù)據(jù)選擇小區(qū)某天的六忙時(具有代表性)。一共有X×T條數(shù)據(jù)記錄,每條記錄即一個小區(qū)某天的指標和參數(shù),每天記錄包含y類屬性,每個小區(qū)均有T條數(shù)據(jù)記錄。記為數(shù)據(jù)集Dorin。
采用算法進行聚簇分析,可將小區(qū)分為多個聚簇場景。通過聚簇分類,y類屬性中具有相同或者相似值的小區(qū)被分配到某一個場景中。處理之后的數(shù)據(jù)集和處理前相比,增加了一列屬性名為class,為標識該小區(qū)屬于某類場景。場景記為Z,假設(shè)分為P類場景,每個場景的數(shù)據(jù)條數(shù)記為z1, z2,…zp。每個場景的數(shù)據(jù)條數(shù)可能均不同,即z1, z2,…zp的個數(shù)可能均不同,且z1+ z2+…+zp=X×T。
即
3.3.1 場景數(shù)據(jù)分析
將小區(qū)數(shù)據(jù)按照時間維度排序。循環(huán)遍歷所有場景,檢查每個場景中不同小區(qū)的數(shù)據(jù)條數(shù)是否相等;同一個小區(qū)的數(shù)據(jù)記錄條數(shù)是否等于樣本天數(shù)。
將所有小區(qū)按照聚簇分類后的場景進行排序,每一個場景中小區(qū)個數(shù)不盡相同。理論上,如果某小區(qū)在一段時間內(nèi)未發(fā)生場景突變,其性能,參數(shù)沒有變化,則若該小區(qū)某天的數(shù)據(jù)已經(jīng)劃分到某個聚簇場景中,那么該小區(qū)其他天的數(shù)據(jù),經(jīng)過聚簇分類后,也應該分配到該聚簇場景中。注意:ENODEBID+CELLID值不同的小區(qū),定義為一個不同的小區(qū),如果出現(xiàn)ENODEBID+CELLID相同的情況,為該小區(qū)在不同時間的數(shù)據(jù)記錄。
如果某個小區(qū)在場景設(shè)定后,性能指標,參數(shù)等屬性沒有發(fā)生變化,則該小區(qū)在T天內(nèi)的每一條數(shù)據(jù)理應屬于同一個場景。即一旦發(fā)現(xiàn)某個小區(qū)在T天數(shù)據(jù)中的某一天的數(shù)據(jù)屬于某個聚簇場景,則該小區(qū)在其他T-1天理論上應該屬于同一個場景,在該場景中應該有某小區(qū)的T條數(shù)據(jù)記錄。假設(shè)小區(qū)屬于第i類場景(1≤i≤P),該場景中小區(qū)數(shù)據(jù)條數(shù)為Zi,則Zi= T×Ri,Ri為不重復的小區(qū)個數(shù)(以每個場景中,不重復的ENODEBID+CELLID記為一個不重復小區(qū)),且 Ri理論上應為整數(shù),Zi為T的整數(shù)倍。
但檢查實際情況,Zi卻不是T的整數(shù)倍。大部分小區(qū),相同ENODEBID+CELLID的小區(qū),均能在i類場景的Zi條數(shù)據(jù)中找到該小區(qū)的T條數(shù)據(jù);少部分小區(qū)無法找到T條數(shù)據(jù),有的可能只能找到一天的數(shù)據(jù)記錄,原因就是小區(qū)聚簇場景可能發(fā)生了突變。
3.3.2 場景數(shù)據(jù)篩選
循環(huán)遍歷場景,獲得所有場景中,數(shù)據(jù)條數(shù)小于樣本天數(shù)的小區(qū)數(shù)據(jù)集。
針對P類場景中每一個聚簇場景,循環(huán)遍歷每一個場景,按照同一個ENODEBID+CELLID的小區(qū)進行排序,針對每個ENODEBID+CELLID相同的小區(qū),找出其數(shù)據(jù)條數(shù)少于T條的小區(qū)。如場景i中,數(shù)據(jù)條數(shù)為Zi,有Ri個不重復小區(qū)。最終找到Ri-Si個數(shù)據(jù)條數(shù)等于T的小區(qū)。Si個數(shù)據(jù)條數(shù)少于T的小區(qū),這些小區(qū)共有數(shù)據(jù)條數(shù)為。公式為:
根據(jù)上述公式,獲取每個場景中的(1≤i≤P),得到P個基于聚簇場景的新的數(shù)據(jù)集,該數(shù)據(jù)集與初始X×T條數(shù)據(jù)集相比,多了一列聚簇場景屬性。同時,對于每一個聚簇場景,少了(Ri-Si)×T條小區(qū)數(shù)據(jù),只有條數(shù)據(jù),對應Si個小區(qū)。
則經(jīng)過篩選排序之后的數(shù)據(jù)集,記為Dfilter。共有數(shù)據(jù)條數(shù)為
該數(shù)據(jù)集為小區(qū)場景突變數(shù)據(jù)集,每個小區(qū)在T天內(nèi)的數(shù)據(jù)可能屬于2個或多個class場景。不同class屬性的值不相同。
3.3.3 場景數(shù)據(jù)過濾
利用ENODEBID+CELLID進行過濾后,每個不同ENODEBID+CELLID的小區(qū)理論上也應該有T條數(shù)據(jù),只是屬于不同的聚簇,其class屬性的值不一樣。但檢查Dfilter數(shù)據(jù)集,仍然有部分小區(qū)的數(shù)據(jù)條數(shù)小于T。這是由于在采集樣本時間范圍內(nèi),小區(qū)首次入網(wǎng)或者在數(shù)據(jù)采集時間范圍內(nèi),發(fā)生退網(wǎng)情況;或者某天數(shù)據(jù)沒有上報。這種外在因素導致的數(shù)據(jù)條數(shù)少于T的情況,沒有參考價值,需要刪除這類小區(qū)。剩下的所有小區(qū),每個小區(qū)均有T條數(shù)據(jù)記錄。對應T天的數(shù)據(jù)。最終得到數(shù)據(jù)集,記為Dfinal。
此時可對剩下的數(shù)據(jù)進行分析挖掘。
3.4.1 場景挖掘分析
計算每個小區(qū)的每一列屬性在所有樣本中的標準差;計算每個屬性與其標準差的偏差,獲取偏差較大,且符合判別標準的屬性所對應小區(qū)當天的數(shù)據(jù)記錄。
利用Dfinal,按照ENODEBID+CELLID進行排序。對于同ENODEBID+CELLID,但屬于不同場景的小區(qū),查找每一條數(shù)據(jù)的聚簇場景class。
對于同一個小區(qū),假設(shè)某個小區(qū)的T天數(shù)據(jù)分到m個聚簇場景中(1 m個場景中,有的場景可能只有一條數(shù)據(jù),有的場景可能有多條數(shù)據(jù)。 針對小區(qū)y個屬性中的每一個屬性,取T天的值。針對每一個屬性在不同天內(nèi)的不同值,比如每一行的第一列屬性作為一組;同理,每一行的第二列屬性作為一組,每一行第y列屬性也作為一組。分別計算每個屬性組的標準差,標準差公式為: (j為天數(shù),1≤j≤T ;n為屬性標識, 1≤n≤y,表示屬性n在這一組中的算術(shù)平均值) 如果出現(xiàn)不符合上述判斷的情況,表明針對屬性n,該小區(qū)第j天的值與其他天相比,波動較大。獲取所有不符合上述公式判決的,屬性n的該小區(qū)第j天數(shù)據(jù){。假設(shè)有T′天。 一般的,如果某個屬性n的值變化范圍不大,則基本都符合上述公式判決。如果某個屬性在一段時間內(nèi),變化差異大,則可能有T′天的數(shù)據(jù)不符合上述判決。 3.4.2 場景突變判定 獲取波動變化最大的屬性,若其對應當天的小區(qū)數(shù)據(jù)在某個場景中唯一,則判決其為小區(qū)場景突變。 由于不同的聚簇方法采用的算法不同,產(chǎn)生的聚簇場景也不同??赡艹霈F(xiàn)某個小區(qū)不同時間天內(nèi),部分屬性值變化較大或者波動差異較大,卻沒有發(fā)生聚簇突變,仍然屬于同一個場景的情況。需要對這種情況進行區(qū)分。 對于3.4.1結(jié)果中波動變化較大的屬性,可能出現(xiàn) 天波動都比較大的情況。針對屬性n,對于所有不符合3.4.1中判決公式的數(shù)據(jù),取max(。 計算值最大時所對應的j值以及相應的聚簇場景class值。 檢查第j天所屬場景,若只有一條數(shù)據(jù),即該小區(qū)的其余T-1條數(shù)據(jù)分布在其余m-1個場景中。則可認為,由于該屬性an在第j天發(fā)生大的波動變化,導致某小區(qū)第j天的數(shù)據(jù)發(fā)生場景突變。且突變很有可能和該屬性關(guān)聯(lián)性相關(guān)??蓪⒔Y(jié)果通知網(wǎng)優(yōu)人員,查明該屬性突變的原因,進行現(xiàn)網(wǎng)數(shù)據(jù)的分析和調(diào)整。 圖1 小區(qū)聚簇分類 圖2 小區(qū)數(shù)據(jù)篩選過濾 截取了某省部分小區(qū)3天的數(shù)據(jù),主要包括標示和部分指標,性能相關(guān)屬性,利用聚簇分類進行場景劃分之后的情況如圖1所示。 圖中最右邊為聚簇類,從圖中可以看出,聚簇分類后,出現(xiàn)了同一個小區(qū)不同天內(nèi)劃分在不同場景的情況。篩選某一個聚簇類,比如cluster58,篩選結(jié)果如圖2所示。 從圖2中可知,該類下具有兩個小區(qū),一個CELLID為10762,它在不同天內(nèi)都屬于cluster58,另外一個CELLID為61016,在該簇下只有一條記錄,故該小區(qū)可能發(fā)生場景突變。檢查該小區(qū)數(shù)據(jù)條數(shù)是否缺失,如圖3所示。 從圖3中可知,該小區(qū)的數(shù)據(jù)條數(shù)是完整的。利用本章3.3與3.4節(jié)的場景突變判定方法,該場景cluster58下的小區(qū),CELLID為61016的小區(qū)發(fā)生了場景突變。從圖中標綠色部分可以看出,該場景下小區(qū)的部分指標和性能屬性值在之后的時間發(fā)生較大偏離。如果仍然按照之前的場景劃分方式設(shè)置參數(shù)值,很有可能導致該小區(qū)覆蓋區(qū)域的指標和性能較差,從而影響用戶感知。建議對該小區(qū)重新劃分場景并設(shè)置相關(guān)參數(shù)值。 本論文提出了一種方法,通過獲取包含不同維度屬性的小區(qū)數(shù)據(jù),篩選過濾出場景突變的小區(qū)數(shù)據(jù)集。分析確認是否由于某些性能指標或者參數(shù)原因而導致的小區(qū)場景突變,最終挖掘得到發(fā)生場景突變的小區(qū)。 圖3 小區(qū)場景突變判定 本論文的方法不依賴于網(wǎng)優(yōu)人員的經(jīng)驗,能夠快速定位發(fā)生場景突變的小區(qū),網(wǎng)優(yōu)人員可以及時調(diào)整小區(qū)所屬場景。同時,該方法具有通用性,不論按照何種方式劃分場景,只要發(fā)生突變,均可利用該方法判決突變小區(qū)。 后續(xù)將更多需要圍繞現(xiàn)網(wǎng)數(shù)據(jù)開展大量的驗證和實踐工作,更好的指導現(xiàn)網(wǎng)LTE優(yōu)化工作。3.5 場景突變示例
4 總結(jié)