中國聯(lián)通網(wǎng)絡技術研究院|李一喆
盡管人工智能在無線網(wǎng)絡的運維中有著非常良好的應用前景,并且許多運營商和設備商已經(jīng)開展了探索和嘗試,但至今業(yè)內仍然缺乏標桿式的案例及規(guī)模性的應用。
隨著無線通信網(wǎng)絡的發(fā)展,未來網(wǎng)絡在頻段和組網(wǎng)上將更加復雜,再加上業(yè)務多樣性和終端的多類型,無線通信系統(tǒng)的規(guī)模和復雜度將日益增長。
對于未來體系龐大的通信系統(tǒng),無線網(wǎng)絡運維將面臨諸多挑戰(zhàn),例如虛擬化與網(wǎng)絡演進增加運維復雜性,單個問題可能會觸發(fā)多個網(wǎng)絡區(qū)域的告警;用戶需求對網(wǎng)絡運維質量要求提升,期待延遲容忍度從300毫秒降低到10毫秒;網(wǎng)絡中可供分析的大量數(shù)據(jù)難以處理,實時分析數(shù)據(jù)量將增加1000倍以上等。
無線網(wǎng)絡運維中因此而出現(xiàn)了故障分析定位及故障溯源困難、故障無法預測、運維派單不準確、現(xiàn)有的響應式運維模式效率低、客戶體驗差等問題。面對這些網(wǎng)絡運維的壓力和挑戰(zhàn),分析、擬合、經(jīng)驗流等傳統(tǒng)的處理方法,已經(jīng)越來越難以解決無線網(wǎng)絡運維的問題。
人工智能的再上巔峰,讓無線網(wǎng)絡的運維系統(tǒng)看到了一線曙光,通過引入AI這柄“利器”,依托人工智能的自學習、深度學習能力,可以在海量的運維數(shù)據(jù)中抽取隱含的關聯(lián)特征和規(guī)則,追溯事件根因、指導故障分析和定位,同時可以通過共性特征的提取總結,對未來事件進行預測。
例如,結合提供的告警、資源、網(wǎng)絡拓撲數(shù)據(jù),采用相關人工智能方法探知故障告警之間關聯(lián)關系及故障原因定位因素,形成故障定位體系及網(wǎng)絡維護管理體系,提升故障解決效率;基于無線網(wǎng)絡數(shù)據(jù),采用相關人工智能方法分析和定位影響用戶感知的根源問題,并指導運維部門提供系統(tǒng)性的優(yōu)化解決機制;利用人工智能算法,以用戶側數(shù)據(jù)和網(wǎng)絡側數(shù)據(jù)為基礎,分析用戶群體特征,找出影響用戶網(wǎng)絡感知評分的關鍵因素,預測用戶對通信網(wǎng)絡的滿意度,及時發(fā)現(xiàn)用戶對于網(wǎng)絡貶損的真正痛點,為運營商網(wǎng)絡運維策略提供依據(jù),從而提升用戶體驗。
盡管人工智能在無線網(wǎng)絡的運維中有著非常良好的應用前景,并且許多運營商和設備商已經(jīng)開展了探索和嘗試,但至今業(yè)內仍然缺乏標桿式的案例及規(guī)模性的應用,究其原因,有幾個關鍵問題橫亙在AI和通信網(wǎng)絡之間,阻礙了兩者的結合。
AI是數(shù)據(jù)“喂”出來的,無線網(wǎng)絡擁有龐大的數(shù)據(jù)量,這本是智能運維的最大優(yōu)勢,但是當前的無線網(wǎng)絡數(shù)據(jù)維度高、數(shù)據(jù)類型多、數(shù)據(jù)量巨大、缺失數(shù)據(jù)多、不同設備廠家數(shù)據(jù)格式不統(tǒng)一,種種因素導致無線數(shù)據(jù)的使用成了AI在網(wǎng)絡運維中的第一道門檻。主要問題如下。
一是無線數(shù)據(jù)可以從頻譜測量儀表、用戶終端、基站端與核心網(wǎng)設備、應用服務等多處獲得,原始數(shù)據(jù)中包括物理層、接入層、網(wǎng)絡層、應用層等數(shù)據(jù),這些數(shù)據(jù)體量大,需要AI運維設計者非常清楚和準確地判斷提取哪些數(shù)據(jù),并考慮如何組合利用,稍有不慎就會導致結果背道而馳。
二是數(shù)據(jù)獲取審批難。由于無線網(wǎng)絡數(shù)據(jù)涉及用戶個人隱私,考慮到信息安全和隱私保護,獲取無線網(wǎng)絡數(shù)據(jù)往往需要各種審批,時間周期長、流程繁瑣。
三是不同的設備廠家能夠提取的數(shù)據(jù)格式、特征名稱、計算方式都不相同,能夠提取到的數(shù)據(jù)時間粒度也不一樣,難以統(tǒng)一。
四是數(shù)據(jù)量大,保存歷史數(shù)據(jù)量有限,往往只能保存最近半年或一年的數(shù)據(jù)。但是,AI中對于時間序列的分析往往需要較長時間的歷史數(shù)據(jù)才能訓練出規(guī)律。因此,長期數(shù)據(jù)的存儲和獲取也是需要解決的問題。
五是數(shù)據(jù)處理難度大,無線網(wǎng)絡每天將產(chǎn)生百TB級別的數(shù)據(jù)。如何對海量數(shù)據(jù)進行清洗、標準化、實施特征工程等是巨大挑戰(zhàn)。
六是數(shù)據(jù)缺失或錯誤類型多。由于無線網(wǎng)絡數(shù)據(jù)維度多、數(shù)據(jù)量大,在提取數(shù)據(jù)的過程中會造成各種不同類型的缺失或錯誤。不同的數(shù)據(jù)類型有不同的合理值,在處理錯誤數(shù)據(jù)的過程中需要考慮諸多數(shù)據(jù)的異常處理,難度大。
為了解決數(shù)據(jù)的問題,行業(yè)需要聯(lián)動,形成統(tǒng)一數(shù)據(jù)標準,針對無線網(wǎng)絡數(shù)據(jù),由權威的協(xié)會、聯(lián)盟或國家部門制定統(tǒng)一的數(shù)據(jù)標準,包括數(shù)據(jù)格式、參數(shù)定義、計算方式等多個方面,降低數(shù)據(jù)處理的復雜度。還要進行數(shù)據(jù)脫敏,主要針對含有用戶隱私或涉及信息安全的數(shù)據(jù)進行加密編碼,這將有效保護個人隱私,并且不影響AI算法對數(shù)據(jù)的分析。另外需要加強數(shù)據(jù)的分布式并行處理,對于大體量的無線數(shù)據(jù)集,建立分布式系統(tǒng),并行處理數(shù)據(jù),提高效率。
無線網(wǎng)絡場景復雜多樣,具有隨機性和多變性的特點,有些場景下直接采用AI算法可能無法收斂或者效果比較差。這使得無線網(wǎng)絡運維中AI的應用面臨諸多挑戰(zhàn)。
一是無線網(wǎng)絡建模難度大。無線網(wǎng)絡場景多、數(shù)據(jù)維度多、時變性強。針對無線運維中的導頻功率調整、邊緣吞吐率提升、M-MIMO波束調整、D-MIMO智能簇分配、多天線特性增益等多種場景,信道變化隨機性強,如突發(fā)的天氣或事件將會影響網(wǎng)絡參數(shù),難以準確建模。
二是求解復雜度高。例如求解與用戶感知速率相關的網(wǎng)絡指標,涉及RRC建立請求次數(shù)、UE會話時長、下行TTI調度次數(shù)、下行采用64QAM的PRB個數(shù)等上百種參數(shù),再加上時間維度的參數(shù),求解非常復雜,而且在很多情況下難以求得最優(yōu)解。
三是無法準確分類。無線網(wǎng)絡的類別多種多樣,存在諸多差別,難以找尋共性來準確表述。例如,在故障運維的分類問題中,網(wǎng)絡中的故障通常表現(xiàn)出多樣性,比如告警、KPI異?;驑I(yè)務不通等,故障告警很多時候不能準確地反映故障信息,即使運維人員也難以辨別,運用人工智能的算法也許需要做大量的故障標注工作,很多故障涉及的特征很多,難以準確分類。
針對AI算法的問題,一是可以建立動態(tài)學習、持續(xù)學習算法,應對突發(fā)問題。目前主流的AI算法應用主要是針對靜態(tài)數(shù)據(jù)進行學習,不是基于動態(tài)數(shù)據(jù)的持續(xù)學習來完成的,這很難解決具有突發(fā)性、不可預期性、不可重復性的無線網(wǎng)絡運維問題。因此需要建立動態(tài)環(huán)境下AI學習算法,收集歷史的突發(fā)情況,總結規(guī)律,當運維系統(tǒng)發(fā)生異常行為(比如被惡意攻擊)或者外部環(huán)境變化(比如惡劣天氣引發(fā)的信道突變)導致的突發(fā)性變化時,人工智能系統(tǒng)在沒有相關處理經(jīng)驗情況下也能具有相應的處理能力。
二是可以強化學習,建立規(guī)則庫。學習一個策略函數(shù),以最大化長遠收益為目標,建立一個觀察值到輸出行為的映射關系。針對無線網(wǎng)絡運維中的問題,根據(jù)系統(tǒng)中網(wǎng)絡及業(yè)務上下游關系,綜合多維度歷史數(shù)據(jù)分析,挖掘出潛在特征和規(guī)則,輸出事件和特征的匹配規(guī)則庫。在實際網(wǎng)絡運維中,根據(jù)特征自動匹配規(guī)則,給出判決和處理建議。運維結束后,根據(jù)當次運維結果的有效性反向修正、強化現(xiàn)有規(guī)則系統(tǒng),進行自學習和自優(yōu)化。
三是根據(jù)業(yè)務知識做特征工程。結合通信專業(yè)知識和人工智能特征工程的方法,通過增加特征、篩選特征、數(shù)據(jù)建模增加時間維度等,求解出對結果至關重要的特征。
無線網(wǎng)絡AI平臺系統(tǒng)開發(fā)過程中的挑戰(zhàn)主要在以下幾個方面。
一是數(shù)據(jù)預處理階段,會涉及大量的無線網(wǎng)絡數(shù)據(jù)文件隨機讀寫的問題,如何提高數(shù)據(jù)訪問效率是在數(shù)據(jù)預處理階段面臨最大的挑戰(zhàn)。
二是數(shù)據(jù)處理階段,由于數(shù)據(jù)維度多、體量大、數(shù)據(jù)格式不統(tǒng)一,很難設計出具有普遍適用性的數(shù)據(jù)處理模塊。
三是訓練階段,因為會涉及到大量的模型調優(yōu),訓練出一個最優(yōu)的模型,需要巨大的計算資源。
四是結果推理響應階段,當成千上萬的數(shù)據(jù)批量過來的時候,如何提高整個系統(tǒng)的吞吐率,及時做出響應,是結果推理段面臨的挑戰(zhàn)。
五是設計可以不斷學習和自適應的人工智能系統(tǒng),使其可以做出及時、穩(wěn)定、安全的決策。
六是設計支持個性化服務的系統(tǒng),同時要保護用戶的隱私和保證用戶的安全。
對于上述挑戰(zhàn),無線AI系統(tǒng)在開發(fā)時需要注意以下功能特點。一方面要考慮采用CPU+GPU+FPGA混合異購模式的高效單元,能高效進行離線數(shù)據(jù)分析和在線數(shù)據(jù)實時分析。無線AI平臺需要具備對于多種不同制式不同結構類型統(tǒng)一處理的能力,可以快速、穩(wěn)定地處理無線業(yè)務所產(chǎn)生的海量結構化、半結構化和非結構化的數(shù)據(jù)信息。
在無線業(yè)務場景中,有諸多應用需要根據(jù)平臺的在線計算做出實時決策,無線AI系統(tǒng)需要針對無線中眾多需要實時服務的業(yè)務場景,提供相應實時在線分析能力。所提供的實時分析,可以根據(jù)不同的業(yè)務需求設定為小時級、分鐘級、秒級甚至是毫秒級。
另一方面要具有高性能的分布式存儲能力。由于數(shù)據(jù)形式非常多樣,需要結合應用場景進行數(shù)據(jù)清洗、特征提取等預處理,并根據(jù)不同結構類型的數(shù)據(jù),定義統(tǒng)一的表示形式。然后根據(jù)后續(xù)業(yè)務需求,將數(shù)據(jù)分布存儲到不同的服務器上,以供其他模塊調用。
除了技術層面的幾個關鍵問題外,AI應用于無線網(wǎng)絡還存在著硬件部署、軟件開發(fā)、人才、成本等方面的問題。應用于AI處理的GPU設備大小不符合傳統(tǒng)機房機架的尺寸,而且需要專門風扇提供散熱機制,供電和部署對于通信行業(yè)都是難以解決的問題。
由于無線網(wǎng)絡的從業(yè)人員主要掌握的是通信知識,對于軟件開發(fā)及數(shù)據(jù)算法建模等知識不太了解,因此存在人才短缺和軟件開發(fā)方面的困難。改造機房、購置AI處理設備、聘請專業(yè)開發(fā)人員或AI算法工程師,需要巨大的成本開銷,對于運營商來說將是一個不小的壓力。
面對這些問題,電信運營商、設備商需要勇于創(chuàng)新,敢啃“硬骨頭”,在數(shù)據(jù)規(guī)范化、行業(yè)統(tǒng)一化方面行動起來,齊心協(xié)力解決共同難題。同時也要沉下心做好功課,“吃透”AI,面對技術難關不怕投入,迎難而上,終會收獲回報的果實。各方還要開放心態(tài),結合AI產(chǎn)業(yè)界的力量,與AI公司、互聯(lián)網(wǎng)行業(yè)合作,共同開發(fā)平臺,找到共同盈利的商業(yè)模式,優(yōu)勢互補,最終為全社會打造一個智能化、泛行業(yè)化、人性化的移動互聯(lián)網(wǎng)絡。