楊 平,裴 霽(.中博信息技術(shù)研究院有限公司,江蘇南京 00;.中國移動江蘇公司常州分公司,江蘇常州 3000)
近年來,AI 技術(shù)應用于通信網(wǎng)絡的研究取得了重大進展,在網(wǎng)絡運營編排、運維管理、智能化網(wǎng)元3 個層次上,挖掘出越來越多的場景。但在針對5G所要求的快速響應業(yè)務變化、簡化網(wǎng)絡運維管理、提升網(wǎng)絡資源利用效率等爆發(fā)性需求,運營商還要能夠持續(xù)增加業(yè)務收入、降低運維成本、優(yōu)化投資收益,AI則成為電信運營商在應對這些挑戰(zhàn)時必須利用的工具之一。
因此,如何最大化地利用AI 工具使能5G,推行一種使能5G 的AI 深度學習訓練與服務平臺已成當務之急。
5G 端到端切片智能編排,即AI 工具通過采集數(shù)據(jù)掌握網(wǎng)絡的實時運行狀況,根據(jù)歷史數(shù)據(jù)和實時數(shù)據(jù)對網(wǎng)絡業(yè)務以及相應的資源需求進行預測和評估,給出適當?shù)慕ㄗh措施(如網(wǎng)絡切片的擴容、縮容、變更等)。
5G 端到端切片智能運營,即可以通過AI 完成智能化的端到端切片業(yè)務開通和按需變更。同時引入智能客服,能夠提供智能化的交流、咨詢、切片套餐推薦服務。
5G 引入Massive MIMO 技術(shù)后,無線側(cè)配置參數(shù)的pattern組合有了指數(shù)級的增加,從3G的幾百種配置到5G 的上萬種配置。AI 可以實現(xiàn)5G 大規(guī)模天線復雜參數(shù)的智能化配置。
a)智能權(quán)值搜索和監(jiān)控?;赨E 的分布情況,根據(jù)覆蓋用戶數(shù)最多的原則,搜索和預測最優(yōu)的水平/垂直波瓣寬度、方位角和下傾角。
b)UE 位置估算和預測?;局芷谛允占欢螘r間內(nèi)小區(qū)內(nèi)所有UE 的位置信息,基于收集的信息可以估算UE的位置及分布。
c)場景自學習。利用測量信息描繪出終端的大致分布,進一步利用分布識別場景。根據(jù)不同場景,推薦最優(yōu)權(quán)值,并將最終的權(quán)值反饋到場景識別模塊,使得推薦不斷進化。
邊緣計算具備支持AI運算的能力,使得可以在邊緣節(jié)點上,配合中心的DC 以及用戶的終端來做AI 業(yè)務的智能優(yōu)化。
a)本地緩存。基于AI 對用戶的業(yè)務流和用戶移動模式進行預測分析,有針對性地確定預存內(nèi)容和推送內(nèi)容,從而提高內(nèi)容分發(fā)效率。
b)智能定位。通過位置已知的終端測量的各無線通信系統(tǒng)信號特征,借助AI、大數(shù)據(jù)收集分析和邊緣計算節(jié)點的實時計算能力,利用指紋信息指導實際應用中的終端定位。
c)頻譜感知。邊緣計算節(jié)點基于不同無線系統(tǒng)的頻譜測量結(jié)果,利用AI技術(shù)對各無線系統(tǒng)在不同區(qū)域的無線環(huán)境特征、用戶行為特征進行分析建模,支撐具體應用場景。
d)業(yè)務感知。在邊緣節(jié)點上部署高算力的硬件解析資源,結(jié)合AI和大數(shù)據(jù)能力,分析挖掘數(shù)據(jù)、業(yè)務和無線環(huán)境之間的內(nèi)在關(guān)聯(lián),提供更為準確的業(yè)務特性識別。
a)網(wǎng)絡健康度檢查?;诖髷?shù)據(jù)和人工智能技術(shù)的網(wǎng)絡健康度分析,預測網(wǎng)格內(nèi)未來某周期內(nèi)的小區(qū)網(wǎng)絡質(zhì)量并進行預警,針對質(zhì)差小區(qū),分析引起質(zhì)差的關(guān)鍵指標及可能的原因。
b)網(wǎng)絡告警關(guān)聯(lián)和故障定位。傳統(tǒng)網(wǎng)絡運維管理人員分析網(wǎng)絡警告、判斷告警原因、查找告警根源、定位并排除故障,耗時耗力。神經(jīng)網(wǎng)絡系統(tǒng)通過不斷學習和訓練,計算、翻譯和調(diào)整分布于神經(jīng)網(wǎng)絡當中的連接權(quán)值,以整體的方式表達關(guān)聯(lián)規(guī)則和故障診斷結(jié)果,準確定位網(wǎng)絡故障。
c)基于AI 的智能基站節(jié)能。在5G 基站中,通過AI 輔助的業(yè)務分析、場景識別建立一個流量變化模型,來控制載波的智能關(guān)斷,從而降低基站功耗。
基于AI 的深度學習訓練與服務平臺利用AutoML等相關(guān)技術(shù),通過硬件虛擬化、算法服務化以及軟件平臺化等相關(guān)技術(shù),在支持Tensorflow、Torch/Pytorch、MxNet、PaddlePaddle 等深度學習框架的基礎上,提供通用的網(wǎng)絡模型(如VGG、LSTM、seq2seq、Inception-Net、mobileNet)支持,并支持多種不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)預處理和標注。
整個平臺包括硬件層、數(shù)據(jù)/算法層、模型訓練層以及模型部署層,以及貫穿各個不同層次管理相關(guān)功能,如圖1所示。
硬件環(huán)境層主要通過虛擬化的方式提供本地的GPU計算環(huán)境,或者直接訪問云端的相應計算環(huán)境。
數(shù)據(jù)與模型層主要包括樣本數(shù)據(jù)中心和模型算法管理中心。樣本數(shù)據(jù)中心從樣本的種類來說,支持圖像樣本數(shù)據(jù)和文本樣本數(shù)據(jù),從數(shù)據(jù)模型角度來說,支持文檔數(shù)據(jù)、圖數(shù)據(jù)庫、對象數(shù)據(jù)庫等。模型算法管理主要包括模型庫和相關(guān)的模型配置庫。模型庫中的模型支持tensorflow、pytorch、Caffe 以及CNKT等多種不同的深度學習框架,并涵蓋了多種常用的網(wǎng)絡結(jié)構(gòu)。平臺將提供對樣本數(shù)據(jù)以及模型的相關(guān)管理功能,如查詢、更新、新建、導入導出等。
模型訓練與優(yōu)化層主要是算法的開發(fā)人員根據(jù)應用需求,檢索相應的模型以及模型配置信息,采用相應的數(shù)據(jù)標注工具,生成特定的標注數(shù)據(jù),并基于此數(shù)據(jù),選定特定的模型以及相應的實現(xiàn)框架,通過人工或自動的方式對模型的超參數(shù)進行選擇,并對模型訓練結(jié)果進行相應的評估,來實施對模型超參數(shù)(如學習率、隱含層層數(shù),卷積核大小等)的調(diào)節(jié),從而構(gòu)建出最優(yōu)化的深度學習模型。
圖1 平臺總體框架
模型部署與服務提供層主要針對最終的模型用戶。該層主要將模型訓練層所得到的最佳模型進行打包部署。部署的模式有2種:基于WebAPI的部署和離線SDK 部署?;赪ebAPI 的部署將模型部署在平臺環(huán)境中,并利用平臺所提供的軟/硬件環(huán)境和相關(guān)的計算資源,為用戶提供服務,用戶可通過OpenAPI的方式來調(diào)用和使用服務。離線SDK 將和模型運行相關(guān)的所有軟件環(huán)境打包,并通過SDK 的方式部署到用戶的生產(chǎn)環(huán)境中,利用用戶自身的硬件資源來進行計算。離線SDK可以脫離本平臺環(huán)境獨立使用。
端到端的深度學習訓練和服務平臺將在分析現(xiàn)有模型和框架的基礎上,為用戶提供統(tǒng)一的模型和框架選擇結(jié)構(gòu),并進一步給出模型所需要設定的超參數(shù)集合以及參數(shù)的選擇范圍。主要包括以下功能。
a)數(shù)據(jù)處理與數(shù)據(jù)標注。完成對樣本數(shù)據(jù)的標注處理,并將標注后的數(shù)據(jù)根據(jù)模型需要轉(zhuǎn)換成特定的格式。深度學習模型的訓練和應用依賴于海量的數(shù)據(jù)積累,特別是對于模式有監(jiān)督學習,還需要對海量數(shù)據(jù)進行標注。深度學習所采用的網(wǎng)絡模型和算法根據(jù)確定樣本數(shù)據(jù)的格式和標注方法,我們將通過分析現(xiàn)有的模型和樣本數(shù)據(jù)的關(guān)系,建立起常用的數(shù)據(jù)格式,并提供相應的樣本標注工具來生成相應的標注數(shù)據(jù)。項目將根據(jù)業(yè)務的需求構(gòu)建多種不同的樣本標注工具,包括圖像的標注工具,文本的標注工具(包括文本的意圖標注、文本的情感標注、文本的命名實體標注、文本的語言模型標注等)。
b)模型選擇與優(yōu)化。根據(jù)應用需求,選定相應的深度學習框架和網(wǎng)絡模型結(jié)構(gòu),并對模型的超參數(shù)進行調(diào)優(yōu),內(nèi)容涉及模型的訓練、評估、對比以及模型調(diào)參。隨著深度學習技術(shù)的不斷發(fā)展,深度學習框架越來越多,不同的框架所生成的模型都有所不同,需要支持這些不同框架所提供的深度學習模型。另一方面,為了滿足業(yè)務的需求,研究人員已經(jīng)提出了大量的網(wǎng)絡模型。針對不同的業(yè)務需求,開發(fā)人員需要對網(wǎng)絡機構(gòu)和深度框架進行選擇,該選擇需要開發(fā)人員具有全面的網(wǎng)絡和框架基礎。平臺在分析現(xiàn)有模型和框架的基礎上,為用戶提供統(tǒng)一的模型和框架選擇結(jié)構(gòu),并進一步給出模型所需要的設定的超參數(shù)集合以及參數(shù)的可能選擇范圍。
c)模型的部署和服務。根據(jù)應用的需求,將訓練好的模型進行一鍵部署,為用戶提供WebAPI 或者離線SDK供客戶端調(diào)用。
平臺針對特定的5G應用領(lǐng)域,提供端到端的深度學習訓練和服務,降低深度學習模型構(gòu)建和訓練的門檻,重點解決了以下問題。
a)標準化的數(shù)據(jù)管理與數(shù)據(jù)標注,為深度學習提供標準的數(shù)據(jù)樣本。
b)智能化的模型選擇與模型優(yōu)化,實現(xiàn)深度學習模型超參數(shù)的自動選擇和優(yōu)化。
c)自動化的模型部署與服務提供,提供模型的部署意見,并按需提供模型服務功能。
平臺使用戶可以快速地基于自己的數(shù)據(jù)來構(gòu)建并訓練得到滿足用戶需求的最佳深度網(wǎng)絡模型,最終開發(fā)5G領(lǐng)域的人工智能應用。
實際應用案例為某省運營商的基于訓練服務平臺的智能電話機器人系統(tǒng)。
本系統(tǒng)是智能機器人+呼叫系統(tǒng)+報表展示三位一體的智能調(diào)研應用,助力企業(yè)提升用戶回訪效率,降低成本,實現(xiàn)降本增效。模型的核心是讓機器人正確理解用戶所希望表達的意圖,并基于理解的結(jié)果根據(jù)業(yè)務邏輯作出相應的反饋,目前在意圖識別中采用了基于CNN、RNN/LSTM 等多種不同的模型結(jié)果,如圖2所示。
圖2 智能機器人模型
為了實現(xiàn)業(yè)務邏輯和算法之間松散耦合性,我們利用有限狀態(tài)機的方式來對不同的業(yè)務場景進行建模,如圖3所示。
圖3 業(yè)務場景建模
系統(tǒng)模擬測試用例:某省運營商綜合滿意度回訪,問卷內(nèi)容為綜合滿意度、NPS、各服務環(huán)節(jié)滿意度+不滿原因追問,成功樣本量達到1 000本。
經(jīng)過測試,達到以下指標。
a)機器人電話接通率與人工相當,達到50%。
b)機器人問卷成功率為14%,略高于人工(10%)。
c)機器人成功樣本平均用時6 min,低于人工的7~8 min。
d)機器人4 條線路,每條線路日均成功量30 個,日均成功量共計120 單,執(zhí)行周期從原來13 天(4 個人工客服)壓縮為8天。
本文研究并實現(xiàn)了一種使能5G 的AI 深度學習訓練與服務平臺。該平臺經(jīng)通信實際項目應用檢驗,具備海量、高并發(fā)、安全可靠的運行能力,可廣泛應用于5G建設與維護領(lǐng)域。