楊晨陽 韓圣千 李榮鵬 易芝玲
(1. 北京航空航天大學, 北京 100191; 2. 浙江大學, 浙江杭州 310027; 3. 中國移動研究院,北京 100053)
為了支持爆炸性增長的業(yè)務需求,第五代移動通信的主流發(fā)展趨勢是網絡密集化、頻譜寬帶化和進一步提高網絡頻譜效率。然而,美國聯(lián)邦通信委員會的研究表明,蜂窩網絡中大量基站在每天的大量時間內資源并未得到充分利用。中國某運營商對已部署的第四代移動通信網絡所進行的測量結果表明,無線資源塊的平均利用率低于15%。造成這種困境的一個原因是業(yè)務在時間和空間上的動態(tài)變化;另一個原因則是現(xiàn)有網絡是在保守理念下設計的。這樣的設計理念源于用戶使用網絡資源的行為是隨機、不可預測的假設,因此面向峰值負載進行設計。在電信網中所承載的電話和視頻會議等實時(Real-time, RT)業(yè)務的內容確實是隨機的。然而,現(xiàn)有和未來無線網絡中主要承載的是視頻點播和文件下載等非實時(Non-real-time, NRT)業(yè)務,這些業(yè)務的內容可預知、可緩存。
無線業(yè)務的時空變化來自用戶行為的時變,因此預測用戶行為可以減少業(yè)務的不確定性。盡管用戶行為具有很強的隨機性,但由于日常作息習慣和人類本身的計劃性,已有不同學科的大數(shù)據(jù)分析結果表明用戶行為具有很強的規(guī)律性,這意味著與用戶行為相關的信息可預測。根據(jù)2010年“科學”雜志的報導,人類運動模式的可預測性竟高達93%[1]!
在蜂窩網絡的核心網、基站、或移動終端可以觀測和采集到大量的業(yè)務和信令數(shù)據(jù),例如網絡的業(yè)務流量、用戶的歷史請求、平均接收信號強度、位置時間序列(即移動軌跡)等。利用蜂窩網絡中的流量大數(shù)據(jù),可以在空時兩維預測無線業(yè)務流量[2- 4]。利用用戶的位置大數(shù)據(jù),可以預測用戶的移動模式甚至移動軌跡[5- 6]。利用用戶對不同內容發(fā)出請求的大數(shù)據(jù),可以預測內容流行度和用戶對內容的偏好[7-9]。實際上,對用戶的需求、移動性和網絡流量進行預測一直是智能推薦、城市交通和無線網絡等不同學科的共同研究主題,在電子商務、交通出行、位置感知服務、網絡規(guī)劃等不同領域中已進行了大量的研究。
近幾年來,通過利用應用級、網絡級和用戶級的無線大數(shù)據(jù)預測用戶群體行為來提升無線網絡的性能已經引起工業(yè)界和學術界的廣泛關注。例如,利用網絡流量預測可以通過關閉基站來降低基站的能量消耗[10],利用移動性預測可以提升用戶越區(qū)切換的性能[11]。然而,移動通信網絡中的數(shù)據(jù)類型紛雜,來自不同協(xié)議層甚至輔助設備的數(shù)據(jù)由于數(shù)據(jù)采集成本與存儲容量的限制具有不同的采樣分辨率(粒度),不同種類的數(shù)據(jù)由于源于用戶不同類型的行為而具有不同的時變尺度。例如,用戶對內容的偏好可能在年或月的時間尺度發(fā)生變化,內容流行度一般在月、周、天級時變,網絡流量在小時級時變、車輛用戶的位置可能在秒級發(fā)生變化,而物理層的傳輸資源分配則需要適應毫秒級時變的無線衰落信道。能否利用這些不同種類、不同采樣粒度、不同時間尺度的異質無線大數(shù)據(jù)對傳輸和緩存等網絡資源進行跨層優(yōu)化從而提升無線接入網絡性能?如果能,如何利用?需要預測哪些信息、需要預測到什么程度?哪些信息是可預測的?
早期源于計算機領域、近期已引入無線通信網絡的無線邊緣緩存[12-25]與預測資源分配[26-32]是利用不同類型無線大數(shù)據(jù)提升無線網絡性能的兩個典型范例。在摩爾率的推動下,緩存已被視為除功率、帶寬和天線等傳輸資源以外的網絡資源。利用預測的用戶需求等行為信息,可以采用主動和/或預測的方式對緩存和無線傳輸資源進行分配。
所謂的“主動式”(Proactive),是指通過預測用戶對內容的請求在用戶對業(yè)務發(fā)起請求之前為其提供服務;而所謂的“預測式”(Predictive或Anticipatory),則是指在用戶對業(yè)務發(fā)起請求之后根據(jù)預測的用戶數(shù)據(jù)率或平均信道增益等網絡級和用戶級信息來提前服務用戶。在文獻中,這兩個概念有時會互換使用,其邊界比較模糊。前者通常用于無線邊緣緩存,后者則常用于利用用戶移動性對無線傳輸資源進行預先分配。實際上,通過預測群體和個體用戶的需求、移動性等信息,無線網絡的設計范式可以從傳統(tǒng)的反應式/非預測式轉變?yōu)橹鲃邮?預測式[12-32]。利用基站或用戶終端等無線邊緣節(jié)點的緩存和計算能力,主動式/預測式網絡可以選擇適當?shù)臅r間和地點進行傳輸,為即將到來的業(yè)務預留資源或提前服務,從而進行時空兩維負載均衡、大范圍地利用蜂窩網絡的閑置資源、避免網絡忙時產生擁塞。初步研究表明,通過準確預測內容流行度,在基站端進行主動緩存相對于有線邊緣緩存和無緩存系統(tǒng)可以分別帶來200%和900%的頻譜效率增益、以及200%和500%的能量效率增益[18]。通過預測移動用戶在未來一到三分鐘內的平均數(shù)據(jù)率或平均信道增益與網絡資源使用狀態(tài),預測資源分配相對于現(xiàn)有非預測資源分配可提升100%~300%的網絡吞吐量[31-32]或降低15%~25%的基站能耗[29]。
本文嘗試部分地回答如何利用異質無線大數(shù)據(jù)提升無線接入網絡性能的幾個基本問題。本文后續(xù)章節(jié)安排如下:第2節(jié)介紹主動式/預測式無線資源管理所需預測的信息;第3節(jié)介紹兩種在文獻中獨立提出但相互補充的基于行為信息預測能力的無線資源管理技術:主動邊緣緩存和預測資源分配;第4節(jié)給出若干開放性問題;最后在第5節(jié)對全文進行總結。
無線邊緣的緩存與傳輸資源分配所需預測的信息包括(但不限于)內容流行度、用戶偏好、網絡流量和用戶軌跡。內容流行度和用戶偏好刻畫了用戶需求,分別反映特定區(qū)域內所有用戶的群體請求行為和單個用戶的個體請求行為。兩者都屬于應用級信息,對于優(yōu)化主動邊緣緩存至關重要。業(yè)務流量是一種網絡級信息,可以反映某一時段內某個區(qū)域的網絡資源使用狀況。用戶軌跡是一種用戶級信息,可用于推算在移動軌跡上的平均信道增益等信息。通過預測網絡流量和用戶軌跡,可以進一步推測用戶未來的平均數(shù)據(jù)率或可用傳輸資源,這在預測資源分配的優(yōu)化中具有重要作用。盡管在不同的領域提出了不少預測這些信息的方法,但現(xiàn)有的預測方法能否用于無線邊緣緩存和預測資源分配仍然有待研究。
內容流行度已被廣泛用于主動無線邊緣緩存,它反映了特定區(qū)域中所有用戶的平均喜好[19,25],通常被定義為在一個節(jié)點(例如內容服務器、無線服務網關或基站)的覆蓋區(qū)域內所有用戶對一個文件庫中每個文件的請求次數(shù)/頻率或請求概率[7,12-20]。
流行度預測問題已經在不同的領域進行了廣泛深入的研究(參見[7]和其中的參考文獻)。流行度預測方法從早期單純基于歷史信息的單變量、多變量回歸以及自回歸滑動平均等時間序列模型的預測方法,發(fā)展到基于演變模式的方法。例如,基于傳染病模型來研究流行度演變機理的方法,在描述用戶的反應時間(即從聽到信息到發(fā)出請求的等待時間)及信息在社會網絡中的傳播過程(如口口相傳)的基礎上,根據(jù)外界因素與網絡級聯(lián)效應的強弱,對流行度隨時間變化的關系進行分類和預測。
大數(shù)據(jù)分析結果表明,在特定區(qū)域對特定內容的請求往往會集中發(fā)生在一段時間,而在這段時間之外很少、甚至幾乎無人發(fā)出請求,從而導致了文件具有一定的生命周期。同時,新內容的產生具有很強的隨機性,新內容的不斷到達使流行度預測存在冷啟動問題。流行度的這種時空動態(tài)特性對服務器端被動緩存性能的影響已引起業(yè)界的關注。為了描述內容流行度的動態(tài)特性,文獻[33]提出了一種內容級的業(yè)務模型——散粒噪聲模型(Shot Noise Model,SNM),并通過實測數(shù)據(jù)驗證了該模型的有效性。SNM模型不同于在無線邊緣緩存中廣泛使用的獨立參考模型(Independent Reference Model, IRM)[12-15,17-18,20],考慮了時變文件庫和各文件的生命周期,反映了流行度的時空局部性;而后者則假設靜態(tài)、固定的文件庫和平穩(wěn)的流行度分布,認為全局流行度等于局部流行度、長期流行度等于短期流行度。
內容請求的時空局部性可以提高最近最少使用(Least Recently Used,LRU)等被動緩存策略的緩存命中率[33]。但是,被動緩存策略通常在緩存空間相對于文件庫大小比較大的時候才能達到較高的命中率[16]。當在無線邊緣(例如基站、甚至用戶端)進行內容緩存時,由于邊緣節(jié)點的緩存空間很小,能否準確預測流行度進行主動緩存對于緩存增益的大小至關重要。
為了解決用戶請求數(shù)據(jù)中固有的冷啟動問題,一些工作提出了利用跨領域信息來預測流行度的方法[7]。除了在內容服務器和無線邊緣緩存都存在的冷啟動問題,后者還存在一些特殊問題。由于接入基站的用戶群體往往與在內容服務器或無線服務網關所服務的用戶群體非常不同,在設計無線邊緣緩存策略時應當預測局域流行度。然而,考慮到接入各小區(qū)的用戶群體動態(tài)變化、且用戶在緩存更新周期(如一天、半天、甚至幾個小時)內在一個小區(qū)內發(fā)出請求的次數(shù)有限[16],預測小區(qū)級、小時級的局域、短期流行度非常具有挑戰(zhàn)性。
用戶偏好反映了每個用戶的個人興趣,未必與內容流行度相同。用戶偏好可用于計算給定區(qū)域的局部流行度[13,17],也可直接用于優(yōu)化緩存策略[19,21-22,24-25]。用戶偏好預測是推薦系統(tǒng)設計的核心任務之一,是大數(shù)據(jù)分析的典范應用。在有關推薦問題的文獻中,用戶偏好通常被定義為用戶對每個內容的兩級(即喜歡不喜歡)或多級(如5級或10級)評分[8];在無線邊緣緩存的文獻中,用戶喜好通常被定義為用戶請求某個文件的概率[13,19,21-22,24-25]。
在解決推薦問題的文獻中已經提出了多種信息過濾方法來預測用戶偏好,例如基于內容的過濾和協(xié)同過濾(Collaborative Filtering, CF)[8]。協(xié)同過濾是推薦問題中最主流的技術之一,可進一步分為基于模型、基于記憶的方法以及混合方法。20世紀80年代,協(xié)同過濾方法的基本思想出現(xiàn),利用相似用戶的觀點過濾用戶感興趣的信息。1999年,協(xié)同過濾被實際應用于電子商務領域。早期的協(xié)同過濾常被建模為矩陣補全(Matrix completion)問題,核心的數(shù)據(jù)是用戶-文件打分矩陣。自從2006年Netflix提供百萬實際用戶的打分數(shù)據(jù)舉行推薦算法設計大賽后,推薦問題也常被稱為Netflix問題。協(xié)同過濾主要用于預測用戶對內容的評分,利用聚類、分類、回歸、奇異值分解和深度學習等多種機器學習算法[8-9],使用稀疏的用戶評分矩陣來對未評分的內容進行預測。不過,采用顯式反饋(即用戶評分)并非預測用戶偏好的唯一方法。相比之下,諸如用戶的網頁瀏覽和下載行為之類的隱反饋信息更易獲得、更可靠且無需用戶參與。特別是針對無線邊緣緩存,在無線網絡中可能記錄用戶的歷史請求行為,但難以得到用戶對內容的評分。為了利用用戶喜好預測直接優(yōu)化無線邊緣緩存策略,文獻[19]利用用戶的隱反饋數(shù)據(jù)提出了基于概率潛在語義分析模型預測各個用戶請求特定內容的概率的方法。
然而,迄今為止,由于在推薦問題中眾所周知的“冷啟動”和“數(shù)據(jù)稀疏性”問題,仍然很難準確預測用戶偏好。此外,用戶對什么內容發(fā)出請求往往依賴于時間、地點、情緒以及是否有其他人在場,因此需要基于情境信息對用戶喜好進行預測[8]。最后,用戶請求一個內容可能并不表示用戶確實喜歡這個內容,而用戶不請求某個內容可能是由于用戶不喜歡、也可能是因為用戶并不知道這個內容。這意味著向用戶推薦其可能喜歡的內容,可以通過引導用戶需求降低用戶發(fā)出請求的不確定性[27]。
基于對YouTube數(shù)據(jù)進行分析,已有研究結果表明口口相傳并非信息傳播的唯一機制,視頻網站上的推薦列表是引發(fā)大量用戶請求的主要因素,可見用戶請求內容的行為會受到推薦的影響,因此用戶偏好預測與內容推薦有復雜的耦合關系[34]。
業(yè)務流量預測對蜂窩網絡優(yōu)化有重要的作用和指導意義。宏觀的預測曾預見移動互聯(lián)網將在未來10年內有1000倍業(yè)務流量的增長,已成為下一代蜂窩網絡架構和算法設計的重要支柱。另一方面,每日、每小時或甚至分鐘級的微觀、細觀流量預測不僅有助于網絡優(yōu)化、基站節(jié)能和網絡異常檢測,還可能進一步對用戶接入、傳輸資源分配以預測的方式進行優(yōu)化[4,29]。基于分鐘級的細觀流量預測,可以得到網絡未來的平均資源利用狀態(tài)[32]。根據(jù)準確預測的業(yè)務流量,無線接入系統(tǒng)可以根據(jù)實際的業(yè)務需求以分鐘級、秒級的時間尺度來動態(tài)配置傳輸資源,從而通過跨層優(yōu)化有效提高網絡資源使用效率[29,32]。
文獻[2]研究了蜂窩網絡中基于電路交換的語音和短信服務以及基于分組交換的數(shù)據(jù)服務的微觀流量可預測性。研究結果表明,語音和短信服務具有很強的可預測性,但是對于數(shù)據(jù)服務的預測性能并不令人滿意。 實際上,蜂窩網絡中的移動數(shù)據(jù)應用(如即時消息、網絡瀏覽、視頻點播)與有線網絡中的數(shù)據(jù)應用明顯不同。與后者相比,蜂窩網絡對無線資源的嚴格約束、昂貴的計費策略以及用戶的移動性導致了用戶使用無線網絡的行為與有線網絡非常不同,因此需要重新研究蜂窩網絡中的流量可預測性和預測方法。
現(xiàn)有的微觀流量預測方法不能滿足預測資源分配的要求。首先,大多數(shù)工作關注所有業(yè)務的流量預測,而很少單獨考慮特定業(yè)務類型的流量預測[3]。其次,現(xiàn)有的預測方法通常沿用有線寬帶網絡的分析結果,如常常使用自相似性來預測未來流量,這些方法是否適用于移動網絡尚待驗證。還有,已有的蜂窩網絡流量預測往往基于小時級采樣粒度的數(shù)據(jù)[2- 4],而預測資源分配則往往需要分鐘級采樣粒度的細觀流量預測[32]。
現(xiàn)有文獻對移動模式的分析表明,人類沿著特定路徑移動的可預測性很高[1]。然而,文獻[1]中的移動性預測是指根據(jù)粗粒度的位置數(shù)據(jù)(如采樣周期為一小時)對用戶未來所處地點的預測,所采用的性能指標是正確預測用戶下一個位置的平均概率。這種預測對于一些基于位置信息的應用(例如廣告投放)非常有用,但是所預測的時空粒度不能滿足預測資源分配的要求。大部分預測資源分配方法需要根據(jù)秒級采樣粒度的數(shù)據(jù)預測用戶在未來幾分鐘的時間窗內每秒所在的位置[26-31]。
作為移動軌跡預測的基礎,用戶位置可以通過智能手機中的全球定位系統(tǒng)(Global positioning system,GPS)進行上報,或通過部署的傳感器、WiFi或蜂窩通信系統(tǒng)進行估計?;趯τ脩暨\動軌跡的GPS數(shù)據(jù),已有文獻對用戶從起點到終點的移動路徑、用戶將訪問的地點、到達時間以及將停留多長時間等進行了研究,提出了很多算法。文獻[5]和[35]根據(jù)用戶的習慣、實時運動方向及所在位置,預測未來半小時內用戶到達的目的地和移動路徑。由于絕大多數(shù)針對移動性預測的現(xiàn)有研究面向基于位置感知的應用或移動性管理,因此所考慮的時空采樣粒度對于預測資源分配而言過于粗糙。盡管已有部分面向自動駕駛應用的文獻開始基于毫秒級采樣粒度的數(shù)據(jù)預測運動軌跡[6],但只能預測未來幾秒內車輛的軌跡,這樣的預測窗長度難以使預測資源分配相對于現(xiàn)有非預測方法有明顯的性能增益。
利用預測的用戶軌跡和信道地圖(也稱射頻信號地圖),即在不同位置處的平均信道增益[36-37],可以獲得用戶未來的平均信道增益(包含路徑損耗和陰影衰落)。信道地圖可以由路測來構建,但是成本很高[37];還可以利用移動終端設備中的GPS和上報的接收信號強度,以眾包的方式來測量并逐步構建地圖。由于移動終端的GPS和路測結果都只能為整個區(qū)域提供稀疏的離散采樣數(shù)據(jù),因此有必要采用矩陣補全等技術來構建信號強度地圖。除此之外,平均信道增益也可以通過在線學習來獲得,例如文獻[38]中提出的基于核函數(shù)的自適應算法。
利用與用戶行為相關的預測信息,可以采用主動和/或預測的方式對緩存和傳輸資源以進行管理。
盡管對在網存儲的研究可以追溯到20世紀60年代,但在無線邊緣進行緩存的研究自2012年才開始出現(xiàn)[12]。在基站或用戶等邊緣節(jié)點緩存流行內容的原始動機是通過降低端到端延遲來改善用戶的服務質量(Quality of Service, QoS)和降低小微基站回傳鏈路的成本[12-13],現(xiàn)在已被用于提升無線接入網絡的性能,如通過緩解回傳、或空口傳輸?shù)膿砣麃硖嵘W絡吞吐量、通過用緩存設備替換回程鏈路來提高接入網絡能效[14-15,18-25,40]。通過在微基站上配備緩存并采用信令和數(shù)據(jù)分離機制,可以在網絡中靈活地部署一種無需回傳鏈路的極簡數(shù)據(jù)小基站,在網絡閑時提前把流行內容通過空口下載到小基站,使之在網絡忙時服務用戶[12]。
現(xiàn)有絕大部分文獻都假設已知內容流行度[12,14-15,18,20,40],所優(yōu)化的緩存策略達到的性能可以視為基于流行度預測進行緩存可達性能的上限。這一假設對于生命周期較長的內容是合理的[33],此時可以采用IRM進行建模?;谝阎牧餍卸确植?現(xiàn)有工作研究了如何在基站端緩存、如何在緩存輔助終端直傳系統(tǒng)中的用戶端緩存,通過優(yōu)化緩存策略使分流增益或吞吐量最大或者使平均下載時延最小。文獻[23]考慮了文件的冷啟動問題,利用文件的內容特征先對流行度進行預測再進行邊緣緩存。
現(xiàn)有工作一般不區(qū)分內容流行度與用戶偏好間的差異[12-18,20,23,40],其潛在的假設是在一個區(qū)域或社交群體中所有用戶具有相同的偏好、且與流行度相同。然而,對實測數(shù)據(jù)集的分析表明,用戶偏好的平均余弦相似度在0.04到0.8之間,其中對視頻文件的喜好相似度較低,如對于MovieLens 1M數(shù)據(jù)集用戶的平均相似度為0.4、對優(yōu)酷數(shù)據(jù)集的平均相似度則為0.28[24-25]。這種隱含的假設忽略了現(xiàn)實社會中用戶的差異性,因此會降低緩存命中率和用戶體驗[24-25]。
利用用戶偏好可以直接優(yōu)化基站端或在緩存輔助終端直傳系統(tǒng)中優(yōu)化在用戶端的緩存策略[19,21-22,24-25]。文獻[25]的研究結果表明,在用戶并非在全網的所有小區(qū)均勻發(fā)出請求、用戶喜好的相似性不高的條件下,基于用戶喜好優(yōu)化緩存策略時基站緩存所帶來的增益明顯高于基于全局或局部流行度優(yōu)化的緩存策略。根據(jù)實測數(shù)據(jù)集的分析表明[24-25,39],實際的用戶行為的確滿足上述條件。
如果假設系統(tǒng)在優(yōu)化緩存策略時能夠預測出所有用戶在內容傳輸階段所處的具體位置,則可以優(yōu)化確定性緩存策略[12,21]。為了回避這個很強的假設,已有文獻在優(yōu)化緩存策略時假設用戶發(fā)出請求時的位置均勻分布[20]。然而,文獻[39]基于實測數(shù)據(jù)的分析表明,80%的用戶僅在4個以下的地點對視頻文件發(fā)起請求。這意味著認為用戶發(fā)起請求時位置服從泊松點過程的假設并不符合實際情況。
預測資源分配利用未來的平均數(shù)據(jù)率或移動軌跡等信息,在面向實時業(yè)務和非實時業(yè)務時的服務機制和對預測信息時空尺度和粒度方面的要求都非常不同[28]。
對于實時業(yè)務,預測式無線接入機制可以提高用戶的接入級服務質量,如降低掉線率。由于實時業(yè)務有較高的服務優(yōu)先級,且其信息比特由每個用戶隨機產生,因此利用行為信息預測的主要機制是預留一部分資源給實時業(yè)務,預測粒度通常在小區(qū)級別[11]。通過預測移動用戶接入的下一個或幾個小區(qū)和越區(qū)切換時間,采用動態(tài)資源預留和接入控制可以提高服務質量。
對于非實時業(yè)務,預測未來信息不僅可以提高用戶的接入級和數(shù)據(jù)包級QoS,還可以提高無線接入網絡的性能[26,28-32]。這是因為,隨著智能手機存儲卡容量的增長,對于諸如視頻點播等典型的非實時業(yè)務,可以把用戶所請求的視頻文件(或視頻片段)提前緩存在手機端,同時由于視頻片段的播放時間往往比移動用戶大尺度信道的時變周期長,可以在用戶處于良好的信道條件[26,28]或網絡狀態(tài)[29,31-32]時對視頻(片段)進行預先緩沖,從而在不影響用戶體驗的前提下提升網絡能效或吞吐量。
若能預測未來一個時間窗內的瞬時數(shù)據(jù)率,則可以在保證用戶QoS的前提下最小化所需的傳輸資源,也可以改善QoS[26]。但是,由于瞬時數(shù)據(jù)率依賴于瞬時信道信息,而瞬時信道僅在信道相干時間內可預測,因此更合理的假設是已知未來數(shù)據(jù)率的統(tǒng)計信息,例如平均數(shù)據(jù)率或數(shù)據(jù)率的分布[35]??紤]到預測不可避免地存在誤差,文獻[30]假設了一個數(shù)據(jù)率預測誤差模型,針對視頻點播業(yè)務采用了一種魯棒優(yōu)化方法進行預測資源分配。
大多數(shù)面向非實時業(yè)務的現(xiàn)有預測資源分配[26-27,30-31]依賴于預測非實時用戶的平均可達數(shù)據(jù)率,且假設平均數(shù)據(jù)率的動態(tài)變化僅來自大尺度信道變化。然而,在實際系統(tǒng)中,基站在服務實時業(yè)務之后的剩余資源會隨著接入的實時用戶數(shù)而改變,非實時用戶的平均數(shù)據(jù)率還與未來的實時業(yè)務流量有關?,F(xiàn)有文獻大多忽視了這一現(xiàn)象。此外,大多數(shù)現(xiàn)有策略在獲取預測信息后即為移動用戶計劃好未來以多少傳輸資源預先傳輸數(shù)據(jù),如在未來1分鐘的時間窗內每秒給某個用戶以多大的平均功率、帶寬或時隙個數(shù)等資源進行傳輸[26-27,30-31]。然而,網絡流量、用戶軌跡和瞬時信道增益等信息的可預測或估計的時間尺度與粒度差異很大,所以需要多時間尺度的跨層資源優(yōu)化。
考慮到人類行為固有的隨機性、對于用戶行為的難以建模、以及龐大的用戶和內容數(shù)量,預測與用戶行為相關的信息非常具有挑戰(zhàn)性。盡管現(xiàn)有文獻已經對如何預測行為信息和如何利用行為信息預測開展了不少研究工作,但是大都基于對行為信息本身或對行為信息預測進行很強的假設。要實現(xiàn)主動邊緣緩存和預測資源分配所帶來的性能增益,還有大量的開放問題需要解決。
由于面向不同的應用,現(xiàn)有文獻所提出的信息預測方法往往基于時、空、群體采樣粒度較粗的數(shù)據(jù),預測窗長與所預測信息的時間粒度往往不能用于主動邊緣緩存或預測資源分配。例如,文獻[2]可以預測第二天每小時和未來五分鐘后的流量,但是不少預測資源分配所需要的預測粒度為秒級、預測窗為分鐘級[26, 28-32]。
由于用于預測用戶行為的數(shù)據(jù)來源差異很大,可能來自于網絡的不同層甚至附加設備(如GPS),且信息預測還需要大量存儲和計算資源,因此解決行為信息預測問題并不容易。此外,不同信息的可預測性(即達到給定的預測誤差時能預測多遠)和預測機制不同。一些信息可以在較短的預測時間窗內達到較高的預測精度,例如用戶位置和移動速度;另一些信息則可能只能預測統(tǒng)計信息,例如內容流行度、用戶偏好和網絡流量。
為彌合這種差距,需要研究這些信息在給定數(shù)據(jù)采樣與預測粒度時的可預測性。另一方面,我們還需要思考一個關鍵問題:主動/預測資源管理到底需要以什么粒度預測多遠?例如,對于預測資源分配,真的需要以每秒這樣精細的粒度來預測未來分鐘級時間窗內的信息嗎?為此,需要分析采用更長預測窗能帶來多大增益、較粗的預測粒度和較大的預測誤差會導致多大損失,以及如何基于粗粒度的預測進行傳輸。文獻[32]提出了一個針對非實時業(yè)務的分級、多時間尺度的預測資源分配策略,只需粗略的預測信息,并進一步設計了一個直接根據(jù)蜂窩網中可測量的、不同類型的歷史數(shù)據(jù)進行知識預測的方法,與已知理想精細預測信息的最優(yōu)策略相比性能損失很小。盡管這是在預測資源分配的文獻中首次利用機器學習進行端到端知識預測,但研究結果還很初步。
可預測的信息有可能并不能直接應用于資源分配的優(yōu)化,而優(yōu)化資源管理所需的信息未必具有可預測性。這時,需要把可預測的信息“翻譯”為主動/預測資源管理所需要的信息。
例如,大多數(shù)預測資源分配方法都假設可以預測平均數(shù)據(jù)率[26-27,30-31],但這并不意味著可以在未來較大的時間范圍(如幾分鐘)內對精細粒度(如每秒)的平均數(shù)據(jù)率進行預測。文獻[31]基于以200毫秒為采樣周期通過分析上下行信令得到的調制編碼方式的數(shù)據(jù),利用時間序列模型預測了未來1分鐘時間窗內每秒的平均數(shù)據(jù)率,預測的誤差導致了預測資源分配性能有很大的下降。為了得到未來的平均數(shù)據(jù)率,現(xiàn)有文獻首先將未來的用戶位置與信道地圖相結合以獲得平均信道增益,然后在假設未來可用帶寬已知的前提下計算平均數(shù)據(jù)率。
然而,預測資源分配所需的未來信息未必是平均數(shù)據(jù)率。例如,以降低能耗為目標的預測資源分配所需的信息是剩余帶寬的概率分布[29],可以通過預測實時業(yè)務的流量、基于排隊論來推斷。
另一個例子是無線邊緣緩存策略優(yōu)化。大多數(shù)主動邊緣緩存策略假設一個小區(qū)內的局部流行度可預測。然而,在基站端只能觀測到數(shù)據(jù)包而非請求的內容,目前只有在移動核心網才能解析出用戶請求的內容是什么[17]。因此,文獻[13]提出先預測用戶偏好和每個用戶發(fā)起請求的位置、再根據(jù)預測的用戶偏好和位置來合成局部流行度。但是,局部流行度取決于用戶群體,用戶群體與接入的用戶有關,而用戶接入與緩存的內容、進一步與緩存策略有關。這意味著[13]中方法并非最優(yōu)。針對這個問題的一個思路,是在核心網直接根據(jù)預測的用戶喜好和用戶在不同小區(qū)發(fā)出請求的概率對無線邊緣的緩存策略進行優(yōu)化[24-25]。
將可預測信息轉化為無線網絡資源管理所需信息的方式強烈依賴于優(yōu)化目標和待分配的資源類型,在這方面的研究還非常初步。
許多因素會導致上述信息預測得不理想,例如人類行為本身的不確定性、一些行為信息的復雜時變特性、預測算法、以及用于預測的計算資源受限。基于不準確、甚至錯誤的預測信息進行主動或預測資源管理不僅會浪費網絡資源、難以保證QoS、甚至還可能抵消使用剩余資源所帶來的增益。
考慮到各種信息預測的不確定性,有必要研究魯棒的資源管理策略。一種可能的解決方案是采用魯棒優(yōu)化,例如依概率保證QoS[30]。進行魯棒優(yōu)化必須面對的核心挑戰(zhàn)是需要對信息預測的不確定性(如預測誤差)進行建模。然而,目前面向主動邊緣緩存和預測資源分配研究行為信息預測的文獻很少[23,32],更談不上對預測不確定性進行建模。例如,迄今為止,尚未有任何文獻對[30]所需的在未來1分鐘的預測窗內每秒的平均數(shù)據(jù)率預測誤差進行建模。另一種可能的解決方案是設計魯棒策略,如文獻[32]提出的雙門限預測資源分配算法,所能達到的吞吐量增益對于高達相對誤差為三倍的信道門限預測誤差依然不敏感。又如,現(xiàn)有工作用預測誤差來描述對流行度預測的不確定性,即用戶對某內容請求數(shù)(概率)的預測值與實際值之間的差異。但是,這種反映預測不確定性的指標僅適用于文件庫固定的情況??紤]到由于新文件到達、老文件很少再有人請求所導致的動態(tài)文件庫,預測誤差不再是合理的度量,這是因為新到達的文件可能由于“冷啟動”問題而無法預測。因此,至今尚未有任何文獻對主動緩存策略進行魯棒優(yōu)化。
在現(xiàn)有針對預測資源分配的研究中,大部分工作都假設網絡中只有一類移動用戶請求實時或非實時服務,并根據(jù)用戶未來的信道變化預留傳輸資源或提前傳輸。然而,實際的蜂窩網絡需要支持具有各種優(yōu)先級、不同類型的業(yè)務。雖然針對不同類型的業(yè)務進行聯(lián)合資源分配可以最大化資源利用率,但它要求預測所有移動用戶的平均數(shù)據(jù)率或信道增益,將占用極高的計算和存儲資源,在實際場景下難以實現(xiàn)。幸運的是,實際系統(tǒng)中大部分請求非實時業(yè)務的用戶都不是移動性用戶。如果可以預測這些非實時用戶所在小區(qū)的業(yè)務流量(小區(qū)內實時業(yè)務用戶的隨機請求會導致業(yè)務流量動態(tài)變化),那么就可以通過對非實時業(yè)務用戶進行預先資源分配來有效利用小區(qū)的剩余資源。這將大大減少需要處理和存儲的數(shù)據(jù)量。
為了協(xié)助預測資源分配,需要研究在多個時間尺度上可預測信息的有效利用方式,然而這可能導致系統(tǒng)難以承受的復雜度。為了平衡性能和復雜度,需要研究對多時間尺度資源分配進行解耦設計所導致的性能損失。
考慮到用戶請求行為的差異性和局部性,基于用戶偏好進行主動邊緣緩存與基于流行度的邊緣緩存相比可以達到更好的網絡性能和用戶體驗[19,21-22,24-25]。然而,考慮到網絡中存在海量的內容和用戶,即使考慮了用戶活躍度的2- 8率(即少量活躍用戶發(fā)出的請求占所有請求數(shù)的絕大部分)[24-25,39],預測每個用戶對每個文件的偏好復雜度很高[24]。如何在性能增益和計算與訓練樣本復雜度之間進行折中還是急需解決的問題。
基于理想用戶行為信息預測的研究結果表明,主動邊緣緩存和預測資源分配在提高無線資源利用率、降低部署和運營成本和改善用戶體驗等方面具有很高的潛力。本文介紹了在蜂窩網絡中利用不同類型的無線大數(shù)據(jù)預測不同類型的行為信息跨層優(yōu)化緩存和無線傳輸資源的最新進展,總結了通過大數(shù)據(jù)可以預測的行為信息,從預測范圍和粒度兩個方面分析了現(xiàn)有文獻得到的預測信息與主動/預測資源管理所需信息之間的差距。最后,指出了在理論與技術方面的挑戰(zhàn)和未來可能的研究方向。
盡管在假設行為信息已知的前提下對主動邊緣緩存和預測資源分配已經開展了不少研究工作,但是為了將這兩種在理論上可以遠超山農極限的技術付諸實踐,還存在大量的科學問題和技術挑戰(zhàn),需要數(shù)據(jù)挖掘、機器學習、無線通信和行為科學等多學科領域研究人員的密切合作。