宋秀秀 賈振紅 覃錫忠
【摘要】 移動(dòng)通信話務(wù)量的準(zhǔn)確預(yù)測(cè)對(duì)于提高網(wǎng)絡(luò)的性能,增進(jìn)終端用戶體驗(yàn)均具有重要的意義。支持向量機(jī)作為一種新的機(jī)器學(xué)習(xí)方法其可以有效地應(yīng)對(duì)小樣本、非線性等問題。然而支持向量機(jī)的訓(xùn)練參數(shù)對(duì)基于其所構(gòu)建的預(yù)測(cè)模型的精度具有決定性的影響,因此本文選取具有全局優(yōu)化能力的蟻群算法進(jìn)行參數(shù)搜索優(yōu)化過程,通過對(duì)某市移動(dòng)通信話務(wù)量的數(shù)據(jù)進(jìn)行試驗(yàn)仿真,結(jié)果顯示該方法在預(yù)測(cè)精度及時(shí)效性方面具有較好的性能。
【關(guān)鍵詞】 蟻群算法 支持向量機(jī) 移動(dòng)話務(wù)量 預(yù)測(cè)模型
話務(wù)量預(yù)測(cè)問題,是指通過精準(zhǔn)的統(tǒng)計(jì)調(diào)查方法,以歷史話務(wù)量數(shù)據(jù)為基礎(chǔ),從其內(nèi)在蘊(yùn)含的規(guī)律性與特點(diǎn)出發(fā),運(yùn)用科學(xué)有效的建?;貧w方法對(duì)未來某一時(shí)段的話務(wù)量進(jìn)行預(yù)測(cè)。話務(wù)量的多少直接影響到移動(dòng)通信網(wǎng)絡(luò)的設(shè)計(jì)、規(guī)劃以及運(yùn)營(yíng)情況,對(duì)于終端客戶的服務(wù)質(zhì)量具有決定性的影響。
目前對(duì)移動(dòng)話務(wù)量預(yù)測(cè)常采用的方法為線性自回歸移動(dòng)平均模型(ARIMA)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸機(jī)(SVR),其中線性自回歸移動(dòng)平均模型對(duì)訓(xùn)練數(shù)據(jù)具有較高的要求,具體為時(shí)間序列應(yīng)具有正態(tài)分布、全局平穩(wěn)等特征,然而在實(shí)際應(yīng)用中,話務(wù)量的時(shí)間序列往往是不規(guī)則、非平穩(wěn)且非線性的,因此線性自回歸移動(dòng)平均模型對(duì)于移動(dòng)話務(wù)量的預(yù)測(cè)具有一定的缺陷。相比于線性自回歸移動(dòng)平均模型,人工神經(jīng)網(wǎng)絡(luò)具有較好的非線性預(yù)測(cè)能力,然而其對(duì)所需的訓(xùn)練樣本數(shù)據(jù)數(shù)量較大,且易于陷入局部極值,因而導(dǎo)致最終的預(yù)測(cè)效果不穩(wěn)定[1];支持向量回歸機(jī)中相關(guān)參數(shù)的選擇對(duì)于最終預(yù)測(cè)模型的泛化能力及預(yù)測(cè)結(jié)果,因此構(gòu)建相關(guān)參數(shù)科學(xué)、合理的選取機(jī)制是基于支持向量回歸機(jī)進(jìn)行時(shí)間序列數(shù)據(jù)預(yù)測(cè)的一個(gè)關(guān)鍵問題[2,3]。
一、支持向量回歸機(jī)模型
作為一種新型的機(jī)器學(xué)習(xí)方法,支持向量機(jī)(Support Vector Machine, SVM)的基本思想是構(gòu)造一個(gè)恰當(dāng)?shù)姆蔷€性映射,將低維度的非線性函數(shù)映射至高維度的空間內(nèi)。需要注意的是,對(duì)于支持向量機(jī)SVM的求解過程不需要事先對(duì)非線性映射的具體表達(dá)式進(jìn)行表述,只需要選取合適的核函數(shù)即可,利用對(duì)核函數(shù)進(jìn)行優(yōu)化求解過程,將高維特征空間的點(diǎn)積轉(zhuǎn)換為低維空間的核函數(shù)進(jìn)行計(jì)算,從而避免了高維空間中求解所帶來的維數(shù)災(zāi)難問題??梢哉f,核函數(shù)的選取是支持向量機(jī)應(yīng)用中的一個(gè)關(guān)鍵問題,對(duì)于核函數(shù)的選取要求是其必須滿足Mercer條件,此外應(yīng)盡可能的準(zhǔn)確反映訓(xùn)練樣本數(shù)據(jù)點(diǎn)的分布特征。在支持向量機(jī)的實(shí)際應(yīng)用中,大多選擇多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)以及Sigmoid核函數(shù)。
支持向量機(jī)在實(shí)際使用中性能的好壞取決于相關(guān)參數(shù)的選擇,其中包括:正則化參數(shù)C,核參數(shù)σ,以及不敏感參數(shù)ε等。支持向量機(jī)目前在回歸算法的應(yīng)用及研究方面表現(xiàn)出了良好的性能,在宏觀經(jīng)濟(jì)、工程應(yīng)用如電力需求預(yù)測(cè)、證劵市場(chǎng)時(shí)間序列分析等方面均有成功的應(yīng)用范例。
給定一組訓(xùn)練集合T={(xi,yi),i=1,2,…,m},其中xi∈Rn,yi=R,i=1,2,…,m。假設(shè)該組訓(xùn)練數(shù)據(jù)是按照Rn·R上的某一個(gè)分布P(x,y)所選取的獨(dú)立且同分布的樣本點(diǎn),我們的目的在于試圖尋找一個(gè)實(shí)值函數(shù),從而實(shí)現(xiàn)以y=f(x)推斷任意一組輸入xi∈Rn所對(duì)應(yīng)的的輸出值y∈R,同時(shí)使得對(duì)訓(xùn)練集的期望風(fēng)險(xiǎn)值達(dá)到最小程度。
R(f)=∫c(x,y,f)dp(x,y)
其中c(x,y,f)是給定的損失函數(shù)。
二、蟻群算法
蟻群算法由Dorigo等在上個(gè)世紀(jì)90年代首次提出之后,在國(guó)際學(xué)術(shù)界引起了廣泛的關(guān)注。作為一種人工智能仿生算法,其借鑒生物界中螞蟻在覓食的過程中通過自身所釋放出的信息素進(jìn)行社會(huì)化溝通、交流及協(xié)作的機(jī)制,通過多次迭代過程實(shí)現(xiàn)對(duì)最優(yōu)解的尋找。
下面以TSP問題為例,介紹蟻群算法ACO的數(shù)學(xué)模型。假定給定的城市數(shù)目為n,di,j(i,j=1,2,…,n)為第i個(gè)城市到第j個(gè)城市之間的距離,Bi(t)表示在t時(shí)刻,第i個(gè)城市上停留的蟻群數(shù)量,則有M=B(t)。螞蟻的狀態(tài)轉(zhuǎn)移是依靠分布在城市路徑上的信息素作為線索進(jìn)行完成的。在具體的算法運(yùn)行過程中,蟻群利用狀態(tài)轉(zhuǎn)移定律p(t)來選擇具體的行進(jìn)路徑,從而到達(dá)下一個(gè)城市。在t時(shí)刻,p(t)的含義為
其中,allowedk表示螞蟻k下一次迭代可選擇的具體城市,α和β的作用為調(diào)節(jié)信息素和啟發(fā)式信息重要性程度。從上面的式子可以看出,兩個(gè)城市之間的距離愈小,則其對(duì)應(yīng)的信息素濃度值愈高,這也就意味著螞蟻從這兩個(gè)城市之間進(jìn)行移動(dòng)的概率愈大。信息素的全局更新規(guī)則如下所示,其中ρ∈(0,1]為信息素的揮發(fā)因子。
參數(shù)是影響蟻群算法運(yùn)行性能及效率的一個(gè)關(guān)鍵因素,算法的啟發(fā)式因子α、期望啟發(fā)式因子β、信息素殘留因子1-ρ、信息素強(qiáng)度Q以及蟻群規(guī)模數(shù)M等等均是比較重要的參數(shù),這些參數(shù)選取及配置的好壞直接影響到蟻群算法的全局收斂性及算法的運(yùn)行效率。
三、基于蟻群算法優(yōu)化支持向量機(jī)參數(shù)
支持向量機(jī)的預(yù)測(cè)精確度與其自身所選定的相關(guān)參數(shù)取值緊密相關(guān),如懲罰參數(shù)、不敏感損失參數(shù)、RBF核參數(shù)等等。故而,通過蟻群優(yōu)化算法在一定范圍內(nèi)對(duì)支持向量機(jī)的相關(guān)參數(shù)進(jìn)行搜索尋優(yōu),尋找其最優(yōu)組合配置,從而獲得預(yù)測(cè)性能較好的支持向量機(jī)。蟻群算法作為一種新的仿生智能算法,其模擬社會(huì)化昆蟲螞蟻在覓食等活動(dòng)中通過信息素進(jìn)行相互交流以尋找最短路徑的優(yōu)化機(jī)制。
具體的算法優(yōu)化流程如下:(1)算法初始化設(shè)置,設(shè)置最大迭代次數(shù)Mmax,且令M=0。(2)每只螞蟻個(gè)體依靠輪盤賭方法,依次先后在每個(gè)集合中選擇元素,直至所有的螞蟻找到食物。(3)劃分訓(xùn)練樣本為相互獨(dú)立且不包含的k個(gè)子集合S1,S2,…,Sk,其中Si為測(cè)試集合,其他均為訓(xùn)練集合,經(jīng)過訓(xùn)練得到支持向量機(jī)的預(yù)測(cè)值平均誤差,逐次循環(huán)過程,將每次所得到的結(jié)果平均,計(jì)算適應(yīng)度值。(4)一旦達(dá)到所設(shè)定的迭代次數(shù)Mmax,則終止迭代過程,輸出最終解,否則轉(zhuǎn)到步驟(2)。
四、實(shí)驗(yàn)結(jié)果及仿真
以歷史話務(wù)量數(shù)據(jù)為基礎(chǔ),構(gòu)建相應(yīng)地預(yù)測(cè)模型以對(duì)未來的話務(wù)量進(jìn)行準(zhǔn)確的預(yù)測(cè),需要指出的是,在構(gòu)建預(yù)測(cè)模型中我們忽略相關(guān)其他因素對(duì)于話務(wù)量的影響作用。話務(wù)量需求是一個(gè)收到多元素重疊影響的動(dòng)態(tài)非線性系統(tǒng),重大事件、活動(dòng)及節(jié)日,異常天氣等等均會(huì)造成話務(wù)量的異常。因此,本文在構(gòu)建預(yù)測(cè)模型的過程中,充分考慮到了用戶數(shù)、短信數(shù)以及系統(tǒng)的接通率對(duì)于最終話務(wù)量的影響。
對(duì)每日產(chǎn)生的話務(wù)量進(jìn)行周期為一小時(shí)的統(tǒng)計(jì)調(diào)查,一天中則會(huì)產(chǎn)生24個(gè)話務(wù)量的數(shù)據(jù)值,分布對(duì)應(yīng)于每日的0點(diǎn)到23點(diǎn),以對(duì)每天的24個(gè)話務(wù)量數(shù)據(jù)中的Max值作為今日的最忙時(shí)話務(wù)量。本文的數(shù)據(jù)統(tǒng)計(jì)來源于某市的移動(dòng)通信數(shù)據(jù),其中包括2013年3月到2013年9月間隨即選取的40天數(shù)據(jù),其中每日的統(tǒng)計(jì)數(shù)據(jù)包含用戶數(shù)、短信發(fā)送數(shù)、系統(tǒng)接通率、話務(wù)量值。其中前39日的數(shù)據(jù)作為預(yù)測(cè)模型的訓(xùn)練樣本數(shù)據(jù),第40日的數(shù)據(jù)作為測(cè)試樣本數(shù)據(jù)。每個(gè)輸入樣本包含8個(gè)不同的變量值:前日的話務(wù)量值、用戶數(shù)、短信發(fā)送量、系統(tǒng)接通率;前兩日的話務(wù)量值、用戶數(shù)、短信發(fā)送量、系統(tǒng)接通率。輸出值為所預(yù)測(cè)當(dāng)天的移動(dòng)通信話務(wù)量。
圖1和圖2分別為采用高斯核函數(shù)及K型核函數(shù)構(gòu)建的基于支持向量機(jī)的預(yù)測(cè)模型,由圖可見,預(yù)測(cè)值與真實(shí)值之間的相對(duì)誤差基本上控制在5%左右,最小可到0.01%,這說明該方法對(duì)于移動(dòng)通信話務(wù)量的預(yù)測(cè)結(jié)果精度是比較高的。然而,選取K型核函數(shù)構(gòu)建的預(yù)測(cè)模型其訓(xùn)練時(shí)間較高斯核函數(shù)的訓(xùn)練時(shí)間減少了將近50%左右,因此總體性能上K型核函數(shù)要優(yōu)于高斯核函數(shù)。
五、結(jié)語(yǔ)
本文研究了基于蟻群算法優(yōu)化支持向量機(jī)相關(guān)參數(shù)以構(gòu)建預(yù)測(cè)模型,從而對(duì)移動(dòng)通信話務(wù)量數(shù)據(jù)值進(jìn)行預(yù)測(cè),以某市的GSM網(wǎng)40天內(nèi)的數(shù)據(jù)為研究對(duì)象,構(gòu)建了基于支持向量機(jī)的預(yù)測(cè)模型。通過優(yōu)化參數(shù)選取,對(duì)移動(dòng)話務(wù)量進(jìn)行了準(zhǔn)確的預(yù)測(cè),結(jié)果表明支持向量機(jī)對(duì)樣本數(shù)據(jù)具有較好的學(xué)習(xí)及泛化能力。
【摘要】 移動(dòng)通信話務(wù)量的準(zhǔn)確預(yù)測(cè)對(duì)于提高網(wǎng)絡(luò)的性能,增進(jìn)終端用戶體驗(yàn)均具有重要的意義。支持向量機(jī)作為一種新的機(jī)器學(xué)習(xí)方法其可以有效地應(yīng)對(duì)小樣本、非線性等問題。然而支持向量機(jī)的訓(xùn)練參數(shù)對(duì)基于其所構(gòu)建的預(yù)測(cè)模型的精度具有決定性的影響,因此本文選取具有全局優(yōu)化能力的蟻群算法進(jìn)行參數(shù)搜索優(yōu)化過程,通過對(duì)某市移動(dòng)通信話務(wù)量的數(shù)據(jù)進(jìn)行試驗(yàn)仿真,結(jié)果顯示該方法在預(yù)測(cè)精度及時(shí)效性方面具有較好的性能。
【關(guān)鍵詞】 蟻群算法 支持向量機(jī) 移動(dòng)話務(wù)量 預(yù)測(cè)模型
話務(wù)量預(yù)測(cè)問題,是指通過精準(zhǔn)的統(tǒng)計(jì)調(diào)查方法,以歷史話務(wù)量數(shù)據(jù)為基礎(chǔ),從其內(nèi)在蘊(yùn)含的規(guī)律性與特點(diǎn)出發(fā),運(yùn)用科學(xué)有效的建?;貧w方法對(duì)未來某一時(shí)段的話務(wù)量進(jìn)行預(yù)測(cè)。話務(wù)量的多少直接影響到移動(dòng)通信網(wǎng)絡(luò)的設(shè)計(jì)、規(guī)劃以及運(yùn)營(yíng)情況,對(duì)于終端客戶的服務(wù)質(zhì)量具有決定性的影響。
目前對(duì)移動(dòng)話務(wù)量預(yù)測(cè)常采用的方法為線性自回歸移動(dòng)平均模型(ARIMA)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸機(jī)(SVR),其中線性自回歸移動(dòng)平均模型對(duì)訓(xùn)練數(shù)據(jù)具有較高的要求,具體為時(shí)間序列應(yīng)具有正態(tài)分布、全局平穩(wěn)等特征,然而在實(shí)際應(yīng)用中,話務(wù)量的時(shí)間序列往往是不規(guī)則、非平穩(wěn)且非線性的,因此線性自回歸移動(dòng)平均模型對(duì)于移動(dòng)話務(wù)量的預(yù)測(cè)具有一定的缺陷。相比于線性自回歸移動(dòng)平均模型,人工神經(jīng)網(wǎng)絡(luò)具有較好的非線性預(yù)測(cè)能力,然而其對(duì)所需的訓(xùn)練樣本數(shù)據(jù)數(shù)量較大,且易于陷入局部極值,因而導(dǎo)致最終的預(yù)測(cè)效果不穩(wěn)定[1];支持向量回歸機(jī)中相關(guān)參數(shù)的選擇對(duì)于最終預(yù)測(cè)模型的泛化能力及預(yù)測(cè)結(jié)果,因此構(gòu)建相關(guān)參數(shù)科學(xué)、合理的選取機(jī)制是基于支持向量回歸機(jī)進(jìn)行時(shí)間序列數(shù)據(jù)預(yù)測(cè)的一個(gè)關(guān)鍵問題[2,3]。
一、支持向量回歸機(jī)模型
作為一種新型的機(jī)器學(xué)習(xí)方法,支持向量機(jī)(Support Vector Machine, SVM)的基本思想是構(gòu)造一個(gè)恰當(dāng)?shù)姆蔷€性映射,將低維度的非線性函數(shù)映射至高維度的空間內(nèi)。需要注意的是,對(duì)于支持向量機(jī)SVM的求解過程不需要事先對(duì)非線性映射的具體表達(dá)式進(jìn)行表述,只需要選取合適的核函數(shù)即可,利用對(duì)核函數(shù)進(jìn)行優(yōu)化求解過程,將高維特征空間的點(diǎn)積轉(zhuǎn)換為低維空間的核函數(shù)進(jìn)行計(jì)算,從而避免了高維空間中求解所帶來的維數(shù)災(zāi)難問題??梢哉f,核函數(shù)的選取是支持向量機(jī)應(yīng)用中的一個(gè)關(guān)鍵問題,對(duì)于核函數(shù)的選取要求是其必須滿足Mercer條件,此外應(yīng)盡可能的準(zhǔn)確反映訓(xùn)練樣本數(shù)據(jù)點(diǎn)的分布特征。在支持向量機(jī)的實(shí)際應(yīng)用中,大多選擇多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)以及Sigmoid核函數(shù)。
支持向量機(jī)在實(shí)際使用中性能的好壞取決于相關(guān)參數(shù)的選擇,其中包括:正則化參數(shù)C,核參數(shù)σ,以及不敏感參數(shù)ε等。支持向量機(jī)目前在回歸算法的應(yīng)用及研究方面表現(xiàn)出了良好的性能,在宏觀經(jīng)濟(jì)、工程應(yīng)用如電力需求預(yù)測(cè)、證劵市場(chǎng)時(shí)間序列分析等方面均有成功的應(yīng)用范例。
給定一組訓(xùn)練集合T={(xi,yi),i=1,2,…,m},其中xi∈Rn,yi=R,i=1,2,…,m。假設(shè)該組訓(xùn)練數(shù)據(jù)是按照Rn·R上的某一個(gè)分布P(x,y)所選取的獨(dú)立且同分布的樣本點(diǎn),我們的目的在于試圖尋找一個(gè)實(shí)值函數(shù),從而實(shí)現(xiàn)以y=f(x)推斷任意一組輸入xi∈Rn所對(duì)應(yīng)的的輸出值y∈R,同時(shí)使得對(duì)訓(xùn)練集的期望風(fēng)險(xiǎn)值達(dá)到最小程度。
R(f)=∫c(x,y,f)dp(x,y)
其中c(x,y,f)是給定的損失函數(shù)。
二、蟻群算法
蟻群算法由Dorigo等在上個(gè)世紀(jì)90年代首次提出之后,在國(guó)際學(xué)術(shù)界引起了廣泛的關(guān)注。作為一種人工智能仿生算法,其借鑒生物界中螞蟻在覓食的過程中通過自身所釋放出的信息素進(jìn)行社會(huì)化溝通、交流及協(xié)作的機(jī)制,通過多次迭代過程實(shí)現(xiàn)對(duì)最優(yōu)解的尋找。
下面以TSP問題為例,介紹蟻群算法ACO的數(shù)學(xué)模型。假定給定的城市數(shù)目為n,di,j(i,j=1,2,…,n)為第i個(gè)城市到第j個(gè)城市之間的距離,Bi(t)表示在t時(shí)刻,第i個(gè)城市上停留的蟻群數(shù)量,則有M=B(t)。螞蟻的狀態(tài)轉(zhuǎn)移是依靠分布在城市路徑上的信息素作為線索進(jìn)行完成的。在具體的算法運(yùn)行過程中,蟻群利用狀態(tài)轉(zhuǎn)移定律p(t)來選擇具體的行進(jìn)路徑,從而到達(dá)下一個(gè)城市。在t時(shí)刻,p(t)的含義為
其中,allowedk表示螞蟻k下一次迭代可選擇的具體城市,α和β的作用為調(diào)節(jié)信息素和啟發(fā)式信息重要性程度。從上面的式子可以看出,兩個(gè)城市之間的距離愈小,則其對(duì)應(yīng)的信息素濃度值愈高,這也就意味著螞蟻從這兩個(gè)城市之間進(jìn)行移動(dòng)的概率愈大。信息素的全局更新規(guī)則如下所示,其中ρ∈(0,1]為信息素的揮發(fā)因子。
參數(shù)是影響蟻群算法運(yùn)行性能及效率的一個(gè)關(guān)鍵因素,算法的啟發(fā)式因子α、期望啟發(fā)式因子β、信息素殘留因子1-ρ、信息素強(qiáng)度Q以及蟻群規(guī)模數(shù)M等等均是比較重要的參數(shù),這些參數(shù)選取及配置的好壞直接影響到蟻群算法的全局收斂性及算法的運(yùn)行效率。
三、基于蟻群算法優(yōu)化支持向量機(jī)參數(shù)
支持向量機(jī)的預(yù)測(cè)精確度與其自身所選定的相關(guān)參數(shù)取值緊密相關(guān),如懲罰參數(shù)、不敏感損失參數(shù)、RBF核參數(shù)等等。故而,通過蟻群優(yōu)化算法在一定范圍內(nèi)對(duì)支持向量機(jī)的相關(guān)參數(shù)進(jìn)行搜索尋優(yōu),尋找其最優(yōu)組合配置,從而獲得預(yù)測(cè)性能較好的支持向量機(jī)。蟻群算法作為一種新的仿生智能算法,其模擬社會(huì)化昆蟲螞蟻在覓食等活動(dòng)中通過信息素進(jìn)行相互交流以尋找最短路徑的優(yōu)化機(jī)制。
具體的算法優(yōu)化流程如下:(1)算法初始化設(shè)置,設(shè)置最大迭代次數(shù)Mmax,且令M=0。(2)每只螞蟻個(gè)體依靠輪盤賭方法,依次先后在每個(gè)集合中選擇元素,直至所有的螞蟻找到食物。(3)劃分訓(xùn)練樣本為相互獨(dú)立且不包含的k個(gè)子集合S1,S2,…,Sk,其中Si為測(cè)試集合,其他均為訓(xùn)練集合,經(jīng)過訓(xùn)練得到支持向量機(jī)的預(yù)測(cè)值平均誤差,逐次循環(huán)過程,將每次所得到的結(jié)果平均,計(jì)算適應(yīng)度值。(4)一旦達(dá)到所設(shè)定的迭代次數(shù)Mmax,則終止迭代過程,輸出最終解,否則轉(zhuǎn)到步驟(2)。
四、實(shí)驗(yàn)結(jié)果及仿真
以歷史話務(wù)量數(shù)據(jù)為基礎(chǔ),構(gòu)建相應(yīng)地預(yù)測(cè)模型以對(duì)未來的話務(wù)量進(jìn)行準(zhǔn)確的預(yù)測(cè),需要指出的是,在構(gòu)建預(yù)測(cè)模型中我們忽略相關(guān)其他因素對(duì)于話務(wù)量的影響作用。話務(wù)量需求是一個(gè)收到多元素重疊影響的動(dòng)態(tài)非線性系統(tǒng),重大事件、活動(dòng)及節(jié)日,異常天氣等等均會(huì)造成話務(wù)量的異常。因此,本文在構(gòu)建預(yù)測(cè)模型的過程中,充分考慮到了用戶數(shù)、短信數(shù)以及系統(tǒng)的接通率對(duì)于最終話務(wù)量的影響。
對(duì)每日產(chǎn)生的話務(wù)量進(jìn)行周期為一小時(shí)的統(tǒng)計(jì)調(diào)查,一天中則會(huì)產(chǎn)生24個(gè)話務(wù)量的數(shù)據(jù)值,分布對(duì)應(yīng)于每日的0點(diǎn)到23點(diǎn),以對(duì)每天的24個(gè)話務(wù)量數(shù)據(jù)中的Max值作為今日的最忙時(shí)話務(wù)量。本文的數(shù)據(jù)統(tǒng)計(jì)來源于某市的移動(dòng)通信數(shù)據(jù),其中包括2013年3月到2013年9月間隨即選取的40天數(shù)據(jù),其中每日的統(tǒng)計(jì)數(shù)據(jù)包含用戶數(shù)、短信發(fā)送數(shù)、系統(tǒng)接通率、話務(wù)量值。其中前39日的數(shù)據(jù)作為預(yù)測(cè)模型的訓(xùn)練樣本數(shù)據(jù),第40日的數(shù)據(jù)作為測(cè)試樣本數(shù)據(jù)。每個(gè)輸入樣本包含8個(gè)不同的變量值:前日的話務(wù)量值、用戶數(shù)、短信發(fā)送量、系統(tǒng)接通率;前兩日的話務(wù)量值、用戶數(shù)、短信發(fā)送量、系統(tǒng)接通率。輸出值為所預(yù)測(cè)當(dāng)天的移動(dòng)通信話務(wù)量。
圖1和圖2分別為采用高斯核函數(shù)及K型核函數(shù)構(gòu)建的基于支持向量機(jī)的預(yù)測(cè)模型,由圖可見,預(yù)測(cè)值與真實(shí)值之間的相對(duì)誤差基本上控制在5%左右,最小可到0.01%,這說明該方法對(duì)于移動(dòng)通信話務(wù)量的預(yù)測(cè)結(jié)果精度是比較高的。然而,選取K型核函數(shù)構(gòu)建的預(yù)測(cè)模型其訓(xùn)練時(shí)間較高斯核函數(shù)的訓(xùn)練時(shí)間減少了將近50%左右,因此總體性能上K型核函數(shù)要優(yōu)于高斯核函數(shù)。
五、結(jié)語(yǔ)
本文研究了基于蟻群算法優(yōu)化支持向量機(jī)相關(guān)參數(shù)以構(gòu)建預(yù)測(cè)模型,從而對(duì)移動(dòng)通信話務(wù)量數(shù)據(jù)值進(jìn)行預(yù)測(cè),以某市的GSM網(wǎng)40天內(nèi)的數(shù)據(jù)為研究對(duì)象,構(gòu)建了基于支持向量機(jī)的預(yù)測(cè)模型。通過優(yōu)化參數(shù)選取,對(duì)移動(dòng)話務(wù)量進(jìn)行了準(zhǔn)確的預(yù)測(cè),結(jié)果表明支持向量機(jī)對(duì)樣本數(shù)據(jù)具有較好的學(xué)習(xí)及泛化能力。
【摘要】 移動(dòng)通信話務(wù)量的準(zhǔn)確預(yù)測(cè)對(duì)于提高網(wǎng)絡(luò)的性能,增進(jìn)終端用戶體驗(yàn)均具有重要的意義。支持向量機(jī)作為一種新的機(jī)器學(xué)習(xí)方法其可以有效地應(yīng)對(duì)小樣本、非線性等問題。然而支持向量機(jī)的訓(xùn)練參數(shù)對(duì)基于其所構(gòu)建的預(yù)測(cè)模型的精度具有決定性的影響,因此本文選取具有全局優(yōu)化能力的蟻群算法進(jìn)行參數(shù)搜索優(yōu)化過程,通過對(duì)某市移動(dòng)通信話務(wù)量的數(shù)據(jù)進(jìn)行試驗(yàn)仿真,結(jié)果顯示該方法在預(yù)測(cè)精度及時(shí)效性方面具有較好的性能。
【關(guān)鍵詞】 蟻群算法 支持向量機(jī) 移動(dòng)話務(wù)量 預(yù)測(cè)模型
話務(wù)量預(yù)測(cè)問題,是指通過精準(zhǔn)的統(tǒng)計(jì)調(diào)查方法,以歷史話務(wù)量數(shù)據(jù)為基礎(chǔ),從其內(nèi)在蘊(yùn)含的規(guī)律性與特點(diǎn)出發(fā),運(yùn)用科學(xué)有效的建模回歸方法對(duì)未來某一時(shí)段的話務(wù)量進(jìn)行預(yù)測(cè)。話務(wù)量的多少直接影響到移動(dòng)通信網(wǎng)絡(luò)的設(shè)計(jì)、規(guī)劃以及運(yùn)營(yíng)情況,對(duì)于終端客戶的服務(wù)質(zhì)量具有決定性的影響。
目前對(duì)移動(dòng)話務(wù)量預(yù)測(cè)常采用的方法為線性自回歸移動(dòng)平均模型(ARIMA)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸機(jī)(SVR),其中線性自回歸移動(dòng)平均模型對(duì)訓(xùn)練數(shù)據(jù)具有較高的要求,具體為時(shí)間序列應(yīng)具有正態(tài)分布、全局平穩(wěn)等特征,然而在實(shí)際應(yīng)用中,話務(wù)量的時(shí)間序列往往是不規(guī)則、非平穩(wěn)且非線性的,因此線性自回歸移動(dòng)平均模型對(duì)于移動(dòng)話務(wù)量的預(yù)測(cè)具有一定的缺陷。相比于線性自回歸移動(dòng)平均模型,人工神經(jīng)網(wǎng)絡(luò)具有較好的非線性預(yù)測(cè)能力,然而其對(duì)所需的訓(xùn)練樣本數(shù)據(jù)數(shù)量較大,且易于陷入局部極值,因而導(dǎo)致最終的預(yù)測(cè)效果不穩(wěn)定[1];支持向量回歸機(jī)中相關(guān)參數(shù)的選擇對(duì)于最終預(yù)測(cè)模型的泛化能力及預(yù)測(cè)結(jié)果,因此構(gòu)建相關(guān)參數(shù)科學(xué)、合理的選取機(jī)制是基于支持向量回歸機(jī)進(jìn)行時(shí)間序列數(shù)據(jù)預(yù)測(cè)的一個(gè)關(guān)鍵問題[2,3]。
一、支持向量回歸機(jī)模型
作為一種新型的機(jī)器學(xué)習(xí)方法,支持向量機(jī)(Support Vector Machine, SVM)的基本思想是構(gòu)造一個(gè)恰當(dāng)?shù)姆蔷€性映射,將低維度的非線性函數(shù)映射至高維度的空間內(nèi)。需要注意的是,對(duì)于支持向量機(jī)SVM的求解過程不需要事先對(duì)非線性映射的具體表達(dá)式進(jìn)行表述,只需要選取合適的核函數(shù)即可,利用對(duì)核函數(shù)進(jìn)行優(yōu)化求解過程,將高維特征空間的點(diǎn)積轉(zhuǎn)換為低維空間的核函數(shù)進(jìn)行計(jì)算,從而避免了高維空間中求解所帶來的維數(shù)災(zāi)難問題。可以說,核函數(shù)的選取是支持向量機(jī)應(yīng)用中的一個(gè)關(guān)鍵問題,對(duì)于核函數(shù)的選取要求是其必須滿足Mercer條件,此外應(yīng)盡可能的準(zhǔn)確反映訓(xùn)練樣本數(shù)據(jù)點(diǎn)的分布特征。在支持向量機(jī)的實(shí)際應(yīng)用中,大多選擇多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)以及Sigmoid核函數(shù)。
支持向量機(jī)在實(shí)際使用中性能的好壞取決于相關(guān)參數(shù)的選擇,其中包括:正則化參數(shù)C,核參數(shù)σ,以及不敏感參數(shù)ε等。支持向量機(jī)目前在回歸算法的應(yīng)用及研究方面表現(xiàn)出了良好的性能,在宏觀經(jīng)濟(jì)、工程應(yīng)用如電力需求預(yù)測(cè)、證劵市場(chǎng)時(shí)間序列分析等方面均有成功的應(yīng)用范例。
給定一組訓(xùn)練集合T={(xi,yi),i=1,2,…,m},其中xi∈Rn,yi=R,i=1,2,…,m。假設(shè)該組訓(xùn)練數(shù)據(jù)是按照Rn·R上的某一個(gè)分布P(x,y)所選取的獨(dú)立且同分布的樣本點(diǎn),我們的目的在于試圖尋找一個(gè)實(shí)值函數(shù),從而實(shí)現(xiàn)以y=f(x)推斷任意一組輸入xi∈Rn所對(duì)應(yīng)的的輸出值y∈R,同時(shí)使得對(duì)訓(xùn)練集的期望風(fēng)險(xiǎn)值達(dá)到最小程度。
R(f)=∫c(x,y,f)dp(x,y)
其中c(x,y,f)是給定的損失函數(shù)。
二、蟻群算法
蟻群算法由Dorigo等在上個(gè)世紀(jì)90年代首次提出之后,在國(guó)際學(xué)術(shù)界引起了廣泛的關(guān)注。作為一種人工智能仿生算法,其借鑒生物界中螞蟻在覓食的過程中通過自身所釋放出的信息素進(jìn)行社會(huì)化溝通、交流及協(xié)作的機(jī)制,通過多次迭代過程實(shí)現(xiàn)對(duì)最優(yōu)解的尋找。
下面以TSP問題為例,介紹蟻群算法ACO的數(shù)學(xué)模型。假定給定的城市數(shù)目為n,di,j(i,j=1,2,…,n)為第i個(gè)城市到第j個(gè)城市之間的距離,Bi(t)表示在t時(shí)刻,第i個(gè)城市上停留的蟻群數(shù)量,則有M=B(t)。螞蟻的狀態(tài)轉(zhuǎn)移是依靠分布在城市路徑上的信息素作為線索進(jìn)行完成的。在具體的算法運(yùn)行過程中,蟻群利用狀態(tài)轉(zhuǎn)移定律p(t)來選擇具體的行進(jìn)路徑,從而到達(dá)下一個(gè)城市。在t時(shí)刻,p(t)的含義為
其中,allowedk表示螞蟻k下一次迭代可選擇的具體城市,α和β的作用為調(diào)節(jié)信息素和啟發(fā)式信息重要性程度。從上面的式子可以看出,兩個(gè)城市之間的距離愈小,則其對(duì)應(yīng)的信息素濃度值愈高,這也就意味著螞蟻從這兩個(gè)城市之間進(jìn)行移動(dòng)的概率愈大。信息素的全局更新規(guī)則如下所示,其中ρ∈(0,1]為信息素的揮發(fā)因子。
參數(shù)是影響蟻群算法運(yùn)行性能及效率的一個(gè)關(guān)鍵因素,算法的啟發(fā)式因子α、期望啟發(fā)式因子β、信息素殘留因子1-ρ、信息素強(qiáng)度Q以及蟻群規(guī)模數(shù)M等等均是比較重要的參數(shù),這些參數(shù)選取及配置的好壞直接影響到蟻群算法的全局收斂性及算法的運(yùn)行效率。
三、基于蟻群算法優(yōu)化支持向量機(jī)參數(shù)
支持向量機(jī)的預(yù)測(cè)精確度與其自身所選定的相關(guān)參數(shù)取值緊密相關(guān),如懲罰參數(shù)、不敏感損失參數(shù)、RBF核參數(shù)等等。故而,通過蟻群優(yōu)化算法在一定范圍內(nèi)對(duì)支持向量機(jī)的相關(guān)參數(shù)進(jìn)行搜索尋優(yōu),尋找其最優(yōu)組合配置,從而獲得預(yù)測(cè)性能較好的支持向量機(jī)。蟻群算法作為一種新的仿生智能算法,其模擬社會(huì)化昆蟲螞蟻在覓食等活動(dòng)中通過信息素進(jìn)行相互交流以尋找最短路徑的優(yōu)化機(jī)制。
具體的算法優(yōu)化流程如下:(1)算法初始化設(shè)置,設(shè)置最大迭代次數(shù)Mmax,且令M=0。(2)每只螞蟻個(gè)體依靠輪盤賭方法,依次先后在每個(gè)集合中選擇元素,直至所有的螞蟻找到食物。(3)劃分訓(xùn)練樣本為相互獨(dú)立且不包含的k個(gè)子集合S1,S2,…,Sk,其中Si為測(cè)試集合,其他均為訓(xùn)練集合,經(jīng)過訓(xùn)練得到支持向量機(jī)的預(yù)測(cè)值平均誤差,逐次循環(huán)過程,將每次所得到的結(jié)果平均,計(jì)算適應(yīng)度值。(4)一旦達(dá)到所設(shè)定的迭代次數(shù)Mmax,則終止迭代過程,輸出最終解,否則轉(zhuǎn)到步驟(2)。
四、實(shí)驗(yàn)結(jié)果及仿真
以歷史話務(wù)量數(shù)據(jù)為基礎(chǔ),構(gòu)建相應(yīng)地預(yù)測(cè)模型以對(duì)未來的話務(wù)量進(jìn)行準(zhǔn)確的預(yù)測(cè),需要指出的是,在構(gòu)建預(yù)測(cè)模型中我們忽略相關(guān)其他因素對(duì)于話務(wù)量的影響作用。話務(wù)量需求是一個(gè)收到多元素重疊影響的動(dòng)態(tài)非線性系統(tǒng),重大事件、活動(dòng)及節(jié)日,異常天氣等等均會(huì)造成話務(wù)量的異常。因此,本文在構(gòu)建預(yù)測(cè)模型的過程中,充分考慮到了用戶數(shù)、短信數(shù)以及系統(tǒng)的接通率對(duì)于最終話務(wù)量的影響。
對(duì)每日產(chǎn)生的話務(wù)量進(jìn)行周期為一小時(shí)的統(tǒng)計(jì)調(diào)查,一天中則會(huì)產(chǎn)生24個(gè)話務(wù)量的數(shù)據(jù)值,分布對(duì)應(yīng)于每日的0點(diǎn)到23點(diǎn),以對(duì)每天的24個(gè)話務(wù)量數(shù)據(jù)中的Max值作為今日的最忙時(shí)話務(wù)量。本文的數(shù)據(jù)統(tǒng)計(jì)來源于某市的移動(dòng)通信數(shù)據(jù),其中包括2013年3月到2013年9月間隨即選取的40天數(shù)據(jù),其中每日的統(tǒng)計(jì)數(shù)據(jù)包含用戶數(shù)、短信發(fā)送數(shù)、系統(tǒng)接通率、話務(wù)量值。其中前39日的數(shù)據(jù)作為預(yù)測(cè)模型的訓(xùn)練樣本數(shù)據(jù),第40日的數(shù)據(jù)作為測(cè)試樣本數(shù)據(jù)。每個(gè)輸入樣本包含8個(gè)不同的變量值:前日的話務(wù)量值、用戶數(shù)、短信發(fā)送量、系統(tǒng)接通率;前兩日的話務(wù)量值、用戶數(shù)、短信發(fā)送量、系統(tǒng)接通率。輸出值為所預(yù)測(cè)當(dāng)天的移動(dòng)通信話務(wù)量。
圖1和圖2分別為采用高斯核函數(shù)及K型核函數(shù)構(gòu)建的基于支持向量機(jī)的預(yù)測(cè)模型,由圖可見,預(yù)測(cè)值與真實(shí)值之間的相對(duì)誤差基本上控制在5%左右,最小可到0.01%,這說明該方法對(duì)于移動(dòng)通信話務(wù)量的預(yù)測(cè)結(jié)果精度是比較高的。然而,選取K型核函數(shù)構(gòu)建的預(yù)測(cè)模型其訓(xùn)練時(shí)間較高斯核函數(shù)的訓(xùn)練時(shí)間減少了將近50%左右,因此總體性能上K型核函數(shù)要優(yōu)于高斯核函數(shù)。
五、結(jié)語(yǔ)
本文研究了基于蟻群算法優(yōu)化支持向量機(jī)相關(guān)參數(shù)以構(gòu)建預(yù)測(cè)模型,從而對(duì)移動(dòng)通信話務(wù)量數(shù)據(jù)值進(jìn)行預(yù)測(cè),以某市的GSM網(wǎng)40天內(nèi)的數(shù)據(jù)為研究對(duì)象,構(gòu)建了基于支持向量機(jī)的預(yù)測(cè)模型。通過優(yōu)化參數(shù)選取,對(duì)移動(dòng)話務(wù)量進(jìn)行了準(zhǔn)確的預(yù)測(cè),結(jié)果表明支持向量機(jī)對(duì)樣本數(shù)據(jù)具有較好的學(xué)習(xí)及泛化能力。